Statistik für BiologInnen Wolfgang Desch Institut für Mathematik und Wissenschaftliches Rechnen Karl-Franzens-Universität Graz 1. 2. 3. 4. 5. 6. Beschreibende Statistik Zufallsgrößen Statistisches Schätzen und Testen Wechselwirkungen zwischen Merkmalen Übungen Tabellen und Literatur KAPITEL 1 Beschreibende Statistik Übersicht: 1 Merkmale und Häufigkeiten 1.1. Merkmalstypen und absolute Häufigkeiten 1.2. Kumulative Häufigkeiten und Histogramme 2 Kennzahlen 2.1. Perzentile 2.2. Mittelwert 2.3. Varianz und Standardabweichung 2.4. Andere Kennzahlen auf Grundlage von Summationen 2.5. Kennzahlen für nominale Merkmale 3 Zusammenhang zwischen zwei Merkmalen 3.1. Regressionsgerade 3.2. Korrelation 1.1. Merkmale und Häufigkeiten Übersicht: 1. Merkmalstypen und absolute Häufigkeiten 2. Kumulative Häufigkeiten und Histogramme 1.1.1. Merkmalstypen und absolute Häufigkeiten. Übersicht: 1. 2. 3. 4. Merkmale Skalenniveaus Absolute und relative Häufigkeit Stabdiagramm und Kreisdiagramm 1.1.1.1. Merkmale. Statistische Aussagen machen Angaben über die Häufigkeit des Auftretens bestimmter Eigenschaften innerhalb einer (meist großen) Grundgesamtheit von Individuen (Merkmalsträgern), oder die Häufigkeit des Auftretens bestimmter Ereignisse bei einer großen Anzahl von Versuchen. Die einzelnen Individuen heißen die Merkmalsträger, die Kriterien, durch die sie sich unterscheiden, die Merkmale. Bei jedem Merkmalsträger findet sich das Merkmal in einer bestimmten Ausprägung. In den seltensten Fällen kann die ganze Grundgesamtheit untersucht werden, oft zieht man zur Untersuchung nur eine Stichprobe heran, um von dieser auf die ganze 1 2 1. BESCHREIBENDE STATISTIK Grundgesamtheit (mit entsprechender Vorsicht) Rückschlüsse zu ziehen. Die Anzahl der Merkmalsträger in der Stichprobe heißt der Stichprobenumfang und wird in Formeln oft mit n bezeichnet. Tipp 1.1.1.1. Auch wenn es ganz einfach ist: Machen Sie sich bei jedem statistischen Problem klar, wer die Merkmalsträger sind, was die Grundgesamtheit ist, welche Merkmale untersucht sind und welche Ausprägungen vorkommen können. Eine besondere Falle ist, dass sowohl Ausprägungen als auch Häufigkeiten durch Zahlenwerte ausgedrückt werden können. 1.1.1.2. Skalenniveaus. Merkmale kommen auf verschiedenen Skalenniveaus vor. Aus dem Skalenniveau ergibt sich, welche statistischen Methoden verwendet werden dürfen. Daher werden bereits bei der Anlage der Merkmale in Statistikprogrammen die Skalenniveaus eingegeben. Man unterscheidet die folgenden Skalenniveaus: Definition 1.1.1.2. Es gibt Merkmale auf folgenden Skalenniveaus: 1) nominal: Die Gesamtheit ist in gleichberechtigte Kategorien unterteilt. Die Ausprägung besteht darin, zu welcher Kategorie der Merkmalsträger gehört. 2) ordinal: Die Ausprägungen stellen eine Rangordnung dar. 3) intervallskaliert: Die Ausprägungen sind Zahlenwerte, mit denen Rechnungen sinnvoll sind. Man kann z.B. (durch Subtraktion) den Abstand zweier Ausprägungen angeben. 4) verhältnis-skaliert: Die Ausprägungen liegen auf einer Skala mit absolutem Nullpunkt. Z.B. ist die Aussage: “Das Merkmal ist bei A doppelt so stark wie bei B” sinnvoll. Intervall- oder verhältnisskalierte Merkmale bezeichnet man auch als metrisch. Beispiel 1.1.1.3. Die hygienischen Verhältnisse in einem Katzenheim mit einigen hundert InsassInnen sind ins Gerede gekommen. Zur Überprüfung werden 20 Katzen nach verschiedenen Gesichtspunkten untersucht. Die Erhebung ergibt folgende Tabelle, von der wir nur die ersten Zeilen und Spalten angeben: Name Alexis August Betty Caesar Dora . .. Geschlecht m,w m m w m w . .. Allgemeinzustand 1–5, 1=sehr gut 2 4 1 3 2 . .. Gewicht kg 3.4 2.6 5.1 3.1 4.2 . .. Aktivität 1–5, 1=hyperaktiv 1 3 2 5 2 . .. Anzahl Flöhe gezählt 0 1 0 4 1 . .. ... ... ... ... ... ... Diskussion: In diesem Beispiel sind die Merkmalsträger die Katzen. Die Grundgesamtheit sind die Katzen des Tierheims, von denen eine Stichprobe mit Stichprobenumfang 20 entnommen wurde. Jede Zeile der Tabelle gehört zu einem Merkmalsträger der Stichprobe. Die beobachteten Merkmale und ihre Ausprägungen sind: Merkmal Skalenniveau mögliche Ausprägungen Geschlecht nominal m,w Allgemeinzustand ordinal sehr gut – ganz schlecht Gewicht metrisch Zahlenwert in kg Aktivität ordinal hyperaktiv – lethargisch metrisch ganze Zahlen Anzahl Flöhe . . . .. .. .. 1.1. MERKMALE UND HÄUFIGKEITEN 3 ¤ Tipp 1.1.1.4. Wenn ein Merkmal durch eine Zahl angegeben wird, muss es deshalb noch lange nicht metrisch sein! 1.1.1.3. Absolute und relative Häufigkeit. Definition 1.1.1.5. Die absolute Häufigkeit einer Ausprägung eines Merkmals in einer Gesamtheit ist die Anzahl der Merkmalsträger, die das Merkmal in der gegebenen Ausprägung aufweisen. Die relative Häufigkeit einer Ausprägung ist die absolute Häufigkeit, gebrochen durch die Anzahl aller Merkmalsträger der Gesamtheit. Absolute und relative Häufigkeiten gibt es sowohl innerhalb der Grundgesamtheit als auch innerhalb der Stichprobe. Sehr oft besteht die Aufgabe der Statistik darin, die uns unbekannten Häufigkeiten in der Grundgesamtheit auf Grund der gegebenen Häufigkeiten innerhalb einer Stichprobe zu schätzen. Beispiel 1.1.1.6. Die Untersuchungen über die hygienischen Verhältnisse in einem Katzenheim (Beispiel 1.1.1.3) beinhalten insbesondere eine Zählung der Flöhe auf jeder Katze der Stichprobe. Das Ergebnis dieser Detailuntersuchung wurde in der folgenden Häufigkeitstabelle zusammengefasst: Katzen mit keinem Floh 1 Floh 2 Flöhen 3 Flöhen 4 Flöhen 5 Flöhen mehr Flöhen Gesamt: Anzahl 5 3 4 4 3 1 0 20 Anteil an der Stichprobe 0.25 0.15 0.20 0.20 0.15 0.05 0.00 1.00 Diskussion: Die Tabelle ist nach den Ausprägungen eines Merkmals, nämlich der Anzahl der Flöhe, sortiert: Jede Zeile entspricht einer Ausprägung. Die Tabelle enthält die absoluten Häufigkeiten. Zum Beispiel ist 5 die absolute Häufigkeit der Ausprägung “kein Floh”, es gab in der Stichprobe 5 Katzen, auf denen gar kein Floh gefunden wurde. Das ist ein Viertel der gesamten Stichprobe, daher ist ein Viertel = 0.25 die relative Häufigkeit der Ausprägung “kein Floh”. Die Summe aller absoluten Häufigkeiten ist der Stichprobenumfang: Es wurden 20 Katzen gezählt. Die relativen Häufigkeiten müssen sich immer auf 1 summieren. ¤ Beispiel 1.1.1.7. Wie unterscheiden sich die Tabellen in Beispiel 1.1.1.3 und Beispiel 1.1.1.6, und wie kann man aus diesen Tabellen die absoluten Häufigkeiten der Ausprägungen des Merkmals “Anzahl der Flöhe” ablesen? Diskussion: Die Tabelle in Beispiel 1.1.1.3 ist nach Merkmalsträgern geordnet: Jeder Katze gehört eine Zeile. Wäre die Tabelle im Beispiel vollständig angegeben, könnte man die absoluten Häufigkeiten jeder Ausprägung bestimmen, indem man einfach die Zeilen zählt, in denen die entsprechende Ausprägung vorkommt. Die Tabelle in Beispiel 1.1.1.6 ist nach Ausprägungen sortiert: Jede Zeile entspricht einer möglichen Anzahl von Flöhen. Die absoluten Häufigkeiten sind direkt in der zweiten Spalte ablesbar. ¤ 4 1. BESCHREIBENDE STATISTIK 1.1.1.4. Stabdiagramm und Kreisdiagramm. Wir lernen hier noch zwei Methoden kennen, Häufigkeitsverteilungen grafisch darzustellen. Es gibt noch viele andere Methoden, Sie müssen nur aufmerksam die Zeitungen durchblättern, um weitere Möglichkeiten zu entdecken. Methode 1.1.1.8. Ein Stabdiagramm zeigt in horizontaler Anordnung die verschiedenen Ausprägungen eines Merkmals. Über jeder Ausprägung wird ein Balken in der Höhe der absoluten oder relativen Häufigkeit eingezeichnet. Eine Skala auf der senkrechten Achse ermöglicht das Ablesen der Häufigkeiten. Absolute und relative Häufigkeiten werden durch dasselbe Stabdiagramm, nur mit unterschiedlicher Skala, dargestellt. Stabdiagramme sind für alle Skalenniveaus (sogar nominal) möglich. Beispiel 1.1.1.9. Die Häufigkeitsverteilung der Ausprägungen des Merkmals “Anzahl der Flöhe” aus der folgenden Häufigkeitstabelle (aus Beispielen 1.1.1.3 und 1.1.1.6) ist durch ein Stabdiagramm darzustellen: Katzen mit keinem Floh 1 Floh 2 Flöhen 3 Flöhen 4 Flöhen 5 Flöhen mehr Flöhen Gesamt: Anzahl 5 3 4 4 3 1 0 20 Anteil an der Stichprobe 0.25 0.15 0.20 0.20 0.15 0.05 0.00 1.00 Diskussion: Zunächst müssen wir den Platz einteilen. Es gibt 6 Ausprägungen, für die wir je einen senkrechten Balken zeichnen, die wir in gleichen Abständen auf der Zeichnung anbringen. Die größte absolute Häufigkeit ist 5, daher brauchen wir Platz für Balken bis zur Höhe 5. Entsprechend legen wir die senkrechte Skala fest. Wir zeichnen nun zu jeder Ausprägung den Balken in Höhe der absoluten Häufigkeit. Ein Stabdiagramm reicht zur Beschreibung der absoluten und relativen Häufigkeit, wir bringen eine Skala für die absolute und eine für die relative Häufigkeit an. Eine absolute Häufigkeit von 2 entspricht einer relativen Häufigkeit von 0.1. Stabdiagramm zu Beispiel 1.1.1.6 ¤ 1.1. MERKMALE UND HÄUFIGKEITEN 5 Methode 1.1.1.10. Im Kreisdiagramm (Tortendiagramm) wird jeder Ausprägung ein Sektor eines Kreises zugewiesen, dessen Anteil an der gesamten Kreisfläche die relative Häufigkeit der Ausprägung ist. Es gilt also für den Winkel des Sektors (in Grad): Winkel = 360 · relative Häufigkeit Kreisdiagramme lassen sich für Merkmale aller Skalenniveaus anfertigen. Beispiel 1.1.1.11. Die Häufigkeitsverteilung der Ausprägungen des Merkmals “Anzahl der Flöhe” aus der folgenden Häufigkeitstabelle aus Beispiel 1.1.1.9 ist durch ein Kreisdiagramm darzustellen. Diskussion: Aus den relativen Häufigkeiten ergeben sich die Winkel der Sektoren (die entsprechenden Bruchteile von 360◦ ): Ausprägung 0 1 2 3 4 5 ¤ rel. Häufigkeit 0.25 0.15 0.20 0.20 0.15 0.05 Winkel (◦ ) 90 54 72 72 54 18 Kreisdiagramm zu Beispiel 1.1.1.6 Tipp 1.1.1.12. In Zeitungen finden Sie oft Diagramme, die mit allen möglichen Grafikeffekten verziert und “interessanter” gemacht sind: Menschenfiguren oder Geldstapel statt Balken, verschiedene Schattenwürfe, eingeblendete Bilder, und mehr Kitsch von dieser Sorte. Ersparen Sie sich bei der Anfertigung Ihrer Grafiken diese unnötige Arbeit und vermeiden Sie alle Effekte, die von der wesentlichen Information ablenken: Sie machen die Grafik nur unübersichtlicher. 6 1. BESCHREIBENDE STATISTIK Was Sie jetzt können: Begriffe und Wissen: Merkmal, Merkmalsträger, Grundgesamtheit, Stichprobe, Umfang einer Gesamtheit, Ausprägung, Skalenniveau, absolute und relative Häufigkeiten. Methoden: Lesen und Aufstellen von Häufigkeitstabellen, Berechnen relativer Häufigkeiten aus absoluten Häufigkeiten und Umfang der Gesamtheit, Erstellen von Stab- und Kreisdiagrammen. 1.1.2. Kumulative Häufigkeiten und Histogramme. Übersicht: 1. Kumulative Häufigkeiten 2. Histogramm und empirische Verteilungsfunktion 3. Klasseneinteilung 1.1.2.1. Kumulative Häufigkeiten. Definition 1.1.2.1. Für ein ordinales oder metrisches Merkmal ist die absolute kumulative Häufigkeit einer Ausprägung x die Anzahl der Merkmalsträger, die das Merkmal in der gegebenen Ausprägung x oder einer in der Ordnung unter x liegenden Ausprägung aufweisen. Die relative kumulative Häufigkeit ist die absolute kumulative Häufigkeit, gebrochen durch die Anzahl aller Merkmalsträger der Gesamtheit. Merksatz 1.1.2.2. Die absolute Häufigkeit einer Klasse von Ausprägungen beantwortet die Frage: “Wieviele Merkmalsträger befinden sich in der Klasse.” Die relative Häufigkeit einer Klasse von Ausprägungen beantwortet die Frage: “Welcher Anteil der Merkmalsträger befindet sich in der Klasse.” Die absolute kumulative Häufigkeit einer Klasse von Ausprägungen beantwortet die Frage: “Wieviele Merkmalsträger haben Ausprägungen, die kleiner oder gleich den Ausprägungen in der gegebenen Klasse sind?” Die relative kumulative Häufigkeit einer Klasse von Ausprägungen beantwortet die Frage: “Welcher Anteil der Merkmalsträger hat Ausprägungen, die kleiner oder gleich den Ausprägungen in der gegebenen Klasse sind?” Beispiel 1.1.2.3. Eine Längenmessung von Insekten ergab folgende Tabelle: Länge (mm) inkl. 5 bis exkl. 7 inkl. 7 bis exkl. 8 inkl. 8 bis exkl. 9 inkl. 9 bis inkl. 13 Anzahl Insekten 5 15 20 10 Berechnen Sie den Stichprobenumfang, die relativen Häufigkeiten sowie die absoluten und relativen kumulativen Häufigkeiten. 1.1. MERKMALE UND HÄUFIGKEITEN 7 Diskussion: Das Merkmal ist die Länge der Insekten, die möglichen Ausprägungen sind positive Zahlen in der Größenordnung bis etwa 15 mm. Um eine Tabelle zu erstellen und nicht für jedes Insekt eine andere Zahl einzutragen, wurden die Längen in Klassen geteilt. (Typischerweise nimmt man gleich breite Klassen, aber diesmal wurden zwei Klassen mit Breite 1 mm und zwei breitere Klassen für die ganz großen und ganz kleinen Insekten gewählt.) Die Anzahl der Insekten in jeder Längenklasse ist die absolute Häufigkeit der Klasse. Summiert man alle absoluten Häufigkeiten, so erhält man den Stichprobenumfang, also n = 50. Dividiert man die absoluten Häufigkeiten durch den Stichprobenumfang, so erhält man die relativen Häufigkeiten. Die absolute kumulative Häufigkeit jeder Klasse ist die Summe der absoluten Häufigkeiten aller Klassen zwischen der untersten Klasse und der betrachteten Klasse. Für die Klasse 5–7 mm ist das zugleich ihre absolute Häufigkeit, denn es gibt keine kleinere Klasse, also 5. Nun folgt die Klasse 7–8 mm, es kommt eine absolute Häufigkeit von 15 dazu, damit beträgt die kumulative Häufigkeit 20. Die Klasse 8–9 mm trägt eine absolute Häufigkeit von 20 bei, diese summieren sich zu einer kumulativen Häufigkeit von 40. Letztlich liefert die Klasse 9–13 mm noch eine absolute Häufigkeit von 10, die absolute kumulative Häufigkeit dieser Klasse ist daher 50. Da dies die oberste Klasse ist, ist nun die ganze Stichprobe aufgebraucht: Die absolute kumulative Häufigkeit ist der Stichprobenumfang. Die relativen kumulativen Häufigkeiten kann man ebenso berechnen, nur dass man relative Häufigkeiten summiert. Man kann auch die absoluten kumulativen Häufigkeiten durch den Stichprobenumfang dividieren. Beide Methoden liefern dasselbe Ergebnis. Am Ende steht folgende Tabelle da: Länge (mm) xi inkl. 5 bis exkl. 7 inkl. 7 bis exkl. 8 inkl. 8 bis exkl. 9 inkl. 9 bis inkl. 13 Summe Häufigkeiten absolut relativ ai fi 5 0.1 15 0.3 20 0.4 10 0.2 50 1.00 kumulative Häufigkeiten absolut relativ ki Fi 5 0.1 20 0.4 40 0.8 50 1.0 ¤ 1.1.2.2. Histogramm und empirische Verteilungsfunktion. Methode 1.1.2.4. Die Häufigkeiten der Ausprägungen metrischer Merkmale lassen sich als Histogramm darstellen, wenn die Daten in Klassen gruppiert sind. Jede Klasse ist durch ihre untere und obere Klassengrenze festgelegt, Ausprägungen innerhalb dieses Intervalls werden zu dieser Klasse gezählt. Es wird zu Beginn festgelegt, ob Ausprägungen, die genau an der Grenze zweier Klassen liegen, zur oberen oder zur unteren Klasse gezählt werden. Die Klassenbreite ist die Differenz von der oberen und der unteren Klassengrenze. Die Besetzungsdichte einer Klasse errechnet sich durch die Formel relative Häufigkeit Besetzungsdichte = . Klassenbreite Auf der waagrechten Achse werden die Klassengrenzen aufgetragen, darüber Rechtecke in der Höhe der Besetzungsdichten. Die Flächen dieser Rechtecke sind dann gerade die relativen Häufigkeiten der Klassen. Methode 1.1.2.5. Die kumulativen Ausprägungen metrischer Merkmale lassen sich durch die empirische Verteilungsfunktion darstellen, wenn die Daten in Klassen gruppiert sind (vgl. Methode 1.1.2.4). Auf der waagrechten Achse werden die Klassengrenzen aufgetragen. Über der oberen Grenze jeder Klasse wird senkrecht ihre kumulative Häufigkeit aufgetragen, an der untersten Klassengrenze wird 0 aufgetragen. Die Punkte werden durch Geraden verbunden, sodass sich ein Polygonzug ergibt. 8 1. BESCHREIBENDE STATISTIK Beispiel 1.1.2.6. Die Daten aus Beispiel 1.1.2.3 sind durch ein Histogramm darzustellen, die empirische Verteilungsfunktion ist einzuzeichnen. Diskussion: Die Besetzungsdichten ergeben sich als relative Häufigkeiten gebrochen durch die Klassenbreite: Ausprägung 5–7 7–8 8–9 9 – 13 Klassenbreite 2 1 1 4 rel. Häufigkeit 0.1 0.3 0.4 0.2 Besetzungsdichte 0.05 0.3 0.4 0.05 kum. rel. H. 0.1 0.4 0.8 1.0 Wir zeichnen Histogrammbalken jeweils waagrecht vom Anfang zum Ende jeder Klasse, als Höhe verwenden wir die eben errechneten Besetzungsdichten. Die empirische Verteilungsfunktion setzt sich aus Geradenstücken zusammen. Sie beginnt am unteren Ende der untersten Klasse, also bei Länge 5, mit dem Wert 0. Am oberen Ende jeder Klasse erreicht die empirische Verteilungsfunktion die relative kumulative Häufigkeit dieser Klasse. 1 0.9 0.8 relative Haeufigkeit 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 5 ¤ 6 7 8 9 Laenge 10 11 12 13 Histogramm und empirische Verteilungsfunktion zu Beispiel 1.1.2.6 Merksatz 1.1.2.7. Die Fläche der Balken eines Histogramms über einer Klasse ist gerade die relative Häufigkeit dieser Klasse. Die Steigung der empirischen Verteilungsfunktion über einer Klasse ist gerade die Besetzungsdichte. Die empirische Verteilungsfunktion steigt umso schneller, je höher die Histogrammbalken sind. 1.1.2.3. Klasseneinteilung. Um in dieser Vorlesung nicht immer “inklusive” — “exklusive” schreiben zu müssen, führen wir noch eine sehr bequeme Schreibweise ein. Definition 1.1.2.8. Seien a und b zwei Zahlen mit a ≤ b. Wir definieren die folgenden Intervalle: [a, b] die Menge aller Zahlen zwischen a und b, wobei a und b mitgerechnet werden (“abgeschlossenes Intervall”). (a, b) die Menge aller Zahlen zwischen a und b, wobei a und b nicht mitgerechnet werden (“offenes Intervall”). [a, b) die Menge aller Zahlen zwischen a und b, wobei a mitgerechnet und b nicht mitgerechnet wird (“halboffenes Intervall”). (a, b] die Menge aller Zahlen zwischen a und b, wobei a nicht mitgerechnet und b mitgerechnet wird (“halboffenes Intervall”). 1.1. MERKMALE UND HÄUFIGKEITEN 9 Wir sind Klasseneinteilungen schon bei der grafischen Methode des Histogramms begegnet. Um den Sinn einer Klasseneinteilung zu verstehen, beginnen wir mit einem Beispiel: Beispiel 1.1.2.9. In einer Studie wurden 40 Schlangen einer kleinen Natternart vermessen, es ergaben sich folgende Längen: Länge (cm) Ausprägung 29 32 45 46 49 50 52 53 54 56 58 Anzahl abs. Häuf. 1 1 2 1 3 2 1 2 3 2 1 kum. Häuf. 1 2 4 5 8 10 11 13 16 18 19 Länge (cm) Ausprägung 61 62 63 64 65 67 69 70 72 75 81 Anzahl abs. Häuf. 1 3 2 3 2 3 2 1 1 2 1 kum. Häuf. 20 23 25 28 30 33 35 36 37 39 40 Diese Daten sind grafisch darzustellen. Diskussion: Wir beginnen mit einer Variante des Stabdiagramms, wobei wir waagrecht die Länge der Schlagen auftragen, und darüber senkrecht die Anzahl der Schlangen dieser Länge. 0.08 rel. Haeufigkeit 0.06 0.04 0.02 0 20 30 40 50 60 Laenge cm 70 80 90 Stabdiagramm zu Beispiel 1.1.2.9 ohne Klasseneinteilung Dieses Diagramm ist sehr unübersichtlich, es finden sich viele gleich hohe Stäbe und dazwischen viele Lücken. Je nachdem, ob zufällig zwei oder drei Schlangen auf den Zentimeter gleich lang waren, finden sich Stäbe, die höher sind als 1/40. Ob genau zwei Schlangen derselben Länge gefunden wurden, oder sich die Längen der Schlangen um einen Zentimeter unterscheiden, ist biologisch irrelevant. Daher ist die Höhe der Stäbe eher ein Zufallsprodukt ohne biologische Bedeutung, wesentlich ist, wo sich die Stäbe häufen, was weniger bequem abzulesen ist. Eine bessere Vorstellung erhält man, wenn man die Tiere in Klassen teilt: Größe sehr klein klein mittel groß sehr groß Klassen (cm) [29,40) [40,50) [50,60) [60,70) [70,81] Klassenmitte 34.5 45.0 55.0 65.0 75.5 abs. Häufigkeit 2 6 11 16 5 10 1. BESCHREIBENDE STATISTIK Außer den Häufigkeiten und Klassengrenzen haben wir auch die Klassenmitte angegeben, den Mittelwert von oberer und unterer Klassengrenze. Für den Fall, dass man für weitere Rechnungen einen Zahlenwert für die Längen der Schlangen jeder Klasse braucht, kann man die Klassenmitte heranziehen. Die folgende Grafik zeigt das Histogramm für diese Klasseneinteilung. Dies ist wesentlich übersichtlicher und informativer. Man sieht, dass die Längen zwischen 60 und 70 cm am häufigsten auftreten. In Richtung größere Längen fällt die Häufigkeit sehr schnell ab. In Richtung auf die kleineren Längen fällt die Häufigkeit langsamer ab. Es liegt eine schiefe Häufigkeitsverteilung vor. 0.04 rel. Haeufigkeit 0.03 0.02 0.01 0 20 30 40 50 60 Laenge cm 70 80 90 Stabdiagramm zu Beispiel 1.1.2.9 mit Klasseneinteilung In der folgenden Grafik zeichnen wir zweimal die empirische Verteilungsfunktion: Durchgezogen ohne Klasseneinteilung (d.h., die Klassenbreiten sind hier jeweils 1 cm), und strichliert mit der obigen Klasseneinteilung. Man sieht, dass sich die Klasseneinteilung auf die empirische Verteilungsfunktion nicht wesentlich auswirkt, der Polygonzug ist nur etwas weniger “zittrig”. Alles, was auf kumulativen Häufigkeiten beruht, wird durch Klasseneinteilungen nicht stark verändert. 1 kumulative rel. Haeufigkeit 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 20 30 40 50 60 Laenge cm 70 80 90 Empirische Verteilungsfunktion zu Beispiel 1.1.2.9 mit und ohne Klasseneinteilung Die letzten beiden Grafiken zeigen die Wirkung einer gröberen und einer feineren Klasseneinteilung. Die folgende Klasseneinteilung ist eindeutig zu grob, fast alle Information ist verloren gegangen. 1.1. MERKMALE UND HÄUFIGKEITEN 11 rel. Haeufigkeit 0.03 0.02 0.01 0 20 30 40 50 60 Laenge cm 70 80 90 Stabdiagramm zu Beispiel 1.1.2.9 mit grober Klasseneinteilung Die folgende Klasseneinteilung ist feiner. Sie zeigt eine zweigipfelige Verteilung. Das könnte ein Zufallsprodukt auf Grund der feinen Klasseneinteilung sein. Wenn die Klassen klein sind, kann durch Zufall leicht eine leer oder unterbesetzt ausfallen. 0.05 0.045 0.04 rel. Haeufigkeit 0.035 0.03 0.025 0.02 0.015 0.01 0.005 0 20 30 40 50 60 Laenge cm 70 80 90 Stabdiagramm zu Beispiel 1.1.2.9 mit feiner Klasseneinteilung ¤ Methode 1.1.2.10. Bei umfangreichen Datensätzen mit einem metrischen Merkmal kann man eine Klasseneinteilung vornehmen, indem man im Bereich der möglichen Realisierungen Klassengrenzen festlegt, wodurch der Bereich in halboffene Intervalle, die Klassen, aufteilt wird. Soll zu Rechenzwecken jeder Klasse als Ausprägung nicht ein Intervall, sondern eine Zahl zugeordnet werden, so bietet sich dafür der Mittelwert zwischen unterer und oberer Klassengrenze an. Merksatz 1.1.2.11. Wie viele und wie breit die Klassen einer Klasseneinteilung sein sollen, richtet sich nach dem Zweck der Studie. Der wesentliche Vorteil einer gröberen Klasseneinteilung ist die Übersichtlichkeit der Darstellung. Andererseits fällt durch eine gröbere Klasseneinteilung auch mehr Information weg, denn 12 1. BESCHREIBENDE STATISTIK statt der genauen Zahlenwerte der Ausprägungen werden jetzt nur mehr Intervalle erfasst. Statistische Kennzahlen errechnet man am besten an Hand der unklassifizierten Daten, während grafische Darstellungen und Übersichtstabellen oft mit der Klasseneinteilung informativer ausfallen. Alle Kennzahlen und Methoden, die auf kumulativen Häufigkeiten beruhen, werden von Klasseneinteilungen nur sehr gering beeinflusst. Was Sie jetzt können: Begriffe und Wissen: Absolute und relative kumulative Häufigkeit. Methoden: Berechnen und interpretieren von kumulativen Häufigkeiten. Histogramm und empirische Verteilungsfunktion. Klasseneinteilung, ihre Vorteile und Nachteile. 1.2. Kennzahlen Übersicht: 1. 2. 3. 4. 5. Perzentile Mittelwert Varianz und Standardabweichung Weitere Kennzahlen auf Grundlage von Summationen Kennzahlen für nominale Daten 1.2.1. Perzentile. Übersicht: 1. 2. 3. 4. Definition des Perzentils Perzentile für metrische Daten mit Klasseneinteilung Spannweite und Quartilsabstand Box-Whisker-Diagramm 1.2.1.1. Definition des Perzentils. Definition 1.2.1.1. Seien x1 , x2 , · · · , xm die Ausprägungen eines ordinalen (oder metrischen) Merkmals, aufsteigend der Größe nach geordnet. Seien F1 , · · · , Fm die zugehörigen relativen kumulativen Häufigkeiten. Sei a eine Zahl zwischen 0 und 100. Das a%-Perzentil ist jene Ausprägung xi , bei der die relative kumulative Häufigkeit Fi erstmals den Wert a/100 erreicht und überschreitet. Erreicht die kumulative Häufigkeit bei der Ausprägung xi exakt den Wert a/100 (ohne ihn zu überschreiten), so geben manche Autoren als a%-Perzentil das Paar (xi , xi+1 ) an. Bei metrischen Daten kann man auch das arithmetische Mittel 12 (xi + xi+1 ) angeben. Einige Perzentile besitzen besondere Bedeutung und haben eigene Namen: 1.2. KENNZAHLEN 13 Definition 1.2.1.2. Die folgenden Perzentile besitzen Eigennamen: 0% 25% 50% 75% 100% Minimum: Die kleinste Ausprägung, die vorkommt. Erstes Quartil oder unteres Quartil. Median oder Zweites Quartil. Drittes Quartil oder oberes Quartil. Maximum: Die größte Ausprägung, die vorkommt. Das a%-Perzentil bezeichnet man auch als das a 100 - Quantil. Häufig werden auch das 10%-Perzentil und das 90%-Perzentil angegeben. Merksatz 1.2.1.3. Das a%-Perzentil ist eine Kenngröße der Lage. Es gibt Antwort auf die Frage: Bei welcher Ausprägung liegt die Grenze zwischen den unteren a Prozent und den oberen 100 − a Prozent der Stichprobe oder der Gesamtheit? Beispiel 1.2.1.4. Eine Statistik sagt, dass das 90%-Perzentil des Körpergewichtes von Kindern eines gewissen Alters bei 35 kg liegt. Was heißt das? Diskussion: Die kumulative Häufigkeit erreicht (und überschreitet) bei 35 kg erstmals 90%. Das heißt: 90% der Kinder dieses Alters wiegen höchstens 35 kg, die anderen 10% der Kinder sind schwerer. ¤ Beispiel 1.2.1.5. Ein Test in einer Klasse von 20 StudentInnen ergab folgende Noten: Note 1 Anzahl Studierende 5 2 11 3 1 4 2 5 1 Bestimmen Sie den Median, die Quartile und das 20%-Perzentil. Diskussion: Wir beginnen mit einer Tabelle der Häufigkeiten, insbesondere der kumulativen relativen Häufigkeiten: Note 1 2 3 4 5 ges. abs. 5 11 1 2 1 20 Häufigkeit rel. rel. kum. 0.25 0.25 0.55 0.8 0.05 0.85 0.10 0.95 0.05 1.00 1.00 Die ersten 50% werden bei der Note 2 erreicht und überschritten, daher liegt der Median bei der Note 2. Die ersten 25% werden bei der Note 1 erreicht, aber erst bei der Note 2 überschritten. Das erste Quartil liegt zwischen den Noten 1 und 2, wir können auch sagen, das erste Quartil liegt auf 1.5. Die ersten 75% werden bei der Note 2 erreicht und überschritten. Daher liegt das dritte Quartil bei der Note 2. Sie sehen, dass in diesem Fall Median und drittes Quartil zusammenfallen. Die ersten 20% werden bei der Note 1 erreicht und überschritten. Das 20%-Perzentil liegt bei der Note 1. ¤ 14 1. BESCHREIBENDE STATISTIK 1.2.1.2. Perzentile für metrische Merkmale mit Klasseneinteilung. Für metrische Daten, die in Intervalle gruppiert sind, ist die obige Definition des Perzentils unbefriedigend. Nach der obigen Definition ist das Perzentil in diesem Fall eine Klasse, ein Intervall. Man hätte lieber eine einzelne Zahl anstelle eines Intervalls. Wie grob die obige Definition ist, sieht man gut im vorigen Beispiel, wo Median und drittes Quartil in eine Klasse zusammenfallen. Für metrische Merkmale, die in Intervalle klassifiziert sind, gibt es daher eine zweite, feinere Definition der Perzentile. Definition 1.2.1.6 (Perzentile für Daten mit Klasseneinteilung). Sei X ein metrisches Merkmal und a ∈ [0, 100] eine Zahl. Das a%-Perzentil von X ist jene Ausprägung x , für den die empirische Verteilungsfunktion F den Wert F (x) = a/100 annimmt. Es gilt die Formel: a 100 − F (xi ) . F (xi+1 ) − F (xi ) Dabei sind xi , xi+1 die untere und obere Grenze jener Klasse, in der die kumulative Häufigkeit erstmals den Wert a/100 übersteigt. F (xi ), F (xi+1 ) sind die Werte der empirischen Verteilungsfunktion, zugleich die kumulativen Häufigkeiten der Klassen [xi−1 , xi ) bzw. [xi , xi+1 ). a%-Perzentil = xi + (xi+1 − xi ) Beispiel 1.2.1.7. Die Längen von 40 Schlangen einer kleinen Vipernart wurden gemessen. Es ergab sich folgende Häufigkeitstabelle: Länge [30, 40) [40, 50) [50, 60) [60, 70) [70, 80] gesamt absolut 2 6 10 16 6 40 Häufigkeiten relativ rel. kumulativ 0.05 0.05 0.15 0.20 0.25 0.45 0.40 0.85 0.15 1.00 1.00 Bestimmen Sie Median, Quartile und 20%-Perzentil nach der Definition 1.2.1.6 für gehäufte metrische Daten. Diskussion: Die folgende Grafik zeigt die empirische Verteilungsfunktion. Erinnern Sie sich, dass diese Funktion jeweils an der oberen Grenze einer Klasse durch die kumulative Häufigkeit dieser Klasse definiert ist, und zwischen den Klassengrenzen durch ein Geradenstück interpoliert wird: empirische Verteilungsfunktion 1 0.75 50% Niveau 0.5 0.25 Median bei 61.25 0 20 30 40 50 60 70 80 Laenge Beispiel 1.2.1.7: Empirische Verteilungsfunktion 90 1.2. KENNZAHLEN 15 Wir berechnen nun die Perzentile nach der Formel: Perzentil Prozent Klassengrenzen untere obere kum. rel. Häufigkeiten untere obere Perzentil Formel Wert 1. Quartil 25% 50 60 0.20 0.45 0.25−0.20 50 + (60 − 50) 0.45−0.20 = 52.00 Median 50% 60 70 0.45 0.85 0.50−0.45 60 + (70 − 60) 0.85−0.45 = 61.25 3. Quartil 75% 60 70 0.45 0.85 0.75−0.45 60 + (70 − 60) 0.85−0.45 = 67.50 20%-Perzentil 20% 50 60 0.20 0.45 0.20−0.20 50 + (60 − 50) 0.45−0.20 = 50.00 Sie sehen, dass diese Methode zum Beispiel im Stande ist, Median und drittes Quartil zu unterscheiden, obwohl beide in derselben Klasse liegen. ¤ Tipp 1.2.1.8. SPSS berechnet für metrische, nicht in Klassen gruppierte, Daten das a% Perzentil nach folgender Formel: Gegeben seien die Daten x1 , · · · , xn in aufsteigender Reihenfolge. Sei a k= (n + 1), 100 Ist k eine ganze Zahl, so wähle xk als das a-Perzentil. Ist k eine Bruchzahl m + r mit ganzer Zahl m und Rest r ∈ (0, 1), so berechne das a-Perzentil durch xm + r(xm+1 − xm ). SPSS hat aber auch die Möglichkeit, Perzentile für in Klassen gruppierte Daten zu berechnen. Dazu müssen die Mittelpunkte der Klassen eingegeben werden. 1.2.1.3. Spannweite und Quartilsabstand. Definition 1.2.1.9. Sei X ein metrisches Merkmal. Die Spannweite von X ist die Differenz von Maximum minus Minimum. Der Quartilsabstand (manchmal auch Interquartilsabstand genannt) ist die Differenz 3. Quartil minus 1. Quartil. Merksatz 1.2.1.10. Spannweite und Quartilsabstand sind Kenngrößen der Streuung. Je größer diese Zahlen sind, desto stärker streuen die Daten. Beispiel 1.2.1.11. Bestimmen Sie für die Stichprobe aus Beispiel 1.2.1.7 die Spannweite und den Quartilsabstand (berechnet nach der Definition 1.2.1.6 der Perzentile für klassifizierte metrische Daten). Diskussion: Aus den Lösungen von Beispiel 1.2.1.7 entnehmen wir folgende Werte: Minimum 1. Quartil Median 3. Quartil Maximum 30.00 52.00 61.25 67.50 80.00 Daraus errechnen sich: Spannweite Quartilsabstand ¤ 80-30 = 67.50-52.00 = 50 15.50 16 1. BESCHREIBENDE STATISTIK Warum man den Quartilsabstand lieber als Streuungsmaß einsetzt als die Spannweite, erklärt das nächste Beispiel. Beispiel 1.2.1.12. An einer Baustelle gilt eine Geschwindigkeitsbeschränkung auf 30 km h. Eine kurze Radarmessung ergab an 10 vorbeifahrenden Autofahrern folgende Werte Messung Nr. Geschwindigkeit 1 30.3 2 28.6 3 29.4 4 31.5 5 42.0 6 27.0 7 30.2 8 30.8 9 32.0 10 30.2 Die Mannschaft will eben die Radargeräte abbauen, da dirigiert Eberhard Wunderwarzenschwein seinen Ferrari mit 286.9 km/h durch die Meßstelle. Welche Auswirkungen hat dieser extreme Wert (Ausreißer) auf die Statistik? Diskussion: Wir beginnen mit einer Tabelle der Ausprägungen und ihrer relativen kumulativen Häufigkeiten mit und ohne Ausreißer. (Die relativen Häufigkeiten sind zugleich die Werte der empirischen Verteilungsfunktion an den gegebenen Stellen): Geschwindigkeit 27.0 28.6 29.4 30.2 30.3 30.8 31.5 32.0 42.0 286.9 gesamt Häufigkeiten ohne Ausreißer abs. rel. rel. kum. 1 0.1 0.1 1 0.1 0.2 1 0.1 0.3 2 0.2 0.5 1 0.1 0.6 1 0.1 0.7 1 0.1 0.8 1 0.1 0.9 1 0.1 1.0 0 0.0 1.0 10 1.0 Häufigkeiten mit Ausreißer abs. rel. rel. kum. 1 0.091 0.091 1 0.091 0.182 1 0.091 0.273 2 0.182 0.455 1 0.091 0.545 1 0.091 0.636 1 0.091 0.727 1 0.091 0.818 1 0.091 0.909 1 0.091 1.000 11 1.0 Wir berechnen die Perzentile, Quartilsabstand und Spannweite mit und ohne Ausreißer: Perzentil Minimum 1. Quartil Median 3. Quartil Maximum Spannweite Quartilsabstand ohne Ausreißer 27.00 29.40 30.25 31.50 42.00 15 2.10 mit Ausreißer 27. 00 29.40 30.30 32.00 286.90 259.90 2.60 Sie sehen, dass der extrem hohe Ausreißer natürlich Maximum und Spannweite stark verändert. Die Quartile und der Quartilsabstand verändern sich nur geringfügig. ¤ Merksatz 1.2.1.13. Perzentile und Quartilsabstand sind äußerst robust (unempfindlich) gegen allfällige Ausreißer. Dagegen hängen natürlich Maximum, Minimum und Spannweite extrem empfindlich von Ausreißern ab. Merksatz 1.2.1.14. Ein statistischer Ausreißer ist ein Datenwert oder Datensatz, dessen Wert weitab vom Grossteil der Daten einer Statistik liegen. Das Auftreten eines Ausreißers kann unterschiedliche Gründe haben: 1) Es gibt vereinzelte Sonderfälle mit sehr ungewöhnlichen Merkmalsausprägungen, die aber für die vorliegende Untersuchung nicht bedeutend sind. 2) Es gibt vereinzelte Sonderfälle mit sehr ungewöhnlichen Merkmalsausprägungen, die auf Phänomene hinweisen, die in der vorliegenden Untersuchung erfaßt werden sollten. 1.2. KENNZAHLEN 17 3) Der Ausreißer entsteht durch einen Meß- oder Beobachtungsfehler, oder durch einen Fehler in der Weiterleitung der Daten. Es gibt statistische Methoden, Ausreißer aufzufinden und zu kennzeichnen. Unter welchem der drei obigen Gesichtspunkte der Ausreißer betrachtet werden muss, liegt in der Verantwortung des Untersuchenden und kann mit rein formalen statistischen Methoden nicht geklärt werden. 1.2.1.4. Box-Whisker-Plot. Methode 1.2.1.15. Einen Boxplot oder Box-Whisker-Plot aus einer Stichprobe eines metrischen Merkmals erstellt man folgendermaßen: Rechnerische Vorbereitung: 1) Median, Quartile und Quartilsabstand werden errechnet. 2) Es werden die “inneren Grenzen” bestimmt: erstes Quartil - 1.5 × Quartilsabstand drittes Quartil + 1.5 × Quartilsabstand 3) Es werden die “äußeren Grenzen” bestimmt: erstes Quartil - 3 × Quartilsabstand drittes Quartil + 3 × Quartilsabstand 4) Es werden die Daten identifiziert, welche zwischen den inneren und äußeren Grenzen liegen, dieses sind die suspekten Ausreißer. 5) Es werden die Daten identifiziert, welche außerhalb der äußeren Grenzen liegen, dieses sind die sehr suspekten Ausreißer. 6) Es werden der größte und kleinste Wert der verbleibenden Daten bestimmt, wir bezeichnen diese als Maximum und Minimum innerhalb der inneren Grenzen. Zeichnung: 7) Es wird senkrecht eine Skala angelegt, die vom Minimum bis zum Maximum aller Ausprägungen reicht. (Man kann die Skala auch waagrecht anlegen, alle weiteren Schritte erfolgen dann entsprechend gedreht.) 8) Median und Quartile werden durch kleine übereinanderliegende waagrechte Striche eingezeichnet. Die Quartile werden dann durch senkrechte Striche verbunden, sodaß sich eine Box mit einem Teilstrich im Median ergibt. 9) Das Maximum und Minimum innerhalb der inneren Grenzen werden ebenfalls durch waagrechte Striche eingezeichnet. Diese werden je durch einen senkrechten Strich in der Mitte mit der Box verbunden (“Whiskers”). 10) Die suspekten Ausreißer werden mit einem Kreis eingezeichnet. 11) Die sehr suspekten Ausreißer werden mit einem Stern eingezeichnet. In einer vereinfachten Methode verzichtet man auf die Analyse der Ausreisser und zeichnet die Whisker vom dritten Quartil bis zum Maximum, und vom Minimum bis zum ersten Quartil. Beispiel 1.2.1.16. Gewichtsmessung an einer Stichprobe aus einer Rattenpopulation ergab folgende Kennzahlen (Gewichte in g): Minimum erstes Quartil Median drittes Quartil Maximum 100 150 250 300 450 18 1. BESCHREIBENDE STATISTIK Stellen Sie diese Daten durch einen Box-Whisker-Plot dar (ohne Analyse der Ausreisser), und kennzeichnen Sie darin den Median, die Spannweite, und den Quartilsabstand. Boxplot zu Beispiel 1.2.1.16 Beispiel 1.2.1.17. In zwei aufeinanderfolgenden Jahren wurde eine Lehrveranstaltung abgehalten. Bei den Schlusstests waren jeweils hundert Punkte erreichbar. Für jedes Jahr wurde eine Tabelle der erreichten Punktewertungen erstellt. Die Ergebnisse der beiden Studienjahre sind je durch einen Boxplot zusammengefasst: 100,0 1 80,0 2 Punkte 1 60,0 40,0 20,0 2 1 2 1 0,0 2003 2004 Jahr Boxplots zu Beispiel 1.2.1.17 Interpretieren Sie die Grafik. Diskussion: Die Hälfte der Studierenden im Jahr 2003 hatte Punktezahlen zwischen ca. 40 und 50, insgesamt lagen die Punktezahlen zwischen ca. 2 und 98, wobei so extreme Werte aber nur durch wenige (6) Ausreisser angenommen wurden. Die restlichen Ergebnisse lagen im Bereich zwischen ca. 25 und 65. Die Hälfte der Studierenden hatte eine bessere Punktezahl als ca. 45. 1.2. KENNZAHLEN 19 Die Hälfte der Studierenden im Jahr 2004 hatte Punktezahlen zwischen ca. 35 und 50, die Ergebnisse lagen insgesamt zwischen ca. 5 und 90. Abgesehen von 4 Ausreissern lagen die Punktezahlen im Bereich zwischen ca. 25 und 70. Die Hälfte der Studierenden hatte eine bessere Note als ca. 40. Die Ergebnisse der beiden Jahre sind nicht sehr verschieden. Der Vergleich der Mediane lässt die Studierenden des ersten Jahres etwas besser abschneiden. Betrachtet man die Quartilsabstände oder die Spannweite der Ergebnisse ohne Berücksichtigung der Ausreißer, so sieht man, dass der Jahrgang 2004 etwas mehr zu streuen scheint. Sie sehen, dass durch Boxplots viel Information auf kleinem Raum gegeben werden kann. ¤ Was Sie jetzt können: Begriffe und Wissen: Unterschied zwischen Kenngrößen der Lage und Kenngrößen der Streuung. Perzentile, Median, Quartil, Quantil, Maximum, Minimum, Quartilsabstand, Spannweite. Statistische Ausreißer. Methoden: Bestimmen und interpretieren von Perzentilen und den damit verwandten statistischen Kenngrößen. Boxplots zeichnen und interpretieren. 1.2.2. Mittelwert. Übersicht: 1. Summenzeichen 2. Mittelwert 2. Varianten der Berechnung des Mittelwertes 1.2.2.1. Summenzeichen. Viele Formeln in der Statistik summieren Häufigkeiten oder Ausprägungen von vielen Daten. Um Formeln mit solchen Summen exakt und doch bequem aufzuschreiben, gibt es das Summenzeichen. Definition 1.2.2.1. Seien x1 , x2 , · · · , xn Zahlen. Sei 1 ≤ p ≤ q ≤ n. Das Summenzeichen bedeutet: q X xi = xp + xp+1 + · · · + xq−1 + xq . i=p (D.h., addiere die Werte xi , wobei i von p bis q läuft.) Tipp 1.2.2.2. Die Benennung des Summationsindex spielt keine Rolle, er ist nur ein Name für die Nummern, die durchgezählt werden. Die folgenden beiden Summen ergeben dasselbe: 6 6 X X xt = xi . t=2 i=2 20 1. BESCHREIBENDE STATISTIK Beispiel 1.2.2.3. In der folgenden Tabelle sind Zahlen a1 , · · · , a4 und b1 , · · · , b4 gegeben. Bestimmen Sie die folgenden Summen: P4 P4 ai , i=1 j=1 bj , P P4 P4 4 2a − 3b , 2 t t ³P t=1 at − ´ ³3P t=1 bt ,´ P4t=1 4 4 n=1 bn , n=1 an n=1 an bn , ³ ´ 2 P4 P 4 2 , k=1 ak , k=1 ak P4 k=1 23. i ai bi 1 4 3 2 5 2 3 2 0 4 3 1 Diskussion: In der folgenden Tabelle fassen wir alle Additionen zusammen, die wir durchführen: i 1 2 3 4 Summe Damit haben wir: 4 X ai 4 5 2 3 14 bi 3 2 0 1 6 2ai 8 10 4 6 4 X ai = 14, i=1 4 X 3bi 9 6 0 3 2ai − 3bi -1 4 4 3 10 ebenso: t=1 2 4 X à an bn = 25, aber: n=1 at − 3 4 X à a2k = 54, aber: 4 X 4 X bt = 2 × 14 − 3 × 6 = 10, t=1 !à an n=1 k=1 4 X 23 23 23 23 23 92 bj = 6, t=1 4 X a2i 16 25 4 9 54 j=1 2at − 3bt = 10 4 X ai bi 12 10 0 3 25 !2 ak 4 X ! bn = 14 × 6 = 84, n=1 = 142 = 196, k=1 23 = 92. k=1 ¤ Merksatz 1.2.2.4. Für das Summenzeichen gelten folgende Regeln: a) Summen von Summen und Differenzen darf man in zwei Summen zerlegen: q q q X X X (ai ± bi ) = ai ± bi . i=p i=p i=p b) Konstante Faktoren darf man aus der Summe herausheben: q X (k · ai ) = k · i=p q X ai . i=p c) Es ist nicht gleichgültig, ob man zuerst multipliziert und dann summiert oder umgekehrt: q q q X X X (ai · bi ) 6= ai · bi . i=p i=p i=p 1.2. KENNZAHLEN 21 d) Es ist nicht gleichgültig, ob man zuerst quadriert und dann summiert oder umgekehrt: 2 q q X X a2i 6= ai . i=p i=p e) Wird n mal dieselbe Zahl k summiert, so ergibt sich nk. q X k = (q − p + 1)k. i=p 1.2.2.2. Mittelwert. Definition 1.2.2.5. Sei n der Umfang einer Gesamtheit (kann eine Stichprobe sein) von Merkmalsträgern. Seien x1 , · · · , xn die Ausprägungen eines metrischen Merkmales x für die Merkmalsträger Nummer 1 · · · n. Der Mittelwert x von x innerhalb dieser Gesamtheit (Stichprobe) ist dann n x= 1X xi n i=1 (Häufig wird auch die Schreibweise µ(x) oder µx für den Mittelwert von x verwendet.) Wir geben der Vollständigkeit halber bereits hier die Definition einer weiteren Kenngröße der Lage an, obwohl sie zu den Kenngrößen der nominalen Merkmale gehört: Definition 1.2.2.6. Der Modal eines Merkmals ist jene Ausprägung, die am häufigsten vorkommt. (Ein Merkmal kann mehrere Modale haben!) Merksatz 1.2.2.7. Mittelwert, Median und Modal sind Kenngrößen der Lage. 1) Der Mittelwert gibt den Durchschnittswert der Ausprägung eines metrischen Merkmals innerhalb einer Gesamtheit an. Den Mittelwert kann man nur von metrischen Merkmalen angeben. 2) Der Median gibt die Grenze an, die die untere und obere Hälfte der Ausprägungen trennt. Den Median kann von zu ordinalen (und metrischen) Merkmalen angeben. 3) Der Modal gibt dagegen an, welche Ausprägung am häufigsten vorkommt, also wo der Gipfel des Stabdiagramms liegt. Den Modal gibt es auch zu nominalen, und damit zu allen Merkmalen. Mittelwert, Median, und Modal müssen nicht auf denselben Wert fallen. Beispiel 1.2.2.8. Das folgende Stabdiagramm und die dazugehörige Statistik nach SPSS zeigt eine deutlich linksgipfelige Verteilung. Vergleichen Sie Modal, Median und Mittelwert. 22 1. BESCHREIBENDE STATISTIK Prozent 30 20 10 0 ,00 1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 10,00 Auspraegung Eine linksgipfelige Verteilung N gültig fehlend Mittelwert Modus Standardabweichung Varianz Spannweite Minimum Maximum Perzentile 25 50 75 63 0 3.4286 2.00 2.2484 5.055 10.00 0.00 10.00 2.0000 3.0000 4.0000 Diskussion: Der Mittelwert (3.4286) liegt deutlich rechts vom Median (3.0000). Der Median wird nur von der Anzahl und Reihung der Daten, nicht von ihren Zahlenwerten beeinflußt. In den Mittelwert gehen auch die Zahlenwerte ein. Bei der linksgipfeligen Verteilung sind die Daten im unteren Bereich dicht gedrängt, im oberen Bereich weit gestreut. Der Median trennt die untere und die obere Hälfte. Da die Daten in der oberen Hälfte aber weit gestreut sind und zahlenmäßig hoch hinauf gehen, wird der Mittelwert weiter nach rechts gezogen. In der Statistik finden wir auch den Modal (Modus, 2.0000), also den Gipfel. Er liegt bei der linksgipfeligen Verteilung noch weiter links als der Median. Außerdem finden wir die Quartile, Maximum und Minimum, und die Spannweite. Die Streuungskennzahlen Standardabweichung und Varianz werden wir im nächsten Unterabschnitt kennenlernen. ¤ Tipp 1.2.2.9. Stellen Sie sich ein Stabdiagramm oder Histogramm vor, als wären die Balken aus Ziegeln auf einem Brett aufgestapelt. Wenn Sie das Brett auf einer einzigen Stütze schaukeln lassen, müssen Sie es unter dem Mittelwert unterstützen, damit es in der Waage bleibt. 1.2.2.3. Varianten zur Berechnung des Mittelwertes. Methode 1.2.2.10. Den Mittelwert einer Stichprobe kann man auf verschiedene Arten berechnen: 1.2. KENNZAHLEN 23 1) Sind die einzelnen Merkmalsträger und jeweils ihre Ausprägung x1 , · · · , xn gegeben, so ist n 1X x= xi . n i=1 2) Sind die möglichen Ausprägungen x1 , · · · , xm und ihre absoluten Häufigkeiten a1 , · · · , am gegeben, so ist der Mittelwert m x= 1X ai xi . n i=1 Dabei ist der Stichprobenumfang n= m X ai . i=1 3) Sind die möglichen Ausprägungen x1 , · · · , xm und ihre relativen Häufigkeiten f1 , · · · , fm gegeben, so ist der Mittelwert x= m X fi x i . i=1 Beispiel 1.2.2.11. In einer Klasse von 10 Schülern kommen bei einer Schularbeit die Noten von 1 bis 3 vor. Wir geben die Tabelle der Noten in drei verschiedenen Formen. Wie ist der Mittelwert der Noten? SchülerIn Andrea Barbara Clemens Dieter Erhard Fatimah Gertrud Hildegard Istvan Jan Note 1 3 1 2 3 2 2 1 1 2 Note 1 2 3 absolute Häufigkeit 5 3 2 Note 1 2 3 relative Häufigkeit 0.5 0.3 0.2 Diskussion: Alle drei folgenden Wege führen zum Mittelwert: SchülerIn Andrea Barbara Clemens Dieter Erhard Fatimah Gertrud Hildegard Istvan Jan 10 SchülerInnen Mittelwert ¤ xi Note 1 3 1 2 3 1 2 1 1 2 Summe 17 17/10=1.7 xi Note 1 2 3 Summe Mittelwert ai abs. H. 5 3 2 10 xi Note 1 2 3 Mittelwert fi rel. H. 0.5 0.3 0.2 x i ai 5 6 6 17 17/10 = 1.7 xi fi 0.5 0.6 0.6 1.7 24 1. BESCHREIBENDE STATISTIK Merksatz 1.2.2.12. Achten Sie bei der Berechnung von Mittelwert und Varianz auf folgende Frage: Stellen die Zeilen Ihrer Tabelle jeweils nur einen Datensatz dar, oder steht in jeder Zeile eine Häufigkeitsangabe, sodass eine Zeile sich auf mehrere Individuen bezieht? Falls eine Häufigkeitsangabe steht, muss die Häufigkeit in die Berechnung des Mittelwertes und der Varianz einbezogen werden. Was Sie jetzt können: Begriffe und Wissen: Mittelwert, Modal Methoden: Umgang mit dem Summenzeichen, Berechnung des Mittelwertes 1.2.3. Varianz und Standardabweichung. Übersicht: 1. Streuung 2. Varianz und Standardabweichung 3. Faustregel zur Interpretation der Standardabweichung 1.2.3.1. Streuung. Merkmale kommen in der Grundgesamtheit fast immer in mehreren verschiedenen Ausprägungen vorkommen (andere Merkmale werden erst gar nicht statistisch untersucht). Nun kann ein Merkmal entweder stark streuen, das heißt, es kommt in vielen verschiedenen Ausprägungen vor, und Unterschiede werden oft beobachtet, oder es streut schwach, es kommen fast immer die gleiche oder ganz ähnliche Ausprägungen vor. Wenn wir aus der Grundgesamtheit eine Stichprobe entnehmen, spielt der Zufall mit, welche Ausprägungen in der Stichprobe vorkommen. Streut das Merkmal schwach, so ist der Einfluß des Zufalls auf die Stichprobe geringm, weil ja ohnehin fast immer ganz ähnliche Ausprägungen vorkommen: Mit großer Wahrscheinlichkeit haben wir auch diese Ausprägungen fast durchwegs in der Stichprobe. Sind dagegen die Ausprägungen in der Grundgesamtheit bunt gemischt, spielt der Zufall eine große Rolle bei der Zusammensetzung der Stichprobe. Es wird dann, durch diesen Einfluss des Zufalls, wesentlich riskanter und schwieriger, aus der Stichprobe Rückschlüsse auf die Grundgesamtheit zu machen. Merksatz 1.2.3.1. Wenn ein Merkmal stark streut, dann 1) hat der Zufall viel Einfluß auf alle Vorgänge, in denen dieses Merkmal involviert ist, z.B. auf die Zusammensetzung von Stichproben, 2) sind Schlüsse, die auf Grund von Stichproben über dieses Merkmal gemacht werden, unsicher und mit großer Vorsicht vorzunehmen. 1.2. KENNZAHLEN 25 Daten mit verschiedener Lage und Streuung Um die Sicherheit unserer Schlüsse zu beurteilen, brauchen wir also ein Maß dafür, wie stark ein Merkmal streut. Solche Maße sind, wie wir schon wissen, die Spannweite und der Quartilsabstand, die auf Basis der Perzentile ermittelt werden. Auf Grundlage von Summenformeln werden dagegen die Varianz und die Standardabweichung eingeführt. 1.2.3.2. Varianz und Standardabweichung. Definition 1.2.3.2. Sei n der Umfang einer Gesamtheit (kann eine Stichprobe sein) von Merkmalsträgern. Seien x1 , · · · , xn die Ausprägungen eines metrischen Merkmales x für die Merkmalsträger Nummer 1 · · · n. Sei x der Mittelwert von x innerhalb dieser Gesamtheit. Die Varianz von x innerhalb dieser Gesamtheit (Stichprobe) ist dann n 1X σ 2 (x) = (xi − x)2 . n i=1 Die Quadratwurzel aus der Varianz heißt Standardabweichung: p σ(x) = σ 2 (x) Tipp 1.2.3.3. 1) Verschiedene Schreibweisen werden für die Varianz eingeführt, z.B. s2 , σ 2 oder Var(x). Um zu spezifizieren, dass sich eine Varianz auf das Merkmal x bezieht, kann wiederum σ 2 (x) oder σx2 geschrieben werden. 2) Das Quadrat über σ 2 als Kürzel der Varianz sieht zunächst willkürlich aus, ist aber konsistent mit der Schreibweise σ für die Standardabweichung. 3) Manche Autoren definieren die Varianz von vorneherein mit n 1 X 2 σ (x) = (xi − x)2 . n − 1 i=1 Wir werden noch sehen, unter welchen Umständen man mit dem Nenner n − 1 statt n rechnen muss. Vorläufig warnen wir nur, dass also die Definition der Varianz von Autor zu Autor verschieden ist. Insbesondere rechnen Statistikpakete üblicherweise mit n − 1. 26 1. BESCHREIBENDE STATISTIK Merksatz 1.2.3.4. 1) Varianz und Standardabweichung sind Kenngrößen der Streuung. Je größer die Varianz, desto mehr streuen die Daten. 2) Die Varianz ist immer positiv. 3) Die Varianz ist nur dann gleich Null, wenn alle Merkmalsträger dieselbe Ausprägung haben. 4) Als alternative Kenngrößen der Streuung kennen wir bereits die Spannweite und den Quartilsabstand. Diskussion: Das ist leicht zu verstehen: Die Summanden (xi −x)2 sind immer positiv, daher ergibt sich eine positive Summe. Diese ist (wegen der Positivität der Summanden) nur dann exakt Null, wenn alle Summanden gleich null sind. Je weiter die Ausprägung xi vom Mittelwert entfernt ist, desto größer ist der Summand (xi − x)2 . Eine große Varianz tritt also dann auf, wenn häufig Ausprägungen vorkommen, die vom Mittelwert stark abweichen. ¤ Genau wie beim Mittelwert gibt es verschiedene Wege, die Varianz zu berechnen, je nachdem, ob die Daten pro Merkmalsträger oder als Liste der Häufigkeiten vorliegen. In jedem dieser Fälle gibt es wiederum zwei Rechenwege: Methode 1.2.3.5. Die Varianz einer Stichprobe mit Stichprobenumfang n kann man auf verschiedene Arten berechnen: 1) Sind die einzelnen Merkmalsträger und jeweils ihre Ausprägung x1 , · · · , xn und ihr Mittelwert x gegeben, so ist die Varianz n σ 2 (x) = n 1X 1X 2 (xi − x)2 = x − x2 . n i=1 n i=1 i 2) Sind die möglichen Ausprägungen x1 , · · · , xm und ihre absoluten Häufigkeiten a1 , · · · , am gegeben, so ist die Varianz m σ 2 (x) = n 1X 1X ai (xi − x)2 = ai x2i − x2 . n i=1 n i=1 Dabei ist der Stichprobenumfang n= m X ai . i=1 3) Sind die möglichen Ausprägungen x1 , · · · , xm und ihre relativen Häufigkeiten f1 , · · · , fm gegeben, so ist die Varianz σ 2 (x) = m X i=1 fi (xi − x)2 = m X i=1 fi x2i − x2 . 1.2. KENNZAHLEN 27 Diskussion: Es läßt sich leicht zeigen, dass die jeweils zweite Formel dasselbe liefert wie die jeweils erste. Wir beweisen das für die Situation, wenn die Daten pro Merkmalsträger gegeben sind: n 1X (xi − x)2 = n i=1 = n 1X 2 (x − 2xxi + x2i ) = n i=1 i = n n n 1X 2 1X 1X 2 xi − 2xxi + x = n i=1 n i=1 n i=1 = n n 1X 1 1X 2 xi − 2x xi + nx2 = n i=1 n i=1 n = n 1X 2 x − 2x2 + x2 = n i=1 i = n 1X 2 x − x2 . n i=1 i ¤ Beispiel 1.2.3.6. Berechnen Sie die Varianz und Standardabweichung zu den Daten aus Beispiel 1.2.2.11 auf alle 6 möglichen Arten. Diskussion: Wir beginnen mit den zwei Möglichkeiten, wenn die Daten pro Merkmalsträger angeführt sind: SchülerIn Andrea Barbara Clemens Dieter Erhard Fatimah Gertrud Hildegard Istvan Jan n = 10 durch n: Wurzel: xi Note 1 3 1 2 3 1 2 1 1 2 17 x = 1.7 xi − x (xi − x)2 -0.7 1.3 -0.7 0.3 1.3 -0.7 0.3 -0.7 -0.7 0.3 0.49 1.69 0.49 0.09 1.69 0.49 0.09 0.49 0.49 0.09 6.10 0.61 0.781 σ 2 (x) = σ(x) ≈ SchülerIn Andrea Barbara Clemens Dieter Erhard Fatimah Gertrud Hildegard Istvan Jan n = 10 durch n: -x2 Wurzel: xi Note 1 3 1 2 3 1 2 1 1 2 17 x = 1.7 σ 2 (x) = σ(x) ≈ x2i 1 9 1 4 9 1 4 1 1 4 35 3.50 -2.89 0.61 0.781 Die zweite Variante ist angenehmer, denn man muss nicht für jeden Term separat den Mittelwert abziehen. Bei Angabe der absoluten Häufigkeiten bieten sich folgende Wege an: xi ai xi ai xi − x (xi − x)2 ai (xi − x)2 Note abs. H. 1 5 5 -0.7 0.49 2.45 2 3 6 0.3 0.09 0.27 3 2 6 1.3 1.69 3.38 Summe 10 17 6.1 durch n 1.7 σ 2 (x) = 0.61 Wurzel σ(x) ≈ 0.781 28 1. BESCHREIBENDE STATISTIK xi 1 2 3 ai 5 3 2 10 xi ai 5 6 6 17 1.7 durch 10: −x2 σ 2 (x) = σ(x) ≈ Wurzel x2i ai 5 12 18 35 3.5 - 2.89 0.61 0.781 Bei Angabe der relativen Häufigkeiten rechnen wir: xi fi xi fi xi − x (xi − x)2 Note rel. H. 1 0.5 0.5 -0.7 0.49 2 0.3 0.6 0.3 0.09 3 0.2 0.6 1.3 1.69 Summe 1.7 σ 2 (x) = Wurzel σ(x) ≈ xi 1 2 3 fi 0.5 0.3 0.2 xi ai 5 6 6 1.7 −x2 Wurzel σ 2 (x) = σ(x) ≈ fi (xi − x)2 0.245 0.027 0.338 0.61 0.781 x2i fi 0.5 1.2 1.8 3.5 - 2.89 0.61 0.781 ¤ 1.2.3.3. Faustregel zur Interpretation der Standardabweichung. Varianz und Standardabweichung sagen dasselbe aus, es ist ja die Varianz einfach das Quadrat der Standardabweichung. Die Standardabweichung ist aber leichter anschaulich zu interpretieren: Merksatz 1.2.3.7. Zur Interpretation der Standardabweichung gilt die folgende Faustregel: Ist ein metrisches Merkmal annähernd normalverteilt (d.h., das Histogramm hat ungefähr die Form einer Gaußschen Glockenkurve) mit Mittelwert x und Standardabweichung σ, so finden sich im Intervall x ∈ [x − σ, x + σ] circa 68 Prozent der Merkmalsträger im Intervall x ∈[x − 2σ, x + 2σ] circa 95 Prozent der Merkmalsträger im Intervall x ∈[x − 3σ, x + 3σ] circa 99.7Prozent der Merkmalsträger Merksatz 1.2.3.8. Für jede beliebige Verteilung gilt die wesentlich vorsichtigere Schätzung nach der Chebychev-Ungleichung (sprich: Tschebischeff): Ist k > 1, so findet sich auf jeden Fall im Intervall x ∈ [x − kσ, x + kσ] mindestens der Anteil 1 − k12 der Merkmalsträger. Beispiel 1.2.3.9. Das Gewicht von Äpfeln einer gewissen Sorte hat einen Mittelwert von 160 g bei einer Standardabweichung von 30 g. Welcher Anteil der Äpfel liegt in der Gewichtsklasse von 100–220 g? Sind Äpfel mit weniger als 70 g Gewicht häufig? 1.2. KENNZAHLEN 29 Diskussion: Wenn wir davon ausgehen dürfen, dass das Gewicht der Äpfel annähernd normalverteilt ist, können wir die Faustregel verwenden. Im Bereich x ± 2σ = 160 ± 60 liegen circa 95% der Äpfel. Ein Apfel mit 70 g weicht vom Mittelwert um das Dreifache der Standardabweichung ab, das ist nach der Faustregel schon sehr selten, nämlich ca. 0.3%, und davon liegt wieder etwa nur die Hälfte unter 70 g und die andere Hälfte über 250 g. Wenn die Faustregel gilt, sind nur ca. 0.15% der Äpfel leichter als 70 g. Wenn das Gewicht der Äpfel nicht normalverteilt ist (z.B. Mischung einer großen und einer kleinen Sorte, sodass viele sehr große und viele sehr kleine Äpfel dabei sind), haben wir nur die Chebychev-Ungleichung. Im Bereich x ± 2σ = 160 ± 60 liegen auf jeden Fall mindestens 1 − 14 = 75% der Äpfel. Immerhin ein Neuntel aller Äpfel kann im Gewicht um das Dreifache der Standardabweichung vom Mittelwert entfernt sein. ¤ Methode 1.2.3.10. Gegeben sei ein Merkmal mit seinem Mittelwert x und seiner Standardabweichung σ(x). Um festzustellen, ob eine Ausprägung x eher häufig oder selten ist, standardisieren wir den Wert der Ausprägung: x−x z= σ(x) Nach der Faustregel kommen Werte von z außerhalb von [−2, 2] in circa 5% aller Fälle, außerhalb von [−3, 3] nur in 0.3% aller Fälle, und Werte von z außerhalb von [−4, 4] extrem selten vor. Voraussetzung für die Anwendung der Faustregel ist, dass das Merkmal annähernd normalverteilt ist. Nach der Chebychev-Ungleichung kommen Werte von z außerhalb von [−2, 2] in höchstens 25% aller Fälle, außerhalb von [−3, 3] höchstens in 1/9 ≈ 11% aller Fälle, und auërhalb von [−4, 4] in höchstens 1/16 = 6.25% aller Fälle vor. Beispiel 1.2.3.11. Im Rahmen von vielen Messungen wurde die Schadstoffbelastung eines Gewässers mit einem bestimmten Schadstoff mit durchschnittlich 5 mg/l bei einer Standardabweichung von 0.2 mg/l angegeben. Sind Messungen von 6 mg/l ungewöhnlich? Diskussion: Wir standardisieren: 6−5 =5 0.2 Eine Messung von 6 mg/l weicht vom Mittelwert um das Fünffache der Standardabweichung ab. Das kommt nur sehr selten vor. ¤ z= In der Ausgabe von Statistikprogrammen und in den Rezepten statistischer Schätzer und Tests werden Sie oft dem folgenden Begriff begegnen: Definition 1.2.3.12. Wird die Varianz eines metrischen Merkmals aus einer Stichprobe von n Merkmalsträgern berechnet, so sagt man, diese Varianz hat n − 1 Freiheitsgrade. Diese Sprechweise überträgt sich auch auf weitere aus dieser Varianz hergeleiteten Größen. Diskussion: Warum n − 1 und nicht n? Überlegen wir, aus wievielen unabhängigen Daten die Varianz hochgerechnet wird. Die Zahlen (x1 − x), · · · , (xn − x), aus denen die Varianz als Mittelwert der Quadrate berechnet wird, sind nämlich nicht unabhängig. Wenn die ersten n − 1 von diesen Werten bekannt sind, kann man sich den letzten ausrechnen, denn alle zusammen summieren sich auf Null. Das liegt daran, dass x genau der Mittelwert ist: n n X X xi − nx = nx − nx = 0. (xi − x) = i=1 i=1 Damit bleiben nur n − 1 unabhängige Größen über. ¤ 30 1. BESCHREIBENDE STATISTIK Beispiel 1.2.3.13. Zum Vergleich der Varianzen zweier Gesamtheiten entnimmt man jeder Gesamtheit eine Stichprobe und schätzt daraus die Varianz der Gesamtheit. Sei n1 der Stichprobenumfang der ersten Stichprobe, und s21 die geschätzte Varianz der ersten Gesamtheit, analog n2 und s22 . Aus dem Verhältnis F = s21 /s22 zieht man Schlüsse über das Verhältnis der beiden Varianzen. Da F aus Varianzen von Stichproben errechnet wurde, hat F Freiheitsgrade. Welche Freiheitsgrade hat F? Diskussion: s21 hat n1 − 1 Freiheitsgrade, und s22 hat n2 − 1 Freiheitsgrade. Man sagt, F hat n1 − 1 Freiheitsgrade des Zählers und n2 − 1 Freiheitsgrade des Nenners. Diese Information ist wichtig, wenn wir den Wert von F aus der Stichprobe mit den Perzentilen einer geeigneten Verteilung, der F-Verteilung (die wir noch kennen lernen werden) vergleichen. Es gibt nämlich in Wirklichkeit eine ganze Familie verschiedener F-Verteilungen, eine für jedes Paar von Freiheitsgraden des Zählers und des Nenners. ¤ Was Sie jetzt können: Begriffe und Wissen: Streuung, Bedeutung der Streuung für die Interpretation von Daten, Varianz, Standardabweichung, Freiheitsgrade. Methoden: Berechnung von Varianz und Standardabweichung. Interpretation der Standardabweichung eines Datensatzes. Standardisierung. 1.2.4. Weitere Kennzahlen auf Grundlage von Summationen. Übersicht: 1. Variationskoeffizient 2. Schiefe und Kurtosis 1.2.4.1. Variationskoeffizient. Man wird oft erwarten, dass Merkmale, die an sich große Ausprägungen zeigen, auch größere Werte der Streuung haben. Aus diesem Grund hat man den Variationskoeffizienten eingeführt, der die Standardabweichung in Relation zur Größe des Mittelwertes setzt: Definition 1.2.4.1. Sei x ein metrisches Merkmal mit Mittelwert x 6= 0 und Standardabweichung σ(x) in einer bestimmte Gesamtheit (kann auch eine Stichprobe sein). Der Variationskoeffizient von x innerhalb dieser Gesamtheit ist cV (x) = σ(x) |x| Beispiel 1.2.4.2. Zwei Käferarten wurden der Länge nach vermessen. Es ergaben sich folgende Tabellen: Art 1 Art 2 Mittelwert 12 mm 52 mm Standardabweichung 2 mm 4 mm Vergleichen Sie Mittelwert und Streuung der Längen dieser Tiere. 1.2. KENNZAHLEN 31 Diskussion: Zunächst stellen wir fest, dass die beiden Arten sehr verschieden groß sind. Die erste Art mit mittlerer Länge 12 mm ist ein ansehnlicher Käfer, aber die zweite Art ist im Mittel über 4 mal so lang. Es handelt sich um eine sehr eindrucksvolle Käferart! Eine grobe Interpretation der Standardabweichung gibt: Etwa 95% der Käfer der ersten Art sind zwischen 8 und 16 mm lang, etwa 95% der Käfer der zweiten Art sind zwischen 44 und 60 mm lang. Es ist keine Überraschung, dass die größere Art auch größerer Streuung in den Längen aufweist. Vergleichen wir aber die Variationskoeffizienten: Art 1 12 mm 2 mm 2/12 ≈ 1.67 Mittelwert Standardabweichung Variationskoeffizient Art 2 52 mm 4 mm 4/52 ≈ 0.77 Relativ gesehen, im Vergleich zur Größe, streuen die Längen der zweiten Art deutlich weniger als die der ersten Art. ¤ 1.2.4.2. Schiefe und Kurtosis. Mittelwert und Varianz werden mit den Potenzen 1 und 2 ausgerechnet. Baut man ähnliche Formeln für höhere Potenzen, so erhält man die sogenannten höheren Momente einer Verteilung. Sie geben Auskunft über die Form der Verteilung. Die folgenden Formeln müssen Sie sich nicht merken, aber Sie sollten wissen, wie die Maße Schiefe und Kurtosis, die wir jetzt einführen, interpretiert werden. Definition 1.2.4.3. In einer Gesamtheit (kann eine Stichprobe sein) sei ein metrisches Merkmal x mit den möglichen Ausprägungen x1 , · · · , xm und dazugehörigen relativen Häufigkeiten f1 , · · · , fm vertreten. Der Mittelwert von x innerhalb dieser Gesamtheit sei x, und die Standardabweichung sei σ(x). Die Schiefe von x ist definiert durch m 1 X fi (xi − x)3 3 σ (x) i=1 Die Kurtosis von x ist definiert durch m 1 X fi (xi − x)4 4 σ (x) i=1 Den Exzess bestimmt man aus der Kurtosis durch Subtraktion von 3: m 1 X fi (xi − x)4 − 3 σ 4 (x) i=1 Analoge Definitionen für Schiefe, Kurtosis und Exzess können auch für Zufallsvariablen gegeben werden. Merksatz 1.2.4.4. Interpretation der Schiefe: > 0: Linksgipfelige Verteilung, kleine Streuung im unteren Bereich, hohe Streuung oberhalb des Mittelwertes. = 0: Die Verteilung streut annähernd symmetrisch um den Mittelwert. < 0: Rechtsgipfelige Verteilung, große Streuung im unteren Bereich, kleine Streuung im oberen Bereich. 32 1. BESCHREIBENDE STATISTIK Interpretation der Schiefe Merksatz 1.2.4.5. Interpretation des Exzesses: Die Varianz eines Merkmals kann zustande kommen, indem die meisten Daten eine mäßige Abweichung vom Mittelwert aufweisen. Dieselbe Varianz kann aber auch entstehen, indem viele Daten sehr stark vom Mittelwert abweichen, und dafür viele Daten ganz nahe am Mittelwert liegen. Der Exzess gibt darüber Auskunft, und zwar: > 0: Sehr kleine und sehr große Abweichungen vom Mittelwert sind häufig. Daher ein steiler, spitzer Gipfel, relativ wenig Daten im Bereich mittelgroßer Streuung, und lange, dicke “Schwänze” im Bereich hoher Streuung. = 0: z.B. Normalverteilung < 0: Mittelgroße Abweichungen vom Mittelwert sind häufig. Stumpfer, breiter Gipfel, dann relativ schnell fallende Schultern und dünne Schwänze. (Die Zahl 3 in der Definition des Exzesses ist gerade die Kurtosis der Normalverteilung. Damit ist der Exzess so definiert, dass die Normalverteilung gerade bei Null liegt.) Tipp 1.2.4.6. Vorsicht, manche Autoren verwenden auch das Wort Exzess für das, was wir Kurtosis genannt haben, und umgekehrt. SPSS rechnet unter der Bezeichnung “Schiefe” und “Kurtosis” modifizierte Formeln, die aber auch im Sinne von Merksatz refs:schiefe intepretiert werden können. Insbesondere ist auch bei SPSS die Schiefe symmetrischer Verteilungen gleich Null, und die Kurtosis der Normalverteilung gleich Null. 1.2. KENNZAHLEN 33 Interpretation der Kurtosis Tipp 1.2.4.7. Schiefe und Exzess werden unter dazu verwendet, ob Daten annähernd normalverteilt sind (also die Histogramme annähernd die Form der Gaußschen Glockenkurve haben). Weichen Schiefe und Exzess einer Stichprobe weit von Null ab, sind die Daten auch in der Grundgesamtheit, der die Stichprobe entnommen ist, voraussichtlich nicht normalverteilt. Das ist deshalb wichtig zu beurteilen, weil viele Verfahren der Statistik nur für normalverteilte Daten funktionieren. Was Sie jetzt können: Begriffe und Wissen: Variationskoeffizient, Schiefe, Kurtosis, Exzess 1.2.5. Kennzahlen für nominale Daten. Übersicht: 1. Modal und Diversität 2. Kreuztabellen 3. Unabhängigkeit von Merkmalen 1.2.5.1. Modal und Diversität. Definition 1.2.5.1. Sei x ein Merkmal. Der Modal von x ist jene Ausprägung, die am häufigsten angenommen wird. Kommen mehrere Ausprägungen ex aequo auf die größte absolute Häufigkeit, so ist jede dieser Ausprägungen ein Modal von x, und x besitzt mehrere Modale. Modale lassen sich natürlich für alle Merkmale definieren: Nominale, ordinale und metrische. 34 1. BESCHREIBENDE STATISTIK Beispiel 1.2.5.2. Bei der Untersuchung des Kleinräuber-Bestandes eines Ökosystems wurden gezählt Art Anzahl Marder 5 Iltis 2 Wiesel 5 Mauswiesel 4 Wo liegt der Modal dieser Stichprobe? Diskussion: Das Merkmal ist “Tierart”, ein nominales Merkmal in vier möglichen Ausprägungen. Die größte absolute Häufigkeit in dieser Stichprobe ist 5 und wird zweimal angenommen. Die beiden Modale sind “Marder” und “Wiesel”. ¤ Um die “Streuung” eines nominalen Merkmals zu beurteilen, kann man sich nur fragen, ob eine der Ausprägungen fast alle Merkmalsträger auf sich konzentriert, oder ob alle Ausprägungen ungefähr gleich häufig sind. Je gleichmäßiger sich die Merkmalsträger auf je mehr Ausprägungen verteilen, desto größer ist die Diversität des Merkmals. Definition 1.2.5.3. Sei x ein nominales Merkmal mit den möglichen Ausprägungen x1 , · · · , xm , und ihren absoluten Häufigkeiten a1 , · · · , am und relativen Häufigkeiten f1 , · · · , fm innerhalb einer Gesamtheit aus n Merkmalsträgern (kann eine Stichprobe sein). Der Diversitätsindex von x innerhalb dieser Gesamtheit ist m m X 1X H=− fi ln(fi ) = ln(n) − ai ln(ai ). n i=1 i=1 Die Eveness nach Shannon–Wiener ist H E= ln(m) (Für die Eveness verwendet man auch die Schreibweise E = Hkorr : “korrigierter Diversitätsindex”.) Merksatz 1.2.5.4. Sei x ein nominales Merkmal mit m verschiedenen möglichen Ausprägungen. Der Diversitätsindex kann Werte zwischen 0 und ln(m) annehmen, dabei gilt: H = ln(m) falls alle Ausprägungen gleich häufig, also mit relativer Häufigkeit 1/m vorkommen. H = 0 falls eine Ausprägung allein vorkommt, das heißt, eine relative Häufigkeit ist 1, dafür sind alle anderen relativen Häufigkeiten Null. Die Eveness ist so umskaliert, dass sie Werte zwischen 0 und 1 annimmt. Beispiel 1.2.5.5. In Hessen und Sachsen wurden Stichproben von Kleinräubern erhoben. Die Ergebnisse finden sich in folgender Tabelle: Art Marder Wiesel Iltis Mauswiesel gesamt Hessen Sachsen 5 34 5 2 5 2 5 2 20 40 In welchem Bundesstaat ist die Diversität der Kleinräuber größer? 1.2. KENNZAHLEN 35 Diskussion: Auf ersten Blick hat Sachsen (zumindest die dortige Stichprobe) die kleinere Diversität: Man kann etwas überspitzt sagen, die Kleinräuberpopulation setzt sich in erster Linie aus Mardern zusammen, mit kleinen Einstreuungen anderer Arten. Dagegen verteilt sich in Hessen die Population gleichmäßig auf vier Arten. Damit erwarten wir für Hessen eine Eveness von 1 (exakt), und für Sachsen eine Eveness deutlich kleiner als 1. Es folgt die genaue Rechnung: Art Marder Iltis Wiesel Mauswiesel Diversitätsindex / ln(4) Eveness fi 0.25 0.25 0.25 0.25 Hessen − ln(fi ) −fi ln(fi ) 1.3863 0.3466 1.3863 0.3466 1.3863 0.3466 1.3863 0.3466 1.3863 /1.3863 1.000 fi 0.85 0.05 0.05 0.05 Hessen − ln(fi ) −fi ln(fi ) 1.6252 0.1381 2.9957 0.1498 2.9957 0.1498 2.9957 0.1498 0.5875 /1.3863 0.4238 ¤ 1.2.5.2. Kreuztabellen. Beispiel 1.2.5.6. Eine Kosmetikfirma überprüft die Akzeptanz ihrer Hautcremes. 40 ProbandInnen, je 20 von dunklem und hellem Hauttyp, hatten drei verschiedene Präparate A,B,C zu testen und sich letztlich für eines davon zu entscheiden. Es ergab sich folgende Tabelle: Bevorzugte Creme A B C Hauttyp hell 8 8 dunkel 12 8 gesamt 20 16 4 0 4 gesamt 20 20 40 Die obige Tabelle ist eine Kreuztabelle: Definition 1.2.5.7. Betrachtet werden nominale Merkmale mit jeweils k beziehungsweise m möglichen Ausprägungen: x1 , · · · , xk bzw. y1 , · · · , ym . Die Häufigkeiten dieser Ausprägungen können in einer k × m-Kreuztabelle dargestellt werden: Im Kern der Tabelle befinden sich k Zeilen und m Spalten, in diesen steht die gemischte Häufigkeitsverteilung: Jede Zeile entspricht einer Ausprägung xi . Jede Spalte entspricht einer Ausprägung yj . Am Schnittpunkt der Zeile i mit der Spalte j steht die Häufigkeit, mit der das Paar von Ausprägungen (xi , yj ) angenommen wird. Am rechten und unteren Rand der Tabellen stehen die Randverteilungen: Am rechten Rand der Tabelle befinden sich die Zeilensummen: In der i-ten Zeile am Rand steht die Häufigkeit, mit der die Ausprägung xi angenommen wird. Am unteren Rand der Tabelle befinden sich die Spaltensummen: In der j-ten Spalte am Rand steht die Häufigkeit, mit der die Ausprägung yj angenommen wird. In der rechten unteren Ecke steht der Umfang der Gesamtheit, die in der Tabelle erfasst wurde. Kreuztabellen können für absolute und relative Häufigkeiten angelegt werden. 36 1. BESCHREIBENDE STATISTIK Beispiel 1.2.5.8. Wie sieht die Kreuztabelle der relativen Häufigkeiten für Beispiel 1.2.5.6 aus? Diskussion: Alle Häufigkeiten sind durch den Stichprobenumfang n = 40 (dieser befindet sich im rechten unteren Eck der Kreuztabelle der absoluten Häufigkeiten) dividiert: Bevorzugte Creme A B C Hauttyp hell dunkel gesamt 0.2 0.3 0.5 0.2 0.2 0.4 gesamt 0.1 0.0 0.1 0.5 0.5 1.0 ¤ 1.2.5.3. Unabhängigkeit von Merkmalen. Besteht zwischen zwei nominalen Merkmalen X, Y ein statistischer Zusammenhang? Unabhängigkeit bedeutet, dass Kenntnis eines Merkmals keinerlei Information über das andere Merkmal beiträgt. Das heißt, dass die Wahrscheinlichkeitsverteilung der Ausprägungen xi von X nicht davon abhängt, welche Ausprägung yj von Y ein Merkmalsträger hat. Sind x1 , · · · , xk die Ausprägungen von X mit den Wahrscheinlichkeiten p1 , · · · , pk , und sind y1 , · · · , yk die Ausprägungen von Y mit den Wahrscheinlichkeiten q1 , · · · , qm , so sieht im Fall der Unabhängigkeit die Tabelle der relativen Häufigkeiten der verschiedenen Kombinationen von X und Y folgendermaßen aus: x1 x2 .. . y1 p 1 q1 p 2 q1 .. . y2 p1 q2 p2 q2 .. . ··· ··· ··· ym p1 qm p2 qm .. . gesamt p1 p2 .. . xk gesamt pk q1 q1 pk q2 q2 ··· ··· pk qm qm pk 1 Beispiel 1.2.5.9. Wie sehen die gemischten absoluten Häufigkeiten der folgenden Kreuztabelle aus, wenn die beiden Merkmale unabhängig sind: Bevorzugte Creme A B C Hauttyp hell dunkel gesamt 20 16 gesamt 4 20 20 40 Diskussion: Der Stichprobenumfang ist 40. Die relative Häufigkeit des hellen Hauttyps ist 20 = 0.5, 40 20 = 0.5. Damit wäre bei Unabhängigkeit die die relative Häufigkeit der bevorzugten Creme A ist 40 relative Häufigkeit der Kombination “heller Hauttyp bevorzugt Creme A” 0.5×0.5 = 0.25. Die absolute Häufigkeit ergibt sich durch die Multiplikation mit dem Stichprobenumfang: 0.25 × 40 = 10. Zusammenfassend wurde die folgende Rechnung durchgeführt, aus der sich der Stichprobenumfang einmal kürzen lässt: 20 20 × 20 20 × × 40 = . 40 40 40 Wir erhalten also die Rechenregel Zeilensumme × Spaltensumme Stichprobenumfang Die vollständig ergänzte Tabelle ist 1.2. KENNZAHLEN 37 Bevorzugte Creme A B C Hauttyp hell dunkel gesamt 10 10 20 8 8 16 gesamt 2 2 4 20 20 40 ¤ Natürlich werden die relativen Häufigkeiten einer Stichprobe, auch von unabhängigen Merkmalen, nicht exakt diese Multiplikationsregel erfüllen. Wir führen Maßzahlen ein, welche ausdrückt, wie weit die Daten einer Kreuztabelle von Unabhängigkeit entfernt sind. Definition 1.2.5.10. Gegeben sei eine m×n-Kreuztabelle mit absoluten Häufigkeiten bi,j für zwei nominale Merkmale mit den Ausprägungen x1 , · · · , xk und y1 , · · · , ym . Jede Zeile entspricht einer Ausprägung xi , jede Spalte entspricht einer Ausprägung yj . Die Randhäufigkeiten seien zi (die Zeilensummen) und sj (die Spaltensummen). Die Maßzahl χ2 zur Beurteilung der Unabhängigkeit wird folgendermaßen berechnet: 1) Die erwarteten Häufigkeiten sind zi sj eij = . n 2) Berechnung von χ2 : χ2 = k X m k X m X X b2ij (bij − eij )2 = − n. eij e i=1 j=1 i=1 j=1 ij 3) Zum Zweck statistischer Tests: Die Anzahl der Freiheitsgrade von χ2 ist ν = (k − 1)(m − 1). Diskussion: Die erwarteten Häufigkeiten sind jene Häufigkeiten, welche sich aus den Randhäufigkeiten z1 , · · · , zk und s1 , · · · , sm ergeben, wenn die Merkmale tatsächlich unabhängig sind. In diesem Fall wäre bij = eij , und damit wäre χ2 = 0. Klar, dass χ2 umso größer wird, je weiter die beobachteten Häufigkeiten bij von den erwarteten Häufigkeiten eij abweichen. Damit ist χ2 ein Mass für die Abhängigkeit zwischen den beiden Merkmalen. ¤ Beispiel 1.2.5.11. Bestimmen Sie χ2 für die Kreuztabelle aus Beispiel 1.2.5.6. Diskussion: Die beobachteten Häufigkeiten sind bij hell dunkel gesamt A 8 12 20 B 8 8 16 C 4 0 4 gesamt 20 20 40 Die Tabelle der erwarteten Häufigkeiten wurde bereits in Beispiel 1.2.5.9 bestimmt: ei hell dunkel gesamt A 10 10 20 B 8 8 16 C 2 2 4 gesamt 20 20 40 Als nächstes erstellen wir die Tabelle der Beiträge zu χ2 und summieren χ2 : b2ij /eij hell dunkel gesamt −n χ2 A 6.4 14.4 20.8 B 8.0 8.0 16.0 C 8.0 0 8.0 gesamt 22.4 22.4 44.8 -40.0 4.8 38 1. BESCHREIBENDE STATISTIK Wir haben (3 − 1) × (2 − 1) = 2 Freiheitsgrade. ¤ Je größer χ2 , desto stärker entfernt sich die Tabelle von einer Tabelle statistisch unabhängiger Daten. Aber wann ist χ2 groß? Wir werden später im Rahmen der Testtheorie darauf zurückkommen. Für jetzt errechnen wir eine Maßzahl, welche leichter zu interpretieren ist: Definition 1.2.5.12. Gegeben sei eine Tabelle von absoluten Häufigkeiten bij der Kombinationen von Ausprägungen x1 , · · · , xk und y1 , · · · , ym zweier nominaler Merkmale X, Y aus einer Stichprobe des Umfanges n. Aus dieser Tabelle sei χ2 wie in Definition 1.2.5.10 berechnet. 1) Der Kontingenzkoeffizient der Tabelle ist s χ2 C= . 2 χ +n 2) Der korrigierte Kontingenzkoeffizient ist r u Ckorr = C , u−1 wobei u der kleinere der beiden Werte k, m ist. Merksatz 1.2.5.13. Der Kontingenzkoeffizient und der korrigierte Kontingenzkoeffizient sind Masszahlen für die Abhängigkeit zwischen X und Y . Kontingenzkoeffizient 0 bedeutet perfekte Unabhängigkeit der Daten aus den Stichproben. Der korrigierte Kontingenzkoeffizient ist so skaliert, dass er als höchsten Wert exakt 1 annehmen kann. Beispiel 1.2.5.14. Bestimmen Sie χ2 , den Kontingenzkoeffizienten und den korrigierten Kontingenzkoeffizienten der folgenden Tabelle. Wie würden Sie die Unabhängigkeit der Merkmale einschätzen? x1 x2 x3 gesamt y1 0 0 4 4 y2 4 0 0 4 y3 0 0 0 0 y4 0 2 0 2 gesamt 4 2 4 10 Diskussion: Zunächst stellen wir fest, dass hier ein Extremfall der Abhängigkeit vorliegt: Wenn x bekannt ist, liegt auch bereits y fest, und umgekehrt. Daher erwarten wir uns ein hohes χ2 und einen korrigierten Kontingenzkoeffizienten von 1. Wir führen nun die Rechnung durch: bij x1 x2 x3 sj eij x1 x2 x3 sj y1 0 0 4 4 y2 4 0 0 4 y3 0 0 0 0 y4 0 2 0 2 y1 1.6 0.8 1.6 4 y2 1.6 0.8 1.6 4 y3 0 0 0 0 y4 0.8 0.4 0.8 2 zi 4 2 4 10 zi 4 2 4 10 1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN b2ij /eij x1 x2 x3 gesamt −n χ2 y1 0 0 10 4 y2 10 0 0 4 y3 0 0 0 0 y4 0 10 0 2 gesamt 10 10 10 30 -10 20 Es ist also χ2 = 30 mit 6 Freiheitsgraden, r r 20 2 = ≈ 0.8165, C= 20 + 10 3 u = Minimum von 3 und 4 = 3, r 3 Ckorr = C = 1. 2 ¤ Was Sie jetzt können: Begriffe und Wissen: Modal, Diversität, Eveness, Kreuztabelle, Randverteilung, Unabhängigkeit, χ2 , Kontingenzkoeffizient. Methoden: Bestimmen und Interpretation von Diversität und Eveness, Erstellen und Lesen von Kreuztabellen, Berechnen des χ2 zur Beurteilung der Unabhängigkeit von Daten in Kreuztabellen, Berechnen des Kontingenzkoeffizienten und des korrigierten Kontingenzkoeffizienten. 1.3. Zusammenhang zwischen zwei Merkmalen Übersicht: 1. Berechnung der Regressionsgeraden 2. Vorhersage durch die Regressionsgerade und Residuen 3. Korrelation 1.3.1. Berechnung der Regressionsgeraden. Übersicht: 1. Regressionsgerade als Approximation nach kleinsten Quadraten 2. Berechnung der Regressionsgeraden 3. Interpretation der Geradenparameter 39 40 1. BESCHREIBENDE STATISTIK 1.3.1.1. Regressionsgerade als Approximation nach kleinsten Quadraten. Beispiel 1.3.1.1. Gegeben sind die Ergebnisse von 5 Experimenten, in denen jeweils gleichzeitig ein Wert x und ein Wert y bestimmt wurden. Stellen Sie eine Geradengleichung y = b0 + b1 x auf, die möglichst gut zu diesen Daten passt. Erster Schritt: Wie beurteilt man, ob eine Gerade gut zu den Daten passt? x 0 y 0 1 1 2 0 3 4 3 3 Diskussion: Das folgende Bild zeigt die Datenpunkte als schwarze Kreise in der x, y-Ebene. Ein solches Diagramm heißt Streudiagramm oder Punktwolke (engl. Scatterplot). Eingezeichnet sind mehrere Geraden. Wir beurteilen die Güte der Geraden visuell: Vergleich verschiedener Geraden zur Wiedergabe von Datenpunkten a) Gerade (a) passt bestimmt nicht optimal zu den Daten. Würde man die ganze Gerade parallel nach unten verschieben, würde der Datensatz viel besser wiedergegeben. Der Parameter b0 ist bei dieser Gerade zu hoch. b) Gerade (b) passt zwar nach der Lage besser, aber die Steigung (also der Parameter b1 ) ist zu gering. So kommt es, dass fast alle Daten für kleine x-Werte über der Geraden liegen, und dafür die Daten bei großen x-Werten unter der Geraden liegen. c) Gerade (c) passt ziemlich gut. Eine gut angepasste Gerade erkennt man daran, dass die Datenpunkte wie zufällig gleichmäßig manchmal über und manchmal unter der Geraden verstreut liegen. Für den Computer ist dieser visuelle Vergleich natürlich nicht möglich, zumindest nicht einfach. Wir suchen also ein einfaches mathematisches Kriterium für die Güte einer Geraden: In der folgenden Grafik sehen Sie wieder die Datenpunkte und eine Gerade. Wie zu erwarten, liegen die Punkte nicht exakt auf einer Geraden. Zu jedem xi gehört daher einerseits der Wert yi aus dem Datensatz, andererseits der Wert ŷi = b0 + b1 xi , der auf der Geraden über xi liegt. Die Differenz ei = yi − ŷi gibt an, wie weit die Gerade den Datenpunkt xi , yi verfehlt. Der Wert ei heißt Approximationsfehler oder Residuum. Je kleiner die Beträge der Residuen insgesamt sind, desto näher verläuft die Gerade an den Datenpunkten. 1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN 41 Approximationsfehler Daher wird eine Gerade dann besonders gut passen, wenn die Quadratsumme der Residuen möglichst klein ist. ¤ Methode 1.3.1.2 (Streudiagramm). Gegeben seien zwei metrische Merkmale und zu diesen die Ausprägungen von n Merkmalsträgern, also die Datenpaare x1 , y1 , · · · , xn , yn . In einem Streudiagramm (Punktwolke) wird jedes Datenpaar als Punkt dargestellt, mit der waagrechten Koordinate xi und der senkrechten Koordinate yi . Definition 1.3.1.3. Gegeben seine Datenpaare x1 , y1 , · · · , xn , yn von Ausprägungen zweier metrischer Merkmale, beobachtet an n Merkmalsträgern. Die Regressionsgerade durch diese Daten ist jene Gerade, deren Residuen den kleinsten quadratischen Fehler ergeben: n X (yi − ŷi )2 wird minimiert. i=1 Man sagt auch, die Regressionsgerade ist jene Gerade, die an die Daten nach dem Prinzip der kleinsten Quadrate angepasst ist. Diskussion: Es gibt einige Gründe, gerade die Quadrate der Residuen als Maß für die Anpassungsgüte heranzuziehen. (Man könnte ja auch, z.B., den größte Absolutbetrag unter den Residuen, oder die Summe der vierten Potenzen verwenden). Zunächst führen die Quadrate auf besonders einfache Formeln, sodass man die Regressionsgerade auch mit Bleistift und Papier berechnen kann, wenn es sein muss. Andererseits ist die Regressionsgerade unter bestimmten statistischen Voraussetzungen die beste Schätzung, diese werden wir später unter dem Titel Lineare Regression noch genauer diskutieren. Letztlich ist die Quadratsumme der Residuen ein Kompromiss, was die Robustheit betrifft. Die Summe der Beträge der Residuen würde auf Ausreisser fast gar nicht reagieren, während der größte Betrag der Residuen äußerst sensibel auf Ausreisser ist. ¤ Beispiel 1.3.1.4. Die folgende Grafik zeigt die Punktwolke eines mittelgroßen Datensatzes. An 192 ProbandInnen wurden (unter anderem) Calcium- und Magnesiumspiegel im Blut gemessen. Anschließend erfolge leichte körperliche Belastung 42 1. BESCHREIBENDE STATISTIK durch Fahrradergometrie, und dann wurden die Elektrolyte neuerlich bestimmt. Die Grafik zeigt in x-Richtung den Ca-Spiegel vor dem Belastungsversuch, in yRichtung die Verschiebung des Mg-Spiegels durch den Versuch. (Daten von S. Porta.) Das Statistikprogramm hat die bestmögliche Gerade durch die Daten gelegt. Die Datenpunkte wirken wie zufällig über und unter der Geraden verstreut. Die Gerade zeigt einen leicht fallenden Trend. Je mehr Ca die ProbandInnen im Ruhezustand im Blut haben, desto eher tendieren sie zu einer Abwärtsverschiebung des Mg während des Versuches. (Es darf Sie nicht stören, dass die Magnesiumwerte waagrecht wie Ketten “aufgereiht” erscheinen, dies liegt daran, dass die Messungen auf 0.01 mmol/L genau erfolgt sind, sodass die Datenpunkte stets auf ganzzahligen Vielfachen von 0.01 liegen.) 0.1 0.15 0.08 0.1 0.05 0.06 0 0.04 −0.05 0.02 −0.1 0 −0.02 −0.04 −0.06 0.95 1 1.05 1.1 1.15 1.2 1.25 Regression vom Calciumspiegel auf die Verschiebung des Mg-Spiegels bei leichter Belastung 1.3.1.2. Berechnung der Regressionsgeraden. Beispiel 1.3.1.5. Berechnen Sie die Regressionsgerade zu den Daten aus Beispiel 1.3.1.1: x 0 y 0 1 1 2 0 3 4 3 3 Diskussion: Zur Berechnung der Regressionsgeraden erstellen wir eine Tabelle der n = 5 Daten x1 , · · · , x5 und y1 , · · · , y5 . Wir bestimmen zunächst die Stichprobenmittelwerte x von x und y von y, und bilden anschließend, wie zur Berechnung der Varianzen, die Summen SSX = n X (xi − x)2 , i=1 n X SSY = (yi − y)2 , i=1 n X SXY = (xi − x)(yi − y). i=1 (SSX steht für “sum of squares: X”, Quadratsumme für X. SSY steht für “sum of squares Y”. Dividiert man SSX und SSY durch n − 1 = 4, erhält man, wie wir bereits wissen, Schätzwerte für die Varianz von x und von y. Dividiert man SXY durch n, erhält man die Kovarianz zwischen x und y, über die wir im nächsten Abschnitt mehr erfahren werden.) 1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN Summe gemittelt Daten xi yi 0 0 1 1 2 0 3 3 4 3 10 7 2 =x xi − x -2 -1 0 1 2 yi − y -1.4 -0.4 -1.4 1.6 1.6 Statistik der Daten (xi − x)2 (yi − y)2 4 1.96 1 0.16 0 1.96 1 2.56 4 2.56 10 9.20 = SSX = SSY 43 (xi − x)(zi − y) 2.8 0.4 0 1.6 3.2 8.0 = SXY 1.4 =y Wir bestimmen nun die Koeffizienten der Regressionsgeraden und den sogenannten Korrelationskoeffizienten mit folgenden Formeln: SXY 8 = = 0.8, SSX 10 b0 = y − b1 x = 1.4 − 0.8 · 2 = −0.2, b1 = SXY 8.0 r= √ = √ = 0.834. 10.0 · 9.2 SSX · SSY Damit erhalten wir als Regressionsgerade die Gerade y = 0.8x − 0.2. Auf die Bedeutung des Korrelationskoeffizienten kommen wir noch zu sprechen. Die folgende Grafik zeigt die Daten mit der Regressionsgeraden (rot) und den Residuen, also den Abweichungen der Datenpunkte von der Gerade (blau). 4 3.5 3 2.5 2 1.5 ¤ 1 0.5 0 −0.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 Daten und Regressionsgerade von Beispiel 1.3.1.1 Methode 1.3.1.6 (Regressionsgerade). Gegeben seien die Datenpaare x1 , y1 , · · · , xn , yn . Gesucht ist die Regressionsgerade y = b0 + b1 x, sowie der Korrelationskoeffizient r. 44 1. BESCHREIBENDE STATISTIK Die Parameter der Regressionsgeraden werden mit folgenden Formeln ermittelt: n x= 1X xi , n i=1 y= 1X yi , n i=1 n SSX = SSY = n X (xi − x)2 (= i=1 i=1 n X n X (yi − y)2 (= i=1 SXY = n X n X x2i − n(x)2 ), yi2 − n(y)2 ), i=1 (xi − x)(yi − y)(= i=1 n X xi yi − nx̄ȳ), i=1 SXY , SSX b0 = y − b1 x, SXY r= √ . SSX · SSY b1 = Die folgende Variante liefert dasselbe Ergebnis: Methode 1.3.1.7 (Alternative zur Berechnung der Regressionsgeraden). Gegeben seien die Datenpaare x1 , y1 , · · · , xn , yn . Gesucht ist die Regressionsgerade y = b0 + b1 x, sowie der Korrelationskoeffizient r. Die Parameter der Regressionsgeraden werden mit folgenden Formeln ermittelt: n x= 1X xi , n i=1 y= 1X yi , n i=1 n n σx2 = 1X 2 1 x − x2 (= SSX, Varianz von x), n i=1 i n σy2 = 1 1X (yi − y)2 (= SSY, Varianz von y), n i=1 n n n Cov(x, y) = 1X 1 xi yi − xy(= SXY, Kovarianz von x und y), n i=1 n Cov(x, y) , σx2 b0 = y − b1 x, b1 = Cov(x, y) . r= q σx2 σy2 Diskussion: Mit dieser Variante sieht die Berechnung der Regressionsgeraden für Beispiel 1.3.1.1 folgendermaßen aus: 1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN xi 0 1 2 3 4 10 2 =x Summe: dividiert durch n = 5 Abzüge: x2i 0 1 4 9 16 30 6 yi2 0 1 0 9 9 19 3.8 xi yi 0 1 0 9 12 22 4.4 -4 2 = σx2 -1.96 1.84 = σy2 -2.8 1.6 = Cov(x, y) yi 0 1 0 3 3 7 1.4 =y 45 Und nun werden die Parameter fertig berechnet: b1 = b0 = r = 1.6 = 0.8, 2 1.4 − 0.8 × 2 = −0.2, 1.6 √ = 0.834. 2 × 1.84 ¤ 1.3.1.3. Interpretation der Geradenparameter. Merksatz 1.3.1.8. Die Parameter b0 , b1 einer Geraden y = b0 + b1 x haben folgende Bedeutung: b0 : gibt den Schnittpunkt der Geraden auf der y-Achse an. Vergrösserung von b0 bewirkt, dass die Gerade in y-Richtung parallelverschobe wird. b1 : gibt die Steigung der Geraden an. Je größer b1 , desto steiler die Gerade. Schreitet man in x-Richtung um h Einheiten fort, steigt die Gerade um b1 h Einheiten an. Negative b1 bedeutet, dass die Gerade fällt. Interpretation der Parameter einer Geraden Beispiel 1.3.1.9. Für Beispiel 1.3.1.1 wurde die Regressionsgerade y = −0.2 + 0.8x errechnet. Was kann aus diesen Daten abgelesen werden? 46 1. BESCHREIBENDE STATISTIK Diskussion: Der Parameter b0 = −0.2 sagt, dass die Regressionsgerade durch den Punkt x = 0, y = −0.2 läuft. Das ist letztlich eine Angabe, wie hoch ungefähr die y-Werte liegen, und weniger informativ als der Mittelwert y = 1.4. In der linearen Regression spielt b0 meist nur die Rolle eines Zwischenergebnisses. Wichtiger ist aber die Interpretation von b1 = 0.8, denn dieser Parameter gibt einen Zusammenhang zwischen x und y an. Da b1 positiv ist, schließen wir, dass im Allgemeinen mit steigendem x auch der Wert von y ansteigt. Steigt x um eine Einheit an, so vergrößert sich im Durchschnitt y um 0.8 Einheiten. Natürlich ist das nur ein allgemeiner Trend, denn tatsächlich liegen die Daten ja nicht exakt auf der Geraden. ¤ Merksatz 1.3.1.10. Wird der Zusammenhang zweier metrischer Merkmale durch eine Regressionsgerade y = b0 + b1 x wiedergegeben, so drückt der Parameter b1 einen Trend aus: Steigt x um eine Einheit, so steigt im Durchschnitt y um b1 Einheiten. Insbesondere bedeutet: b1 > 0 Zu größeren x gehören im Allgemeinen auch größere y. b1 < 0 Zu größeren x gehören im Allgemeinen kleinere y. Bei der Interpretation ist aber zu bedenken, dass die Daten möglicherweise durch eine Gerade gar nicht gut wiedergegeben werden können. Was Sie jetzt können: Begriffe und Wissen: Regressionsgerade, Streudiagramm, Methode der kleinsten Quadrate. Methoden: Berechnung der Regressionsgeraden, Interpretation der Geradenparameter. 1.3.2. Vorhersage durch die Regressionsgerade und Residuen. Übersicht: 1. 2. 3. 4. Vorhersagen mit der Regressionsgeraden Residuen und Schwankungen Warum spricht man von “erklärter Schwankung”? Die Wichtigkeit der grafischen Darstellung 1.3.2.1. Vorhersagen mit der Regressionsgeraden. Die Regressionsgerade ist ein mathematisches Modell, eine Formel, mit der man versucht, die Daten in vereinfachter Weise darzustellen. Wenn nun ein neuer Datenwert x betrachtet wird, liefert die Formel einen Wert für y: Wir können das mathematische Modell dazu verwenden, Vorhersagen zu treffen. Beispiel 1.3.2.1. Gegeben seien die Daten für x und y aus Beispiel 1.3.1.1. Welchen Wert würden Sie für y vorhersagen, wenn x = 2.5? Welches y erwarten Sie bei x = 50? 1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN 47 Diskussion: Mit Hilfe der Regressionsgeraden haben wir eine Näherungsformel für den Zusammenhang zwischen x und y gefunden. Zum Beispiel kennen wir für x = 2.5 keinen Wert von y. Die Geradengleichung würde aber als “vorausgesagten Wert” den Wert ŷ = 0.8·2.5−0.2 = 1.8 ergeben. Für x = 50 erhalten wir ŷ = 0.8 · 50 − 0.2 = 39.8. Unsere Vorhersagen sind aber mit Vorsicht zu verwenden. Zunächst wissen wir, dass ja auch die gegebenen Daten nicht exakt auf einer Geraden liegen. Wir müssen damit rechnen, dass auch das Ergebnis eines Versuches mit x = 2.5 nicht exakt den y-Wert ergeben wird, den die Gerade vorhersagt. Der Wert ŷ = 1.8 ist nur die bestmögliche Vorhersage, die wir aus der bisher vorliegenden Information treffen können. Noch problematischer ist die Vorhersage bei x = 50. Der Satz der bekannten Daten liegt zwischen x = 0 und x = 4. Es ist sehr fraglich, ob der Trend, der sich in diesem Bereich näherungsweise abzeichnet, noch bis zu x = 50 anhält. Auch würde eine ganz kleine Änderung des Wertes von b1 bereits den vorhergesagten Wert ŷ stark beeinflussen, wodurch diese Vorhersage selbst dann ziemlich unsicher ist, wenn tatsächlich bis zu x = 50 annähernd eine Gerade angenommen wird. Die folgende Grafik zeigt die Regressionsgerade und den vorhergesagten Wert für x = 50 mit den Daten aus Beispiel 1.3.1.1 (blau, Kreise), sowie den gleichen Daten, wobei nur der letzte y-Wert der Daten von 3 auf 3.5 abgeändert wurde (rot, Sterne). Der Punkt x = 50 wirkt an der Regressionsgerade wie das Ende eines langen Hebels, er hat einen hohen “Hebelwert” (“Leverage”). 50 40 30 20 ¤ 10 0 −10 −10 0 10 20 30 40 50 60 Auswirkung kleiner Änderungen der Daten im Bereich x = 0 · · · 5, auf eine Vorhersage für x = 50 Methode 1.3.2.2 (Voraussage mittels der Regressionsgeraden). Aus einem bestehenden Satz von Datenpaaren x1 , y1 , · · · , xn , yn soll ein Wert für y vorhergesagt werden, für den Fall dass x = x0 . Wir treffen die Voraussage ŷ = b0 + b1 x0 . Dabei sind b0 und b1 die Koeffizienten der Regressionsgeraden, die aus den Daten x1 , y1 , · · · , xn , yn berechnet wird. Diese Methode ist nur brauchbar, wenn die Datenpunkte xi , yi annähernd auf einer Geraden liegen, und der Wert x0 nicht zu weit vom Intervall entfernt liegt, welches durch x1 , · · · , xn abgedeckt wird. Merksatz 1.3.2.3. Für den Mittelwert x̄ sagt die Regressionsgerade genau den Mittelwert ȳ voraus. 1.3.2.2. Residuen und Schwankungen. Beispiel 1.3.2.4. Wir vergleichen jetzt die Werte yi des Datensatzes aus Beispiel 1.3.1.1 mit den Werten, welche die Regressionsgerade für die entsprechenden xi vorhersagen würde: ŷi = b0 + b1 xi . 48 1. BESCHREIBENDE STATISTIK Diskussion: In der Abbildung zu Beispiel 1.3.1.1 sind die Datenpaare xi , ŷi als rote Kreise auf der Regressionsgerade eingezeichnet. Die folgende Tabelle zeigt noch einmal die Werte der Datenpunkte, sowie die vorausgesagten Werte ŷi . Wir sehen, dass die Mittelwerte von y und ŷ gleich sind. Besonders interessant sind die Abweichungen der Vorhersage von den gegebenen Daten, die sogenannten Residuen ei = yi − ŷi . Diese Abstände sind in der Illustration zu Beispiel 1.3.1.1 blau eingezeichnet. Je geringer die Residuen sind, desto besser passt die Gerade zu den Daten. Der Mittelwert der Residuen ist immer Null. Daten vorhergesagte Werte Residuen xi yi ŷi ŷi − y (ŷi − y)2 ei = yi − ŷi e2i 0 0 -0.2 -1.6 2.56 0.2 0.04 1 1 0.6 -0.8 0.64 0.4 0.16 2 0 1.4 0.0 0.00 -1.4 1.96 3 3 2.2 0.8 0.64 0.8 0.64 4 3 3.0 1.6 2.56 0.0 0.00 Summe 10 7 7 6.40 0 2.80 = SSR = SSE gemittelt 2 1.4 1.4 0 = x = y = ŷ =e Wir bilden nun zwei Quadratsummen: SSR = n X (ŷ − ȳ)2 , i=1 n n X X SSE = (y − ŷ)2 = e2i . i=1 i=1 Die Summe SSR ist ein Maß für die Schwankung der y-Werte, welche durch die Gerade vorhergesagt werden (im Vergleich zu SSY, welches die Schankung der y-Werte der gegebenen Daten misst). Eine einfache Rechnung ergibt SSR = n n n X X X (b1 xi + b0 − ȳ)2 = (b1 xi + b0 − b1 x̄ − b0 )2 = b21 (xi − x̄)2 = b21 SSX . i=1 i=1 i=1 Tatsächlich zeigt unsere Tabelle SSR = 6.40 = 0.82 · 10 = b21 SSX. Diese Gleichung läßt sich umgangssprachlich folgendermassen interpretieren: Die Werte von ŷ hängen durch eine Geradengleichung von den Werten von x ab. Sie schwanken umso mehr, je mehr die x-Werte schwanken, und je steiler die Gerade ist, durch die sie bestimmt werden. Die Summe SSE ist ein Maß für die Abweichung der y-Daten von der Regressionsgeraden. Je kleiner SSE, desto besser passt die Gerade zu den Daten. SSE = 0 würde bedeuten, dass alle Datenpunkte exakt auf der Geraden liegen. Vergleicht man die Summen SSE, SSR und SSY, so sieht man aus der Tabelle: 6.40 + 2.80 = 9.20, SSR + SSE = SSY . Diese Gleichung gilt immer, wenn die Quadratsummen wie oben aus der Regressionsgeraden ermittelt wurden. Die Schwankung der y-Werte setzt sich additiv zusammen aus der Schwankung der Werte ŷ, welche ihrerseits direkt von der Schwankung der x-Werte abhängt, und der Quadratsumme der Residuen. Geht man davon aus, dass zwischen x und y zumindest statistisch ein Zusammenhang besteht, so versteht sich, dass verschiedene Werte von x auch verschiedene Werte von y liefern. SSR ist jener Anteil der Schwankung von y, der sich auf die Verschiedenheit der zugehörigen x-Werte zurückführen lässt, während SSE jene Schwankung ist, die unabhänig von x noch dazukommt. SSR 6.40 69.6% Schwankung, welche durch die Schwankung der x-Werte erklärt wird, SSE 2.80 30.4% Schwankung der Residuen, nicht erklärter Teil der Schwankung von y, SSY 9.20 100% Gesamte Schwankung von y. Das Bestimmtheitsmaß SSR = 0.696 = 69.6% SSY sagt aus, welcher Anteil der Gesamtschwankung von y auf die Schwankung von x zurückgeführt werden kann. Je näher B an 1 liegt, desto besser passt die Gerade zu den Daten. ¤ B= 1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN 49 Definition 1.3.2.5. Zu einem Satz von Datenpaaren x1 , y1 , · · · , xn , yn mit Mittelwerten x̄, ȳ betrachten wir die Regressionsgerade y = b0 + b1 x. Dann sind: ŷi = b0 + b1 xi die vorhergesagten Werte von y, ei = y i − ŷ die Residuen, i Pn SSR = P i=1 (ŷi − ȳ)2 die durch die Regression erklärte Schwankung von y, n die durch die Regression nicht erklärte Schwankung von y, SSE = i=1 e2i SSR B = SSY das Bestimmtheitsmass der Regression. Merksatz 1.3.2.6. Es gelten folgende Eigenschaften: ŷi Die vorhergesagten Werte sind jene Werte, die y annehmen würde, wenn die Geradengleichung für alle Daten exakt gelten würde. Ihr Mittelwert ist ȳ. Ihre Schwankung SSR ist der Anteil der Schwankung von y, der sich auf einen linearen Zusammenhang zwischen x und y zurückführen lässt. Es gilt die Formel SSR = b21 SSX . ei Die Residuen sind die Abweichungen der y-Werte von den Werten, welche die Regressionsgerade vorhersagt. Ihr Mittelwert ist 0. Die Schwankung SSE ist der Anteil der Schwankung von y, der sich nicht auf einen linearen Zusammenhang zwischen y und x erklären lässt. Es gilt die Formel SSE + SSR = SSY . Außerdem ist SSE ein Maß für die Güte der Anpassung der Daten durch eine Gerade. Die Regressionsgerade ist genau so bestimmt, dass die Quadratsumme SSE der Residuen möglichst klein wird. Man sagt auch: Die Regressionsgerade ist an die Daten nach dem Prinzip der kleinsten Quadrate (“least squares”) angepasst. B Das Bestimmtheitsmaß drückt aus, wie groß der Anteil der durch die Regression erklärten Schwankung von y an der Gesamtschwankung von y ist. Es liegt immer zwischen 0 und 1. Im Fall B = 0 gibt es überhaupt keinen linearen Zusammenhang zwischen x und y, im Fall B = 1 liegen alle Datenpunkte exakt auf einer Geraden. Bemerkung 1.3.2.7. Wir sprechen hier etwas verschwommen von “Schwankungen”. Würden wir SSX, SSY usw. durch den Stichprobenumfang n dividieren, würden wir Varianzen erhalten. Zur Nomenklatur: SSR . . . Schwankung der Regressionsgeraden, SSE . . . Schwankung der Errors, also der Residuen. 1.3.2.3. Warum spricht man von “erklärter Schwankung?” Beispiel 1.3.2.8. Im Diagramm links unten wurden jeweils nebeneinander für 20 Merkmalsträger die Ausprägungen von zwei metrischen Merkmalen X1 blau und Y1 rot eingetragen. Zur besseren Sichtbarkeit wurden die Datenpunkte durch Linien verbunden. Über dem Diagramm wir das Bestimmtheitsmaß bei einer linearen Regression von X1 auf Y1 angegeben. Das Diagramm rechts unten wurde ebenso für zwei andere Merkmale X2 , Y2 angefertigt. Vergleichen Sie die Schwankungen von X und Y für jedes der beiden Diagramme. 50 1. BESCHREIBENDE STATISTIK B = 0.88 B = 0.01 1.5 2 1 1.5 0.5 X (blau), Y (rot) X (blau), Y (rot) 1 0 −0.5 −1 −1.5 0.5 0 −0.5 −2 −1 −2.5 −3 0 5 10 15 20 −1.5 0 5 Nummer der Realisierung 10 15 20 Nummer der Realisierung Diskussion: Wir betrachten zunächst das linke Diagramm. Zwar ist Y1 meist kleiner als X1 , aber das Auf und Ab der Schwankungen von X1 wird von Y1 einigermaßen genau, wenn auch in verkleinertem Maßstab wiedergegeben. Wenn man annimmt, dass Y1 bis auf eine kleine Zufallsstörung durch eine Regression Y1 = b1 X1 + b0 festgelegt ist, so folgt auch, dass bis auf den Beitrag der Störung die Variable Y1 die Schwankungen von X1 nachvollzieht. Auf diese Weise kann das Regressionsmodell die Schwankungen von Y1 mit Hilfe der Schwankungen von X1 erklären. Es bleibt ein kleiner Rest, der von X1 unabhängig ist, denn Y1 vollzieht nicht ganz exakt maßstabgetreu die Schwankungen von X1 nach. Dieser Rest bleibt auch im Regressionsmodell unerklärt. Das Bestimmtheitsmaß von 0.88 sagt, dass 88% der Varianz von Y1 auf Schwankungen von X1 zurückzuführen sind. Die restlichen 12% sind Schwankungen infolge der zufälligen Abweichung von Y1 von der Regressionsgeraden. Im rechten Diagramm sieht man keinen Zusammenhang zwischen den Schwankungen von X2 und Y2 . Das Bestimmtheitsmaß von 0.01 zeigt, dass nur 1% der Schwankungen von Y2 durch lineare Regression auf X2 zurückgeführt werden können. Ein t-Test auf den Regressionsparameter b2 würde zeigen, dass keine Abhängigkeit zwischen X2 und Y2 mit vernünftiger statistischer Signifikanz nachweisbar ist. In diesem Beispiel haben wir mit dem Auge einen Zusammenhang zwischen X1 und Y1 festgestellt, weil eine deutliche Ähnlichkeit der Schwankungen zu beobachten war. Hinter den Formeln der linearen Regression versteckt sich im Prinzip eine Auswertung der Ähnlichkeit und Verschiedenheit der Schwankungen der Variablen. ¤ Merksatz 1.3.2.9. Hinter den Formeln der linearen Regression versteckt sich im Prinzip eine Auswertung der Ähnlichkeit und Verschiedenheit der Schwankungen der Merkmale. 1.3.2.4. Die Wichtigkeit der grafischen Darstellung. Beispiel 1.3.2.10. Die folgenden vier Punktwolken zeigen Datensätze, diein der Literatur als Quartett von Anscombe bekannt sind. Obwohl sie so unterschiedlich aussehen, besitzen sie fast genau dieselben Mittelwerte, Quadratsummen und Regressionsgeraden. Erklären Sie anhand der unten abgebildeten Punktwolken, inwieweit die Daten von Geraden abweichen. x̄ ȳ 9.0 7.5 SSX SSY 110.0 41.2 SSE b0 68.8 3.0 b1 0.5 B 0.67 r 0.82 1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN 10 10 y2 15 y1 15 51 5 5 0 0 10 x1 0 0 20 10 10 20 10 x4 20 y4 15 y3 15 10 x2 5 5 0 0 10 x3 20 0 0 Punktwolken von Anscombe’s Quartett Diskussion: Datensatz 1 wird durch eine Gerade leidlich gut wiedergegeben. Die Abweichungen von der Geraden sind zwar der Größe nach beträchtlich, jedoch wirken sie zufällig. Datensatz 2 zeigt eine ganz deutliche nichtlineare Abhängigkeit zwischen x und y. Tatschlich werden die Daten durch die Parabel y = −0.13x2 + 2.78x − 5.99 fast perfekt wiedergegeben. Weil diese Abhängigkeit aber einer Parabel und keiner Geraden entspricht, bleibt das Bestimmtheitsmaß nur bei 0.67, und die Gerade passt nicht besonders gut. Datensatz 3 zeigt fast eine perfekte Gerade, aber einer der Datenpunkte ist ein Ausreisser. Ohne diesen Ausreisser würde sich ein viel höheres Bestimmtheitsmaß und eine flachere Regressionsgerade ergeben. Datensatz 4 hat für fast alle Punkte denselben x-Wert, bis auf einen Ausreisser. Ohne diesen Ausreisser ließe sich gar keine Regressionsgerade berechnen (es wäre SSX = 0 und damit würde eine Division durch Null folgen). ¤ Tipp 1.3.2.11. Führen Sie keine lineare Regression durch, ohne vorher die Daten möglichst gründlich grafisch dargestellt und überprüft zu haben. Beachten Sie insbesondere: • Zwischen Daten mit einem geringen Bestimmtheitsmaß kann immer noch ein sehr deutlicher, aber nichtlinearer Zusammenhang bestehen. Korrelationskoeffizient und Bestimmtheitsmaß messen nur lineare Zusammenhänge. • Die Regressionsgerade ist empfindlich auf Ausreisser. Einzelne, fernab vom Großteil der Daten liegende Werte von x und y können die Regressionsgerade drastisch verändern. • Auch für Daten, welche schlecht zu einer Geraden passen, ergibt die Formel eine Regressionsgerade. Typischerweise ist die Regressionsgerade für Daten mit kleinem Korrelationskoeffizienten flach. 52 1. BESCHREIBENDE STATISTIK Was Sie jetzt können: Begriffe und Wissen: Voraussage durch ein mathematisches Modell, Residuen, erklärte und unerklärte Schwankung, Bestimmtheitsmaß, SSR + SSE = SSY, Kennzahlen ohne Grafik sind manchmal irreführend. Methoden: Voraussage durch die Regressionsgerade, Berechnung der Residuen und Schwankungen, Interpretation des Bestimmtheitsmaßes, Beurteilung von linearen Regressionen an Hand von Grafiken. Bemerkung: Obwohl Sie in diesem Kapitel die notwendigen Formeln zur Berechnung der Schwankungen finden, wird von Ihnen nicht erwartet, dass Sie die Rechnungen mit Bleistift und Papier durchführen können, dazu hat man Computerprogramme. Daher wurde auch oben nicht auf die verschiedenen Abkürzungen und Rechenvorteile eingegangen, die sich anbieten würden. 1.3.3. Korrelation. Übersicht: 1. Kovarianz 2. Pearsonscher Korrelationskoeffizient 3. Spearmanscher Rangkorrelationskoeffizient 1.3.3.1. Kovarianz. Definition 1.3.3.1. Seien x1 , · · · , xn und y1 , · · · , yn die Ausprägungen zweier metrischer Merkmale in einer Gesamtheit des Umfanges n. Die Mittelwerte seien x und y. Die Kovarianz der beiden Merkmale ist n 1X Cov(x, y) = (xi − x)(yi − y) n i=1 (In der Notation der Quadratsummen in der linearen Regression ist das 1 n SXY.) Merksatz 1.3.3.2. Die Kovarianz eines Merkmals mit sich selbst ist die Varianz: Cov(x, x) = σx2 . Merksatz 1.3.3.3. Die Kovarianz zwischen x und y ist dann positiv, wenn zwischen x und y ein positiver Trend besteht: Je größer x, desto größer (zumindest meistens) auch y. Die Kovarianz zwischen x und y ist dann negativ, wenn zwischen x und y ein gegenläufiger Trend besteht: Grösseren x entsprechen zumeist kleinere y. Der Betrag der Kovarianz wird typischerweise groß, wenn x und y große Varianzen haben. 1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN 53 Diskussion: Die folgende Abbildung zeigt je 40 Realisierungen von 3 Paaren von Merkmalen, die allesamt als Mittelwerte 0 besitzen: 0 0 Zur Erklärung der Kovarianz Markierung Zufallsvariablen Varianzen Kovarianz rote Kreise x1 , y1 σx1 = σy1 = 1 Cov(x1 , y1 ) = 0.7 blaue Quadrate x2 , y2 σx2 = σy2 = 1 Cov(x2 , y2 ) = −0.7 grüne Sterne x3 , y3 σx3 = σy3 = 0.3 Cov(x3 , y3 ) = 0.063 Die x, y-Ebene ist in vier Quadranten geteilt, am Schnittpunkt der Quadranten liegen die Mittelwerte (in diesem Fall der Nullpunkt). Der Quadrant rechts oben und der Quadrant links unten wird bevorzugt von Merkmalen erreicht, zwischen denen ein positiver Trend besteht: Positives x − x̄ entspricht zumeist einem positiven y − ȳ. Dies gilt für die Paare x1 , y1 und x3 , y3 . In diesen Quadranten ist (x − x̄)(y − ȳ) positiv, daher haben solche Merkmale eine positive Kovarianz. Merkmale mit einem gegenläufigen Trend treffen bevorzugt in die Quadranten links oben und rechts unten, dort ist (x − x̄)(y − ȳ) negativ, und daher ist auch die Kovarianz solcher Merkmale negativ. In unserem Beispiel trifft das für das Paar x2 , y2 zu. Merkmale mit hohen Varianzen liegen häufig weitab von den Mittelwerten. Zum Beispiel trifft das Paar x1 , y1 zumeist weiter weg vom Schnittpunkt der Quadranten als das Paar x3 , y3 . Beide Paare zeigen den gleichen positiven Trend, jedoch summieren sich größere Zahlenwerte zur Kovarianz des ersten Paares: Je größer die Varianz der einzelnen Merkmale, desto größer im Allgemeinen auch der Betrag der Kovarianz. ¤ 1.3.3.2. Pearsonscher Korrelationskoeffizient. Da die Kovarianz sowohl von der Varianz der einzelnen Merkmale als auch von der Wechselwirkung zwischen beiden beeinflusst wird, destillieren wir aus ihr eine Kenngröße, die ausschließlich die Wechselwirkung beschreibt. Diese erhalten wir, indem wir x und y standardisieren: x − x̄ y − ȳ x1 = , y1 = . σx σy Da diese beiden neuen Merkmale auf Varianz 1 standardisiert sind, enthält die Kovarianz von x1 und y1 keine Information über die Varianzen mehr, sondern nur mehr über den Zusammenhang zwischen den beiden Merkmale. Die Kovarianz zwischen x1 und y1 ist die Korrelation, die wir nun definieren: Definition 1.3.3.4. Seien x und y zwei metrische Merkmale mit Standardabweichungen σx , σy . Die Korrelation (der Spearmansche Korrelationskoeffizient) von x und y ist Cor(x, y) = Cov(x, y) . σx σy 54 1. BESCHREIBENDE STATISTIK Ist die Korrelation (und damit automatisch auch die Kovarianz) von x und y gleich Null, so heißen x und y unkorrelierte Merkmale. Bemerkung 1.3.3.5. Cor(x, y) ist genau der in der linearen Regression berechnete Korrelationskoeffizient SXY r= √ . SSX · SSY Merksatz 1.3.3.6. Die Korrelation eines Merkmales mit sich selbst ist immer 1. Merksatz 1.3.3.7. Die Korrelation drückt aus, ob zwischen zwei Zufallsvariablen ein linearer Zusammenhang besteht: 1) Die Korrelation liegt immer zwischen -1 und 1. 2) Eine Korrelation von +1 bedeutet, dass ein exakter linearer Zusammenhang y = b0 + b1 x mit b1 > 0 gilt. Eine Korrelation von -1 bedeutet, dass ein exakter linearer Zusammenhang y = b0 + b1 x mit b1 < 0 besteht. 3) Eine Korrelation von 0 bedeutet, dass zwischen y und x kein linearer Zusammenhang besteht. 4) Bei einer Korrelation zwischen 0 und 1 (bzw. zwischen -1 und 0) lässt sich y zerlegen: Y = b0 + b1 x + z, dabei ist b1 > 0 (bzw. b1 < 0), und z hat Mittelwert 0 und eine geringere Varianz als y. Das heißt, ein Teil von y lässt sich durch einen linearen Zusammenhang auf x zurückführen. Je größer der Betrag der Korrelation, desto größer der Anteil von y, der auf x zurückgeführt werden kann. Beispiel 1.3.3.8. Die folgende Abbildung zeigt vier Datensätze und ihre Korrelationskoeffizienten r. Beachten Sie die Zusammenhänge • zwischen den Absolutbeträgen von r und der Güte der Anpassung durch eine Geraden, • zwischen dem Vorzeichen von r und dem positiven oder negativen Trend. r=0.99 r=0.42 20 0 y 50 y 30 10 0 0 −50 10 20 x r=−0.63 30 −100 0 20 20 x r=−0.86 30 10 0 y y 0 −20 −40 0 10 −10 −20 10 20 x 30 −30 0 10 20 30 x Vergleich von Datensätzen mit verschiedenen Korrelationskoeffizienten 1.3. ZUSAMMENHANG ZWISCHEN ZWEI MERKMALEN 55 Merksatz 1.3.3.9. Sind zwei Merkmale unabhängig, so ist ihre Kovarianz und ihre Korrelation null. Es gibt aber auch abhängige Merkmale, die unkorreliert sind. Kovarianz und Korrelation messen nur lineare Zusammenhänge. Diskussion: In der folgenden Grafik besteht zwischen x und y der exakte Zusammenhang y = x2 + 1. Trotzdem sind die Merkmale unkorreliert, die Regressionsgerade (rot eingezeichnet) liegt völlig waagrecht. ¤ Zwei abhängige Merkmale, die trotzdem unkorreliert sind 1.3.3.3. Spearmanscher Rangkorrelationskoeffizient. Der Korrelationskoeffizient beschreibt Zusammenhänge zwischen metrischen Merkmalen. Statistische Methoden zur Behandlung ordinaler Daten beruhen auf der Zuweisung von Rangzahlen: Methode 1.3.3.10 (Rangzuweisung für ordinale Daten). Seien x1 , x2 , · · · , xn Ausprägungen eines ordinalen Merkmals für n Merkmalsträger. Zur Verwendung mit verschiedenen statistischen Methoden werden den Merkmalsträgern folgendermaßen Ränge zugeordnet: 1) Der Merkmalsträger mit der kleinsten Ausprägung erhält Rang 1, die nächsthöhere Rang 2, usw., die höchste Rang n. 2) Eine Bindung (tie) ist die Situation, wenn im Verlauf dieses Verfahrens an k > 1 Merkmalsträger mit gleich hohen Ausprägungen Ränge zu vergeben sind. Der nächste zu vergebende Rang sei m. Dann wird das arithmetische Mittel der für diese k Merkmalsträger bereitstehenden Ränge m + (m + 1) + · · · + (m + k − 1) k an alle k Merkmalsträger als Rang vergeben. Die Plätze m · · · (m + k − 1) sind nun vergeben, und der nächste Merkmalsträger erhält Rang m + k. Methode 1.3.3.11 (Spearmanscher Rangkorrelationskoeffizient). Der Spearmansche Rangkorrelationskoeffizient ρ dient zur Beurteilung, ob zwischen zwei ordinalen Merkmalen x und y ein positiver oder gegenläufiger Trend besteht: 1) Ist ρ > 0, so gehören höhere Ausprägungen von x zumeist zu höheren Ausprägungen von y. 2) Ist ρ > 0, so gehören höhere Ausprägungen von x zumeist zu niedrigeren Ausprägungen von y. 56 1. BESCHREIBENDE STATISTIK 3) Der größtmögliche Betrag von ρ ist 1. Ist ρ = 1, so sind die Ränge der Merkmalsträger durch x genauso geordnet wie durch y. Ist ρ = −1, so ist die Anordnung der Merkmalsträger durch x genau gegenläufig wie die Anordnung durch y. Zur Berechnung von ρ seien n Merkmalsträger mit den Ausprägungen x1 , · · · , xn und y1 , · · · , yn gegeben. Den Merkmalsträgern wird sowohl durch xi als auch durch yi jeweils ein Rang zugewiesen (Methode 1.3.3.10): Rx,i , Ry,i . Zwischen den Rängen Rx,i und Ry,i wird dann der Pearsonsche Korrelationskoeffizient berechnet. Bei keinen Bindungen liefert auch die folgende Formel den Rangkorrelationskoeffizienten. (Gibt es nur wenige Bindungen, kann die Formel als Näherungsformel verwendet werden.): Es werden die Differenzen di = Rx,i − Ry,i berechnet, und es ist Pn 6 i=1 d2i ρ=1− . n(n2 − 1) Beispiel 1.3.3.12. Bei einem Wettbewerb traten dieselben 8 BewerberInnen (A,. . . ,H) in zwei Disziplinen an. Die Ergebnisse waren: Disziplin 1) in der Reihung vom besten zum schlechtesten Platz: A,D,G,C,H,B,E,F. Disziplin 2) in der Reihung vom besten zum schlechtesten Platz: C,D,(ex aequo A,G,H),B,F,E. Berechnen Sie den Spearmanschen Rangkorrelationskoeffizient. Diskussion: Weil es nur eine Bindung gibt, begnügen wir uns mit der schnelleren, näherungsweisen Berechnung. Beachten Sie, wie wir die Rangvergabe der Bindung behandeln. In Disziplin 2 kommen nach den ersten zwei Plätzen drei TeilnehmerInnen A, G, H, auf den nächsten Platz. Die Plätze drei bis fünf werden ausgemittelt, das gibt 4, und dieser Rang wird an A,G und H vergeben. Anschließend wird mit Platz 6 weitergezählt. BewerberIn Ränge Differenz d2i (1) (2) A 1 4 -3 9 B 6 6 0 0 C 4 1 3 9 D 2 2 0 0 E 7 8 -1 1 F 8 7 1 1 G 3 4 -1 1 H 5 4 1 1 Summe 22 Der Rangkorrelationskoeffizient ist dann 6 · 22 ρ≈1− ≈ 0.74 8(82 − 1) Der Rangkorrelationskoeffizient könnte zwischen -1 und 1 liegen. Da er deutlich größer als 0 ist, besteht ein positiver Zusammenhang zwischen den Ergebnissen in den beiden Disziplinen. Im Allgemeinen haben BewerberInnen, die in Disziplin 1 besser abgeschnitten haben, auch Disziplin 2 besser bestanden. ¤ Was Sie jetzt können: Begriffe und Wissen: Kovarianz, Pearsonscher Korrelationskoeffizient, Interpretation des Korrelationskoeffizienten, unkorreliert ist nicht unabhängig, Spearmanscher Rangkorrelationskoeffizient. Methoden: Berechnung und Interpretation von Korrelationskoeffizienten und Rangkorrelationskoeffizienten, Rangzuweisung bei ordinalen Daten. KAPITEL 2 Zufallsgrößen Übersicht: 1. Zufall und Wahrscheinlichkeit 1.1. Wo wird Zufall berücksichtigt? 1.2. Wahrscheinlichkeit 2. Zufallsvariablen 2.1. Verteilung von Zufallsvariablen 2.2. Statistische Kennzahlen für Zufallsvariablen 3. Normalverteilung 3.1. Normalverteilung 3.2. Umgang mit Normalverteilungstabellen 3.3. Der zentrale Grenzwertsatz 2.1. Zufall und Wahrscheinlichkeit Übersicht: 1. Wo wird Zufall berücksichtigt? 2. Wahrscheinlichkeit 2.1.1. Wo wird Zufall berücksichtigt. Übersicht: 1. Zufallsexperiment und Zufallsvariable 2. Beispiele von Situationen, in denen der Zufall berücksichtigt wird. 2.1.1.1. Zufallsexperiment und Zufallsvariable. Eine wichtige Aufgabe der Statistik ist, die Zuverlässigkeit von Aussagen abzuschätzen, die Unsicherheiten auf Grund von Zufallseinflüssen enthalten. Eine Stichprobe von Kakteen kann zufällig aus besonders “blühfaulen” Exemplaren bestehen und dadurch kann die Abschätzung der Blütenanzahl dieser Kakteen verfälscht werden. Wir brauchen daher einen mathematischen Begriff einer Größe, die vom Zufall abhängt: Die Zufallsgröße. Die folgende “Definition” ist im mathematischen Sinn keine exakte Definition. Sie ist eine Handhabe für den intuitiven Hausgebrauch. Definition 2.1.1.1. Ein Zufallsexperiment ist ein Vorgang, der 57 58 2. ZUFALLSGRÖSSEN • aus einer vorgegebenen Menge von Möglichkeiten ein Ergebnis ermittelt, • nach festen Regeln abläuft, • (zumindest theoretisch) beliebig oft wiederholbar ist. Jedes mögliche Ergebnis eines Zufallsexperimentes heißt Elementarereignis. Die Menge aller Elementarereignisse ist der Ereignisraum und wird oft mit Ω bezeichnet. Wenn das Ergebnis eines Zufallsexperimentes eine Zahl ist, nennen wir diese eine Zufallsvariable oder Zufallsgröße. Jede Durchführung des Zufallsexperimentes liefert einen neuen Zahlenwert, diesen nennen wir eine Realisierung der Zufallsgröße. Es hat sich eingebürgert, Zufallsgrößen mit Großbuchstaben zu bezeichnen, und ihre Realisierungen mit Kleinbuchstaben. Schreibweise 2.1.1.2. Wenn eine Größe nicht vom Zufall abhängt, bezeichnen wir sie als deterministisch. Definition 2.1.1.3. Eine Zufallsgröße heisst diskret, wenn sie nur einzelne, voneinander isolierte Zahlenwerte als Realisierung annehmen kann (typischerweise z.B. ganze Zahlen). Eine diskrete Zufallsgröße, die nur zwei Werte annehmen kann (0/1, ja/nein) heisst dichotom. Kann eine Zufallsgröße Zahlenwerte aus einem ganzen Intervall annehmen, so heißt sie stetig. Tipp 2.1.1.4. Es hängt von der Problemstellung ab, welche Größen als fest und welche als Zufallsgrößen angesehen werden. Fragen Sie sich: Welche Zufallseffekte sind für meine Diskussion wesentlich? Größen, die von diesen Effekten beeinflusst werden, müssen als Zufallsgrößen angesehen werden. 2.1.1.2. Beispiele von Situationen, in denen der Zufall berücksichtigt wird. Beispiel 2.1.1.5. Die Größe der Schnecken der Art Cylindrus obtusus im Hochschwabgebiet soll ermittelt werden. Ein Forscherteam geht auf die Berge und sammelt und vermißt alle Exemplare, die gefunden werden. Am Ende soll aus der Statistik die mittlere Gehäusehöhe aller Cylindrus obtusus im untersuchten Gebiet angegeben werden. Mit Hilfe von statistischen Methoden kann man beurteilen, wie genau der Mittelwert der Höhen der Sammlung den Mittelwert aller Gehäusehöhen wiedergibt. Diskussion: In diesem Beispiel kann der Zufall das Ergebnis beeinflussen: Finden die Sammler eine repräsentative Stichprobe, oder zufällig hauptsächlich überdurchschnittlich große Exemplare? Der Zufallseffekt, dessen Auswirkungen die Statistik abschätzen soll, tritt hier beim Sammeln der Schnecken auf. Das Ziel der Arbeit ist eine Schätzung der Größe “mittlere Gehäusehöhe aller Schnecken im Hochschwabgebiet”. Diese Zahl ist unbekannt, wird aber vom Zufall der Schneckensuche nicht beeinflusst. Dies ist also — in dieser Aufgabenstellung — ein Parameter, der geschätzt werden soll, aber keine Zufallsgröße. Dagegen ist die Höhe der einzelnen gefundenen Schneckenhäuser eine Zufallsgröße: Jede gefundene Schnecke liefert eine neue Realisierung. Bezeichnen wir mit H die Zufallsgröße: “Höhe der gefunden Schneckenhäuser”. Wenn die Forscher zuerst eine Schnecke mit 12 mm, dann mit 14 mm, dann mit 9 mm Gehäusehöhe finden, dann sind die Zahlen h1 = 12, h2 = 14, h3 = 9 Realisierungen der Zufallsgröße H. Auch der Mittelwert der Höhen aller gesammelten Schneckenhäuser ist in unserem Kontext eine Zufallsgröße, denn er hängt ja davon ab, welche Schnecken im Einzelnen gefunden werden. Soll man die Gehäusehöhe der einzelnen Schnecken als diskrete oder stetige Zufallsvariable auffassen? Beides läßt sich rechtfertigen. Im Grunde ist jede Zahl in einem natürlich sinnvollen 2.1. ZUFALL UND WAHRSCHEINLICHKEIT 59 Intervall (etwa 8 bis 18 mm) als Ergebnis möglich. Das spricht für eine stetige Zufallsgröße. Andererseits erlaubt die Schiebelehre nur Messungen auf 0.1 mm genau, und in Hinblick auf den Zeitaufwand wird wahrscheinlich nur auf 1 mm genauso gemessen. So gesehen ist der Messwert eine diskrete Zufallsgröße. Den Mittelwert der Messungen aus der ganzen Stichprobe betrachten wir jedenfalls in der Praxis als stetig. Haarespalter könnten einwenden, dass in einer Stichprobe von 1000 Schnecken bei einer Messung auf 1 mm genau der Mittelwert nur ganzzahlige Vielfache von 0.001 annehmen könnte, also streng genommen diskret ist. ¤ Beispiel 2.1.1.6. Der Prozentsatz aller BefürworterInnen einer Partei in Österreich soll geschätzt werden. Eine Stichprobe wird zu diesem Thema befragt. Mit Hilfe von statistischen Methoden kann man abschätzen, wie groß die Stichprobe sein muss, damit der Anteil der BefürworterInnen in der Stichprobe den Anteil der BefürworterInnen in der ganzen Bevölkerung mit ausreichend großer Wahrscheinlichkeit ausreichend genau wiedergibt. Diskussion: Auch hier besteht der Zufall in der Wahl der Stichprobe. Wir gehen in dieser Untersuchung davon aus, dass der Prozentsatz der BefürworterInnen unter allen WählerInnen (also in der Grundgesamtheit) eine feste, wenn auch unbekannte Zahl ist. Könnten wir alle ÖsterreicherInnen befragen, hätten wir diese Zahl exakt. Die Antwort jeder einzelnen befragten Person hängt aber vom Zufall ab, welche Person gerade für die Stichprobe ausgewählt wird. Für jede befragte Person setzen wir in die Liste eine 1, wenn sie die Partei befürwortet, und 0, wenn sie die Partei nicht befürwortet. Dies ist eine diskrete, dichotome Zufallsvariable, jede Person liefert eine Realisierung. Aus der Stichprobe ermitteln wir den Prozentsatz der Personen, die für die Partei stimmt. Auch das ist eine Zufallsvariable. Wenn verschiedene Meinungsforschungsinstitute ihre Stichproben machen, erhalten sie verschiedene Realisierungen. ¤ Beispiel 2.1.1.7. Es soll der Trend bestimmt werden, nach dem sich der Anteil der BefürworterInnen der Partei aus Beispiel 2.1.1.6 im Lauf der Monate entwickelt. Wir erheben die Anteile der BefürworterInnen monatlich. Wir unterstellen für den Anteil X(t) im Monat Nummer t eine einfache Geradengleichung (also ein lineares Wachsen oder Abfallen): X(t) = b1 t + b0 + Z(t). Dabei sind b0 , b1 feste unbekannte Parameter, und Z(t) eine zufällige Störung, mit der wir ausdrücken, dass die Anteile natürlich nie exakt einer Geradengleichung folgen werden, sondern nur näherungsweise. Mit Hilfe von statistischen Methoden kann man aus der Folge der monatlich erhobenen Anteile die Parameter b0 , b1 schätzen, und angeben, wie gut das einfache Modell den tatsächlichen Trend wiedergibt, und wie stark die zufälligen Abweichungen vom Trend sind. Diskussion: Der Zufall in diesem Beispiel besteht darin, dass sich die Anzahl der BefürworterInnen nicht genau nach dem Trend entwickelt, sondern zusätzlich stärkeren oder schwächeren Schwankungen unterworfen ist, die wir nicht erklären können und als rein zufällig ansehen. In diesem Beispiel betrachten wir den Trend als gegeben: die Parameter b0 , b1 sind feste Zahlen, auch wenn wir sie nicht kennen und erst mit Hilfe von geeigneten Methoden schätzen müssen. Dagegen ist die Störung Z eine Zufallsgröße: Jeden Monat wird sie neu realisiert. Manchmal weicht der tatsächliche Anteil ein wenig nach oben, manchmal nach unten von der theoretischen Formel ab. Damit unterliegt aber auch der Anteil X(t) dem Zufall und wird in dieser Studie als Zufallsgröße betrachtet. Beachten Sie aber: Wenn wir nun aus den erhobenen Daten die Regressionsgerade berechnen: X = b̂0 + b̂1 Z, so berechnen wir Schätzwerte, einen Schätzwert b̂0 für den uns unbekannten Parameter b0 , und einen Schätzwert b̂1 für den uns unbekannten Parameter b1 . Da die erhobenen Daten vom Zufall abhängen, sind auch die daraus berechneten geschätzten Parameter b̂0 , b̂1 Zufallsgrößen. ¤ 60 2. ZUFALLSGRÖSSEN Anteil Waehler 0.3 Anteil laut Modell Zufallseffekt Anteil beobachtet 0.29 0.28 0 2 4 6 8 10 Monat Trend aus Beispiel 2.1.1.7: Trendkurve und beobachtete Werte Was Sie jetzt können: Begriffe und Wissen: Zufallsexperiment, Zufallsvariable (Zufallsgröße), Ereignisraum, Elementarereignis. Methoden: Feststellen, welche Größen in einer Studie als Zufallsgrößen und welche als deterministisch zu betrachten sind. 2.1.2. Wahrscheinlichkeit. Übersicht: 1. Ereignis und Wahrscheinlichkeit 2. Bedingte Wahrscheinlichkeit 3. Unabhängigkeit 2.1.2.1. Ereignis und Wahrscheinlichkeit. Auf Grund des Ergebnisses eines Zufallsexperimentes kann man sagen, ob gewisse Ereignisse eingetreten sind oder nicht. Mathematisch erfolgt die Definition eines Ereignisses in der Sprache der Mengenlehre. Zur Erinnerung (an Definition 2.1.1.1): Der Ereignisraum eines Zufallsexperimentes ist die Menge aller möglichen Ergebnisse (Elementarereignisse). Definition 2.1.2.1. Sei Ω der Ereignisraum eines Zufallsexperimentes. Ein Ereignis ist eine Teilmenge von Ω. Das Ereignis A tritt ein, wenn das Zufallsexperiment ein Elementarereignis liefert, das in der Menge A enthalten ist. Das Ereignis ∅, die leere Menge, tritt nie ein. Das Ereignis Ω, der gesamte Ereignisraum, tritt immer ein. Es heißt daher das sichere Ereignis. Definition 2.1.2.2. Sind A, B zwei Ereignisse, so lassen sich durch die mengentheoretischen Operation Durchschnitt, Vereinigung und Komplement die folgenden 2.1. ZUFALL UND WAHRSCHEINLICHKEIT 61 Ereignisse bilden: A ∩ B: Sowohl A als auch B treten ein. A ∪ B: Entweder A oder B oder beide gemeinsam treten ein. A: Das Ereignis A tritt nicht ein. Man sagt, zwei zwei Ereignisse A und B schließen einander aus, wenn sie nie gemeinsam eintreten können (also wenn gilt: A ∩ B = ∅). Ob ein Ereignis eintritt oder nicht, hängt vom Zufallsexperiment ab. Wir können vorher bestenfalls Aussagen treffen, wie wahrscheinlich das Ereignis ist. Die mathematisch exakte Definition der Wahrscheinlichkeit ist heikel. Das Folgende ist nur eine intuitive Erklärung, die für die praktische Arbeit aber ausreicht. Definition 2.1.2.3. Sei A ein Ereignis. Die Zahl P (A), die Wahrscheinlichkeit von A, liegt zwischen 0 und 1 (100%). Würde man das Zufallsexperiment in einer sehr langen Serie von unabhängigen Versuchen wiederholen, würde der Anteil der Fälle, in denen A auftritt, annähernd P (A) betragen. (Je länger die Versuchsserie, umso genauer.) Die Wahrscheinlichkeit des leeren Ereignisses P (∅) beträgt Null, die Wahrscheinlichkeit des sicheren Ereignisses P (Ω) ist Eins. Der Buchstabe P steht für probability (=Wahrscheinlichkeit). Viele Schwierigkeiten liegen auf dem Weg, aus dieser Idee einen mathematisch definierten Begriff zu destillieren. Würde man zum Beispiel annehmen, dass alle Ereignisse Wahrscheinlichkeiten haben, würde man sich in Widersprüche verwickeln. Alle diese Feinheiten betreffen aber zum Glück die praktische Arbeit nicht. Wir können sie getrost den Fachleuten überlassen. Die folgenden Rechenregeln über Wahrscheinlichkeiten sind unmittelbar einleuchtend: Merksatz 2.1.2.4. Seien A und B Ereignisse, welche Wahrscheinlichkeiten besitzen. Es gilt: a) P (A) = 1 − P (A). b) Schließen sich A und B gegenseitig aus, dann ist P (A∪B) = P (A)+P (B). c) Jedenfalls gilt P (A ∪ B) + P (A ∩ B) = P (A) + P (B). Diskussion: Regeln (a) und (b) sind unmittelbar einleuchtend. Dass Regel (c) gilt, überlegt man an Hand des folgenden Venn-Diagrammes: B B ohne A A A und B A ohne B Zerlegung der Vereinigung zweier Ereignisse 62 2. ZUFALLSGRÖSSEN Das Ereignis A∪B setzt sich aus drei Ereignissen zusammen, die einander jeweils ausschließen: A ∩ B (A und B treten beide ein), A \ B (A tritt ein, aber B tritt nicht ein), B \ A (B tritt ein, aber A tritt nicht ein). Die Wahrscheinlichkeiten dieser drei Ereignisse summieren sich zur Wahrscheinlichkeit von A ∪ B: P (A ∪ B) = P (A ∩ B) + P (A \ B) + P (B \ A). Andererseits bilden die Ereignisse A ∩ B und A \ B gemeinsam das Ereignis A. Ebenso läßt sich das Ereignis B zerlegen. P (A) = P (A ∩ B) + P (A \ B), P (B) = P (A ∩ B) + P (B \ A). Wir setzen diese drei Formeln ein und erhalten P (A ∪ B) + P (A ∩ B) = [P (A ∩ B) + P (A \ B) + P (B \ A)] + P (A ∩ B), P (A) + P (B) = [P (A ∩ B) + P (A \ B)] + [P (B \ A) + P (A ∩ B)]. In beiden Fällen ist die rechte Seite dieselbe. Also ist P (A ∪ B) + P (A ∩ B) = P (A) + P (B). ¤ 2.1.2.2. Bedingte Wahrscheinlichkeit. Häufig tritt die Frage auf, ob zwischen zwei Merkmalen oder Ereignissen Zusammenhänge gelten. Ändert sich unsere Einschätzung der Wahrscheinlichkeit eines Ereignisses A, wenn wir Information über ein Ereignis B besitzen. Neigen Patienten mit erhöhtem Bierkonsum eher zu Bluthochdruck als Patienten mit geringem Bierkonsum? Geben Kühe in Ställen, die mit MozartMusik beschallt werden, mehr Milch als unmusikalische Kühe? Definition 2.1.2.5. Seien A und B zwei Ereignisse. Das Symbol P (A | B) bezeichnet die bedingte Wahrscheinlichkeit von A unter der Bedingung B. Sie gibt die Wahrscheinlichkeit an, dass das Ereignis A eintritt, wenn bekannt ist, dass das Ereignis B eintritt. Tipp 2.1.2.6. Unterscheiden Sie sorgfältig die folgenden Wahrscheinlichkeiten: • P (A): Unbedingte Wahrscheinlichkeit, dass Ereignis A eintritt. Keine Vorinformation. • P (A∩B): Unbedingte Wahrscheinlichkeit, dass sowohl Ereignis A als auch Ereignis B eintritt. Keine Vorinformation. • P (A | B): Bedingte Wahrscheinlichkeit, dass A eintritt, wenn die Information bekannt ist, dass Ereignis B eintritt. • P (B | A): Bedingte Wahrscheinlichkeit, dass B eintritt, wenn die Information bekannt ist, dass Ereignis A eintritt. Beispiel 2.1.2.7. Unter den PatientInnen, welche mit einer bestimmten Diagnose XXX eingeliefert werden, werden die Symptome Kopfschmerzen und Fieber betrachtet. Die folgende Vierfeldertafel gibt an, welcher Anteil der Patienten Kopfschmerzen und Fieber hat: ja Fieber ja nein 0.2 0.1 gesamt 0.3 Kopfschmerzen nein gesamt 0.4 0.6 0.3 0.4 0.7 1.0 Analysieren Sie die Tabelle. Insbesondere: Wie groß ist die Wahrscheinlichkeit, dass eine mit Diagnose XXX eingelieferte Person Kopfschmerzen hat, wenn sie Fieber hat? 2.1. ZUFALL UND WAHRSCHEINLICHKEIT 63 Diskussion: Zur Abkürzung betrachten wir die folgenden Ereignisse, die mit jeder neu eingelieferten PatientIn eintreffen können: F Die eingelieferte Person hat Fieber. K Die eingelieferte Person hat Kopfschmerzen. Im Inneren der Tabelle befinden sich die Wahrscheinlichkeiten, dass Personen die Symptome zeigen. Zum Beispiel finden wir links oben die Wahrscheinlichkeit, dass eine Person, welche mit der Diagnose XXX eingeliefert wird, unter Kopfschmerzen leidet und auch Fieber hat: P (K ∩F ) = 0.2. Dass eine Person Kopfschmerzen aber kein Fieber hat, tritt mit Wahrscheinlichkeit P (K ∩F ) = 0.1 ein. An den Rändern finden wir die Wahrscheinlichkeiten der einzelnen Ereignisse, zum Beispiel ist die zweite Spaltensumme die Wahrscheinlichkeit, dass eine eingelieferte Person kein Fieber hat: P (F ) = 0.4. Die Summe der ersten Zeile gibt die Wahrscheinlichkeit, dass eine Person unter Kopfschmerzen leidet: P (K) = 0.3. Nun fragen wir: Wie groß ist die Wahrscheinlichkeit, dass eine mit Diagnose XXX eingelieferte Person Kopfschmerzen hat, wenn sie Fieber hat, wir fragen also nach der bedingten Wahrscheinlichkeit P (K | F ). Der Anteil aller PatientInnen mit Fieber ist P (F ) = 0.6. Der Anteil der PatientInnen, welche zusätzlich Kopfschmerzen hat, bezogen auf die Gesamtheit aller Personen, ist P (K ∩ F ) = 0.2. Also leidet ein Drittel der eingelieferten Personen, welche Fieber zeigen, auch Kopfschmerzen: P (K | F ) = 0.2 1 P (K ∩ F ) = = . P (F ) 0.6 3 ¤ Wenn Sie das obige Beispiel verstanden haben, verstehen Sie die Formel für die bedingte Wahrscheinlichkeit: Merksatz 2.1.2.8. Seien A und B zwei Ereignisse. Für die bedingte Wahrscheinlichkeit von A unter Bedingung, dass B gilt, gilt die Formel P (A | B) = P (A ∩ B) . P (B) Beispiel 2.1.2.9. Ein Promille einer Bevölkerungsgruppe sind von einer bestimmten Krankheit befallen. Ein Labortest fällt bei 90 Prozent aller Erkrankten positiv aus, aber auch bei 1 Prozent aller Gesunden. Eine Person unterzieht sich dem Test, und der Test ist positiv. Wie groß ist die Wahrscheinlichkeit, dass diese Person erkrankt ist. Diskussion: Zunächst betrachten wir die Angaben. Wir haben zwei Ereignisse: K “Die Person ist krank”, T “Der Test fällt positiv aus”. Die Angaben enthalten folgende Information: • P (K) = 0.001, denn 1 Promille von allen (keine Vorinformation) ist krank. • P (T | K) = 0.9, denn der Test fällt bei 90% aller Kranken positiv aus. Eine bedingte Wahrscheinlichkeit, die nur auf Kranke anwendbar ist. • P (T | K) = 0.01, denn der Test fällt bei 1% der Gesunden positiv aus. Eine bedingte Wahrscheinlichkeit, die nur auf Gesunde anwendbar ist. • P (K | T ) =? ist gefragt: Die bedingte Wahrscheinlichkeit, dass eine Person krank ist, wenn die Information gegeben ist, dass ihr Test positiv ausfällt. Die folgende Grafik, ein Ereignisbaum, zeigt, wie wir die Aufgabe analysieren: 64 2. ZUFALLSGRÖSSEN 0.9 krank und Test positiv 0.00090 0.1 krank und Test negativ 0.00010 krank 0.001 0.001 Gesamtheit 1.0 0.999 0.01 gesund und Test positiv 0.00999 0.99 gesund und Test negativ 0.98901 gesund 0.999 Test positiv 0.01089 P(krank | Test positiv) = 0.00090 0.01089 = 0.08264 Beispiel 2.1.2.9: Ereignisbaum • Die Gesamtpopulation, insgesamt 100%=1, zerfällt in zwei Teile: Die Kranken (0.001) und die Gesunden (0.999). • Die Kranken zerfallen wieder in zwei Gruppen: – Die Kranken mit positivem Test: das ist der Anteil 0.9 der Kranken. Weil die Kranken von der Gesamtheit 1 Promille = 0.001 ausmachen, ist also der Anteil der Kranken mit positivem Test an der Grundgesamtheit 0.001 × 0.9 = 0.0009. – Die Kranken mit negativem Test: das ist der Anteil 0.1 der Kranken. Weil die Kranken von der Gesamtheit 1 Promille = 0.001 ausmachen, ist also der Anteil der Kranken mit negativem Test an der Grundgesamtheit 0.001 × 0.1 = 0.0001. • Die Gesunden zerfallen ebenfalls in zwei Gruppen: – Die Gesunden mit positivem Test, Anteil 0.01 der Gesunden, also Anteil 0.999 × 0.01 = 0.00999 der Gesamtbevölkerung. – Die Gesunden mit negativem Test, Anteil 0.99 der Gesunden, also Anteil 0.999 × 0.99 = 0.98901 der Gesamtbevölkerung. • Die Bevölkerung mit positivem Test besteht aus den Kranken mit positivem Test (Anteil 0.00090 der Gesamtheit) und den Gesunden mit positivem Test (Anteil 0.00999 der Gesamtheit). Das ergibt insgesamt den Anteil 0.00090 + 0.00999 = 0.01089 der Gesamtheit. • Unter allen Personen mit positivem Test (Anteil 0.01089 der Gesamtheit) befinden sich die Kranken mit postivem Test (Anteil 0.00090 der Gesamtheit). Daher beträgt der Anteil der Kranken unter den Personen mit positivem Test 0.00090/0.01089 ≈ 0.08264. Nur 8.3 % der Personen mit positivem Test sind tatsächlich krank! Das Ergebnis erscheint zunächst paradox, man hätte dem Test größere Treffsicherheit zugetraut. Aber die Kranken sind in der Population so selten, dass der Anteil der Gesunden, die zufällig trotzdem einen positiven Test haben, den Anteil der tatsächlich Kranken deutlich überwiegt. ¤ Wenn Sie das obige Beispiel verstanden haben, verstehen Sie die Bayessche Formel: Merksatz 2.1.2.10 (Formel von Bayes). Seien A und B Ereignisse. Gegeben sei die (unbedingte) Wahrscheinlichkeit P (A) von A und die beiden bedingten Wahrscheinlichkeiten P (B | A), P (B | A) von B unter den beiden Bedingungen dass A eintritt oder nicht. Die bedingte Wahrscheinlichkeit P (A | B) von A, wenn bekannt ist dass B eintritt, errechnet sich P (A | B) = P (A) · P (B | A) . P (A) · P (B | A) + P (A) · P (B | A) 2.1.2.3. Unabhängigkeit. Wir haben jetzt in mehreren Beispielen gesehen, dass Information über ein Ereignis die Einschätzung der Wahrscheinlichkeit eines anderen Ereignisses wesentlich beeinflussen kann. Natürlich 2.1. ZUFALL UND WAHRSCHEINLICHKEIT 65 gibt es auch Ereignisse, die aufeinander gar keinen Einfluss haben, sodass die Information über das erste Ereignis keinerlei Hinweise auf das andere Ereignis enthält. Definition 2.1.2.11. Zwei Ereignisse A, B heißen unabhängig, wenn eine der folgenden drei Beziehungen gilt. In diesem Fall gelten auch immer die anderen beiden. P (A | B) = P (A), P (B | A) = P (B), P (A ∩ B) = P (A) · P (B). Diskussion: Die erste Gleichung sagt, dass Information über B nichts an der Einschätzung der Wahrscheinlichkeit von A ändert. Die unbedingte Wahrscheinlichkeit von A ist auch die bedingte Wahrscheinlichkeit von A unter der Bedingung B. Die zweite Gleichung sagt ebenso, dass Information über A keine neuen Hinweise auf B bringt. Dass die drei Gleichungen in Wirklichkeit alle dasselbe aussagen, folgert man leicht aus der Formel der bedingten Wahrscheinlichkeit: P (A | B) = P (A ∩ B) . P (B) Daher gilt: Ist P (A ∩ B) = P (A)P (B), dann ist P (A | B) = P (A)P (B)/P (B) = P (A), und umgekehrt. Dieselbe Überlegung kann man auch für P (B | A) anstellen. ¤ Merksatz 2.1.2.12. • Unabhängigkeit und Abhängigkeit sind statistische Eigenschaften. Wenn zwei Ereignisse im statistischen Sinn abhängig sind, beweist das noch lange nicht, dass zwischen beiden ein kausaler Zusammenhang besteht. • Andererseits wird bei statistischen Betrachtungen oft die Unabhängigkeit von Ereignissen vorausgesetzt, zwischen denen kein kausaler Zusammenhang besteht. Wählt man, z.B., rein zufällig eine Stichprobe aus einer Grundgesamtheit, so geht man in anschließenden statistischen Untersuchungen davon aus, dass die Auswahl der einzelnen Merkmalsträger unabhängig ist. Unabhängigkeit kann man auch von mehr als zwei Ereignissen oder für Zufallsvariablen definieren. Die Definition ist etwas umständlich: Definition 2.1.2.13. Seien A1 , A2 , · · · , An Ereignisse. Wir sagen, dass diese Ereignisse unabhängig sind, wenn jedes Ereignis Ai von jedem Ereignis B unabhängig ist, das sich mit Hilfe der anderen Aj (j 6= i) durch Negation, Durchschnitt und Vereinigung bilden läßt. Seien X1 , X2 , · · · , Xn Zufallsvariable. Wir sagen, dass diese Zufallsvariablen unabhängig sind, wenn alle Ereignisse Bi , die sich mit Hilfe von jeweils Xi ausdrücken lassen, unabhängig sind. Beispiel 2.1.2.14. Angenommen, in einer Personengruppe sind Geschlecht (0: männlich, 1: weiblich), Magnesiumgehalt im Blut (mmol/ml) und Blutzucker (mmol/ml) unabhängige Zufallsvariablen. 30% dieser Personen haben niedrigen Magnesiumspiegel (definiert durch einen geeigneten Grenzwert). Welcher Prozentsatz der Männer mit erhöhtem Blutdruck (definiert durch einen geeigneten Standardwert) hat niedrigen Magnesiumspiegel? Diskussion: Aus der Gruppe wird eine Person zufällig ausgewählt. Es sind dann zum Beispiel auch die folgenden Ereignisse unabhängig: 66 2. ZUFALLSGRÖSSEN B1 : Die ausgewählte Person ist männlich. B2 : Die Person hat erhöhten Blutzuckerwert. B3 : Die ausgewählte Person hat niedrigen Magnesiumspiegel. Die Information über Ereignisse B1 und B2 ändert nichts an der Einschätzung der Wahrscheinlichkeit von Ereignis B3 . Laut Angabe ist die Wahrscheinlichkeit von B3 in dieser Personengruppe P (B3 ) = 0.3. Daher ist auch P (B3 | B1 ∧B2 ) = 0.3. Es haben auch 30% der Männer mit erhöhtem Blutzucker niedriges Magnesium. ¤ Was Sie jetzt können: Begriffe und Wissen: Ereignisse, Wahrscheinlichkeit, Rechenregeln der Wahrscheinlichkeitsrechnung, ausschließende Ereignisse, bedingte Wahrscheinlichkeit, Unabhängigkeit von Ereignissen und Zufallsvariablen. Methoden: Entscheidungsbaum. 2.2. Zufallsvariablen Übersicht: 1. Verteilung von Zufallsvariablen 2. Statistische Kennzahlen von Zufallsvariablen 2.2.1. Verteilung von Zufallsvariablen. Übersicht: 1. Verteilung diskreter Zufallsvariablen 2. Verteilung stetiger Zufallsvariablen 2.2.1.1. Verteilung diskreter Zufallsvariablen. Wie die Realisierung einer Zufallsvariablen ausfällt, weiß man erst nach dem Zufallsexperiment. Dagegen kann man von vielen Zufallsgrößen vor dem Versuch angeben, welche Realisierung wie wahrscheinlich ist. Definition 2.2.1.1. Die Gesetzmäßigkeit, nach der die Wahrscheinlichkeiten der einzelnen Realisierungen einer Zufallsgröße bestimmt werden, heißt das Verteilungsgesetz oder kurz die Verteilung der Zufallsgröße. Definition 2.2.1.2. Die Verteilungsfunktion F (x) einer Zufallsgröße X gibt die Wahrscheinlichkeit an, dass eine Realisierung einen Wert kleiner oder gleich x annimmt: F (x) = P (X ≤ x). 2.2. ZUFALLSVARIABLEN 67 Beispiel 2.2.1.3. Mit einem fairen Würfel wird gewürfelt. Die erhaltene Augenzahl ist eine Zufallsgröße, die wir mit X bezeichnen. Welche Realisierungen sind möglich, und wie lautet das Verteilungsgesetz? Diskussion: Es gibt sechs verschiedene Augenzahlen, die herauskommen können (nämlich 1 – 6). Weil der Würfel fair ist, kommt jede Augenzahl mit derselben Wahrscheinlichkeit, nämlich je ein Sechstel, vor. Hier ist die Tabelle der Realisierungen und ihrer Wahrscheinlichkeiten: Realisierung xi 1 2 3 4 5 6 Wahrscheinlichkeit P (X = xi ) 1/6 1/6 1/6 1/6 1/6 1/6 Verteilungsfunktion P (X ≤ xi ) 1/6 2/6 3/6 4/6 5/6 1 ¤ Methode 2.2.1.4. Die Verteilung einer diskreten Zufallsgröße X kann auf drei Arten angegeben werden: a) Eine Tabelle, die alle möglichen Realisierungen und ihre Wahrscheinlichkeiten aufzählt. b) Eine Tabelle, die alle möglichen Realisierungen und die Verteilungsfunktion aufzählt. c) Eine Formel. Für eine Zufallsvariable spielt die Verteilung dieselbe Rolle wie die Häufigkeit für ein Merkmal innerhalb einer Gesamtheit. Dabei entspricht die Wahrscheinlichkeit, dass eine Realisierung auftritt, der relativen Häufigkeit des Merkmals, während die Verteilungsfunktion der kumulativen relativen Häufigkeit entspricht. Beispiel 2.2.1.5. An einer Kreuzung ereignet sich im Durchschnitt alle 2 Tage ein Unfall. Wie wahrscheinlich ist, dass sich morgen dort 0,1,2,3. . . Unfälle ereignen? Diskussion: Wir fragen nach der Zufallsvariablen: X=“Anzahl der Unfälle an dieser Kreuzung an einem bestimmten Tag” und ihrer Verteilung. Das Beispiel soll hier nur zeigen, wie man die Verteilung angibt, nicht, wie man gerade auf diese Formel kommt. Wenn man davon ausgeht, dass die Unfälle voneinander unabhängig passieren, handelt es sich um eine Poisson-verteilte Zufallsgröße mit Mittelwert µ = 0.5. Es gilt die Formel P (x = k) = 1 −0.5 e (0.5)k . k! In Tabellenform (für die ersten paar Realisierungen, denn rein theoretisch gibt es unendlich viele): Realisierung k 0 1 2 3 4 .. . Wahrscheinlichkeit P (X = k) 0.607 0.303 0.076 0.013 0.002 .. . Verteilungfunktion P (X ≤ k) 0.607 0.910 0.986 0.998 ≈ 1.0 .. . Wir zeigen noch ein Stabdiagramm für die Wahrscheinlichkeiten, sowie die Verteilungsfunktion: 68 2. ZUFALLSGRÖSSEN Wahrscheinlichkeit 0.8 0.6 0.4 0.2 Verteilungsfunktion 0 1 2 x 3 4 0 1 2 x 3 4 1 0.8 0.6 0.4 0.2 0 −1 ¤ 0 5 Stabdiagramm und Verteilungsfunktion einer Poissonverteilung Merksatz 2.2.1.6. Die Verteilungsfunktion einer diskreten Zufallsvariablen bleibt zwischen den Werten der möglichen Realisierungen konstant. An den Stellen, die als Realisierung in Frage kommen, springt sie um die Wahrscheinlichkeit dieser Realisierung aufwärts. Beispiel 2.2.1.7. Wir beziehen uns auf die Kreuzung aus Beispiel 2.2.1.5. Wie wahrscheinlich ist, dass an einem bestimmten Tag mindestens ein, aber höchstens 3 Unfälle an dieser Kreuzung geschehen? Diskussion: Wir können die Tabelle der einzelnen Wahrscheinlichkeiten ablesen und die Wahrscheinlichkeiten für 1,2,3 addieren: P (1 ≤ X ≤ 3) = P (X = 1) + P (X = 2) + P (X = 3) = 0.303 + 0.076 + 0.013 = 0.392. Wir können aber auch (und das ist in der Praxis meistens bequemer) die Tabelle der Verteilungsfunktion verwenden: P (1 ≤ X ≤ 3) = P (X ≤ 3) − P (X ≤ 0) = 0.998 − 0.607 = 0.391. (Der Unterschied in der letzten Dezimalstelle kommt daher, dass die letzte Stelle in beiden Tabellen gerundet war.) ¤ 2.2.1.2. Verteilung stetiger Zufallsvariablen. Auch die Angabe der Verteilung einer stetigen Zufallsvariablen kann durch die Verteilungsfunktion erfolgen. Die Definition der Verteilungsfunktion erfolgt genauso wie für diskrete Zufallsvariablen. Zur Erinnerung wiederholen wir die Definition 2.2.1.2: Definition: Sei X eine beliebige Zufallsvariable. Die Verteilungsfunktion F (x) gibt die Wahrscheinlichkeit an, dass Realisierungen von X kleiner oder gleich x ausfallen: F (x) = P (X ≤ x). Es ist aber nicht mehr sinnvoll, die Wahrscheinlichkeiten einzelner Realisierungen anzugeben. Typischerweise ist die Wahrscheinlichkeit, dass ein einzelner Wert angenommen wird, gleich Null. (Fast sicher wird die Temperatur morgen früh nicht exakt 6.00000. . . Grad betragen, sondern zumindest eine sehr kleine — vielleicht gar nicht messbare — Dezimalstelle wird von Null abweichen.) Anstelle des Stabdiagramms oder Histogramms tritt jetzt die Dichtefunktion: 2.2. ZUFALLSVARIABLEN 69 Definition 2.2.1.8. Sei X eine stetige Zufallsgröße. Die Fläche unter der Dichtefunktion f zwischen zwei Werten a, b gibt die Wahrscheinlichkeit an, dass die Zufallsgröße eine Realisierung im Intervall (a, b) annimmt. Z b P (a ≤ X ≤ b) = f (x) dx. a Bemerkung 2.2.1.9. Während viele Begriffe für stetige Zufallsvariablen, wie etwa die Dichte und viele Kennzahlen, mit Hilfe von Integralen definiert werden müssen, werden wir in der Praxis die Integralrechnung nicht benötigen. Die Auswertung der Integrale haben uns schon die TheoretikerInnen abgenommen, die die Tabellenwerke und Computerprogramme erstellt haben, welche wir in der Praxis verwenden. Beispiel 2.2.1.10. Die Grafik zeigt die Verteilungsfunktion und Dichtefunktion einer standard-normalverteilten Zufallsvariablen. Wie liest man daraus die Wahrscheinlichkeit ab, dass eine Realisierung in das Intervall [-1,1] fällt? 1 Verteilung F(x) 0.8 0.6 0.63 0.4 0.2 0 −3 −2 −1 0 x 1 2 3 1 2 3 0.4 Dichte f(x) 0.3 0.2 0.63 0.1 0 −3 −2 −1 0 x Verteilungs- und Dichtefunktion der Standardnormalverteilung Diskussion: Wir bezeichnen mit Z eine standardnormalverteilte Zufallsgröße. (Der Buchstabe Z hat sich für standardnormalverteilte Zufallsgrößen eingebürgert.) Wir lesen die Verteilungsfunktion bei den Werten x = ±1 ab: P (Z ≤ 1) = F (1) ≈ 0.84 P (Z ≤ −1) = F (−1) ≈ 0.16 Im Intervall [−1, 1] liegt jedes x mit x ≤ 1 aber nicht x < −1. Daher ist P (Z ∈ [−1, 1]) = P (Z ≤ 1) − P (Z ≤ −1) ≈ 0.84 − 0.16 = 0.68. Unter der Dichtekurve sehen wir dieselbe Wahrscheinlichkeit als Fläche zwischen den senkrechten Linien x = −1 und x = 1. ¤ Merksatz 2.2.1.11. Die folgende Tabelle beschreibt die typische Form der Verteilungsfunktion und Dichtefunktion. 70 2. ZUFALLSGRÖSSEN Verteilungsfunktion F : Positiv und monoton steigend. Geht gegen 0 für x → −∞, geht gegen 1 für x → ∞ In Bereichen, die oft angenommen werden, steigt die Verteilungskurve stark an. Dichtefunktion f : Positiv. Die Fläche unter der gesamten Dichtekurve ist 1. Die Dichtefunktion geht gegen 0 für x → ±∞. In Bereichen, die oft angenommen werden, ist die Dichtefunktion hoch. Merksatz 2.2.1.12. Die Verteilung einer stetigen Zufallsvariablen kann auf zwei Arten beschrieben werden: a) Die Verteilungsfunktion. b) Die Dichtefunktion. Beide Funktionen können entweder durch Formeln oder durch Tabellen angegeben werden. Die Kurve der Dichtefunktion ist ein gutes Mittel, die Verteilung einer Zufallsvariablen zu veranschaulichen. Für rechnerische Zwecke ist die Verteilungsfunktion nützlicher, weil sie direkt — ohne Flächenberechnung — eine Wahrscheinlichkeit angibt. Was Sie jetzt können: Begriffe und Wissen: Verteilung und Verteilungsfunktion einer diskreten Zufallsvariablen, Beschreibung der Verteilung mittels Tabelle der Wahrscheinlichkeiten, Tabelle der Verteilungsfunktion, oder Formeln. Verteilungsfunktion und Dichtefunktion einer stetigen Zufallsvariablen. 2.2.2. Statistische Kennzahlen von Zufallsvariablen. Übersicht: 1. Erwartungswert von Zufallsvariablen 2. Varianz und Standardabweichung von Zufallsvariablen 3. Perzentile von Zufallsvariablen 2.2.2.1. Erwartungswert von Zufallsvariablen. Analog zum Mittelwert und zur Standardabweichung von Merkmalen kann man solche Kenngrößen auch für Zufallsvariablen definieren. Ersetzt man die relativen Häufigkeiten in der Berechnung von Mittelwert und Varianz durch die Wahrscheinlichkeit der möglichen Realisierungen, erhält man direkt die entsprechenden Definitionen für diskrete Zufallsvariablen: Definition 2.2.2.1. Sei X eine diskrete Zufallsgröße mit den möglichen Realisierungen x1 , x2 · · · (das können auch unendlich viele sein) und ihren Wahrscheinlichkeiten p1 , p2 , · · ·. Wir sagen, X besitzt den Erwartungswert E(X), wenn die folgende Summe existiert (was für endliche Summen immer gilt, aber bei unendlich vielen möglichen Ausprägungen nicht immer gelten muss): X E(X) = pi xi . i=1,2,··· 2.2. ZUFALLSVARIABLEN 71 Beispiel 2.2.2.2. Mit einem fairen Würfel wird gewürfelt. Berechnen Sie den Erwartungswert der Zufallsvariablen “Geworfene Augenzahl”. Diskussion: Wir erstellen eine Tabelle der Verteilung: Mögliche Realisierungen und ihre Wahrscheinlichkeiten: xi Realisierung 1 2 3 4 5 6 Summe pi Wahrscheinlichkeit 1/6 1/6 1/6 1/6 1/6 1/6 1 xi pi 1/6 2/6 3/6 4/6 5/6 6/6 E(X) = 21/6 = 3.5 ¤ Bemerkung 2.2.2.3. Auch für stetige Zufallsvariablen kann man einen Erwartungswert definieren, allerdings benötigt man dafür Integralrechnung, daher werden wir in dieser Vorlesung keine Definition geben. Die Interpretation des Erwartungswertes ist aber für stetige und diskrete Zufallsvariablen dieselbe. Merksatz 2.2.2.4. Den Erwartungswert einer Zufallsgröße kann man folgendermaßen interpretieren: Wird die Zufallsgröße in sehr vielen unabhängigen Versuchen immer neu realisiert, so liegt der Mittelwert der Realisierungen mit großer Wahrscheinlichkeit nahe bei E(X). Die Übereinstimmung wird umso besser, je mehr Realisierungen durchgeführt werden (“Gesetz der großen Zahlen”). Diskussion: Die mathematisch exakte Formulierung des Gesetzes der großen Zahlen muss mit Hilfe von Grenzwerten erfolgen. Sie ist keineswegs selbstverständlich, sondern muss mit einigem Aufwand mathematisch bewiesen werden. ¤ 2.2.2.2. Varianz und Standardabweichung von Zufallsvariablen. Definition 2.2.2.5. Sei X eine diskrete Zufallsgröße mit den möglichen Realisierungen x1 , x2 · · · (das können auch unendlich viele sein) und ihren Wahrscheinlichkeiten p1 , p2 , · · ·. Die Zufallsgröße X besitze einen Erwartungswert E(X). Wir sagen, X besitzt die Varianz σ(X) wenn die folgende Summe existiert: X X 2 σ 2 (X) = pi (xi − E(X))2 = pi x2i − (E(X)) . i=1,2,··· i=1,2,··· Die Standardabweichung von X ist die Wurzel der Varianz: p σ(X) = σ 2 (X). 2 Für die Varianz gibt es auch die Schreibweisen Var(X) oder σX . Varianz und Standardabweichung kann man mit Hilfe von Integralen auch für stetige Zufallsvariable definieren. Beispiel 2.2.2.6. Mit einem fairen Würfel wird gewürfelt. Berechnen Sie Varianz und Standardabweichung der Zufallsvariable “Geworfene Augenzahl”. 72 2. ZUFALLSGRÖSSEN Diskussion: Wir wiederholen die Tabelle der Verteilung aus Beispiel 2.2.2.2 und fügen eine weitere Spalte hinzu: xi Realisierung 1 2 3 4 5 6 Summe −E(X)2 Wurzel pi Wahrscheinlichkeit 1/6 1/6 1/6 1/6 1/6 1/6 1 xi pi x2i pi 1/6 2/6 3/6 4/6 5/6 6/6 E(X) = 21/6 = 3.5 1/6 4/6 9/6 16/6 25/6 36/6 91/6 ≈ 15.17 −12.25 σ 2 (X) ≈ 2.92 σ(X) ≈ 1.71 ¤ Merksatz 2.2.2.7. Ist eine Zufallsvariable X annähernd normalverteilt, so gilt: • Realisierungen von X fallen mit einer Wahrscheinlichkeit von annähernd 0.68 in das Intervall E(X) ± σ(X). • Realisierungen von X fallen mit einer Wahrscheinlichkeit von annähernd 0.95 in das Intervall E(X) ± 2σ(X). • Realisierungen von X fallen mit einer Wahrscheinlichkeit von annähernd 0.997 in das Intervall E(X) ± 3σ(X). Merksatz 2.2.2.8. Für jede Zufallsgröße X, welche einen Erwartungswert und eine Standardabweichung besitzt, gilt: Ist k > 1 eine Zahl, so liegt X mit einer Wahrscheinlichkeit von mindestens 1 − k12 im Intervall E(X) ± kσ(X). Beispiel 2.2.2.9. Die Tageshöchsttemperatur in einer bestimmten Stadt für Tage im Monat August liegt im langjährigen Mittel bei 34 Grad, mit einer Standardabweichung von 4 Grad. Interpretieren Sie diese Zahlen. Diskussion: Wenn man davon ausgeht, dass die Tageshöchsttemperatur annähernd normalverteilt ist (Glockenkurve), hätte man etwa 95% aller Tage des August mit Höchsttemperaturen im Bereich 34±2×4, also zwischen 26 und 42 Grad. Allerdings ist diese Annahme nicht selbstverständlich, man könnte sich auch eine zweigipfelige Verteilung vorstellen, mit einem Gipfel mit hohen Temperaturen für Sonnentage, und einem niedrigeren Gipfel für Regentage. Nach der ChebychevUngleichung liegen aber mit Sicherheit 75% (=1-1/4) aller Tage ihre Höchsttemperaturen zwischen 26 und 42 Grad. ¤ Beispiel 2.2.2.10. Die folgende Grafik zeigt die Dichtekurven dreier Normalverteilungen. Schätzen Sie für die drei Verteilungen jeweils Erwartungswert und Varianz. 2.2. ZUFALLSVARIABLEN 73 0.4 a b Dichtefunktion 0.3 0.2 c 0.1 0 −4 −2 0 x 2 4 Dichtekurven dreier Normalverteilungen Diskussion: Die Dichtekurve der Normalverteilung ist symmetrisch um den Gipfel angeordnet, daher fällt der Mittelwert mit dem Gipfel zusammen. Verteilungen a und c haben ihren Mittelwert bei -1, während Verteilung c ihren Mittelwert bei +1.5 hat. Schwieriger ist die Standardabweichung zu schätzen. Etwa 68% der Fläche unter der Dichtekurve liegt im Bereich E(X) ± σ(X). Für Verteilungen a und b ist die Standardabweichung jeweils 1: Es liegen 68% der Fläche zwischen -2 und 0 für a beziehungsweise zwischen 0.5 und 2.5 für b. Die Standardabweichung von Verteilung c ist 2: Es liegen 68% der Fläche zwischen -3 und 1. Selbstverständlich ist mit Augenmaß unter der Dichtekurve nur eine ganz grobe Schätzung möglich. ¤ Bemerkung 2.2.2.11. Auch andere Kennzahlen, die wir von Merkmalen kennen, zum Beispiel Schiefe und Kurtosis, lassen sich analog für Zufallsvariablen definieren. 2.2.2.3. Perzentile von Zufallsvariablen. Definition 2.2.2.12. Sei X eine (diskrete oder stetige) Zufallsvariable mit Verteilungsfunktion F , und sei a eine Zahl zwischen 0 und 1. Das a-Quantil (100aPerzentil) γa von X ist jener Wert γa , für den die Verteilungsfunktion den Wert a annimmt: F (γa ) = a, anders ausgedrückt: Die Wahrscheinlichkeit, dass Realisierungen von X kleiner oder gleich γa ausfallen, ist P (X ≤ γa ) = a. Insbesondere ist der Median γ0.5 jener Wert, für den gilt, dass die Wahrscheinlichkeit P (X ≤ γ0.5 ) exakt 1/2 beträgt. Im Sonderfall, dass die Verteilungskurve für ein ganzes Intervall auf dem Wert a stehen bleibt, wählt man für γa den kleinsten Wert x mit der Eigenschaft F (x) = a. Dieser Fall tritt gelegentlich bei diskreten Zufallsvariablen auf. Beispiel 2.2.2.13. Die folgende Grafik zeigt die Dichte- und Verteilungsfunktion einer stetigen Zufallsvariablen, welche nur positive Werte annimmt. Eingezeichnet sind die Quartile. 74 2. ZUFALLSGRÖSSEN Dichtefunktion 0.4 0.3 0.2 0.1 25% 25% 0 0 1 25% 2 25% 3 4 5 6 4 5 6 x Verteilungsfunktion 1 0.75 0.5 0.25 1. Quartil 0 0 1 Median 3. Quartil 2 3 x Dichte- und Verteilungsfunktion mit Quartilen Diskussion: Die Quartile sind dort, wo die Verteilungsfunktion die Werte 0.25, 0.5 und 0.75 erreicht. Das ist also ungefähr bei 1 (1. Quartil), 1.8 (Median) und 2.7 (3. Quartil). Zeichnet man die Quantile bei der Dichtekurve ein, so teilen sie die Fläche unter der Dichtekurve in Viertel. Sie sehen insbesondere, dass der Median und der Modal (der Gipfel der Dichtekurve) durchaus nicht zusammenfallen müssen. Hier liegt der Gipfel fast schon beim ersten Quartil. ¤ Was Sie jetzt können: Begriffe und Wissen: Erwartungswert, Varianz und Standardabweichung, Perzentile von Zufallsvariablen. Methoden: Interpretation von Erwartungswert und Standardabweichung. 2.3. Normalverteilung Übersicht: 1. Normalverteilung und Standardnormalverteilung 2. Umgang mit Normalverteilungstabellen 3. Der zentrale Grenzwertsatz 2.3.1. Normalverteilung und Standardnormalverteilung. Übersicht: 1. Definition der Normalverteilung 2. Standardisierung von Normalverteilungen 3. χ2 -Verteilung, t-Verteilung und F-Verteilung 2.3. NORMALVERTEILUNG 75 2.3.1.1. Definition der Normalverteilung. Wir definieren in diesem Kapitel die Normalverteilung. Die besondere Bedeutung dieser Verteilung werden wir erst verstehen, wenn wir in Unterabschnitt 2.3.3 über den zentralen Grenzwertsatz gesprochen haben. Grob gesprochen, erhält man Normalverteilungen dann, wenn sich viele unabhängige Zufallsgrößen überlagern, so wie das bei Mittelwerten von großen Stichproben der Fall ist, aber auch z.B. bei verrauschten (also mit Zufallsfehlern überlagerten) physikalischen Messungen. Definition 2.3.1.1. Eine stetige Zufallsvariable X heißt normalverteilt mit Mittel µ und Standardabweichung σ, wenn die Dichtefunktion f von X folgende Gestalt hat: (x−µ)2 1 f (x) = √ e− 2σ2 . σ 2π Wir schreiben als Kurzschreibweise: X ∼ N (µ, σ). Ist X normalverteilt mit Mittel 0 und Standardabweichung 1, so heißt X standardnormalverteilt. Merksatz 2.3.1.2. Sei X eine N (µ, σ)-normalverteilte Zufallsvariable. Dann gilt: 1) Erwartungswert, Median und Modal von X liegen gemeinsam bei E(X) = µ. 2) Die Standardabweichung von X ist σ(X) = σ. 3) Die Dichtekurve ist symmetrisch um den Mittelwert. Schiefe und Exzess sind 0. Beispiel 2.3.1.3. Die folgende Grafik zeigt die Dichtekurven von vier Normalverteilungen: Mittelwert µ Standardabweichung σ -2 -1 0 1 0.5 2 1 0.75 0.8 µ = −2, σ = 0.5 0.7 Dichtefunktion 0.6 µ = 2, σ = 0.75 0.5 µ = 0, σ = 1 0.4 0.3 µ = −1, σ = 2 0.2 0.1 0 −5 −4 −3 −2 −1 0 1 2 3 4 5 x Dichtekurven von Normalverteilungen Diskussion: Alle Dichtekurven von Normalverteilungen haben die Form der Gaußschen Glockenkurve. Die Dichtekurve der Normalverteilung N (µ, σ) erhält man, indem man 1) Die Kurve der Standardnormalverteilung so verschiebt, dass der Gipfel auf µ fällt. 76 2. ZUFALLSGRÖSSEN 2) Die Kurve nun um den Faktor σ in der x-Richtung streckt und dafür in der y-Richtung staucht, sodass die Fläche unter der Kurve 1 bleibt. 68% der Fläche unter der Dichtekurve liegen im Bereich µ ± σ. ¤ Schreibweise 2.3.1.4. Für standardnormalverteilte Zufallsvariablen wird bevorzugt der Buchstabe Z verwendet. 2.3.1.2. Standardisierung von Normalverteilungen. Es gibt unendlich viele verschiedene Normalverteilung, eine zu jedem möglichen Paar von Mittelwert und Standardabweichung. Trotzdem kann man die Verteilungsfunktionen zu allen dieser Normalverteilungen aus einer einzigen Tabelle ablesen, nämlich der Tabelle der Standardnormalverteilung. Das wird durch den folgenden Satz ermöglicht: Merksatz 2.3.1.5. Sei X eine N (µ, σ)-normalverteilte Zufallsvariable. Aus X bilden wir durch Standardisierung eine neue Zufallsvariable Z= X −µ . σ Dann ist Z standardnormalverteilt. Merksatz 2.3.1.6. Sei X eine N (µ, σ)-normalverteilte Zufallsvariable und Z die zugehörige standardisierte Zufallsvariable. Die Umrechnung zwischen X und Z erfolgt durch die Formeln: Z= X −µ , und umgekehrt: X = µ + σZ. σ Beispiel 2.3.1.7. Sei X normalverteilt mit Mittel 3 und Standardabweichung 4. Sei Z die zugehörige standardisierte Zufallsvariable. 1) Wenn eine Realisierung von X den Wert 6 ergibt, wie groß ist dann die Realisierung von Z? 2) Wenn eine Realisierung von Z den Wert -0.5 ergibt, wie groß ist dann die Realisierung von X? 3) In welchem Bereich liegt Z, wenn X im Intervall [0, 6] liegt? Diskussion: 1) Sei X = 6. Dann ist Z = 6−3 = 0.75. 4 2) Sei Z = −0.5. Dann ist X = 3 + 4 × (−0.5) = 1. 3) Ist X = 6, so wissen wir bereits: Z = 0.75. Ist X = 0, so ist Z = liegt Z in [−0.75, 0.75], wenn X in [0, 6] liegt. 0−3 4 = −0.75. Daher ¤ 2.3.1.3. χ2 -Verteilung, t-Verteilung und F-Verteilung. Die χ2 -Verteilung tritt überall dort auf, wo Quadratsummen von normalverteilten Zufallsvariablen gebildet werden, und das geschieht zum Beispiel bei der Berechnung von Varianzen von Stichproben aus normalverteilten Zufallsvariablen. Werden geschätzte Mittelwerte und geschätzte Varianzen verknüpft, so treten Verteilungen auf, die aus Normalverteilung und χ2 -Verteilung kombiniert werden. Diese Verteilungen werden manchmal auch als Prüfverteilungen bezeichnet, weil sie in vielen statistischen Tests verwendet werden. Wir werden diese Verteilungen in diesem Unterabschnitt kurz einführen. 2.3. NORMALVERTEILUNG 77 Definition 2.3.1.8. Seien Z1 , Z2 , · · · , Zν unabhängige, standardnormalverteilte Zufallsvariable. Die Verteilung der Zufallsvariablen χ2 = Z12 + Z22 + · · · + Zν2 heißt dann χ2 -Verteilung (sprich: Chi-Quadrat) mit ν Freiheitsgraden. Es gibt auch eine relativ einfache explizite Formel für die Dichtefunktion der χ2 -Verteilungen, die wir aber nicht brauchen werden. Für die Praxis braucht man die Perzentile, und die findet man in geeigneten Tabellen. Merksatz 2.3.1.9. Während die Normalverteilung die “natürliche” Verteilung für geschätzte Mittelwerte ist, wurde die χ2 -Verteilung gerade so definiert, dass sie bei geschätzten Varianzen auftritt: Wir nehmen vorweg: Wird von einer N (µ, σ)-normalverteilten Zufallsvariablen X eine Stichprobe von n unabhängigen Realisierungen x1 , · · · , xn erhoben, und daraus die Quadratsumme der Abweichungen vom Mittelwert gebildet S= n X (xi − x)2 , i=1 2 2 dann hat S/σ eine χ -Verteilung mit n − 1 Freiheitsgraden. Merksatz 2.3.1.10. Die χ2 -Verteilung mit ν Freiheitsgraden nimmt nur positive Werte an. Ihr Erwartungswert ist ν, ihre Varianz ist 2ν. Beispiel 2.3.1.11. Die folgende Grafik zeigt die Dichtekurven der χ2 -Verteilungen mit den Freiheitsgraden 1 · · · 5. 1 0.9 0.8 0.7 0.6 n= 1 0.5 n= 2 0.4 n= 3 0.3 n= 4 n= 5 0.2 0.1 0 0 1 2 3 4 5 6 7 8 Dichtekurven der χ2 -Verteilungen mit n Freiheitsgraden Diskussion: Sie sehen insbesondere, dass die Dichtekurve für einen Freiheitsgrad als einzige für x → 0 gegen unendlich geht (trotzdem bleibt die Fläche unter der gesamten Dichtekurve endlich, nämlich 1). Je höher der Freiheitsgrad, desto flacher die Dichtekurve, und desto weiter rechts der Modal. Den negativen Bereich haben wir nicht gezeichnet. Im ganzen negativen Bereich ist die Dichte exakt Null, denn die χ2 -Verteilung kann nur positive Werte annehmen. ¤ 78 2. ZUFALLSGRÖSSEN Außer der χ2 -Verteilung kommen auch sehr häufig die folgenden beiden Verteilungen vor, welche wir nicht exakt definieren, sondern von denen wir nur den Anwendungsbereich umschreiben. Den Nutzen solcher Verteilungen werden wir erst sehen, wenn wir uns mit den Problemen des statistisches Schätzens und Testens befassen. Merksatz 2.3.1.12. 1) Die Studentsche t-Verteilung tritt immer dort auf, wo aus einer Stichprobe ein Mittelwert geschätzt und mit Hilfe einer ebenfalls aus der Stichprobe geschätzten Standardabweichung standardisiert wird. Die t-Verteilung hat Mittelwert 0 und eine glockenförmige Dichtekurve ähnlich wie die Standardnormalverteilung, nur etwas breiter. Es gibt t-Verteilungen für alle Freiheitsgrade ν = 1, 2, 3 · · ·. Je höher der Freiheitsgrad, desto schlanker die Glocke, und desto geringer die Streuung. Die t-Verteilung für unendlich viele Freiheitsgrade ist die Standardnormalverteilung. 2) Die F-Verteilung tritt immer dort auf, wo (zu Vergleichszwecken) der Quotient von zwei aus Stichproben geschätzten Varianzen gebildet wird. F-verteilte Zufallsvariable sind immer positiv. Die Kurvenform der FVerteilung ähnelt leicht der χ2 -Verteilung. Die F-Verteilung hat jeweils zwei Freiheitsgrade, den Freiheitsgrad des Zählers und den Freiheitsgrad des Nenners. Was Sie jetzt können: Begriffe und Wissen: Normalverteilung, Standardnormalverteilung, χ2 -Verteilung, Studentsche t-Verteilung, F-Verteilung. Methoden: Standardisierung einer normalverteilten Zufallsvariablen. 2.3.2. Umgang mit Normalverteilungstabellen. Übersicht: 1. 2. 3. 4. 5. Tabelle der Verteilungsfunktion der Standardnormalverteilung Anwendung der Tabelle der Verteilungsfunktion Tabelle der kritischen Werte der Studentschen t-Verteilung Tabelle der kritischen Werte der χ2 -Verteilung Anwendung der Tabellen der kritischen Werte 2.3.2.1. Tabelle der Verteilungsfunktion der Standardnormalverteilung. 2.3. NORMALVERTEILUNG 79 Verteilungsfunktion der Standardnormalverteilung Z Die Tabelle zeigt die Wahrscheinlichkeit, dass Z zwischen 0 und dem angegebenen Wert liegt. 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.00 0.0000 0.0398 0.0793 0.1179 0.1554 0.1915 0.2257 0.2580 0.2881 0.3159 0.01 0.0040 0.0438 0.0832 0.1217 0.1591 0.1950 0.2291 0.2611 0.2910 0.3186 0.02 0.0080 0.0478 0.0871 0.1255 0.1628 0.1985 0.2324 0.2642 0.2939 0.3212 0.03 0.0120 0.0517 0.0910 0.1293 0.1664 0.2019 0.2357 0.2673 0.2967 0.3238 0.04 0.0160 0.0557 0.0948 0.1331 0.1700 0.2054 0.2389 0.2704 0.2995 0.3264 0.05 0.0199 0.0596 0.0987 0.1368 0.1736 0.2088 0.2422 0.2734 0.3023 0.3289 0.06 0.0239 0.0636 0.1026 0.1406 0.1772 0.2123 0.2454 0.2764 0.3051 0.3315 0.07 0.0279 0.0675 0.1064 0.1443 0.1808 0.2157 0.2486 0.2794 0.3078 0.3340 0.08 0.0319 0.0714 0.1103 0.1480 0.1844 0.2190 0.2517 0.2823 0.3106 0.3365 0.09 0.0359 0.0753 0.1141 0.1517 0.1879 0.2224 0.2549 0.2852 0.3133 0.3389 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 0.3413 0.3643 0.3849 0.4032 0.4192 0.4332 0.4452 0.4554 0.4641 0.4713 0.3438 0.3665 0.3869 0.4049 0.4207 0.4345 0.4463 0.4564 0.4649 0.4719 0.3461 0.3686 0.3888 0.4066 0.4222 0.4357 0.4474 0.4573 0.4656 0.4726 0.3485 0.3708 0.3907 0.4082 0.4236 0.4370 0.4484 0.4582 0.4664 0.4732 0.3508 0.3729 0.3925 0.4099 0.4251 0.4382 0.4495 0.4591 0.4671 0.4738 0.3531 0.3749 0.3944 0.4115 0.4265 0.4394 0.4505 0.4599 0.4678 0.4744 0.3554 0.3770 0.3962 0.4131 0.4279 0.4406 0.4515 0.4608 0.4686 0.4750 0.3577 0.3790 0.3980 0.4147 0.4292 0.4418 0.4525 0.4616 0.4693 0.4756 0.3599 0.3810 0.3997 0.4162 0.4306 0.4429 0.4535 0.4625 0.4699 0.4761 0.3621 0.3830 0.4015 0.4177 0.4319 0.4441 0.4545 0.4633 0.4706 0.4767 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 0.4772 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.4965 0.4974 0.4981 0.4778 0.4826 0.4864 0.4896 0.4920 0.4940 0.4955 0.4966 0.4975 0.4982 0.4783 0.4830 0.4868 0.4898 0.4922 0.4941 0.4956 0.4967 0.4976 0.4982 0.4788 0.4834 0.4871 0.4901 0.4925 0.4943 0.4957 0.4968 0.4977 0.4983 0.4793 0.4838 0.4875 0.4904 0.4927 0.4945 0.4959 0.4969 0.4977 0.4984 0.4798 0.4842 0.4878 0.4906 0.4929 0.4946 0.4960 0.4970 0.4978 0.4984 0.4803 0.4846 0.4881 0.4909 0.4931 0.4948 0.4961 0.4971 0.4979 0.4985 0.4808 0.4850 0.4884 0.4911 0.4932 0.4949 0.4962 0.4972 0.4979 0.4985 0.4812 0.4854 0.4887 0.4913 0.4934 0.4951 0.4963 0.4973 0.4980 0.4986 0.4817 0.4857 0.4890 0.4916 0.4936 0.4952 0.4964 0.4974 0.4981 0.4986 3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990 Die Tabelle zeigt nicht genau die Verteilungsfunktion, sondern die Wahrscheinlichkeit, dass die Realisierungen einer standardnormalverteilten Zufallsvariablen Z in das Intervall [0, z] fallen. Der ganzzahlige Teil und die erste Dezimale von z zeigen, in welcher Zeile der Tabelle gesucht wird, die zweite Dezimale von z zeigt, in welcher Spalte zu suchen ist. Im Inneren der Tabelle findet sich dann die gesuchte Wahrscheinlichkeit. Beispiel 2.3.2.1. Wie groß ist die Wahrscheinlichkeit, dass eine standardnormalverteilte Zufallsvariable Werte zwischen Null und 0.75 annimmt? Diskussion: Wir lesen die Tabelle für x = 0.75 ab: 0.00 0.01 ... 0.05 0.0 0.0000 0.0040 . . . 0.0199 0.1 0.0398 0.0438 . . . 0.0596 . . . . .. .. .. .. 0.7 0.2580 0.2611 . . . 0.2734 .. .. .. .. . . . . Es ergibt sich der Wert P (Z ∈ [0, 0.75]) = 0.2734. ¤ ... ... ... ... 0.09 0.0359 0.0753 . .. 0.2852 .. . 80 2. ZUFALLSGRÖSSEN 2.3.2.2. Anwendung der Tabelle der Verteilungsfunktion. Beispiel 2.3.2.2. Bestimmen Sie für eine standardnormalverteilte Zufallsvariable Z die Wahrscheinlichkeit P (Z ≤ −1 oder 2 ≤ Z). Diskussion: Schritt 1 und 2: Wir skizzieren die Dichtekurve der Normalverteilung, also die Gaußsche Glockenkurve. Sie ist symmetrisch um die y-Achse. Wir dunkeln den Bereich unter der Dichtekurve für x ≥ 2 und x ≤ −1 ab. Diese Fläche ist die gesuchte Wahrscheinlichkeit. −3 −2 −1 0 1 2 3 Beispiel 2.3.2.2: Dichtekurve und gesuchter Bereich Schritt 3: Die Tabelle bezieht sich auf die Standardnormalverteilung, und genau das ist das Verteilungsgesetz von Z. Wir dürfen die Tabelle also verwenden, ohne Z irgendwie abzuändern. (Sehr oft hat man normalverteilte Zufallsvariablen, die aber nicht standardisiert sind, etwa mit Mittelwert ungleich Null. Hier müßte man erst auf die Standardnormalverteilung umrechnen. Das sehen wir in einem späteren Abschnitt.) Schritt 4: Die Tabelle zeigt nicht die Verteilungsfunktion selbst, sondern die Wahrscheinlichkeit, dass Z zwischen 0 und x liegt: −3 −2 −1 0 1 2 3 Beispiel 2.3.2.2: Was die Tabelle zeigt Schritt 5: a) Die Fläche zwischen 0 und 2 läßt sich direkt aus der Tabelle ablesen. 2.3. NORMALVERTEILUNG 81 b) Die Fläche zwischen -1 und 0 ist dieselbe wie zwischen 0 und 1, denn die Dichtekurve der Normalverteilung ist symmetrisch um die y-Achse. Daher erhalten wir auch diese Fläche direkt aus der Tabelle. c) Die Fläche unter der gesamten Dichtekurve ist 1. d) Die gesuchte Fläche ist genau der Bereich, der von den beiden Flächen a,b nicht bedeckt ist. 0.4772 0.3413 −3 −2 −1 0 1 2 3 Beispiel 2.3.2.2: Auflösung der Flächen Schritt 6: Die Ablesung der Tabelle erfolgt folgendermaßen: Der ganzzahlige Teil und die erste Dezimalstelle von x bestimmen die Zeile, die zweite Dezimalstelle bestimmt die Spalte. Um Fläche (a) zu bestimmen, lesen wir also in der Tabelle für x = 2.00 ab: 0.0 .. . 2.0 . .. 0.00 0.0000 .. . 0.4772 . .. ... ... ... 0.09 0.0359 .. . 0.4817 . .. Damit ist also die Fläche (a): P (0 ≤ Z ≤ 2) = 0.4772. Ebenso können wir die Fläche (b) in der Tabelle für x = 1.00 ablesen: P (−1 ≤ Z ≤ 0) = P (0 ≤ Z ≤ 1) = 0.3413. Schritt 7: Die gesuchte Fläche ergibt sich durch Subtraktion: 1 - 0.4772 - 0.3413 = 0.1815. ¤ Tipp 2.3.2.3. Wenn Sie mit Tabellen arbeiten, nehmen Sie sich die Zeit, die Dichtefunktion wenigstens grob zu skizzieren, wie beschrieben. Sie können damit viele Fehler vermeiden und die Plausibilität Ihres Resultates überprüfen! Beispiel 2.3.2.4. Sei X eine normalverteilte Zufallsvariable mit Mittelwert 0.72 und Standardabweichung 0.5. Wie groß ist die Wahrscheinlichkeit, dass X Werte zwischen 0 und 2 annimmt? Diskussion: Um die Tabelle der Standardnormalverteilung anzuwenden, müssen wir zunächst X standardisieren: X − 1.7 Z= 0.5 Wir benötigen die standardisierten Werte für X = 0 und X = 2. X Z 0 -1.44 2 2.56 Es liegt also X genau dann zwischen 0 und 2, wenn Z zwischen -1.44 und 2.56 liegt. 82 2. ZUFALLSGRÖSSEN Wir machen nun eine Skizze der Dichtekurve einer standardnormalverteilten Zufallsvariablen: 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 −4 −3 −2 −1 0 1 2 3 4 Zu Beispiel 2.3.2.4 Aus der Tabelle der Standardnormalverteilung entnehmen wir: • Die Wahrscheinlichkeit, dass Z zwischen Null und 1.44 liegt, beträgt 0.4251. • Die Wahrscheinlichkeit, dass Z zwischen Null und 2.56 liegt, beträgt 0.4948. Nach unserer Skizze müssen sich diese beiden Wahrscheinlichkeiten summiert werden. Die Wahrscheinlichkeit, dass Z zwischen -1.44 und 2.56 liegt, beträgt 0.9199. Dies ist zugleich die Wahrscheinlichkeit, dass X zwischen 0 und 2 liegt. ¤ Methode 2.3.2.5. Gegeben ist eine Zufallsvariable X mit bekannter und tabellierter Verteilungsfunktion, und ein Bereich B. Gesucht ist die Wahrscheinlichkeit, dass X in den Bereich B fällt. Schritt 1: Skizzieren Sie die Dichtefunktion der Zufallsvariablen. Schritt 2: Zeichen Sie den Bereich B ein: Die Fläche unter der Dichtekurve ist die gesuchte Wahrscheinlichkeit. Dies ist aber nur eine Skizze . . . Schritt 3: Stellen Sie sicher, dass Ihre Tabelle wirklich zur richtigen Verteilungsfunktion gehört. Manchmal muss man Zufallsvariablen erst umskalieren, um zu einer tabellierten Verteilungsfunktion zu gelangen. Schritt 4: Überzeugen Sie sich, welche Wahrscheinlichkeiten Ihre Tabelle angibt. Nicht immer ist der Tabellenwert die Verteilungsfunktion. Schritt 5: Lösen Sie die gesuchte Fläche unter der Dichtekurve (also Bereich B) als Summe und Differenz von Flächen auf, die direkt aus der Tabelle ablesbar sind. Bei Bedarf verwenden Sie auch, dass die Fläche unter der gesamten Dichtekurve gleich 1 ist. Schritt 6: Lesen Sie für die einzelnen Flächen der Auflösung die Tabellenwerte ab. Schritt 7: Bestimmen Sie die gesuchte Wahrscheinlichkeit durch entsprechende Addition und Subtraktion der Tabellenwerte. 2.3.2.3. Tabelle der kritischen Werte der Studentschen t-Verteilung. Definition 2.3.2.6. Der kritische Wert für α einer Zufallsvariablen ist das (1 − α)-Quantil. Das heißt, die Wahrscheinlichkeit, dass Realisierungen der Zufallsvariablen größer als der kritische Wert ausfallen, ist gerade α. 2.3. NORMALVERTEILUNG 83 0.4 0.35 kritischer Wert für α = 0.05 bei Z=1.645 0.3 0.25 0.2 0.15 0.1 0.05 95% 0 −3 −2 −1 5% 0 1 2 3 Kritischer Wert der Standardnormalverteilung für α = 0.05 Quantile der t-Verteilung α ist die Wahrscheinlichkeit, dass t oberhalb des Tabellenwertes liegt. α Freiheitsgrade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 100 ∞ 0,1 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005 0,00025 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,290 1,282 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,660 1,645 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,984 1,960 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,390 2,364 2,326 63,656 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,626 2,576 127,321 14,089 7,453 5,598 4,773 4,317 4,029 3,833 3,690 3,581 3,497 3,428 3,372 3,326 3,286 3,252 3,222 3,197 3,174 3,153 3,135 3,119 3,104 3,091 3,078 3,067 3,057 3,047 3,038 3,030 2,971 2,915 2,871 2,807 318,289 22,328 10,214 7,173 5,894 5,208 4,785 4,501 4,297 4,144 4,025 3,930 3,852 3,787 3,733 3,686 3,646 3,610 3,579 3,552 3,527 3,505 3,485 3,467 3,450 3,435 3,421 3,408 3,396 3,385 3,307 3,232 3,174 3,090 636,578 31,600 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,768 3,745 3,725 3,707 3,689 3,674 3,660 3,646 3,551 3,460 3,390 3,290 1273,155 44,703 16,326 10,305 7,976 6,788 6,082 5,617 5,291 5,049 4,863 4,717 4,597 4,499 4,417 4,346 4,286 4,233 4,187 4,146 4,109 4,077 4,047 4,021 3,997 3,974 3,954 3,935 3,918 3,902 3,788 3,681 3,598 3,481 84 2. ZUFALLSGRÖSSEN Quantile der χ2 -Verteilung α ist die Wahrscheinlichkeit, dass χ2 oberhalb des Tabellenwertes liegt. Freiheitsgrade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 0,1 0,05 α 0,025 0,01 0,005 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 51,805 63,167 74,397 85,527 96,578 107,565 118,498 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 55,758 67,505 79,082 90,531 101,879 113,145 124,342 5,024 7,378 9,348 11,143 12,832 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,646 41,923 43,195 44,461 45,722 46,979 59,342 71,420 83,298 95,023 106,629 118,136 129,561 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 63,691 76,154 88,379 100,425 112,329 124,116 135,807 7,879 10,597 12,838 14,860 16,750 18,548 20,278 21,955 23,589 25,188 26,757 28,300 29,819 31,319 32,801 34,267 35,718 37,156 38,582 39,997 41,401 42,796 44,181 45,558 46,928 48,290 49,645 50,994 52,335 53,672 66,766 79,490 91,952 104,215 116,321 128,299 140,170 Die Tabellen zeigen einige ausgesuchte, besonders oft gebrauchte Quantile der t-Verteilung bzw. der χ2 -Verteilung. Die Spalte, welche mit α indiziert ist, zeigt den kritischen Wert für α, also das (1 − α)-Quantil. Jede Zeile gehört zu einer Verteilung mit einem bestimmten Freiheitsgrad. Die letzte Zeile der t-Tabelle gehört zur Standardnormalverteilung. 2.3.2.4. Anwendung der Tabellen der kritischen Werte. Beispiel 2.3.2.7. Wo liegt das 99%-Perzentil der t-Verteilung mit 6 Freiheitsgraden? Wo liegt das 99%-Perzentil der Standardnormalverteilung? Diskussion: Das 99%-Perzentil ist der kritische Wert für α = 0.01. Für die t-Verteilung mit 6 Freiheitsgraden finden wir den Wert 3.143. Für die Standardnormalverteilung (unendlich viele Freiheitsgrade) finden wir den Wert 2.326. ¤ Beispiel 2.3.2.8. Wo liegt das 95%-Perzentil einer N(8,3)-normalverteilten Zufallsvariablen X? 2.3. NORMALVERTEILUNG 85 Diskussion: Laut Tabelle liegt das 95%-Perzentil einer standardnormalverteilten Zufallsvariablen Z bei Z = 1.645. Wenn Z = 1.645 ist, dann ist X = 8 + 3 × 1.645 = 12.935. Nun ist die Wahrscheinlichkeit P (Z ≤ 1.645) = 0.95 dasselbe wie die Wahrscheinlichkeit P (X ≤ 12.935). Also liegt das 95%-Perzentil von X bei 12.935. ¤ Beispiel 2.3.2.9. Wie groß muss z sein, damit für eine standardnormalverteilte Zufallsvariable Z gilt: Die Wahrscheinlichkeit, dass Z außerhalb des Intervalls [−z, z] liegt, ist 0.05. Diskussion: Es gibt zwei Möglichkeiten, dass Z außerhalb von [−z, z] zu liegen kommt, nämlich Z < −z oder Z > z: 0.4 0.35 0.3 0.25 0.2 . 0.15 0.1 P(Z>1.96)=0.025 P(Z<−1.96)=0.025 0.05 0 −4 −3 −2 −1 0 1 2 3 4 Zu Beispiel 2.3.2.9 Die Wahrscheinlichkeit beider Möglichkeiten soll sich laut Problemstellung zu 0.05 summieren, sodass wir jeder der beiden Möglichkeiten die Wahrscheinlichkeit α = 0.025 zugestehen. Das gesuchte z ist also der kritische Wert der Standardnormalverteilung zu α = 0.025, und das ist laut Tabelle 1.960. ¤ Tipp 2.3.2.10. Die Quantile der Standardnormalverteilung findet man in Tabellen der Quantile der t-Verteilung (die wir bald besprechen werden) mit ∞ Freiheitsgraden. Wer oft mit Hilfe von Tabellen statistische Tests durchführt, kennt die folgenden Quantile der Standardnormalverteilung meist schon auswendig: α Quantil bei 0.1 1.282 0.05 1.645 0.025 1.960 0.01 2.326 0.005 2.576 Hier ist α die Wahrscheinlichkeit, dass eine standardnormalverteilte Zufallsvariable ihre Realisierung oberhalb des Quantils annimmt. Beispiel 2.3.2.11. Wie groß muss x sein, damit eine χ2 -verteilte Zufallsvariable mit 10 Freiheitsgraden nur in 5% aller Fälle einen Wert größer als x annimmt? Diskussion: Wir suchen den kritischen Wert einer χ2 -verteilten Zufallsvariablen mit 10 Freiheitsgraden für α = 0.05. Die Tabelle zeigt den Wert x = 18.307. ¤ Bemerkung 2.3.2.12. Für viele andere wichtige Verteilungen gibt es ebenfalls Tabellen. Mit der Verbreitung bequemer Statistikpakete für Computer verlieren diese Tabellenwerke langsam ihre Bedeutung im statistischen Alltag. 86 2. ZUFALLSGRÖSSEN Was Sie jetzt können: Methoden: Umgang mit Tabellen zur Bestimmung von Wahrscheinlichkeiten und kritischen Werten. 2.3.3. Zentraler Grenzwertsatz. Übersicht: 1. Rechenregeln für Erwartungswert und Varianz 2. Erwartungswert und Varianz des Mittelwertes von n unabhängigen Realisierungen einer Zufallsvariablen 3. Der zentrale Grenzwertsatz 2.3.3.1. Rechenregeln für Erwartungswert und Varianz. Wenn man zwei Zufallsvariablen realisiert und von den Realisierungen die Summe bildet, ist diese Zahl wieder das Ergebnis eines Zufallsexperimentes, also eine Zufallsvariable. In statistischen Untersuchungen arbeiten wir mit Stichproben, und ihren Mittelwerten und Varianzen. Eine Zufallsstichprobe besteht, mathematisch gesprochen, aus n unabhängigen Realisierungen einer Zufallsvariablen. Der Mittelwert der Stichprobe wird daraus gebildet, dass alle Realisierungen addiert und am Ende mit 1/n multipliziert werden. Um die Eigenschaften des Stichprobenmittelwertes als Zufallsvariable zu charakterisieren, müssen wir also verfolgen, was geschieht, wenn Zufallsvariable addiert und letztlich mit Konstanten multipliziert werden. Definition 2.3.3.1. Seien X, X1 , X2 , . . . , Xn Zufallsvariablen und k eine Zahl. 1) Die Realisierungen der Zufallsvariable X1 + · · · + Xn erhält man, indem man zunächst jedes Xi realisiert, und dann die Realisierungen addiert. 2) Die Realisierungen der Zufallsvariablen kX erhält man, indem man zunächst X realisiert, und dann die Realisierung mit k multipliziert. Beispiel 2.3.3.2. Seien Z1 , Z2 unabhängige Realisierungen einer Zufallsvariablen Z. Was ist der Unterschied zwischen Z1 + Z2 und 2Z? Stellen Sie die Verteilungen für den Fall auf, dass Z durch den Wurf mit einer fairen Münze realisiert wird: Kopf = 1, Wappen = 0. Diskussion: Für Z1 + Z2 wird Z in zwei unabhängigen Versuchen realisiert, und dann die Summe gebildet. Für 2Z wird nur eine Realisierung ermittelt, und diese mit 2 multipliziert. Als Beispiel der Wurf mit einer fairen Münze. Zunächst die Verteilung von Z: mögliche Realisierungen xi 0 1 Wahrscheinlichkeit pi 0.5 0.5 Nun die Verteilung von 2Z: mögliche Realisierungen xi 0 2 Dagegen die Verteilung von Z1 + Z2 : Wahrscheinlichkeit pi 0.5 0.5 Realisierung von Z 0 1 2.3. NORMALVERTEILUNG mögliche Realisierungen xi 0 1 2 Wahrscheinlichkeit pi 0.25 0.5 0.25 87 Realisierungen von Z1 , Z2 0,0 0,1 oder 1,0 1,1 ¤ Die folgenden Rechenregeln gelten für Erwartungswert und Varianz: Merksatz 2.3.3.3. Seien X, X1 , · · · , Xn Zufallsvariablen und k eine Zahl. Für den Erwartungswert gelten folgende Rechenregeln: E(X1 + · · · + Xn ) = E(X1 ) + · · · + E(Xn ), E(kX) = kE(X). Wenn die Zufallsvariablen X1 , · · · , Xn unabhängig sind, gilt auch für die Multiplikation E(X1 × · · · × Xn ) = E(X1 ) × · · · × E(Xn ). Merksatz 2.3.3.4. Seien X, X1 , · · · , Xn Zufallsvariablen und k eine Zahl. Für die Varianz gelten folgende Rechenregeln: σ 2 (kX) = k 2 σ 2 (X). Wenn die Zufallsvariablen X1 , · · · , Xn unabhängig sind, gilt auch σ 2 (X1 + · · · + Xn ) = σ 2 (X1 ) + · · · + σ 2 (Xn ). Als unmittelbare Folge erhalten wir für die Standardabweichung: Merksatz 2.3.3.5. Seien X, X1 , · · · , Xn Zufallsvariablen und k eine Zahl. Für die Standardabweichung gelten folgende Rechenregeln: σ(kX) = |k|σ 2 (X). Wenn die Zufallsvariablen X1 , · · · , Xn unabhängig sind, gilt auch p σ(X1 + · · · + Xn ) = σ 2 (X1 ) + · · · + σ 2 (Xn ). Merksatz 2.3.3.6. 1) Damit sich die Varianzen addieren, müssen die Zufallsvariablen unabhängig sein. 2) Es addieren sich die Varianzen, nicht die Standardabweichungen. Bei unabhängigen Zufallsvariablen X1 , · · · , Xn gehen die Standardabweichungen wie die Längen rechtwinkeliger Dreiecke im Satz von Pythagoras. Beispiel 2.3.3.7. Dieses triviale Beispiel zeigt, wie wichtig die Unabhängigkeit für die obigen Rechenregeln ist. Sei X eine Zufallsvariable mit Varianz σ 2 (X). Wir benennen Y = −X. Bestimmen Sie die Varianz von X + Y . Diskussion: Wenn X und Y unabhängig wären, würde gelten σ 2 (X + Y ) = σ 2 (X) + σ 2 (Y ) = 2σ 2 (X). Beachten Sie aber, dass X und Y nicht unabhängig sind: Mit der Realisierung von X liegt bereits die Realisierung von Y fest. Tatsächlich ist immer X + Y = X − X = 0, sodass σ 2 (X + Y ) = 0. ¤ 88 2. ZUFALLSGRÖSSEN Beispiel 2.3.3.8. Sei X eine Zufallsvariable mit Erwartungswert E(X) = 5 und Standardabweichung σ(X) = 2. Seien X1 , · · · , X9 unabhängige Realisierungen von X. Berechnen Sie Erwartungswert und Standardabweichung der folgenden Zufallsvariablen: S = 9X, T = 9 X Xi , i=1 9 U= 1X Xi . 9 i=1 Diskussion: E(S) = E(9X) = 9E(X) = 45, σ 2 (S) = σ 2 (9X) = 81σ 2 (X) = 324, σ(S) = σ(9X) = 9σ(X) = 18, à E(T ) = E 9 X ! Xi = i=1 σ 2 (T ) = σ 2 à 9 X ! Xi i=1 σ(T ) = σ à 9 X 9 X E(Xi ) = 9 × 5 = 45, i=1 = 9 X σ 2 (Xi ) = 9 × 4 = 36, i=1 ! Xi i=1 v u 9 uX √ =t σ 2 (Xi ) = 9 × σ(X) = 6, i=1 1 1 E(U ) = E( T ) = E(T ) = 5, 9 9 1 1 2 4 σ 2 (U ) = σ 2 ( T ) = σ (T ) = , 9 81 9 1 2 1 σ(U ) = σ( T ) = σ(T ) = . 9 9 3 ¤ 2.3.3.2. Erwartungswert und Varianz des Mittelwertes von n unabhängigen Realisierungen einer Zufallsvariablen. Merksatz 2.3.3.9. Seien x1 , · · · , xn eine Stichprobe aus n unabhängigen Realisierungen einer Zufallsvariablen X mit Erwartungswert E(X) und Standardabweichung σ(X). Dann ist auch das Stichprobenmittel eine Zufallsvariable: x= 1 (X1 + · · · + Xn ) : n Es gilt dann: E(x) = E(X), 1 σ(x) = √ σ(X). n √Tipp 2.3.3.10. Die Standardabweichung des Mittelwertes ist proportional zu 1/ n. Durch große Stichprobenumfänge wird sichergestellt, dass der Mittelwert nicht allzu sehr schwankt. Um die Standardabweichung des Mittelwertes zu halbieren, muss der Stichprobenumfang vervierfacht werden. 2.3. NORMALVERTEILUNG 89 Beispiel 2.3.3.11. Sei X eine Zufallsvariable mit unbekanntem Erwartungswert und mit Standardabweichung 8. Drei Personen versuchen, den unbekannten Erwartungswert zu schätzen: A) Person A realisiert die Zufallsvariable einmal, und verwendet das Ergebnis als Schätzer für den Erwartungswert von X. B) Person B erhebt eine Stichprobe von vier unabhängigen Realisierungen, und verwendet den Mittelwert der Stichprobe als Schätzer für den Erwartungswert von X. C) Person C erhebt hundert unabhängige Realisierungen, und verwendet den Mittelwert der Stichprobe als Schätzer für den Erwartungswert von X. Alle drei Personen berechnen als Schätzer eine Zufallsvariable, deren Mittelwert der gesuchte Parameter, nämlich der Erwartungswert von X ist. Die Standardabweichung der drei Schätzer sind aber verschieden. Wie groß sind die Standardabweichungen, und welche Auswirkung hat das auf die Güte der Schätzung? Diskussion: A) Person A verwendet eine Realisierung von X als Schätzer, die Standardabweichung ist daher 8. B) verwendet ein Stichprobenmittel mit Umfang n = 4. Die Standardabweichung dieses Mittelwertes ist √1 8 = 4. 4 C) verwendet ein Stichprobenmittel mit Umfang n = 100. Die Standardabweichung dieses Mittelwertes ist √ 1 8 = 0.8. 100 Alle drei Schätzmethoden unterliegen dem Zufall, die geschätzten Zahlen sind Zufallsvariablen. Die Erwartungswerte aller drei Schätzer sind der gesuchte Parameter, insofern sind alle drei Schätzer geeignet. Die Standardabweichung ist aber umso kleiner, je größer die Stichprobe ist, und wenn der Schätzer eine kleine Standardabweichung hat, bedeutet das, dass er nur selten weit von seinem Mittelwert abweicht. Das heißt wiederum, dass mit großer Wahrscheinlichkeit der Schätzer nahe am gesuchten Parameter liegt. ¤ Merksatz 2.3.3.12. Die Untersuchung einer Zufallsvariablen durch große Stichproben statt einzelner Realisierungen hat den Zweck, die Streuung der Ergebnisse klein zu halten, und damit den Einfluss des Zufalls möglichst einzudämmen. Beispiel 2.3.3.13. Wie in Beispiel 2.3.3.11 sei X eine Zufallsvariable mit unbekanntem Erwartungswert und mit Standardabweichung 8. Der unbekannte Erwartungswert soll durch den Mittelwert einer Stichprobe des Umfanges n geschätzt werden. Wie groß muss n sein, damit die Standardabweichung des Stichprobenmittelwertes nicht größer als 0.1 ist? Diskussion: Die Standardabweichung des Stichprobenmittelwertes ist 1 8 √ σ(X) = √ . n n Es soll also gelten: 8 √ ≤ 0.1, n d.h. √ n ≥ 80, d.h. n ≥ 6400. ¤ 2.3.3.3. Der zentrale Grenzwertsatz. Wir beginnen mit einer der wichtigsten Eigenschaften der Normalverteilung: Merksatz 2.3.3.14. Die Normalverteilung ist eine stabile Verteilung, das heißt: Sind X und Y zwei unabhängige normalverteilte Zufallsvariable, und ist k eine Zahl, so sind auch die Zufallsvariablen kX und X + Y normalverteilt. 90 2. ZUFALLSGRÖSSEN Diskussion: In anderen Worten: Aus normalverteilten unabhängigen Zufallsvariablen erhält man durch Multiplikation mit festen Zahlen und durch Addition nur wieder normalverteilte Zufallsvariable. ¤ Beispiel 2.3.3.15. Seien X ∼ N (3, 1), Y ∼ N (1, 5) und Z ∼ N (4, 6) drei unabhängige normalverteilte Zufallsvariablen mit Erwartungswerten 3 bzw. 1 bzw. 4 und Standardabweichungen 1, 5, bzw. 6. Welche Verteilung hat die Zufallsvariable U = 10X + Y + Z? Diskussion: Wegen der Stabilität der Normalverteilung ist auch U wieder normalverteilt. Die Mittelwerte summieren sich. Beachtet man noch, dass E(10X) = 10E(X), so erhält man E(U ) = 10 × 3 + 1 + 4 = 35. Auch die Varianzen summieren sich. (Unabhängigkeit war ja vorausgesetzt.) Die Varianz σ 2 (10X) = 100σ 2 (X). Wir erhalten σ 2 (U ) = 100 × 12 + 52 + 62 = 161, √ σ(U ) = 161 ≈ 12.69. Die Zufallsvariable U ist N (35, 12.69)-normalverteilt. ¤ Als unmittelbare Folgerung erhalten wir: Merksatz 2.3.3.16. Sei X eine normalverteilte Zufallsvariable mit Mittelwert µ und Standardabweichung σ. Seien x1 , · · · , xn unabhängige Realisierungen von X, und sei x das Stichprobenmittel √ daraus. Dann ist x normalverteilt mit Mittelwert µ und Standardabweichung σ/ n. Die besondere Bedeutung der Normalverteilung kommt aber vom folgenden Satz: Merksatz 2.3.3.17 (Zentraler Grenzwertsatz). Sei X eine beliebige Zufallsvariable mit Erwartungswert µ und Standardabweichung σ. Seien x1 , · · · , xn unabhängige Realisierungen von X und sei x das Stichprobenmittel davon. Wenn n ausreichend groß ist, dann √ ist x annähernd normalverteilt mit Mittelwert µ und Standardabweichung σ/ n. Diskussion: Eine mathematisch scharfe Formulierung dieses Satzes benötigt die Sprache der Grenzwertrechnung in Verbindung mit Wahrscheinlichkeitstheorie. ¤ Tipp 2.3.3.18. In der Praxis geht man davon aus, dass ein Stichprobenmittel aus einer Stichprobe des Umfanges 30 oder mehr so gut wie normalverteilt ist. Beispiel 2.3.3.19. Sei Y eine χ2 -verteilte Zufallsvariable mit einem Freiheitsgrad. Der Erwartungswert von Y ist daher 1, die Standardabweichung von Y ist √ 2. Die folgende Grafik zeigt die Dichtekurven der Stichprobenmittelwerte von ν unabhängigen Realisierungen von Y . 2.3. NORMALVERTEILUNG 91 4.5 4 ν=200 3.5 3 ν=1 2.5 2 ν=2 1.5 ν=3 ν=50 ν=4 ν=10 1 0.5 0 0 0.5 1 1.5 2 2.5 3 Dichtekurven von Mittelwerten aus ν unabhängigen Realisierungen einer χ2 -verteilten Zufallsvariablen mit 1 Freiheitsgrad. Diskussion: Während die Verteilung von Y , die χ2 -Verteilung mit einem Freiheitsgrad, eine ganz andere Form als eine Glockenkurve hat, werden für große ν die Dichtekurven der Stichprobenmittel immer ähnlicher zu Normalverteilungskurven. Für ν = 50 ist die Normalverteilungskurve schon sehr gut nachgebildet. ¤ Wir fassen unsere bisherigen Ergebnisse über den Stichprobenmittelwert zusammen: Wir kennen seine Eigenschaften so gut wie vollständig! Merksatz 2.3.3.20. Sei X eine Zufallsvariable mit Erwartungswert E(X) = µ und Standardabweichung σ(X) = σ. Sei x das Stichprobenmittel aus n unabhängigen Realisierungen von X. Dann gilt 1) Der Erwartungswert von x ist µ, damit ist x ein erwartungstreuer Schätzer für µ. p 2) Die Standardabweichung von x ist σ/ (n). Insbesondere geht die Standardabweichung gegen Null, wenn n → ∞ geht. 3) Ist X normalverteilt, so ist auch x normalverteilt. 4) Hat X beliebige Verteilung, ist aber n ausreichend groß (Faustregel: n ≥ 30), so ist x annähernd normalverteilt. Was Sie jetzt können: Begriffe und Wissen: Rechenregeln für Erwartungswert und Varianz, Eigenschaften des Mittelwertes. Auswirkung des Stichprobenumfanges auf die Standardabweichung des Stichprobenmittelwertes. Zentraler Grenzwertsatz. KAPITEL 3 Statistisches Schätzen und Testen Übersicht: 1. Schätzen und Testen 1.1. Statistisches Schätzen von Parametern 1.2. Einige wichtige Punktschätzer 1.3. Schema eines statistischen Tests 1.4. Beispiele von statistischen Tests 2. t-Test 2.1. Konfidenzintervall für den Mittelwert 2.2. t-Test auf den Mittelwert 2.3. Vergleichstests auf Basis des t-Tests 3. Binomialverteilung 3.1. Abzählen 3.2. Binomialverteilung und Binomialtest 3.3. Normalapproximation der Binomialverteilung 4. Parameterfreie Methoden 4.1. Anpassung von Verteilungen 4.2. χ2 -Tests für nominale Daten 4.3. Tests für ordinale Daten 3.1. Schätzen und Testen Übersicht: 1. 2. 3. 4. Punktschätzer und Intervallschätzer Einige wichtige Punktschätzer Schema eines statistischen Tests Beispiele von statistischen Tests 3.1.1. Statistisches Schätzen von Parametern. Übersicht: 1. Schließende Statistik 2. Punktschätzer und Intervallschätzer 3. Punktschätzer als Zufallsvariable 93 94 3. STATISTISCHES SCHÄTZEN UND TESTEN 3.1.1.1. Schließende Statistik. Wenn eine Aussage über eine Grundgesamtheit auf Grund von Stichproben gewonnen werden soll, besteht immer das Risiko, dass durch den Zufall eine Stichprobe gewählt wird, die die Eigenschaften der Grundgesamtheit sehr verzerrt wiedergibt. Fehler kann man reduzieren, indem man die Stichprobe repräsentativ wählt und willkürliche Verfälschungen vermeidet, und indem man eine ausreichend große Stichprobe untersucht. Trotzdem bleibt ein Restrisiko bestehen. Die Methoden der schließenden Statistik dienen dazu, dieses Restrisiko zu quantifizieren: 1) Wie groß ist das Fehlerrisiko, wenn ich aus einer Stichprobe gegebener Größe einen Schluss ziehe? 2) Wie groß muss eine Stichprobe gewählt werden, um das Fehlerrisiko kleiner als einen vorgegebenen Wert zu machen? 3) Systematische Verfahren, die nach strengen Regeln ablaufen, liefern in einem vorgegebenen Prozentsatz aller Fälle ein richtiges Resultat, wenn sie immer wieder angewendet werden. Leider läßt sich nicht mehr Sicherheit gewinnen. Der Einzelfall kann immer noch, auch bei sorgfältigster Arbeitsweise, einer der Ausnahmefälle sein, in denen der Zufall einen Fehlschluss verursacht. Merksatz 3.1.1.1. Schließende Statistik stellt Methoden bereit, um Schlüsse von Stichproben auf eine Grundgesamtheit zu gewinnen, und die Wahrscheinlichkeit der unvermeidbaren Zufallsfehler bei diesen Schlüssen zu quantifizieren. Ein statistischer Test gibt Antworten auf Ja-Nein-Fragen. Ein statistischer Schätzer behandelt Fragen, die mit Zahlenwerten zu beantworten sind. 3.1.1.2. Punktschätzer und Intervallschätzer. Definition 3.1.1.2. Ein Punktschätzer ist ein Verfahren, das nach einer festen Formel aus gegebenen Daten einer Stichprobe einen Parameter einer Grundgesamtheit oder einer Zufallsvariablen schätzt. Ein k%-Konfidenzintervall ist ein Verfahren, das nach einer festen Formel aus gegebenen Daten einen Parameter einer Grundgesamtheit oder einer Zufallsvariablen in ein Intervall eingrenzt, und zwar so, dass bei häufiger und regelmäßiger Anwendung des Verfahrens der Parameter in k Prozent aller Fälle richtig eingegrenzt wird. Tipp 3.1.1.3. Lassen Sie sich von der Bezeichnung “Schätzung” nicht irreleiten. Statistische Schätzung besteht in sehr exakten und reproduzierbaren Verfahren und ist keine “Tangens Daumen mal Pi”-Mathematik. Die StatistikerInnen erlauben sich dabei keine Ungenauigkeiten. Die einzige Unsicherheit — und deshalb redet man von Schätzung — kommt von den unvermeidbaren Auswirkungen des Zufalls auf die Stichprobennahme. Beispiel 3.1.1.4. In einer Meinungsumfrage wurden 4000 Personen befragt, ob sie für eine neue Gesetzesvorlage stimmen würden. 600 der Befragten (das sind 15%) würden dafür stimmen. Die Stichprobe entspricht in ihrer Zusammensetzung der Zusammensetzung der gesamten wahlberechtigten Bevölkerung eines Landes. Wieviel Prozent aller Wahlberechtigten würden für die Gesetzesvorlage stimmen? Diskussion: Wir suchen einen Parameter über die Gesamtheit aller Wahlberechtigten des Landes: Nämlich den Anteil derer, die für die Gesetzesvorlage stimmen würden. Dies ist keine Zufallsgröße, wenn wir alle Wahlberechtigten befragen könnten, hätten wir diese Zahl fixiert. Wir haben aber nur den Mittelwert aus einer Stichprobe, das waren 15%. Diese Zahl ist eine Zufallsgröße: Es hängt 3.1. SCHÄTZEN UND TESTEN 95 von der Auswahl der Stichprobe ab, ob sie etwas größer oder kleiner ausfällt. Unsere Aufgabe besteht also darin, einen Parameter aus einer Zufallsgröße zu schätzen. Unsere erste Schätzung ist sicherlich: Der Anteil der Pro-Stimmen in der wahlberechtigten Bevölkerung ist geschätzt 15%. Das ist ein Punktschätzer: Aus den Daten der Stichprobe wird systematisch mittels eines reproduzierbaren Verfahrens ein Schätzwert für den gesuchten Parameter ermittelt. Der Punktschätzer läßt aber eine wichtige Frage offen: Wie genau dürfen wir den Schätzwert nehmen? Liegt der Anteil der Pro-Stimmen zwischen 14% und 16%, oder zwischen 10% und 20%? Ein Schätzer, der den Parameter in ein Intervall eingrenzt, ist ein Intervallschätzer. Je breiter wir das Intervall angeben, desto weniger werden wir uns irren, aber umso weniger informativ wird unsere Antwort ausfallen. Geben wir dagegen ein sehr enges Intervall an, ist natürlich die Wahrscheinlichkeit groß, dass wir den Parameter nicht richtig eingrenzen. Trefferwahrscheinlichkeit und Genauigkeit der Aussage müssen gegeneinander in einem Kompromiss abgewogen werden. Wenn wir in ein Statistikprogramm diese Daten eingeben und ein Konfidenzintervall mit 95% Konfidenz anfordern, könnte folgende Ausgabe erfolgen: Stichprobenumfang: positive : Anteil: Standardfehler des Anteils: Konfidenz: Konfidenzintervall: untere Schranke obere Schranke 4000 600 0.015 0.00565 95% 0.1389 0.1611 Wir sehen zunächst unsere Daten, und den daraus geschätzten Anteil der Pro-Stimmen. Da diese Größe eine Zufallsgröße ist, hat sie eine Streuung, und diese wird durch den Standardfehler ausgedrückt. Die Konfidenz haben wir selbst eingegeben. Das Konfidenzintervall für den Anteil der Pro-Stimmen in der wahlberechtigten Bevölkerung ist 95% Konfidenzintervall: [0.1389, 0.1611] . Das heißt, nach unserer Methode ergibt sich eine Schätzung, dass der Anteil der Pro-Stimmen zwischen 13.89% und 16.11% liegt. Allerdings grenzt diese Methode nur in 19 von 20 Fällen den Anteil richtig ein. Wenn wir eine bessere Trefferquote erzielen wollen, müssen wir eine höhere Konfidenz wählen: 99% Konfidenzintervall: [0.1355, 0.1645] . Sie sehen, dass wir die höhere Trefferwahrscheinlichkeit mit einem breiteren Intervall, also einer ungenaueren Einschätzung des Parameters, bezahlen. Wie die Berechnung des Konfidenzintervalls tatsächlich erfolgt ist, werden wir später lernen. ¤ Merksatz 3.1.1.5. Es besteht ein Kompromiss zwischen der Genauigkeit der Schätzung eines Parameters, der Qualität der zugrundeliegenden Daten, und der Trefferwahrscheinlichkeit des Konfidenzintervalls: a) Je höher die Konfidenz, also je geringer die Wahrscheinlichkeit einer Fehleinschätzung, desto breiter ist das Konfidenzintervall. b) Je kleiner die Stichprobe, desto breiter das Konfidenzintervall. c) Je stärker die Streuung der Daten, desto breiter das Konfidenzintervall. Beispiel 3.1.1.6. Ein Verein für Konsumentenschutz untersucht das Füllgewicht von Kaffeepackungen verschiedener Firmen: Stimmt das tatsächliche Füllgewicht mit der aufgedruckten Gewichtsangabe wirklich überein? Im gegenständlichen Fall wurden 64 Packungen einer Firma untersucht, das mittlere Füllgewicht 96 3. STATISTISCHES SCHÄTZEN UND TESTEN der Stichprobe lag bei 498 Gramm, mit einer Standardabweichung von 6 Gramm. Durch ein Statistikprogramm wurde das 99%-Konfidenzintervall berechnet. Stichprobenumfang: Mittelwert der Stichprobe: Varianz: Standardabweichung Standardfehler des Mittelwertes Konfidenz: Konfidenzintervall für den Mittelwert: Untere Schranke Obere Schranke 64 498 36 6 0.75 99% 500.07 495.93 Was bedeutet die Tabelle? Diskussion: Die Tabelle zeigt uns zunächst die zugrundeliegenden Daten der Stichprobe mit ihren wichtigsten Kennzahlen: Den Mittelwert (zugleich unser Punktschätzer für das mittlere Gewicht aller Kaffeepäckchen dieser Firma) und die Standardabweichung als Maß, wie stark die Daten dieser Stichprobe streuen. Der Punktschätzer für den Mittelwert ist aber eine Zufallsvariable, weil er von der Stichprobe abhängt, und hat als solche eine Streuung, welche als Standardfehler des Mittelwertes ausgewiesen ist. Letztlich wird das Konfidenzintervall aus diesen Daten berechnet: 99% Konfidenzintervall: [495.93, 500.07] . Wir grenzen also das mittlere Gewicht der Kaffeepäckchen zwischen 495.93 und 500.07 Gramm ein. Es kann immer noch sein, dass wir diesmal eine extreme Stichprobe erfaßt haben, und diese Einschätzung falsch ist. Aber ein solcher Fehler passiert bei Einsatz dieser Methode nur in einem von hundert Fällen. ¤ Beispiel 3.1.1.7. Das 99%-Konfidenzintervall für das mittlere Gewicht der Kaffeepackungen einer Firma wurde in Beispiel 3.1.1.6 mit [495.93, 500.07] angegeben. Heißt das, dass 99% aller Kaffeepackungen dieser Firma ein Gewicht zwischen 495.93 und 500.07 Gramm haben? Diskussion: Nein! Das Konfidenzintervall schätzt das mittlere Gewicht aller Kaffeepackungen der Firma, und die Schätzmethode grenzt in 99% aller Fälle den Mittelwert richtig ein. Es ist keine Aussage über die Gewichte der einzelnen Päckchen und deren Streuung gemacht. ¤ 3.1.1.3. Punktschätzer als Zufallsvariable. Merksatz 3.1.1.8. Aus einer Grundgesamtheit wird eine Stichprobe entnommen, und daraus soll durch einen Punktschätzer ein Parameter geschätzt werden. 1) Da sich die Daten der Stichprobe durch Zufallseinflüsse ergeben, sind sie Zufallsvariable. 2) Da sich der Schätzer aus den Daten der Stichprobe errechnet, ist er ebenfalls eine Zufallsvariable. 3) Dagegen ist der gesuchte Parameter der Grundgesamtheit eine feste Zahl, auch wenn wir sie nicht kennen. Er ist keine Zufallsvariable. Wir führen noch eine weit verbreitete Schreibweise ein: Definition 3.1.1.9. Sei a ein Parameter. Wenn für a ein Punktschätzer eingerichtet wird, bezeichnen wir diesen Schätzer oft mit â (sprich: a Dach). Diskussion: Es ist also a eine feste, aber uns unbekannte Zahl, die wir möglichst genau ermitteln wollen. Dagegen wird â aus der Stichprobe nach gegebenen Formeln errechnet und ist eine Zufallsvariable, die je nach Stichprobe verschieden ausfallen kann. ¤ 3.1. SCHÄTZEN UND TESTEN 97 Die Eigenschaften von Zufallsvariablen werden (unter anderem) durch statistische Kennzahlen ausgedrückt. Als Zufallsvariable hat ein Punktschätzer (normalerweise) einen Erwartungswert und eine Standardabweichung. Wir interpretieren die Rolle dieser Werte für die Praxis des Schätzens. Definition 3.1.1.10. Ein Punktschätzer â für einen Parameter a heißt erwartungstreu (englisch: unbiased), wenn gilt: E(â) = a. Wenn die Differenz des Erwartungswertes des Schätzers vom Parameter |E(â) − a| zwar nicht exakt Null ist, aber für grosse Stichprobenumfänge gegen Null geht, heißt der Schätzer asymptotisch erwartungstreu. Diskussion: Jeder Schätzer wird manchmal den gesuchten Parameter überschätzen und manchmal unterschätzen. Ob ein Schätzer systematisch eher zum Überschätzen, oder systematisch eher zum Unterschätzen neigt, zeigt sich am Erwartungswert. Wenn der Erwartungswert des Schätzers exakt der gesuchte Parameter ist, wird der Schätzer weder systematisch überschätzen noch unterschätzen. ¤ Merksatz 3.1.1.11. Ein erwartungstreuer Punktschätzer ist umso besser, je geringer seine Varianz (und damit seine Standardabweichung) ist. Diskussion: Jeder Schätzer weicht im Einzelfall mehr oder weniger vom gesuchten Parameter ab. Ein guter Schätzer weicht aber in den meisten Fällen möglichst wenig vom gesuchten Parameter ab, er hat also eine geringe Streuung. ¤ Definition 3.1.1.12. Der Standardfehler eines Schätzers ist seine Standardabweichung. Beispiel 3.1.1.13. Ein Statistikprogramm könnte folgende Tabelle nach Analyse einer Häufigkeitstabelle ausgeben: Stichprobenumfang Mittelwert Varianz Standardabweichung Standardfehler des Mittelwertes 95% Konfidenzintervall untere obere 100 8 1.21 1.1 0.11 7.7844 8.2156 Vergleichen Sie die Standardabweichung und den Standardfehler des Mittelwertes. Diskussion: Wir gehen die Daten Stück für Stück durch. Der Stichprobenumfang ist 100. SPSS geht davon aus, dass diese Daten eine Stichprobe aus einer weit größeren Gesamtheit darstellen. Der Mittelwert der Stichprobe ist 8. Zugleich ist dies ein Schätzer für den Mittelwert innerhalb der ganzen Grundgesamtheit. Die Varianz der Stichprobe ist 1.21, die Standardabweichung die Wurzel davon, also 1.1. SPSS berechnet allerdings die Varianz mit dem Nenner s2 (x) = n 1 X (xi − x)2 . n − 1 i=1 Den Grund dafür werden wir bald genauer besprechen. Dies ist nämlich ein besserer Schätzer für die Varianz der Grundgesamtheit: er ist erwartungstreu. Wie interpretieren wir die Standardabweichung der Grundgesamtheit? Nach der Faustregel (wenn sie anwendbar ist), liegen etwa 95% der Daten der Grundgesamtheit zwischen 5.8 und 10.2 (8 ± 2 × 1.1). 98 3. STATISTISCHES SCHÄTZEN UND TESTEN Der Standardfehler des Schätzers dagegen ist die Standardabweichung der Zufallsvariablen, die den √ Mittelwert aus einer Stichprobe von 100 schätzt. Sie ist viel kleiner (nämlich um den Faktor 100 = 10, wie wir noch lernen werden) als die Standardabweichung der Grundgesamtheit! Wenn wir viele Hunderter-Stichproben aus dieser Grundgesamtheit entnehmen, können wir damit rechnen, in 95% aller Fälle der Stichprobenmittelwert vom tatsächlichen Mittelwert der Grundgesamtheit um höchstens ±0.22 (= 2 × 0.11) abweicht. Würden wir Stichproben des Umfangs 400 statt 100 nehmen, wäre der Standardfehler des Mittelwertes noch kleiner (nämlich um die Hälfte, wie wir später sehen werden). Auf Grund solcher Überlegungen errechnet sich, wie wir noch sehen werden, das 95% Konfidenzintervall als der Bereich 8 ± 0.22. (Die Zahlenwerte sind etwas genauer, der Faktor 2 wurde hier durch den genaueren Wert 1.96 ersetzt.) ¤ Definition 3.1.1.14. Ein Punktschätzer für einen Parameter heißt konsistent, wenn sich beliebig genaue Schätzwerte mit beliebig hoher Wahrscheinlichkeit erreichen lassen, sofern nur die Stichproben groß genung angelegt werden. Diskussion: Diese “Definition” ist mathematisch verwaschen. Eine sorgfältige Definition benötigt den mathematischen Apparat der Grenzwertrechnung. Die wesentliche Aussage ist: Der Schätzer kann mit beliebiger Genauigkeit arbeiten, man muss nur ausreichend große Stichproben nehmen. Je genauer der Schätzer sein soll, desto größere Stichproben. ¤ Merksatz 3.1.1.15. Ein guter Punktschätzer ist (zumindest asymptotisch) erwartungstreu, hat eine kleine Varianz, und ist konsistent. Was Sie jetzt können: Wissen und Begriffe: Problematik des statistischen Schätzens. Punkt- und Intervallschätzer, Punktschätzer als Zufallsvariable, Rolle von Erwartungswert und Varianz eines Schätzers, Standardfehler des Schätzers. Methoden: Interpretation von Konfidenzintervallen. 3.1.2. Einige wichtige Punktschätzer. Übersicht: 1. 2. 3. 4. Schätzer für Anteile Schätzer für den Erwartungswert einer Zufallsvariablen Schätzer für die Varianz einer Zufallsvariablen Maximum Likelihood - Schätzer 3.1.2.1. Schätzer für Anteile. In einer Grundgesamtheit sei ein dichotomes Merkmal mit den zwei Ausprägungen “positiv” und “negativ” vertreten. Das Schätzen des positiven Bevölkerungsanteils ist eine der häufigsten Aufgaben in der Statistik, und der Schätzer ist, wie es dem Hausverstand entsprechen würde, einfach der Anteil der positiven Merkmalsträger in der Stichprobe. Wir kennen die Theorie der Verteilung für diesen Schätzer noch nicht, es ist die Binomialverteilung. Trotzdem bringen wir bereits der Vollständigkeit halber hier die Eigenschaften dieses wichtigen Schätzers: 3.1. SCHÄTZEN UND TESTEN 99 Merksatz 3.1.2.1. In einer Grundgesamtheit sei ein dichotomes Merkmal mit den zwei Ausprägungen “positiv” und “negativ” vertreten. Es sei p der Anteil der positiven Merkmalsträger in der Grundgesamtheit. Eine Stichprobe von n Merkmalsträgern wird entnommen, diese enthalte k positive und n − k negative Merkmalsträger. Als Schätzer für den Anteil p verwenden wir den Anteil der positiven Merkmalsträger in der Stichprobe: k p̂ = . n Dann gilt: 1.) Der Schätzer p̂ hat als Erwartungswert E(p̂) = p, ist also erwartungstreu. 2.) Die Standardabweichung des Schätzers ist r p(1 − p) σ(p̂) = . n 3.) Insbesondere geht der Standardfehler des Schätzers gegen Null, wenn n gegen unendlich geht, und daraus folgt, dass der Schätzer konsistent ist. 4.) Ist der Stichprobenumfang ausreichend groß, so istq p̂ annähernd normal. Als Faustreverteilt mit Mittelwert p und Standardabweichung p(1−p) n gel gilt: Man kann Normalverteilung anwenden, wenn gilt np(1 − p) ≥ 9. Tipp 3.1.2.2. Auch für kleine Stichprobenumfänge kennt man exakt die Verteilung von p̂. Es ist k = np̂ eine binomialverteilte Zufallsvariable. Wir greifen das im Abschnitt über die Binomialverteilung wieder auf. 3.1.2.2. Schätzer für den Erwartungswert einer Zufallsvariablen. Den Erwartungswert einer Zufallsvariablen schätzen wir aus einer Stichprobe mit dem Stichprobenmittelwert. Die Eigenschaften des Stichprobenmittelwertes haben wir schon in Merksatz 2.3.3.20 festgehalten und wiederholen sie hier: Merksatz 3.1.2.3. Sei X eine Zufallsvariable mit Erwartungswert E(X) und Standardabweichung σ(X). Als Schätzer für E(X) verwenden wir x, das Stichprobenmittel aus n unabhängigen Realisierungen von X. Dann gilt 1) Der Erwartungswert von x ist E(x) = E(X), damit ist x ein erwartungstreuer Schätzer für E(X). 2) Die Standardabweichung von x ist σ(X) σ(x) = √ . n Insbesondere geht die Standardabweichung gegen Null, wenn n → ∞ geht. Daraus folgt dass x ein konsistenter Schätzer für E(X) ist. 3) Ist X normalverteilt, so ist auch x normalverteilt. 4) Hat X beliebige Verteilung, ist aber n ausreichend groß (Faustregel: n ≥ 30), so ist x annähernd normalverteilt. 100 3. STATISTISCHES SCHÄTZEN UND TESTEN 3.1.2.3. Schätzer für die Varianz einer Zufallsvariablen. Nach Merksatz 2.3.3.20 haben wir also umfassende Informationen über die Eigenschaften des Stichprobenmittels als Schätzer für den Erwartungswert einer Zufallsvariablen. Allerdings geht in diese Information die Standardabweichung der Zufallsvariablen ein. Und wenn wir den Erwartungswert erst schätzen müssen, kennen wir normalerweise die Standardabweichung ebenso wenig. Alles was uns bleibt, ist diese Standardabweichung aus der Stichprobe zu schätzen. Es liegt nahe, einfach die Varianz der Stichprobe als Schätzer der Varianz der Zufallsvariablen anzugeben. Allerdings ist dieser Schätzer nicht erwartungstreu, er würde die Varianz systematisch ein wenig unterschätzen. Wir definieren einen besseren Schätzer: Definition 3.1.2.4. Sei X eine Zufallsvariable. Sei x1 , · · · , xn eine Stichprobe von n unabhängigen Realisierungen von X. Sei x das Stichprobenmittel aus diesen Realisierungen. Wir definieren die Kenngröße n 1 X (xi − x)2 s2x = n − 1 i=1 à n ! n 1X 2 2 = x −x . n − 1 n i=1 i p sx = s2x . Merksatz 3.1.2.5. Sei X eine Zufallsvariable mit Erwartungswert E(X) und Varianz σ 2 (X). Seien x1 , · · · , xn unabhängige Realisierungen von X. Sei x das Stichprobenmittel. Dann ist s2x ein erwartungstreuer Schätzer der Varianz σ 2 (X). Beispiel 3.1.2.6. Eine Stichprobe von 5 zufällig ausgewählten Ratten aus dem Pariser Kanalsystem ergab folgende Gewichte in kg: 0.2 0.4 0.4 0.3 0.2 Schätzen Sie Mittelwert und Standardabweichung der Gewichte der Ratten im Pariser Kanalsystem. Wie groß ist der Standardfehler des geschätzten Mittelwertes? Diskussion: Wir stellen die wohlbekannte Tabelle zur Berechnung von Erwartungswert und Varianz auf: xi xi − x (xi − x)2 0.2 -0.1 0.01 0.4 0.1 0.01 0.4 0.1 0.01 0.3 0.0 0.00 0.2 -0.1 0.01 Summe: 1.5 0.04 durch 5: 0.3 durch 4: 0.01 = s2x =x Der geschätzte Mittelwert der Gewichte der Pariser Ratten ist also, ebenso wie das Stichprobenmittel, 0.3 kg. Obwohl die Varianz der Gewichte der Ratten dieser Stichprobe 0.04/5 = 0.008 wäre, schätzen wir die Varianz der Gewichte aller Pariser Ratten mit s2x =√0.04/4 = 0.01. Die geschätzte Standardabweichung der Gewichte aller Pariser Ratten ist somit 0.01 = 0.1. Wenn wir die Standardabweichung σ √ der Gewichte der Pariser Kanalratten genau wüssten, wäre der Standardfehler von x gerade σ/ 5. Die beste Information über σ, die wir haben, ist der Schätzwert sx , wir schätzen also den Standardfehler von x durch 0.1 √ ≈ 0.048. 5 3.1. SCHÄTZEN UND TESTEN 101 Nach der Faustregel gilt: Wenn wir systematisch Fünfer-Stichproben von Pariser Kanalratten erheben, liegt das Stichprobenmittel in 95% der Fälle um nicht mehr als 0.096 vom tatsächlichen Mittelwert der Gewichte aller Pariser Ratten entfernt. ¤ Tipp 3.1.2.7. Unterscheiden Sie sorgfältig folgende Varianzen: 1) σ 2P (X): die Varianz der Zufallsvariablen X, die geschätzt werden soll. n 2) n1 i=1 (xi −x)2 : die Varianz der Stichprobe, als Daten für sich genommen. Pn 1 2 3) s2x = n−1 i=1 (xi − x) : die Schätzung der Varianz von X auf Grund der Stichprobe. 4) σ 2 (x): die Varianz des Stichprobenmittelwertes, also das Quadrat des Standardfehlers des Mittelwertes. Tipp 3.1.2.8. SPSS geht bei der Analyse von Häufigkeitstabellen davon aus, dass es sich um Stichproben handelt, und der Anwender an den Parametern der Grundgesamtheit, nicht der Stichprobe, interessiert ist. Daher gibt SPSS von Haus aus als Standardabweichung den Schätzer sx aus. Geht man von normalverteilten Zufallsvariablen aus, kann man auch über die Verteilungsform von s2x Auskunft geben: Merksatz 3.1.2.9. Sei X eine normalverteilte Zufallsvariable mit Erwartungswert E(X) und Standardabweichung σ(X). Seien x1 , · · · , xn unabhängige Realisierungen von X, seien x und s2x das Stichprobenmittel und die geschätzte Varianz aus diesen Realisierungen. Dann gilt: 1) Die Zufallsvariable (n − 1)s2x σ2 ist χ2 -verteilt mit n − 1 Freiheitsgraden. 2) Die Zufallsvariablen s2x und x sind unabhängig. 3.1.2.4. Maximum Likelihood - Schätzer. Es gibt natürlich auch andere Parameter als Anteile, Erwartungswerte oder Varianzen, beispielsweise die Parameter der Geraden bei linearer Regression. In komplizierteren mathematischen Modellen, welche von Statistikprogrammen angeboten werden, lassen sich die Parameter nicht immer durch eine einfache Formel schätzen. Statistikprogramme verwenden zur Schätzung solcher Parameter oft das Prinzip der Maximum Likelihood-Schätzung. Definition 3.1.2.10. Die Verteilung eines Merkmales in einer Grundgesamtheit sei durch eine Formel gegeben, welche aber von einem Parameter θ abhängt, d.h., für jeden Zahlenwert von θ liegt eine andere Verteilung vor. Dieser Parameter soll aus einer Stichprobe geschätzt werden. 1.) Besitzt eine Grundgesamtheit den Wert ν als Parameter, so tritt das vorliegende Stichprobenergebnis mit einer bestimmten Wahrscheinlichkeit (bzw. Wahrscheinlichkeitsdichte) auf. Diese Wahrscheinlichkeit heißt die Likelihood von ν, wir schreiben L(ν). 2.) Der Maximum Likelihood-Schätzer für θ ist jene Zahl θ̂, für welche bei dem gegebenen Stichprobenergebnis die Likelihood am größten ist. Als Beispiel zeigen wir einen Maximum Likelihood-Schätzer für einen Anteil, obwohl wir ja für diesen einfachen Fall bereits eine bequeme Formel wüssten. 102 3. STATISTISCHES SCHÄTZEN UND TESTEN Beispiel 3.1.2.11. In einer großen, aber überalterten Obstplantage sind viele der Bäume mit Misteln bewachsen. Eine Stichprobe von 5 Bäumen wird untersucht. Auf dem ersten, dritten und vierten Baum befanden sich Misteln, die anderen beiden Bäume waren frei davon. Schätzen Sie den Anteil der mistelbewachsenen Bäume in der gesamten Plantage. Diskussion: Der gesuchte Parameter in dieser Aufgabe ist p, der Anteil der mistelbewachsenen Bäume unter allen Bäumen der Plantage. Nach Merksatz 3.1.2.1 können wir ihn durch den Anteil in der Stichprobe schätzen, unser Schätzer ist also 3 p̂ = = 0.6. 5 Wir wollen aber in diesem Beispiel den Likelihood-Schätzer erklären: Zunächst müssen wir klären, was die Likelihood ist. Angenommen, der Anteil der Mistelbäume in einer Plantage wäre ν. Wie groß ist dann die Wahrscheinlichkeit, dass genau auf dem ersten, dritten und vierten Baum einer Stichprobe von 5 Bäumen Misteln gefunden werden? Die Wahrscheinlichkeit, auf dem ersten Baum Misteln zu finden, wäre ν. Die Wahrscheinlichkeit, auf dem zweiten Baum Misteln zu finden, wäre 1 − ν. Damit wäre die Wahrscheinlichkeit, dass auf dem ersten Baum Misteln sind, auf dem zweiten aber keine, das Produkt ν(1 − ν). Denkt man so weiter, dann ist die Wahrscheinlichkeit, dass genau der erste, dritte und vierte Baum von Misteln befallen ist L(ν) = ν (1 − ν) ν ν (1 − ν) = ν 3 (1 − ν)2 . Dies ist die Likelihood von ν bei der gegebene Datenlage. Wir suchen nun jenen Wert von ν, für den die Likelihood möglichst groß wird. Maximumprobleme kann man, wie wir noch aus der Schule wissen, gelegentlich durch Differenzieren und anschließendes Nullsetzen der Ableitung lösen. Die Ableitung ist nach der Produkt- und Kettenregel d L(ν) = 3ν 2 (1 − ν)2 − 2ν 3 (1 − ν). dν Setzen wir die Ableitung auf Null, erhalten wir (außer ν = 1 und ν = 0) 3ν 2 (1 − ν)2 − 2ν 3 (1 − ν) = 0 3(1 − ν) − 2ν = 0 ν= 3 . 5 Dieses spezielle ν, also 35 , ist der Maximum Likelihood-Schätzer für p. Tatsächlich ist für Schätzung von Anteilen bei dichotomen Merkmalen immer der Anteil in der Stichprobe auch der Maximum Likelihood-Schätzer. ¤ Tipp 3.1.2.12. In der Praxis wird der Maximum Likelihood-Schätzer normalerweise nicht durch Differenzieren gefunden. Es gibt ausgefeilte Computerprogramme zum Suchen von Maximumstellen. In Statistikpaketen sind diese eingebaut, sodass der Benutzer von der Maximumsuche gar nichts merkt. Was Sie jetzt können: Wissen und Begriffe: Eigenschaften der Schätzer für Anteile von positiven Merkmalsträgern bei dichotomen Merkmalen, für Erwartungswerte und Varianzen. Unterscheidung von Varianz und Standardabweichung der Stichprobe, tatsächlicher und geschätzter Varianz und Standardabweichung der Grundgesamtheit, Varianz und Standardabweichung des Stichprobenmittelwerts. Prinzip der Maximum Likelihood-Schätzung. Methoden: Schätzung von Anteilen positiver Merkmalsträger, Erwartungswerten und Varianzen. 3.1. SCHÄTZEN UND TESTEN 103 3.1.3. Schema eines statistischen Tests. Übersicht: 1. 2. 3. 4. Hypothesen Wie funktioniert ein statistischer Test Grundbegriffe des statistischen Tests Beispiel zur Erklärung der Grundbegriffe 3.1.3.1. Hypothesen. Definition 3.1.3.1. Eine Hypothese ist eine Aussage, die entweder wahr oder falsch sein kann. Die Frage nach einer Hypothese kann also immer mit Ja/Nein beantwortet werden. Im statistischen Test bezieht sich die Hypothese stets auf die zu untersuchende Grundgesamtheit, nie auf die Stichprobe. Diskussion: Einige Beispiele von Hypothesen: a) Das mittlere Gewicht der Kürbisse einer bestimmten Sorte ist größer als 1.2 kg. b) Es besteht kein Unterschied in der Spitalsaufenthaltsdauer zwischen Patienten, die mit Methode A und solchen, die mit Methode B behandelt wurden. c) Die Ereignisse: “Ein Patient raucht mehr als 20 Zigaretten täglich” und “Ein Patient hat erhöhten Blutdruck” sind abhängig. d) Mehr als 30% aller sechsjährigen Kinder sind übergewichtig. e) Kraftfahrer mit roten Autos übertreten häufiger Geschwindigkeitsbeschränkungen als Kraftfahrer mit anders gefärbten Fahrzeugen. Die folgenden Fragen führen auf keine Hypothesen: e) Wieviele kg Äpfel trägt durchschnittlich ein Baum der Sorte Kronprinz Rudolf? (Keine ja-nein-Frage. Hier soll ein Parameter geschätzt werden, nämlich der mittlere Ertrag eines Obstbaums.) f) Mit einer Signifikanz von 95% ist belegt, dass zwischen dem Faktor “Intensität der Düngung” und der Variablen “Größe der Blüte” ein Zusammenhang besteht. (“Es besteht ein Zusammenhang zwischen Düngung und Größe der Blüte” ist eine Hypothese. Die Signifikanz sagt aber etwas über die Stärke der ermittelten Daten aus, also über die angestellte Untersuchung, nicht über die Grundgesamtheiten.) ¤ 3.1.3.2. Wie funktioniert ein statistischer Test? Das folgende Beispiel erklärt, in eine Geschichte verpackt, wie ein statistischer Test funktioniert. Beispiel 3.1.3.2. Von dem hochgelahrten Doctorn Fausto, welcher der Hexerey, Statistic und allerley mehr Teuffels-Künst gepflogen, und von einem fahrenden Studioso, so aber in Wahrheyt der Leybhafftige gewesen. 104 3. STATISTISCHES SCHÄTZEN UND TESTEN Faust Student Kommentar Faust erhält in seiner Studierstube Besuch von einem fahrenden Studiosus der Naturwissenschaften. Die beiden beginnen ein frivoles Würfelspiel um die Erkenntnis von Gut und Böse. Nach 10 Würfen hat der Studiosus 9 Sechser geworfen. Es werden Daten erhoben. Der Zufall spielt mit, z.B. durch eine Stichprobenentnahme. F: 9 Sechser in 10 Würfen. Dieser Würfel ist gezinkt. Wir stellen eine Hypothese auf: H1 : “Dieser Würfel wirft bevorzugt Sechser.” Wir nennen das die Alternativhypothese. Können wir mit den erhobenen Daten diese Hypothese beweisen? S.: Dieser Würfel ist fair und unschuldig wie ein neugeborenes Lamm. Ich hatte bisher einfach viel Glück. Die Daten könnten auch ein Zufallstreffer sein. Der Alternativhypothese steht die Nullhypothese gegenüber: H0 : “Dieser Würfel wirft Sechser mit einer Wahrscheinlichkeit von 1/6.” Wenn das so ist, dann lassen Sie doch den Würfel untersuchen. Ich werde ihn in ein Wasserglas legen, und wir werden sehen, dass sich die Sechs immer nach oben dreht. Faust will schon nach seinem Famulus rufen, um das Experiment vorzubereiten. Der Studiosus reicht ihm bereitwillig den Würfel, da schießt zufällig eine Stichflamme aus der Erde und der Würfel verbrennt So ein Pech, jetzt können wir den Würfel gar nicht mehr überprüfen. Zur Überprüfung stehen nur die erhobenen Daten zur Verfügung. Und Sie können mir getrost glauben, dass dieser Würfel fair war. Oder ist es denn unmöglich, dass man 9 Sechser wirft? Es gibt keinen unanfechtbaren Beweis für die Alternativhypothese. Solche Daten könnten auch zustandekommen, wenn die Nullhypothese gilt. Die Wahrscheinlichkeit könnte aber für die Alternativhypothese sprechen. Aber äußerst unwahrscheinlich! Sie würden also jeden, der mit 10 Würfen neun oder gar zehn Sechser wirft, der Falschspielerei verdächtigen? Das würde ich. 3.1. SCHÄTZEN UND TESTEN Faust Student Kommentar Wenn Sie so leichtfertig mit Ihren Unterstellungen sind, kommt jeder, der ein wenig Glück hat, bei Ihnen in den Verruf, ein Schwindler zu sein. Wenn wir die Daten als Beweis für die Alternativhypothese ansehen, riskieren wir einen Fehler: Es könnte die Nullhypothese H0 gelten, und wir glauben an H1 . Das ist ein Fehler erster Art, ein α-Fehler. Wenn sich herumspricht, dass Sie hier Sechser um Sechser werfen und ich vertraue Ihnen noch immer, werden bald alle Scharlatane und Falschspieler der Welt hier aufkreuzen und auf meiner Tasche liegen. Wenn wir aus den Daten nicht auf die Alternativhypothese schließen, riskieren wir auch einen Fehler: Es könnte H1 gelten, aber wir bemerken es nicht. Das ist ein Fehler zweiter Art, ein β-Fehler. Geben Sie zu, wenn hundert Besucher hier mit Ihnen spielen, wird vielleicht einer der Besucher viel Glück haben. Und Sie werden ihm zu Unrecht Betrug vorwerfen. Können Sie eine solche Ungerechtigkeit mit Ihrer akademischen Ehre vereinbaren? Einen von hundert zu Unrecht beschuldigen? Nein, das würde ich nie riskieren! Aber einen von tausend, dieses Risiko gehe ich ein. Dann wäre es wirklich allzu unwahrscheinlich, dass gerade Sie dieses unglückliche Würstchen sind. Es gilt! Wenn es wahr ist, dass mehr als einer von hunderttausend, die mit einem fairen Würfel spielen, auf 9 oder mehr Sechser in 10 Würfen kommen, dann will ich zugeben, dass Sie einfach Glück gehabt haben. 105 Da wir jedenfalls einen Fehler riskieren, müssen wir aushandeln, wieviel Risiko wir eingehen können oder wollen. Einen von tausend! So leichtfertig ziehen heutzutage schon die Gelehrten ihre Schlüsse? Ja, wenn Sie sagen würden, einer von hunderttausend, da müsste auch ich zustimmen, dass Sie nach bestem Gewissen und in Gerechtigkeit entscheiden. Es gilt! Eine Feuerhand schreibt an die Wand: α = 0.00001. Das Signifikanzniveau α des Tests legen wir “willkürlich” fest: Wir erlauben, dass in einer Situation, in der in Wirklichkeit H0 gilt, mit Wahrscheinlichkeit α trotzdem irrtümlich H1 als bewiesen betrachtet wird. Je kleiner α, desto geringer ist das Risiko, einen Fehler erster Art zu begehen, aber dafür vergrößert sich die Gefahr eines Fehlers der zweiten Art. 106 3. STATISTISCHES SCHÄTZEN UND TESTEN Faust Student Kommentar Nehmen wir an, jemand wirft zehnmal mit einem fairen Würfel. Wenn er neun oder zehn Sechser wirft, würde ich ihn als Falschspieler bezeichnen. Wie groß ist die Wahrscheinlichkeit, dass ihm das geschieht? Angenommen, wir entscheiden bei einer Datenlage wie der gegenwärtigen immer für die Alternativhypothese. Wenn dann einmal in Wirklichkeit die Nullhypothese gilt, kann es durch Zufall geschehen, dass Daten entstehen, die ebenso stark für die Alternativhypothese sprechen wie die Daten, die uns derzeit vorliegen. In diesem Fall würden wir also einen α-Fehler begehen. Aber wie wahrscheinlich ist das? Insgesamt sind 610 = 60466176 Ergebnisse möglich. Davon eines mit lauter Sechsern, und 50 mit je 9 Sechsern. (In jedem der 10 Würfe könnte die “NichtSechs” geworfen sein, und die Zahlen von 1 bis 5 wären als “Nicht-Sechs” möglich.) — Die Wahrscheinlichkeit ist p = 51 = 8.434 × 10−7 . 60466176 p ist die Wahrscheinlichkeit, dass unter der Nullhypothese Daten entstehen, welche die Alternativhypothese so deutlich unterstützen wie das vorliegende Datenmaterial. Diese Wahrscheinlichkeit p lässt sich aus den Daten berechnen. 8.434 × 10−7 . Viel weniger als 1/100000! Von einer Million, die fair spielen, riskiert nicht einmal einer, dass ich ihn zu Unrecht beschuldige. Ich bleibe dabei, Sie sind ein Falschspieler. Dieser Würfel war unfair. Ein Risiko von α = 10−5 für einen α-Fehler haben wir als erlaubt ausgehandelt. Wenn wir bei dieser Datenlage für die Alternativhypothese entscheiden, würde das Risiko eines αFehlers nur p = 8.434 × 10−7 betragen. Es ist also p < α. Wir können daher die Alternativhypothese als bewiesen betrachten und die Nullhypothese zurückweisen. Dieses gelehrte Hokuspokus versteht doch nicht einmal der Teufel! Es öffnet sich der Boden und S. fährt in einer Schwefelwolke unter schauerlichen Flüchen auf die Statistik in die Hölle. 3.1.3.3. Grundbegriffe des statistischen Tests. Methode 3.1.3.3. Ein statistischer Test ist ein Verfahren, ja/nein-Fragen bei Risiko eines Fehlers systematisch zu entscheiden, sodass das Risiko des Fehlers eingeschätzt werden kann. Grundsätzlich ist ein statistischer Test folgendermaßen aufgebaut: 1: Man stellt eine Nullhypothese H0 und eine Alternativhypothese H1 auf. Die beiden Hypothesen schließen sich gegenseitig aus. 2: Man wählt ein Signifikanzniveau α zwischen 0 und 1. 3: Man erhebt die Daten. 4: Man errechnet aus den Daten die Teststatistik, das ist eine Prüfgröße, die ausdrückt, wie gut die Daten die Alternativhypothese unterstützen. 3.1. SCHÄTZEN UND TESTEN 107 5: Man bestimmt aus der Teststatistik den p-Wert, das ist die bedingte Wahrscheinlichkeit p, dass man unter der Bedingung H0 eine Teststatistik erhält, welche die Alternativhypothese so gut unterstützt wie die ermittelten Daten. 6: Man entscheidet nach folgender Regel: – Ist α < p, dann sind Daten wie die gefundenen auch unter der Nullhypothese nicht so selten, dass man auf Grund dieser Daten die Nullhypothese widerlegen könnte. Die Nullhypothese wird nicht abgelehnt. – Ist α ≥ p, so sind Daten wie die gefundenen unter der Nullhypothese ausreichend unwahrscheinlich, sodass man die Nullhypothese ablehnen kann, und die Alternativhypothese als signifikant untermauert betrachtet. Merksatz 3.1.3.4. Ein statistischer Test kann auf zwei Arten ausgehen: a) Die Nullhypothese wird abgelehnt. Sie widerspricht den gefundenen Daten stark. Die Alternativhypothese ist zwar nicht bewiesen, aber mit der vorgegebenen Signifikanz untermauert. b) Die Nullhypothese wird nicht abgelehnt, weil sich zwischen den gefundenen Daten und der Nullhypothese kein deutlicher Widerspruch ergibt. Der Grund kann darin liegen, dass die Nullhypothese ohnehin richtig ist, oder dass das Datenmaterial einfach nicht stark genug ist, um sie zu widerlegen. Die Alternativhypothese ist in diesem Fall nicht widerlegt, es steht nur fest, dass sie mit dem vorliegenden Datenmaterial nicht signifikant untermauert werden kann. Daraus ergibt sich die Strategie zum Erstellen von Hypothesen: Tipp 3.1.3.5. • Bringen Sie die Fragestellung der Untersuchung auf die Form: “Sprechen die gefundenen Daten so stark für Annahme A, dass man mit ihnen die Annahme B widerlegen kann?” Die Annahme A nimmt dann die Rolle der Alternativhypothese, die Annahme B die Rolle der Nullhypothese. • Die Nullhypothese muss so scharf formuliert sein, dass man auf ihrer Basis Wahrscheinlichkeiten berechnen kann. Die Alternativhypothese dagegen muss nur eine Richtung ausdrücken, und keine exakten Zahlen geben. Definition 3.1.3.6. Ein Test heißt zweiseitig, wenn die Teststatistik die Alternativhypothese unterstützt, wenn sie nach oben oder nach unten von einem vorgegebenen Wert stark abweicht. Unterstützt entweder nur eine sehr hohe Teststatistik, oder nur eine sehr niedere Teststatistik die Alternativhypothese, so heißt der Test einseitig. Definition 3.1.3.7. Bei der Auswertung des Tests sind 4 Situationen möglich: Nullhypothese trifft zu Alternativhypothese trifft zu Test spricht für Nullhypothese Alternativhypothese OK α-Fehler β-Fehler OK Den α-Fehler bezeichnet man auch als Fehler erster Art, den β-Fehler als Fehler zweiter Art. 108 3. STATISTISCHES SCHÄTZEN UND TESTEN Merksatz 3.1.3.8. • Der α-Wert eines Testes gibt an, wie wahrscheinlich ein α-Fehler auftritt. Wird in einer großen Anzahl von Studien immer mit dem Signifikanzniveau α getestet, so kommen auf je 100 Fälle, in denen die Nullhypothese gilt, im Durchschnitt 100 × α Fälle, in denen irrigerweise der Test zugunsten der Alternativhypothese ausfällt. • Über die Wahrscheinlichkeit des β-Fehlers sagt das Signifikanzniveau unmittelbar nichts aus. Jedoch wird bei kleinem α automatisch die Wahrscheinlichkeit eines β-Fehlers größer. • Dagegen ergibt sich der p-Wert durch Rechnung aus den Daten. Die Rechnung baut auf der Annahme auf, dass die Nullhypothese gilt. Tipp 3.1.3.9. Die Festlegung des Signifikanzniveaus α erfolgt durch die Person, die die Untersuchung durchführt. Je kleiner das Signifikanzniveau, desto stärker müssen die Daten für die Alternativhypothese sprechen, um die Nullhypothese abzulehnen. Desto seltener kann also ein α-Fehler auftreten, und desto häufiger ein β-Fehler. Man wählt ein kleines Signifikanzniveau, wenn man einen α-Fehler dringender vermeiden will als einen β-Fehler. Typische Signifikanzniveaus liegen zwischen 0.1 und 5 Prozent. 3.1.3.4. Beispiel zur Erklärung der Grundbegriffe. Beispiel 3.1.3.10. Eine Konsumentenschutzorganisation untersucht die Füllmengen von Kaffeepackungen. Stichproben von 500-Gramm-Packungen einer Firma werden gewogen. Wenn das mittlere Gewicht der Stichprobe deutlich geringer als 500 Gramm ist, kommt die Firma auf eine schwarze Liste. Diskussion: Dies ist ein klassisches Beispiel für einen t-Test, wie wir ihn später kennenlernen werden. Für jetzt soll an diesem Beispiel die Problematik des statistischen Testens, das Stellen von Hypothesen, und die Interpretation des Ergebnisses illustriert werden. Viele Details dieses Tests werden Sie erst nur sehr vage verstehen. Sie klären sich, wenn wir in der Lehrveranstaltung weiter fortschreiten. Wir sind mit einer Ja-Nein-Frage konfrontiert: Verkauft die Firma zu leichte Packungen oder nicht? Zur Beantwortung der Frage können wir nicht alle Kaffeepackungen der Firma nachwiegen, wir sind auf eine Stichprobe angewiesen, und diese kann rein zufällig grossteils aus zu leichten Packungen bestehen, selbst wenn die Firma im Durchschnitt 500 Gramm in die Päckchen abfüllt. Wann kann eine Stichprobe (im Rahmen einer gegebenen Unsicherheit) zumindest untermauern, dass die Päckchen der Firma im Mittel zu leicht sind, und wann müssen wir eher damit rechnen, dass das Stichprobenergebnis ein Zufallstreffer ist? Hier ist also ein statistischer Test angebracht. Wir beginnen mit der Stellung der Hypothesen. Die Grundfrage eines statistischen Tests lautet immer: “Können die Daten die Nullhypothese widerlegen?” In unserem Fall lautet die Frage: “Beweisen die Daten, dass die Päckchen der Firma zu leicht sind, also nicht im Durchschnitt 500 Gramm enthalten?” Wir stellen also die Hypothesen: H0 Nullhypothese: Die Kaffeepackungen der Firma enthalten im Durchschnitt 500 Gramm Kaffee. H1 Alternativhypothese: Die Kaffeepackungen der Firma enthalten im Durchschnitt weniger als 500 Gramm Kaffee. Beachten Sie, dass die Nullhypothese eine exakte Zahlenangabe enthält (“ = 500 g”), auf Grund derer sich Wahrscheinlichkeiten errechnen lassen werden. Die Alternativhypothese zeigt einen Trend an (“weniger als 500 g”). Der Test ist einseitig: Eine Stichprobe mit mittlerem Gewicht weit unter 500 Gramm spricht für die Alternativhypothese. Eine Stichprobe mit einem Gewicht von viel über 500 Gramm würde zwar auch der Nullhypothese widersprechen, aber nicht zugunsten der Alternativhypothese. Wir würden also in einem solchen Fall lieber die Nullhypothese beibehalten. (Eine zweiseitige Alternativhypothese wäre: “Die Päckchen der Firma enthalten im Durchschnitt nicht exakt 500 Gramm.”) 3.1. SCHÄTZEN UND TESTEN 109 Da die Hypothesen stehen, können wir uns überlegen, welche Fehler passieren können. Ein α-Fehler tritt ein, wenn in Wirklichkeit H0 gilt, aber der Test zu Gunsten von H1 ausgeht. Das ist der Fall, wenn die Firma ordnungsgemäß im Durchschnitt 500 Gramm in ihre Päckchen füllt, aber die Stichprobe zufällig aus unterdurchschnittlich leichten Päckchen zusammengesetzt war. Die Firma wird dann zu Unrecht von der Konsumentenschutzorganisation beschuldigt. Ein β-Fehler tritt ein, wenn H1 gilt, aber vom Test nicht entdeckt wird. Die Firma füllt in diesem Fall tatsächlich im Durchschnitt zu wenig Kaffee in die Päckchen, aber die Stichprobe enthält zufällig nicht ausreichend viele auffällig leichte Packungen, und die Konsumentenschützer entdecken nicht, dass zu wenig Kaffee für zu viel Geld über die Theke wandert. Keiner der beiden Fehler lässt sich völlig ausschließen. Nehmen wir an, die Konsumentenschützer testen immer mit einer Signifkanz von α = 0.05. Von 100 Firmen, die ordnungsgemäß abfüllen und untersucht werden, werden dann 5 zu Unrecht beschuldigt. Und wieviele Firmen, die zuwenig abfüllen, bleiben trotz der Untersuchung unentdeckt? Die Signifikanz sagt nichts darüber aus, denn das ist ein β-Fehler. Es hängt auch davon ab, um wieviel die Päckchen einer Firma zu leicht sind. Extrem leichte Abfüllmengen werden eher entdeckt, als wenn eine Firma im Durchschnitt nur ein halbes Gramm zu wenig abfüllt. Die Wahl der Signifikanz hängt davon ab, ob wir den α-Fehler oder den β-Fehler mehr fürchten. Wir verwenden in diesem Test die verbreitete Wahl α = 0.05 (man sagt auch: 95% Konfidenz). Die einzelnen Daten der Stichprobe werden in ein Statistikprogramm eingegeben und mit einer geeigneten Methode ausgewertet, in unserem Fall ist das der t-Test, wie wir später erfahren werden. Als Ausgabe liefert das Programm möglicherweise folgende Tabelle: Stichprobenumfang Mittelwert Varianz Standardabweichung Vergleichswert t Freiheitsgrade p einseitig p zweiseitig 64 498 36 6 500 -2.6667 63 0.00486 0.00972 Die ersten Zahlen beschreiben die Daten der Stichprobe: 64 Päckchen wurden untersucht, das mittlere Gewicht lag bei 498 Gramm, also unter dem Sollwert 500 Gramm. Aus Varianz und Standardabweichung sehen wir, wie stark die Gewichte der einzelnen Päckchen streuen. Die Standardabweichung spielt eine Schlüsselrolle in der Beurteilung der Daten: Je geringer die Daten streuen, je weniger Unterschied zwischen den einzelnen Meßwerten ist, als desto zuverlässiger kann man sie einschätzen, und desto sicherer kann man aus ihnen Schlüsse ziehen. Die folgenden Zeilen beziehen sich direkt auf den statistischen Test. Verglichen wird mit dem Sollwert aus der Nullhypothese: “H0 : Das mittlere Gewicht aller Päckchen der Firma ist 500.” Die Teststatistik t quantifiziert in geeigneter Weise die Abweichung der gegebenen Daten vom Vergleichswert. Auch wenn wir zur Zeit mit der Formel noch wenig anfangen können, sollen Sie hier sehen, dass der t-Wert direkt aus den statistischen Kennzahlen der Stichprobe errechnet wird. Mittelwert − Vergleichswert p t= Stichprobenumfang Standardabweichung Die Anzahl der Freiheitsgrade gibt an, wieviele unabhängige Daten in die Standardabweichung einfließen, die der Berechnung von t zugrunde liegt. Aus t errechnen sich die p-Werte, wovon uns nur der einseitige Test interessiert, da wir eine einseitige Alternativhypothese gestellt haben. Hätten wir kein Statistikprogramm zur Verfügung, müssten wir in einer geeigneten Tabelle nachschlagen. Vergleichen wir den einseitigen p-Wert p = 0.00486 mit dem vorgegebenen Signifikanzniveau α = 0.05, so stellen wir fest, dass p kleiner ist als α. Wir können daher die Nullhypothese zurückweisen: Die Daten erhärten mit einem Signifikanzniveau von 5% (tatsächlich mit 0.00486), dass die Päckchen der Firma im Durchschnitt zu leicht sind. Die Stichprobe von dieser Firma ist also so extrem leicht, dass wir davon ausgehen können, dass die Firma tatsächlich im Durchschnitt zu wenig Kaffee einfüllt. Auch eine Firma, die im Durchschnitt 500 Gramm abfüllt, kann unter unglücklichen Umständen ein so schlechtes Stichprobenergebnis haben. Aber die Wahrscheinlichkeit, dass ihr das widerfährt, ist nur 0.00486. Dieses 110 3. STATISTISCHES SCHÄTZEN UND TESTEN Risiko nehmen wir in Kauf. Wir haben uns bei der Wahl des Signifikanzniveaus für ein Fehlerrisiko bis zu 0.05 entschieden. ¤ Was Sie jetzt können: Wissen und Begriffe: Schließende Statistik, Problematik des Schließens aus zufälligen Daten. Test, Null- und Alternativhypothesen (H0 und H1 ), Teststatistik, einseitige und zweiseitige Tests. Fehler erster und zweiter Art, (α- und β-Fehler), Signifikanzniveau des Tests (α) und der Daten (p). Methoden: Grundstrategie zum statistischen Testen, Erstellen von Hypothesen, Auswertung eines Tests durch Vergleich von α und p. 3.1.4. Beispiele von statistischen Tests. Übersicht: Verschiedene Beispiele zu statistischen Tests Es geht in diesem Abschnitt nur darum, Hypothesen zu stellen und Testergebnisse zu interpretieren. Die Testverfahren werden wir später besprechen. Sie werden daher vieles, was Sie in diesem Abschnitt finden, jetzt erst vage verstehen. Alle Beispiele in diesem Abschnitt sind dem Buch: A. Bühl und P. Zöfel, SPSS 12, 9. Aufl., Pearson 2005, entnommen. Diesem Buch liegt eine Datendiskette bei. Einer der Datenfiles (hyper.sav) zum Buch A. Bühl und P. Zöfel, SPSS 12 (9. Aufl., Pearson 2005) enthält Daten von BluthochdruckpatientInnen. Von 174 PatientInnen sind folgende Merkmale erfasst: num med g a gr gew rrs0 rrs1 rrs6 rrs12 chol0 chol1 chol6 chol12 bz0 bz1 bz6 bz12 ak Patientennummer erhaltenes Medikament (“Alphasan” oder “Betasan”) Geschlecht Alter bei Einweisung Körpergröße Körpergewicht systolischer Blutdruck bei Einweisung systolischer Blutdruck, 1 Monat nach Behandlungsbeginn systolischer Blutdruck, 6 Monate nach Behandlungsbeginn systolischer Blutdruck, 12 Monate nach Behandlungsbeginn Cholesterin bei Einweisung Cholesterin, 1 Monat nach Behandlungsbeginn Cholesterin, 6 Monate nach Behandlungsbeginn Cholesterin, 12 Monate nach Behandlungsbeginn Blutzucker bei Einweisung Blutzucker, 1 Monat nach Behandlungsbeginn Blutzucker, 6 Monate nach Behandlungsbeginn Blutzucker, 12 Monate nach Behandlungsbeginn Altersklassen (0–55, 56–65, 66–75, 76–) nominal nominal nominal metrisch metrisch metrisch metrisch metrisch metrisch metrisch metrisch metrisch metrisch metrisch metrisch metrisch metrisch metrisch ordinal 3.1. SCHÄTZEN UND TESTEN 111 Beispiel 3.1.4.1. Ist das Alter neu eingewiesener PatientInnen annähernd normalverteilt, oder muss aus den Daten gefolgert werden, dass die Verteilung des Alters neueingewiesener Patienten deutlich von der Normalverteilung abweicht? (Solche Fragen spielen deshalb eine Rolle, weil für annähernd normalverteilte Zufallsgrößen stärkere statistische Methoden zur Verfügung stehen.) Diskussion: H0 Nullhypothese: Das Alter neu eingewiesener HochdruckpatientInnen ist eine normalverteilte Zufallsgröße. H1 Alternativhypothese: Das Alter neu eingewiesener HochdruckpatientInnen ist nicht normalverteilt. α Signifikanzniveau: α = 0.05. Bevor wir testen, überprüfen wir noch an Hand des Histogramms, ob vom Augenschein her wesentliche Einwände gegen eine Normalverteilung bestehen. Natürlich können wir von der Stichprobe nicht die exakte Wiedergabe einer Normalverteilungskurve erwarten. Jedoch scheint auf ersten Blick kein wesentlicher Einwand gegen eine Normalverteilung zu bestehen. Histogramm 25 H ufigkeit 20 15 10 5 Mittelwert =62,11 Std.-Abw. =11,548 N =174 0 30 40 50 60 70 80 90 Alter Beispiel 3.1.4.1: Histogramm der Altersverteilung der ProbandInnen Um zu testen, ob die gegebenen Daten Realisierungen einer Zufallsgröße mit einer bestimmten Wahrscheinlichkeitsverteilung (hier: Normalverteilung) sein können, verwendet man Anpassungstest. SPSS bietet unter anderem den Anpassungstest von Kolmogorov-Smirnov. Die Ausgabe des Tests finden wir in folgender Tabelle: Kolmogorov-Smirnov-Anpassungstest Alter 174 Mittelwert 62.11 Standardabweichung 11.548 absolut 0.059 Extremste Differenzen positiv 0.055 negativ -0.059 Kolmogorov-Smirnov Z 0.785 Asymptotische Signifikanz (2-seitig) 0.569 a ) Die zu testende Verteilung ist eine Normalverteilung b ) Aus den Daten berechnet N Parameter der Normalverteilung (a,b) Die Tabelle zeigt zunächst, dass die Untersuchung auf einem Stichprobenumfang von 174 ProbandInnen beruht. Am besten passt eine Normalverteilung mit Mittelwert 62.11 und Standardabweichung 11.548. Die folgenden extremsten Differenzen sind die größten Abweichungen der empirischen Verteilungsfunktion unserer Daten von der Verteilungskurve der Normalverteilung. Aus diesen wird der p-Wert auf dem Umweg über eine Teststatistik Z berechnet. Wie das geschieht, überlassen wir dem Programm. Am Ende der Tabelle finden wir endlich die entscheidende Zahl, 112 3. STATISTISCHES SCHÄTZEN UND TESTEN nämlich den p-Wert von 0.569. Da wir auf α = 0.05 testen, ist also p > α, und die Nullhypothese wird nicht zurückgewiesen. (Die Bemerkung, dass der p-Wert asymptotisch ist, bedeutet, dass hier eine geeignete Näherungsformel angewendet wurde, die für praktische Zwecke ausreichend genau ist.) Das Ergebnis des statistischen Tests ist also: Die Daten belegen nicht mit Signifikanzniveau 0.05, dass das Alter der Hochdruckpatienten einer anderen Verteilung als einer Normalverteilung folgt. Damit ist keineswegs bewiesen, dass es wirklich normalverteilt ist, aber für uns bleibt die Folgerung, dass zumindest auf Grund der vorliegenden Daten keine ernsten Bedenken erhoben werden müssen, wenn wir das Merkmal Alter mit statistischen Verfahren untersuchen, die eine Normalverteilung voraussetzen. ¤ Beispiel 3.1.4.2. Ist der Blutzucker bei neu aufgenommenen Hypertoniepatienten annähernd normalverteilt, oder geben die Daten deutlich Anlass, eine andere Verteilung zu vermuten? Diskussion: Wir führen den gleichen Test wie in Beispiel 3.1.4.1 durch. Zunächst werfen wir einen Blick auf das Histogramm mit eingezeichneter Normalverteilungskurve: Dem Augenschein nach passt die Normalverteilung nicht gut, die Verteilung ist deutlich linksgipfelig. Um den Mittelwert von circa 100 gruppiert sich die Mehrzahl der Fälle, jedoch gibt es einen langen Schwanz von sehr hohen Blutzuckerwerten, wogegen niedrige Blutzuckerwerte eher selten sind. Histogramm 80 H ufigkeit 60 40 20 Mittelwert =103,99 Std.-Abw. =35,608 N =174 0 100 200 300 400 Blutzucker, Ausgangswert Beispiel 3.1.4.2: Verteilung des Blutzuckers Wir testen die Hypothesen H0 Nullhypothese: Der Blutzucker ist in der Gesamtheit der neuaufgenommenen HypertoniepatientInnen normalverteilt. H1 Alternativhypothese: Der Blutzucker ist in dieser Personengruppe nicht normalverteilt. α Signifikanzniveau 0.05. Kolmogorov-Smirnov-Anpassungstest Blutzucker Ausgangswert N 174 Parameter der Mittelwert 103.99 Normalverteilung (a,b) Standardabweichung 35.608 absolut 0.190 Extremste Differenzen positiv 0.190 negativ -0.156 Kolmogorov-Smirnov Z 2.512 Asymptotische Signifikanz (2-seitig) 0.000 a ) Die zu testende Verteilung ist eine Normalverteilung b ) Aus den Daten berechnet 3.1. SCHÄTZEN UND TESTEN 113 Die Signifikanz ist nun, auf drei Dezimalen genau, p = 0.000, viel kleiner als α = 0.05. Die Daten belegen daher mit hoher statistischer Signifikanz, dass der Blutzucker neuzugegangener Hypertoniepatienten keiner Normalverteilung genügt. ¤ Tipp 3.1.4.3. Beachten Sie, wie wir den Ausgang des Kolmogorov-SmirnovTests interpretiert haben: p > α in Beispiel 3.1.4.1: H0 wurde nicht zurückgewiesen. Die Daten beweisen nicht, dass eine andere Verteilung als eine Normalverteilung vorliegt. Es ist durchaus nicht gesichert, dass das Alter in der Personengruppe neu hospitalisierter Hypertoniepatienten normalverteilt ist, aber die gegebenen Daten widersprechen zumindest nicht einer solchen Annahme. p < α in Beispiel 3.1.4.2: H0 wurde zurückgewiesen. Die Daten untermauern signifikant, dass eine andere Verteilung als eine Normalverteilung vorliegt. Soweit man durch Statistik von einer Stichprobe auf die Gesamtheit schließen kann, können wir als gesichert betrachten, dass für den Blutzucker keine Normalverteilung in Frage kommt. Beispiel 3.1.4.4. Die PatientInnen wurden mit zwei verschiedenen Medikamenten behandelt. Ehe man die Wirkung der Medikamente vergleicht, muss sichergestellt sein, dass die beiden Gruppen ähnlich konfiguriert sind, sodass der Vergleich nicht durch Unterschiede in der Zusammensetzung der Gruppen verfälscht wird. Besteht ein Unterschied zwischen dem mittleren Alter der mit Alphasan behandelten Patientengruppe und der mit Betasan behandelten Gruppe? Diskussion: Es geht hier um den Vergleich zweier Mittelwerte für zwei Gesamtheiten, aus denen je eine Stichprobe entnommen wurde. H0 Nullhypothese: Das mittlere Alter ist für beide Gesamtheiten gleich. H1 Alternativhypothese: Das mittlere Alter der beiden Gesamtheiten ist verschieden (zweiseitige Alternativhypothese). α Signifikanzniveau: α = 0.05. SPSS liefert folgende Tabelle. Vor dem t-Test für den Mittelwertsvergleich befindet sich aber noch ein zweiter Test, der Levene-Test für Varianzhomogenität. Es gibt nämlich zwei verschiedene Verfahren des t-Tests zum Vergleich zweier unabhängiger Stichproben, einer davon arbeitet mit der Voraussetzung der Varianzhomogenität, d.i., dass die getestete Größe (hier das Alter) in beiden Gesamtheiten (Alphasan- und Betasan-PatientInnen) gleich stark streut. Bevor man diese Methode verwendet, muss aber sichergestellt sein, dass die Daten nicht zwingend darauf hinweisen, dass die Streuung in den beiden Gesamtheiten verschieden ist. Test bei unabhängigen Stichproben Varianz Levene-Test Varianzgleichh. F Sig. t gleich nicht gleich 0.543 0.462 dF 0.151 172 0.151 171.249 T-Test Mittelwertgleichheit Sig. Mittlere Standard2-seit. Differenz fehler d. Diff. 0.880 0.264 1.756 95% Konf.int. d. Diff. untere obere -3.201 3.730 0.880 -3.202 0.264 1.756 3.730 Für den Levenetest sind die Hypothesen H0 Nullhypothese: Die Varianz der Zufallsgröße “Alter” ist in den beiden Gruppen (mit Alphasan bzw. mit Betasan behandelte PatientInnen) gleich. H1 Alternativhypothese: Die Varianz des Alters ist in den beiden Gruppen verschieden. 114 3. STATISTISCHES SCHÄTZEN UND TESTEN Typischerweise verläßt man sich auf die Homogenität, wenn im Levene-Test bei α = 0.05 die Nullhypothese nicht zurückgewiesen werden muss. In unserem Fall liefert der Levene-Test einen p-Wert von 0.462, weit über 0.05. Wir müssen daher die Nullhypothese auf Grund unserer Daten nicht zurückweisen: Die vorliegenden Daten untermauern nicht signifikant, dass die Varianzen des Alters bei den beiden Patientengruppen verschieden sind. Daher dürfen wir mit der Annahme der Varianzhomogenität weiterarbeiten. Tatsächlich liefern in unserem Fall beide Verfahren annähernd identische Werte. Der Unterschied der Mittelwerte des Alters in beiden Gruppen beträgt 0.264. Daraus errechnet sich die Teststatistik t und der pWert 0.88. Dieser ist sehr viel größer als 0.05. Daher wird die Nullhypothese nicht zurückgewiesen. Unsere Daten zwingen uns nicht zur Annahme, dass das Alter der PatientInnen auf die Vergabe der Medikamente Einfluss genommen hat. Übrigens finden wir in der Tabelle auch einen Intervallschätzer für die Differenz. Wir kennen ja nur den Unterschied der Stichproben, und das ist eine Zufallsvariable. Wie stark diese streut, kann man dem Standardfehler der Differenz entnehmen. Aus unseren Daten kann man mit 95% Konfidenz schätzen, dass der tatsächliche Unterschied der Altersmittelwerte der beiden Gruppen zwischen -3.201 und 3.730 liegt. Die Konfidenz bedeutet: Diese Intervallgrenzen wurden so berechnet, dass bei häufiger Anwendung dieser Methoden in 95% aller Fälle die tatsächliche Differenz richtig eingegrenzt wurde. ¤ Beispiel 3.1.4.5. Beeinflusst die Behandlung den Blutdruck? Wir testen: Kann aus den Daten mit einem Signifikanzniveau von α = 0.001 geschlossen werden, dass der Blutdruck der behandelten PatientInnen sich im Mittelwert innerhalb von 6 Monaten ändert? Diskussion: Wir stellen die Hypothesen: H0 Nullhypothese: Der Differenz zwischen dem Blutdruck bei Behandlungsbeginn und dem Blutdruck 6 Monate nach Behandlungsbeginn beträgt im Mittel Null. H1 Alternativhypothese: Die Differenz zwischen dem Blutdruck bei Behandlungsbeginn und dem Blutdruck 6 Monate nach Behandlungsbeginn ist im Mittel ungleich Null. (Zweiseitige Alternativhypothese). α Signifikanzniveau α = 0.001. Hier haben wir eine Stichprobe von PatientInnen, und zu jedem Merkmalsträger zwei Werte: den Blutdruck bei Neuzugang und 6 Monate nach Behandlungsbeginn. Von diesen beiden Merkmalen soll der Mittelwert verglichen werden. Wir sprechen von einem Mittelwertsvergleich bei gepaarten Stichproben. SPSS liefert folgendes Ergebnis: Gepaarte Differenzen Blutdruck Ausgang – Blutdruck nach 6 Monaten MittelStandardStandardfehler 95% Konfid.int. wert abweichung des Mittelw. der Differenz Untere Obere 20.460 15.685 1.189 18.113 22.807 T df Sig 2-seitig 17.206 173 0.000 Das Programm gibt uns einige statistische Kennzahlen zur Differenz des Blutdrucks zu Beginn und 6 Monate seit Beginn der Behandlung an. Die Differenz beträgt im Mittel 20.46 mm Hg. Die Standardabweichung ist ein Maß dafür, wie stark die Differenz streut. Da wir den Mittelwert der Differenz nur für die Stichprobe kennen, und auf die Gesamtheit aller HypertoniepatientInnen, die jemals in Behandlung kommen, schließen wollen, ist mit dem Mittelwert ein Schätzfehler verbunden, der durch den Standardfehler quantifiziert wird. Der Mittelwert für die Gesamtheit wird mit 95% Konfidenz zwischen 18.113 und 22.807 eingegrenzt. Diese Methode grenzt in 19 von 20 Fällen den Mittelwert richtig ein. Aus dem Mittelwert der Differenz und seiner Streuung wird die Teststatistik t errechnet, und aus dieser die zweiseitige Signifikanz. Auf drei Stellen gerundet ist das 0.000. Damit ist die 3.2. T-TEST 115 Nullhypothese zurückgewiesen. Die Daten belegen mit großer statistischer Signifikanz, dass sich 6 Monate nach Behandlungsbeginn im Durchschnitt der Blutdruck ändert. ¤ Beispiel 3.1.4.6. Senkt die Therapie langfristig den Blutdruck in einen medizinisch günstigen Bereich? Wir testen: Beträgt der Blutdruck ein Jahr nach Behandlungsbeginn im Durchschnitt weniger als 150 mm Hg? Diskussion: Wir stellen die Hypothesen: H0 Nullhypothese: Der mittlere Blutdruck 12 Monate nach Behandlungsbeginn beträgt 150 mm Hg. H1 Alternativhypothese: Der mittlere Blutdruck 12 Monate nach Behandlungsbeginn beträgt weniger als 150 mm Hg. (Einseitige Alternativhypothese). α Signifikanzniveau α = 0.05. Für den Test eines einzelnen Mittelwertes aus einer Stichprobe setzen wir den t-Test ein. SPSS liefert: N Mittelwert Standardabweichung 174 148.36 13.137 Standardfehler des Mittelwertes 0.996 Der Mittelwert 12 Monate nach Beginn liegt für unsere Stichprobe tatsächlich unter 150 mm Hg. Für die Gesamtheit aller Hypertoniepatienten, die in Behandlung kommen, ist dies aber nur ein Schätzwert, der mit einem Fehler behaftet ist, der durch den Standardfehler quantifiziert wird. Berechtigt unsere Stichprobe tatsächlich zu dem Schluss, dass der mittlere Blutdruck für die Gesamtheit unter 150 mm Hg gesenkt wird, oder könnte das einfach ein glücklicher Zufallstreffer sein? Der Test gibt Auskunft: Testwert = 150 T df Sig. 2-seitig -1.645 173 0.102 Mittlere Differenz -1.638 95% Konfidenzintervall der Differenz untere obere -3.60 0.33 Die zweiseitige Signifikanz beträgt 0.102. Die Theorie sagt, wie wir noch sehen werden, dass die einseitige Signifikanz bei diesem Test die Hälfte der zweiseitigen ist. Also ist p = 0.051 > α, und die Nullhypothese kann nicht zurückgewiesen werden. Aus unseren Daten kann nicht mit einem Signifikanzniveau von 0.05 geschlossen werden, dass die Behandlung den Blutdruck im Durchschnitt über alle PatientInnen unter 150 mm Hg senkt. ¤ Was Sie jetzt können: Methoden: Hypothesen stellen. In konkreten Fällen interpretieren, was α- und β-Fehler bedeuten. Statistische Tests durch Vergleich von α und p auswerten und das Ergebnis interpretieren. 3.2. t-Test Übersicht: 1. Konfidenzintervall für den Mittelwert 2. t-Test auf den Mittelwert 3. Vergleichstests auf Basis des t-Tests 116 3. STATISTISCHES SCHÄTZEN UND TESTEN 3.2.1. Konfidenzintervall für den Mittelwert. Übersicht: 1. Die Rolle der t-Verteilung 2. Berechnung des Konfidenzintervalles für Mittelwerte 3. Große Stichproben 3.2.1.1. Die Rolle der t-Verteilung. Das folgende theoretische Resultat bildet die Grundlage des t-Tests, eines des wichtigsten und bekanntesten statistischen Tests: Merksatz 3.2.1.1. Seien x1 , x2 , · · · , xn unabhängige Realisierungen einer ZuPn fallsvariablen X mit Erwartungswert E(Xi ) = µ. Sei x = n1 i=1 Xi der Mittelwert Pn 1 2 der Realisierungen, und sei s2x = n−1 i=1 (Xi − x) die Schätzung der Varianz von X auf Grund der Realisierungen. Sei x − µ√ t= n. sx 1) Ist X normalverteilt, so ist t eine t-verteilte Zufallsvariable mit n − 1 Freiheitsgraden. 2) Ist X beliebig und n ausreichend groß (Faustregel: n ≥ 30), so ist t eine annähernd standardnormalverteilte Zufallsvariable. Diskussion: Der Mittelwert x ist normalverteilt mit Erwartungswert µ und Standardabweichung √ σx / n, dabei ist σx die Standardabweichung von X. Demnach wäre die Standardisierung von x, nämlich x − µ√ n, σx eine standardnormalverteilte Zufallsvariable. Da uns aber zur Standardisierung in der Praxis nur der Schätzer s2x für σx2 zugänglich ist, interessiert uns der Fall, dass mit sx statt σx standardisiert wird. ¤ 3.2.1.2. Berechnung des Konfidenzintervalls für Mittelwerte. Wir wissen, dass das Stichprobenmittel ein erwartungstreuer und konsistenter Punktschätzer für den Erwartungswert einer Zufallsvariablen ist. Wir entwickeln jetzt einen geeigneten Intervallschätzer. Methode 3.2.1.2 (Konfidenzintervall für E(X), auch kleine Stichproben). • Gesucht: Konfidenzintervall für den Erwartungswert einer Zufallsvariablen X. • Datenmaterial: x1 , · · · , xn sei eine Stichprobe von n unabhängigen Realisierungen von X. Daraus das Stichprobenmittel x und die geschätzte Varianz s2x von X. • Bedingung: X ist (annähernd) normalverteilt. • Konfidenz: 1 − α Das Konfidenzintervall berechnet sich nach der folgenden Methode: 1) Die Anzahl der Freiheitsgrade ist ν = n − 1. 2) Entnehmen Sie der Tabelle das (1 − α2 )-Quantil der t-Verteilung mit n − 1 Freiheitsgraden. Das ist jenes Quantil tα/2 , sodass Realisierungen einer tverteilten Zufallsvariable mit Wahrscheinlichkeit α/2 größer als tα/2 ausfallen. 3.2. T-TEST 117 3) Die halbe Breite des Konfidenzintervalls ist sx b = √ tα/2 . n 4) Die Mitte des Konfidenzintervalles ist x. 5) Das Konfidenzintervall ist also [x − b, x + b]. • Ergebnis: Mit diesem Intervall wird der unbekannte Erwartungswert E(X) eingegrenzt. Wenn man diese Methode regelmäßig anwendet, wird im Durchschnitt im Anteil 1 − α aller Schätzungen der gesuchte Erwartungswert richtig eingegrenzt. • Anmerkung: Für große Stichproben (n ≥ 30) kann statt der t-Verteilung auch die Standardnormalverteilung herangezogen werden. Diskussion: Sei µ der (uns unbekannte) Erwartungswert von X. Nach Merksatz 3.2.1.1 ist die Zufallsvariable x − µ√ t= n sx t-verteilt mit n − 1 Freiheitsgraden. Daher gilt für diese Variable: α P (t > tα/2 ) = . 2 Da die t-Verteilung eine symmetrische Dichtekurve hat, gilt ebenso α P (t < −tα/2 ) = 2 und damit insgesamt: P (|t| > tα/2 ) = α. Nun überlegen wir, in welchen Fällen |t| größer als tα/2 ausfällt: |t| > tα/2 ist dasselbe wie ¯ ¯ ¯x − µ√ ¯ ¯ n¯¯ > tα/2 d.h. ¯ s x sx |x − µ| > √ tα/2 = b. n Der gesuchte Erwartungswert µ weicht von x genau dann um mehr als b ab, wenn |t| > tα/2 . Und das passiert nur mit Wahrscheinlichkeit α. ¤ Beispiel 3.2.1.3. 16 Exemplare von Styriacus rotundus L. wurden auf ihren Bierverbrauch getestet. Es ergab sich als Stichprobenmittel ein täglicher Bierverbrauch von 2.2 Litern, bei einer geschätzten Standardabweichung von 0.4 Litern. Bestimmen Sie ein 95%-Konfidenzintervall für den täglichen Bierverbrauch von Styriacus rotundus und interpretieren Sie das Resultat. Diskussion: Wir müssen die Bedingung voraussetzen, dass der tägliche Bierverbrauch in dieser Population eine annähernd normalverteilte Zufallsgröße ist. Wir haben die Daten n = 16, x = 2.2, sx = 0.4. Wir erreichen 95% Konfidenz mit α = 0.05. 1) Die Anzahl der Freiheitsgrade ist 16-1=15. 2) Wir suchen den kritischen Wert t0.025 in der Tabelle der t-Verteilung bei 15 Freiheitsgraden: Es ergibt sich t0.025 = 2.131. 3) Die halbe Breite des Konfidenzintervalles ist 0.4 b = √ × 2.131 = 0.2131. 16 4) Die Mitte des Konfidenzintervalles ist 2.2. 5) Das 95% Konfidenzintervall für den mittleren täglichen Bierverbrauch ist [2.2 − 0.2131, 2.2 + 0.2131] = [1.9869, 2.4131]. 118 3. STATISTISCHES SCHÄTZEN UND TESTEN Wir haben aus einer Stichprobe geschätzt, wieviel Bier am Tag durchschnittlich pro Person in der Population von S. r. verbraucht werden. Unsere Methode ist ein Kompromiß zwischen einer groben Schätzung, die dafür oft recht hat, und einer genauen Schätzung, die aber mit geringerer Wahrscheinlichkeit den Wert richtig eingrenzt: Unser Intervall ist so berechnet, dass die Schätzmethode in 95% aller Fälle recht hat. ¤ Beispiel 3.2.1.4. Gesetzt die Daten aus Beispiel 3.2.1.3. Bestimmen Sie ein Intervall, sodass der tägliche Bierverbrauch von ungefähr 95% aller Exemplare von S. r. innerhalb dieses Intervalles eingegrenzt ist. Diskussion: Das gesuchte Intervall hat nichts mit einem Konfidenzintervall für den Mittelwert zu tun. Diese Aufgabe ist also anders als Beispiel 3.2.1.3 zu lösen. Wir gehen von der Annahme aus, dass der tägliche Bierbedarf eine normalverteilte Zufallsgröße ist. Als Erwartungswert haben wir 2.2 Liter geschätzt, als Standardabweichung 0.4 Liter. Ist X der tägliche Bierbedarf, so ist durch Standardisierung X − 2.2 Z= 0.4 standardnormalverteilt. Laut Tabelle der Standardnormalverteilung (t-Verteilung mit Freiheitsgrad ∞) finden wir das 97.5%-Perzentil der Standardnormalverteilung bei 1.96. Damit ist P (−1.96 ≤ Z ≤ 1.96) = 0.95. Wir transformieren die Standardisierung zurück Z = −1.96 ⇔ X = 2.2 − 0.4 × 1.96 = 1.416, Z = 1.96 ⇔ X = 2.2 + 0.4 × 1.96 = 2.984. 95% der Exemplare von S. r. haben einen täglichen Bierverbrauch zwischen 1.4 und 3.0 Litern. Dieses Intervall ist ungefähr 4 mal so breit wie das Konfidenzintervall. Das kommt daher, dass dieses Intervall auf der Standardabweichung σ(X) von X gegründet ist, während in das √ Konfidenzintervall die Standardabweichung des Schätzers σ(X)/ 16 einfließt. Dass das Verhältnis nicht genau 1:4 ist, kommt daher, dass für das Konfidenzintervall die t-Verteilung eingesetzt wurde. ¤ 3.2.1.3. Grosse Stichproben. Methode 3.2.1.5 (Konfidenzintervall für E(X), große Stichproben). • Gesucht: Konfidenzintervall für den Erwartungswert einer Zufallsvariablen X. • Datenmaterial: x1 , · · · , xn sei eine Stichprobe von n unabhängigen Realisierungen von X. Daraus das Stichprobenmittel x und die geschätzte Varianz s2x von X. • Bedingung: n ist ausreichend groß, Faustregel: n ≥ 30. (Es muß nicht vorausgesetzt werden, dass X normalverteilt ist.) • Konfidenz: 1 − α Das Konfidenzintervall berechnet sich nach der folgenden Methode: 1) Entnehmen Sie der Tabelle das (1− α2 )-Quantil der Standardnormalverteilung. Das ist jenes Quantil Zα/2 , sodass Realisierungen einer standardnormalverteilten Zufallsvariable mit Wahrscheinlichkeit α/2 größer als Zα/2 ausfallen. 2) Die halbe Breite des Konfidenzintervalls ist sx b = √ Zα/2 . n 3) Die Mitte des Konfidenzintervalles ist x. 4) Das Konfidenzintervall ist also [x − b, x + b]. 3.2. T-TEST 119 • Ergebnis: Mit diesem Intervall wird der unbekannte Erwartungswert E(X) eingegrenzt. Wenn man diese Methode regelmäßig anwendet, wird im Durchschnitt im Anteil 1 − α aller Schätzungen der gesuchte Erwartungswert richtig eingegrenzt. Diskussion: Im Prinzip funktioniert diese Methode wie das Konfidenzintervall für kleine Stichproben. Jedoch ist nach dem zentralen Grenzwertsatz für große Stichproben der Mittelwert auch dann annähernd normalverteilt, wenn X selbst eine völlig andere Verteilung hat. Bei einer großen Zahl von Freiheitsgraden kann auch die t-Verteilung durch die Standardnormalverteilung ersetzt werden. ¤ Beispiel 3.2.1.6. Bei einem Intelligenztest schnitten 400 ProbandInnen einer bestimmten Bevölkerungsgruppe mit einem mittleren IQ von 110 bei einer (aus der Stichprobe geschätzten) Standardabweichung von 15 ab. Bestimmen Sie ein 99%-Konfidenzintervall für den mittleren Intelligenzquotienten dieser Bevölkerungssschicht. Wie groß müßte der Stichprobenumfang angelegt sein, um bei derselben Konfidenz den mittleren IQ auf ±1 genau zu schätzen? Diskussion: Bei einem Stichprobenumfang von n = 400 kann unbedenklich die Methode 3.2.1.5 für große Stichproben eingesetzt werden: = 0.005. Aus der Tabelle der Quantile der t-Verteilung entnehmen wir (bei 1) α = 0.01, α 2 “Freiheitsgrad ∞”) das entsprechende 0.995-Quantil der Standardnormalverteilung: Z0.005 = 2.576. 2) Die halbe Breite ist 15 sx · 2.576 = 1.932. b = √ · Zα/2 = √ n 400 3) Die Mitte des Konfidenzintervalles ist x = 110. 4) Das Konfidenzintervall ist daher [x − b, x + b] = [108.068, 111.932] . Das Konfidenzintervall umfasst ungefähr 110 ± 2. Um es auf die halbe Breite, also 110 ± 1 zu reduzieren, muss der Stichprobenumfang vervierfacht werden. Wir benötigen eine Stichprobe von ungefähr 1600 ProbandInnen. ¤ Merksatz 3.2.1.7. Ein Konfidenzintervall für den Mittelwert einer Zufallsgröße wird unter folgenden Bedingungen schmäler: (Die Schätzung wird also genauer) 1) Wenn die Konfidenz geringer, also α größer angesetzt wird. 2) Wenn der Stichprobenumfang vergrößert √ wird. Die Breite ist bei großen Stichproben indirekt proportional zu n. 3) Eine Zufallsvariable mit geringerer Streuung geschätzt wird. Die Breite ist direkt proportional zur geschätzten Standardabweichung der Zufallsvariablen. Was Sie jetzt können: Wissen und Begriffe: Rolle der t-Verteilung bei standardisierten Mittelwerten. Zusammenhang zwischen Breite des Konfidenzintervalles, Konfidenz und Stichprobenumfang. Verständnis, warum die Formel für das Konfidenzintervall gilt. Methoden: Berechnung und Interpretation von Konfidenzintervallen für Mittelwerte von Zufallsvariablen. 120 3. STATISTISCHES SCHÄTZEN UND TESTEN 3.2.2. t-Test auf den Mittelwert. Übersicht: 1. Wie der t-Test funktioniert 2. Beispiele zum t-Test 3.2.2.1. Wie der t-Test funktioniert. Methode 3.2.2.1 (t-Test auf den Erwartungswert einer Zufallsvariablen). • Statistischer Test, ob der Erwartungswert einer Zufallsvariablen X von einer vorgegebenen Zahl µ abweicht. H0 : Nullhypothese: Der Erwartungswert E(X) ist exakt µ. H1 : Alternativhypothese (drei Varianten): (a) Der Erwartungswert von X ist größer als µ (einseitig). (b) Der Erwartungswert von X ist kleiner als µ (einseitig). (c) Der Erwartungswert von X ist ungleich µ (zweiseitig). α: Vorgegebenen Signifikanz α. • Datenmaterial: x1 , · · · , xn sind n unabhängige Realisierungen von X, daraus errechnet das Stichprobenmittel x und die geschätzte Varianz s2x . • Bedingungen: Entweder ist X annähernd normalverteilt, oder der Stichprobenumfang ausreichend groß (Faustregel: n > 30). Der Test wird folgendermaßen durchgeführt: 1) Anzahl der Freiheitsgrade für die Wahl der t-Verteilung: ν = n − 1. Ist ν ≥ 30, kann anstelle der t-Verteilung die Standardnormalverteilung (“Freiheitsgrad ∞”) verwendet werden. 2) Aus der Tabelle der Quantile der t-Verteilung entnimmt man, je nach Alternativhypothese (a,b) bei den einseitigen Tests den Wert tα , das ist jener Wert, sodass die Realisierungen einer t-verteilten Zufallsgröße mit Wahrscheinlichkeit α größer als tα ausfallen. (c) beim zweiseitigen Test den Wert tα/2 , das ist jener Wert, sodass die Realisierungen einer t-verteilten Zufallsgröße mit Wahrscheinlichkeit α/2 größer als tα/2 ausfallen. 3) Man berechnet die Teststatistik x−µ √ · n. t= sx 4) Je nach Alternativhypothese entscheidet man: (a) Ist t ≥ tα , so ist die Nullhypothese zurückzuweisen. (b) Ist t ≤ tα , so ist die Nullhypothese zurückzuweisen. (c) Ist |t| ≥ tα/2 , so ist die Nullhypothese zurückzuweisen. Der Test wird folgendermaßen interpretiert: • Ergebnis: H1 proklamiert einen Unterschied zwischen dem unbekannten Erwartungswert E(X) und der gegebenen Zahl µ. Wenn die Nullhypothese zurückgewiesen wird, gilt dieser Unterschied als statistisch untermauert mit Signifikanz α. Wenn die Nullhypothese nicht zurückgewiesen wird, kann der in H1 proklamierte Unterschied nicht mit der geforderten Signifikanz durch die Daten unterstützt werden. 3.2. T-TEST 121 • Fehlerwahrscheinlichkeit: Der statistische Test wird nur im Anteil α aller Fälle, in denen in Wirklichkeit E(X) = µ gilt, die Nullhypothese zu Unrecht zurückweisen und den in H1 -angegebenen Unterschied unterstützen. Diskussion: Um das Verfahren zu verstehen, erinnern wir uns, wie ein Test funktioniert. Wir vergleichen zwei Werte: α: Die vorgegebene Signifikanz des Tests, also die erlaubte Wahrscheinlichkeit eines αFehlers unter Nullhypothese. p: Die aus den Daten errechnete Wahrscheinlichkeit, dass eine Teststatistik unter Bedingung der Nullhypothese die Alternativhypothese mindestens so gut unterstützt wie die aus unseren Daten errechnete Teststatistik. Ist p ≤ α, so gilt die Alternativhypothese als signifikant untermauert. Eine Teststatistik wie die von uns errechnete ist unter Annahme der Nullhypothese ausreichend unwahrscheinlich, daher können wir die Nullhypothese zurückweisen. Ist dagegen p > α, so wird die Nullhypothese beibehalten. Die Daten reichen zumindest nicht aus, um die Alternativhypothese signifikant zu stützen. Im Fall des t-Testes ist die Teststatistik die Zufallsvariable t= x−µ √ · n. sx Je nach Alternativhypothese gilt: Die Teststatistik unterstützt die Alternativhypothese: (a) H1 : E(X) > µ, wenn t eine ausreichend große positive Zahl ist. (Denn dann ist x − µ eine ausreichend große positive Zahl, und da x ein Schätzer für E(X) ist, spricht das für E(X) > µ.) (b) H1 : E(X) < µ, wenn t eine ausreichend große negative Zahl ist. (c) H1 : E(X) 6= µ, wenn t eine ausreichend große positive oder negative Zahl ist. Für kleine Stichproben machen wir die Voraussetzung, dass X annähernd normalverteilt ist. Gehen wir von der Nullhypothese E(X) = µ aus, so hat in diesem Fall nach Merksatz 3.2.1.1 die Zufallsvariable t eine t-Verteilung mit n − 1 Freiheitsgraden. Für große Stichproben machen wir keine Voraussetzung an X, doch auf Grund des zentralen Grenzwertsatzes ist t nach Merksatz 3.2.1.1 annähernd standardnormalverteilt, und das entspricht dem Grenzfall einer t-Verteilung für Freiheitsgrad ∞. Um unübersichtlichen Schreibaufwand zu ersparen, setzen wir diese Diskussion nur für den Fall b: Alternativhypothese H1 : E(X) < µ fort. Die anderen beiden Fälle sind ganz analog zu erklären. Unsere Teststatistik ist also t-verteilt, wenn die Nullhypothese gilt. Die Teststatistik spricht für H1 , wenn t ausreichend weit auf der negativen Seite liegt. Damit ist p die Wahrscheinlichkeit, dass eine t-verteilte Zufallsvariable einen Wert liefert, der kleiner als das aus den Daten errechnete t ausfällt. Die folgenden beiden Grafiken zeigen die Dichtekurve der t-Verteilung. Eingezeichnet ist der kritische Wert −tα . Dieser ist gerade so gewählt, dass eine t-verteilte Zufallsvariable mit Wahrscheinlichkeit α Realisierungen liefert, welche noch kleiner als −tα sind. Diese Wahrscheinlichkeit wurde mit senkrechter Schraffierung unter der Dichtekurve eingetragen. Ebenso wurde in beide Diagramme mit waagrechter Schraffierung die Wahrscheinlichkeit p. Wir können zwei Fälle unterscheiden: 122 3. STATISTISCHES SCHÄTZEN UND TESTEN p α −tα t 0 Einseitiger t-Test, H1 : E(X) < µ: Fall t > −tα Ist t > −tα , so ist p > α, und die Nullhypothese wird beibehalten. α p t −tα 0 Einseitiger t-Test, H1 : E(X) < µ: Fall t < −tα Ist t ≤ −tα , so ist p ≤ α, und die Nullhypothese wird zurückgewiesen. Dann gilt H1 als signifikant untermauert. Wir bemerken noch, warum im Fall des zweiseitigen Tests der Wert von t mit tα/2 verglichen werden muss. In diesem Fall hat nämlich die Teststatistik zwei Wege, H1 zu unterstützen, nämlich durch sehr große positive oder durch sehr große negative Werte. Jedem dieser zwei Wege gestehen wir unter der Nullhypothese eine Wahrscheinlichkeit von α/2 zu. Die folgenden beiden Grafiken zeigen die Dichtekurve der t-Verteilung und die Wahrscheinlichkeiten p und α beim zweiseitigen t-Test: 3.2. T-TEST 123 p/2 p/2 α/2 α/2 −tα/2 −t 0 Zweiseitiger t-Test, H1 : E(X) 6= µ: tα/2 t Fall |t| < tα/2 Ist |t| < tα/2 , so ist p > α, und die Nullhypothese wird beibehalten. α/2 α/2 p/2 p/2 −t −tα/2 0 Zweiseitiger t-Test, H1 : E(X) 6= µ: t α/2 t Fall |t| > tα/2 Ist |t| ≥ tα/2 , so ist p ≤ α, und die Nullhypothese wird zurückgewiesen. Dann gilt H1 als signifikant untermauert. ¤ Merksatz 3.2.2.2. Der p-Wert eines einseitigen t-Tests ist stets die Hälfte des p-Wertes des zweiseitigen Tests. 3.2.2.2. Beispiele zum t-Test. Beispiel 3.2.2.3. Wie schwer sind die hintersten Backenzähne des Süßwasserreptils Pseudoleviathan caledonicus Nessie? Nach jahrzehntelanger Feldarbeit gelang einem Forscherteam die Identifizierung von 5 Backenzähnen mit folgenden Gewichten: 124 3. STATISTISCHES SCHÄTZEN UND TESTEN Fund Nummer Gewicht (Gramm) 1 9.8 2 3 11.2 10.7 4 10.1 5 10.9 Kann aus diesen Daten mit einem Signifikanznivau von α = 0.05 geschlossen werden, dass die hintersten Backenzähne von Pseudoleviathan caledonicus N. im Mittel mehr als 10 Gramm wiegen? Diskussion: Wir suchen nach dem Erwartungswert der Zufallsvariablen X: Gewicht eines Weisheitszahns von P.c.N.. Wir erstellen die Hypothesen H0 : Nullhypothese: Das Durchschnittsgewicht eines Backenzahns von P.c.N. ist 10 Gramm (also E(X) = 10). H1 : Alternativhypothese: Das Durchschnittsgewicht eines Backenzahns von P.c.N. ist größer als 10 Gramm (also E(X) > 10), einseitig. Um einen t-Test anzuwenden, müssen wir von der Annahme ausgehen, dass das Gewicht der Backenzähne von P.c.N. zumindest annähernd normalverteilt ist, denn der Stichprobenumfang ist mit n = 5 sehr klein. Um die Unabhängigkeit der 5 Realisierungen zu gewährleisten, sollten die 5 Backenzähne wenigstens von 5 verschiedenen Schädelfunden stammen. Wenn wir von dieser Annahme ausgehen, bereiten wir zunächst die Teststatistik vor, indem wir Stichprobenmittel und die geschätzte Standardabweichung berechnen: Fund 1 2 3 4 5 Summe durch 5 −x2 x= Korrekturfaktor ×5/4 Wurzel Gewicht xi 9.8 11.2 10.7 10.1 10.9 52.7 10.54 s2x = sx = x2i 96.04 125.44 114.49 102.01 118.81 556.79 111.3580 111.0916 0.2664 0.3330 0.5771 Wir führen nun die Schritte des Tests durch: 1) Anzahl der Freiheitsgrade ν = 5 − 1 = 4. 2) Kritischer Wert aus der Tabelle der t-Verteilung mit 4 Freiheitsgraden: t0.05 = 2.132. 3) t= x−µ √ 10.54 − 10 √ · n= · 5 = 2.092. sx 0.5771 4) t = 2.092 < tα = 2.132, daher wird die Nullhypothese nicht zurückgewiesen. Aus den vorliegenden Daten läßt sich nicht mit einer Signifikanz von 0.05 die Behauptung untermauern, dass die hinteren Backenzähne von P.c.N. im Durchschnitt mehr als 10 Gramm wiegen. ¤ Beispiel 3.2.2.4. Führen Sie den Test aus Beispiel 3.2.2.3 mittels SPSS durch. Diskussion: Die 5 Daten werden als metrische Variable “Gewicht” (Label: “Gewicht eines Weisheitszahns von P.c.N.”) in den Dateneditor eingegeben. Unter dem Menupunkt “Analysieren Mittelwerte vergleichen” findet sich die Prozedur “T-Test mit einer Stichprobe”. Wir wählen die (einzige) Variable “Gewicht” als Testvariable, und den Wert µ = 10 der Nullhypothese als Testwert. Daraufhin gibt das Programm folgende Tabellen aus: 3.2. T-TEST 125 Statistik bei einer Stichprobe N Mittelwert Standardabweichung Gewicht eines Weisheitszahnes von P.c.N. 5 10,5400 ,57706 Standardfehler des Mittelwertes ,25807 Test bei einer Stichprobe Testwert = 10 Gewicht eines Weisheitszahnes von P.c.N. T df Sig. (2-seitig) Mittlere Differenz 2,092 4 ,105 ,54000 95% Konfidenzintervall der Differenz untere obere -,1765 1,2565 Die erste Tabelle entspricht unserer Vorbereitung der Statistik. Es werden Stichprobenumfang, Stichprobenmittel und geschätzte Standardabweichung errechnet. Außerdem wird der Standardfehler des Mittelwertes geschätzt. Dies ist die Standardabweichung der Zufallsvariablen x. √ √ Wie wir bereits wissen, ist das σ(X)/ n, geschätzt durch sx / n. In der zweiten Tabelle wird der t-Test ausgeführt. Es werden die Werte der Teststatistik t, die Anzahl der Freiheitsgrade, und die zweiseitige Signifikanz angegeben. Das ist der Wert von p für den zweiseitigen Test. Im einseitigen Test entsteht p aber nur an einem Ende der Glockenkurve. Daher ist die einseitige Signifikanz nur die Hälfte der zweiseitigen (Merksatz 3.2.2.2), und wir müssen für unseren Fall eine Nebenrechnung auswerten: 0.105 = 0.0525. 2 Allerdings gilt trotzdem p > α für unser gewähltes α = 0.05, daher kann die Nullhypothese nicht zurückgewiesen werden. p= Außerdem zeigt die Tabelle des Tests die Differenz von x − µ, und ein 95%-Konfidenzintervall von E(X)−µ. Die Differenz E(X)−10 kann also (bei Konfidenz von 95%) im Intervall [−0, 1765, 1.2565] eingegrenzt werden. ¤ Tipp 3.2.2.5. 1) Bei der Durchführung von Tests durch SPSS erhält man direkt den p-Wert. Die Signifikanz muss daher nicht eingegeben werden. Bei der Auswertung der Ausgabe vergleicht dann der Untersuchende, ob der Wert von p (im Programm als Signifikanz bezeichnet) das gewünschte Signifikanzniveau α unterschreitet und damit H0 zurückgewiesen wird. 2) Grundsätzlich ist die Berechnung des p-Wertes auch bei der “händischen” Rechnung mit Tabelle eine korrekte Vorgangsweise. Während man für die Standardnormalverteilung noch meistens die notwendige Tabelle hätte, wäre eine Sammlung von Tabellen der Verteilungsfunktion der t-Verteilungen für alle Freiheitsgrade zu umfangreich für eine handliche Tabelle. Daher vergleicht man im händischen Rechnen lieber mit Hilfe der Quantile. Beispiel 3.2.2.6. Ein Aufnahmetest soll so ausgelegt werden, dass 100 Punkte zu vergeben sind, und die von MaturantInnen durchschnittlich erreichte Punktezahl bei 60% liegt. In einer Versuchsreihe wurde einer repräsentativen Stichprobe von 64 Testpersonen eine Entwurfsversion dieses Tests vorgelegt. Sie kamen dabei im Mittel auf 57 Punkte, bei einer geschätzten Standardabweichung von 8 Punkten. Die Verteilung war deutlich linksgipfelig. Muss aus diesen Daten geschlossen 126 3. STATISTISCHES SCHÄTZEN UND TESTEN werden, dass die zu erwartende Durchschnittspunktezahl von ProbandInnen bei diesem Testentwurf nicht auf 60 Punkten liegt, und daher ein neuer Entwurf entwickelt werden? (Signifikanzniveau α = 0.01.) Diskussion: Wir testen den Erwartungswert der Zufallsvariablen X: Punktezahl einer Probandin bei der vorliegenden Version des Testes. H0 : Der Erwartungswert der Punktezahl eines Probanden ist exakt 60 (E(X) = 60). H1 : Der Erwartungswert der Punktezahl eines Probanden ist nicht exakt 60 (E(X) 6= 60), zweiseitig. Da die Stichprobe groß ist, brauchen wir für die Anwendung des t-Testes keine Zusatzannahmen über die Verteilungsform von X. Zwar ist X nicht normalverteilt sondern stark linksgipfelig, trotzdem kann auf Grund des zentralen Grenzwertsatzes mit der Normalverteilung getestet werden! Wir führen nun den Test durch: 1) Freiheitsgrade: ∞. Wegen der großen Stichprobe verwenden wir die Standardnormalverteilung. 2) Da der Test zweiseitig ist, testen wir mit tα/2 . In der Tabelle der Quantile der tVerteilung, Zeile für die Standardnormalverteilung, finden wir t0.005 = 2.576. 3) Wir berechnen die Teststatistik: t= 57 − 60 √ · 64 = −3. 8 4) Es ist |t| = 3 ≥ 2.576 = tα/2 . Daher ist die Nullhypothese zurückzuweisen. Wir können und müssen mit Signifikanz von 0.01 aus diesen Daten schließen, dass die Durchschnittspunktezahl für ProbandInnen bei diesem Test nicht exakt 60 ist. Eine verbesserte Version muss vorbereitet werden. ¤ Tipp 3.2.2.7. Es ist bei allen statistischen Tests wichtig, dass die Hypothesenstellung nicht aus einer Sichtung des verwendeten Datenmaterials resultiert. Im Falle des einseitigen t-Tests wäre die Vorgangsweise des Heimwerker-Statistikers Hokuspokus Schwindlibus fehlerhaft: 1) Hokus sichtet zuerst, ob x > µ ist. 2) Hokus erstellt die Alternativhypothese: – Falls x > µ, schreibt er H1 : x > µ. – Falls x < µ, schreibt er H1 : x < µ. 3) Dann führt er einen einseitigen Test aus. Diskussion: In Wirklichkeit testet die Methode von Hokuspokus Schwindlibus mit Signifikanz 2α die zweiseitige Alternativhypothese E(X) 6= µ. Weil er nämlich zuerst x ansieht, bevor er die Alternativhypothese stellt, wird seine Teststatistik t auf jeden Fall das Vorzeichen haben, das seine Alternativhypothese unterstützt. Er verdoppelt damit die Wahrscheinlichkeit, dass sein t für H1 spricht, und damit auch die Wahrscheinlichkeit eines α-Fehlers. ¤ Was Sie jetzt können: Begriffe und Wissen: Verständnis, warum der t-Test auf Mittelwerte von Zufallsvariablen funktioniert. Methoden: t-Test, einseitig und zweiseitig. Anwendung und Interpretation, Bedingungen für die Anwendbarkeit des t-Tests. 3.2. T-TEST 127 3.2.3. Vergleichstests auf Basis des t-Tests. Übersicht: 1. 2. 3. 4. Verbundene und unabhängige Stichproben t-Test für unabhängige Stichproben t-Test für verbundene Stichproben F-Test zum Vergleich von Varianzen 3.2.3.1. Verbundene und unabhängige Stichproben. Merksatz 3.2.3.1. Wenn die Erwartungswerte zweier Zufallsvariablen verglichen werden sollen, gibt es mehrere Varianten des t-Tests. Welche man wählt, hängt wesentlich von der Art der Stichproben ab: Wurde für jede der beiden Zufallsvariablen eine neue, eigene Stichprobe erhoben (“unabhängige Stichproben”), oder wurden für jeden Merkmalsträger einer gemeinsamen Stichprobe je beide Zufallsvariablen realisiert (“verbundene Stichproben”)? Beispiel 3.2.3.2. Der Erfolg eines Tennistrainings soll getestet werden, indem die Spielstärke von 10 Probanden vor dem Training und 10 Probanden nach dem Training ermittelt wird. Erklären Sie den Unterschied eines Versuches mit verbundenen Stichproben und mit unabhängigen Stichproben. Diskussion: In einem Versuchsplan mit unabhängigen Stichproben würde man 10 ProbandInnen zufällig auswählen, welche das Training nicht absolviert haben. Anschließend würde man unabhängig 10 neue ProbandInnen wählen, die das Training absolviert haben. Im Versuchsplan mit verbundenen Stichproben wählt man 10 ProbandInnen, welche das Training noch nicht absolviert haben, und ermittelt ihre Spielstärke. Anschließend läßt man die selben 10 ProbandInnen das Training absolvieren, und ermittelt ihre Spielstärke aufs Neue. Damit wird eine Unsicherheitsquelle völlig ausgeschaltet: Im Versuch mit unabhängigen Stichproben könnte es im Extremfall passieren, dass die erste Stichprobe aus äußerst begabten SpielerInnen besteht, während die zweite Stichprobe aus wenig begabten SpielerInnen zusammengesetzt ist. Die Wirksamkeit des Trainings würde in diesem Fall stark unterschätzt. Dagegen wird bei verbundenen Stichproben die Spielweise derselben Person vor und nach dem Training verglichen, und die Streuung der natürlichen Begabung der SpielerInnen hat somit keinen Einfluß auf das Ergebnis. In der rechnerischen Durchführung zeigt sich, dass die geschätzte Standardabweichung sd im Normalfall deutlich kleiner ist, als die (wegen der Abhängigkeit hier ungültige) Schätzung mit der Formel für unabhängige Stichproben ergeben würde. ¤ Merksatz 3.2.3.3. In einen Vergleichstest mit unabhängigen Stichproben gehen unter anderem als Unsicherheitsfaktoren ein (und rechnerisch als Varianzen) ein: • Mögliche Verschiedenheiten in der Zusammensetzung der beiden Stichproben, • die Verschiedenheit von Mitgliedern der Stichproben untereinander. In einen Vergleichstest mit verbundenen Stichproben werden diese beiden Unsicherheitsfaktoren ausgeschaltet, weil von jedem Merkmalsträger der Unterschied der beiden Realisierungen festgehalten wird. 128 3. STATISTISCHES SCHÄTZEN UND TESTEN 3.2.3.2. t-Test für unabhängige Stichproben. Wir diskutieren nun die einzelnen Varianten des t-Tests zum Vergleich von Erwartungswerten. Durch die Verbreitung der Computerprogramme ist es nicht wahrscheinlich, dass Sie in die Lage kommen werden, solche Tests händisch durchzurechnen. Sie müssen aber wissen, welche Tests wann angewendet werden können. Wir geben daher hier keine Details der Rechnung, wohl aber die Hypothesenstellung und das notwendige Datenmaterial für die einzelnen Tests an. Falls Sie die genaue Rezeptur benötigen, finden Sie diese in der einschlägigen Lehrbuchliteratur. Empfehlenswert ist z.B. das Buch von W. Köhler, G. Schachtel, P. Voleske, Biostatistik, Springer-Verlag. Prinzipiell funktionieren t-Tests, indem ein geschätzter Mittelwert standardisiert wird, und die so berechnete Teststatistik mit einer t-verteilten Zufallsvariablen verglichen wird. Bei Vergleichstests werden die Mittelwerte für zwei Zufallsvariablen erhoben, und ihre Differenz gebildet. Nun muss zur Standardisierung eine Standardabweichung geschätzt werden. Der Schätzung liegen zwei Datentabellen, je eine für jede verglichene Zufallsvariable, zugrunde. Wenn man davon ausgehen kann, dass beide Zufallsvariablen dieselbe Standardabweichung haben, können zur gemeinsamen Schätzung dieser Varianz beide Tabellen vereint werden. Andernfalls müssen zwei Varianzen separat geschätzt werden. Merksatz 3.2.3.4. Zum Vergleich der Mittelwerte unabhängiger Stichproben gibt es zwei verschiedene Varianten des t-Tests, je nachdem, ob Varianzhomogenität angenommen werden kann oder nicht. Man spricht von Varianzhomogenität, wenn sich die beiden Zufallsvariablen zwar möglicherweise durch den Erwartungswert unterscheiden könnten, aber jedenfalls die Standardabweichung der beiden verglichenen Zufallsvariablen dieselbe ist. Methode 3.2.3.5 (t-Test zum Vergleich unabhängiger Stichproben). • Statistischer Test, ob die Erwartungswerte zweier Zufallsvariablen X1 und X2 sich genau um einen Wert µ unterscheiden: H0 : Die Differenz der Erwartungswerte ist exakt µ, also: E(X1 )−E(X2 ) = µ. H1 : Je nach Problemstellung gibt es zwei einseitige und die zweiseitige Variante der Alternativhypothese: (a) E(X1 ) − E(X2 ) > µ, einseitig. (b) E(X1 ) − E(X2 ) < µ, einseitig. (a) E(X1 ) − E(X2 ) 6= µ, zweiseitig. α: Signifikanz α. • Datenmaterial: Zwei unabhängige Stichproben, bestehend aus unabhängigen Realisierungen, je eine für X1 mit Umfang n1 und eine für X2 mit Umfang n2 . Daraus jeweils ermittelt die Stichprobenmittelwerte x1 , x2 und die geschätzten Varianzen s21 , s22 . • Bedingungen: – Entweder, die Zufallsvariablen X1 , X2 sind (annähernd) normalverteilt oder beide Stichprobenumfänge sind ausreichend groß (Faustregel: n1 ≥ 30 und n2 ≥ 30.) – Je nachdem, ob Varianzhomogenität angenommen werden kann oder nicht, stehen zwei verschiedene Formeln zur Auswertung des Tests zur Verfügung. Tipp 3.2.3.6. 3.2. T-TEST 129 1) Grundsätzlich ist die Methode mit Varianzhomogenität schärfer, das heißt, bei gleicher Signifikanz (gleicher Wahrscheinlichkeit eines α-Fehlers) neigt die Methode mit Varianzhomogenität weniger zu β-Fehlern. Daher greift man zur Methode mit Varianzhomogenität, wenn nicht die Daten darauf hinweisen, dass die Varianzen beider Zufallsvariablen verschieden sind. 2) Ob man die Annahme gleicher Varianzen machen kann, läßt sich durch einen F-Test oder als Alternative durch einen Levene-Test überprüfen. Zeigen diese Tests einen signifikanten Unterschied zwischen den Varianzen, muss man zur Methode mit verschiedenen Varianzen greifen. Diskussion: Es ist verständlich, dass die Methode mit Varianzhomogenität schärfer ist. Varianzhomogenität ist eine zusätzliche Information ist, und mit mehr Information sind schärfere und verlässlichere Schlüsse möglich. ¤ Beispiel 3.2.3.7. Es wird behauptet, dass die Ratten in Graz fetter sind als in Linz. Läßt sich das statistisch nachweisen? Es wurden zwei Stichproben von Ratten gewogen und die Ergebnisse in SPSS eingegeben. Die Statistik der beiden Stichproben sieht man aus der folgenden Tabelle: Ort N Mittelwert Graz 20 384.3 Linz 30 342.7 StandardStandardabweichung fehler des MW 71,2 15.9 64.7 11.8 Kann aus diesen Daten mit einem Signifikanzniveau von 0.05 geschlossen werden, dass das Durchschnittsgewicht der Ratten in Graz größer ist als das Durchschnittsgewicht der Ratten in Linz? Diskussion: Die Zufallsvariable X1 “Gewicht einer Ratte aus Graz” wird durch den Fang und die Wägung einer Ratte aus Graz realisiert. Mit X2 bezeichnen wir die Zufallsvariable “Gewicht einer Ratte aus Linz”. Wir testen folgende Hypothesen H0 : Nullhypothese: Das mittlere Gewicht der Ratten in Graz ist genauso groß wie das der Ratten in Linz. (E(X1 ) = E(X2 )). H1 : Alternativhypothese: Das mittlere Gewicht der Ratten in Graz ist größer das der Ratten in Linz. (E(X1 ) > E(X2 )), einseitig. Wir haben zwei unabhängige Stichproben. Wir haben SPSS den t-Test für zwei unabhängige Stichproben durchführen lassen und erhalten folgendes Ergebnis: Test bei unabhängigen Stichproben Varianz Levene-Test Varianzgleichh. F Sig. t dF gleich nicht gleich 0.390 0.844 2.141 48 2.099 38.1 T-Test Mittelwertgleichheit Sig. Mittlere Standard2-seit. Differenz fehler d. Diff. 0.037 41.633 19.447 95% Konf.int. d. Diff. untere obere 2.533 80.734 0.042 1.492 41.633 19.830 81.774 Zunächst sehen wir den Levene-Test an, um zu entscheiden, welche der beiden Varianten des Tests einzusetzen ist. Können wir Varianzhomogenität annehmen? Die Hypothesen des LeveneTests sind H0 Beide Zufallsvariablen haben dieselbe Standardabweichung. H1 Die Varianzen der Zufallsvariablen sind verschieden (zweiseitig). Wir wollen den Levene-Test auf das Signifikanzniveau 0.05 auslegen. Die Teststatistik F ist ein Hilfsresultat für den Levene-Test. Der p-Wert des Levene-Tests liegt bei 0.844. Da dies weit größer als 0.05 ist, wird die Nullhypothese nicht abgelehnt. Die Daten geben keinen Anlass zur Annahme, dass die Varianzen der Gewichte der beiden Rattenpopulationen verschieden sind. Daher können wir ruhig Varianzhomogenität annehmen, und verfolgen die 130 3. STATISTISCHES SCHÄTZEN UND TESTEN Ergebnisse des t-Tests in der ersten Zeile. (In der zweiten Zeile sind die Ergebnisse des t-Tests für die Version ohne Varianzhomogenität. Wir sehen aber, dass die zweite Zeile hier nicht auffällig andere Ergebnisse liefert.) Die Teststatistik des t-Tests ist t=2.141. Wenn die Nullhypothese gilt, ist diese t-verteilt mit dF=48 Freiheitsgraden. Für einen zweiseitigen Test hätte man den p-Wert von 0.037. Der einseitige Test hat nur den halben p-Wert, also p = 0.019. Da p kleiner ist als das gewünschte Signifikanzniveau α = 0.05, wird die Nullhypothese zurückgewiesen. Die Daten untermauern also mit Signifikanz von 0.05, dass das Durchschnittsgewicht der Grazer Ratten größer ist als das der Linzer Ratten. Außerdem zeigt die Tabelle die Differenz der mittleren Gewichte der beiden Populationen mit einem Punktschätzer (Mittlere Differenz = 41.633) und seinem Standardfehler, sowie durch ein Konfidenzintervall. ¤ 3.2.3.3. t-Test für verbundene Stichproben. Der t-Test zum Vergleich der Mittelwerte verbundener Stichproben für zwei Zufallsvariablen X1 und X2 ist einfach ein t-Test auf die Nullhypothese: die Zufallsvariable D = X1 − X2 hat den Erwartungswert Null. Es wird also für jeden Merkmalsträger die Differenz seiner beiden Realisierungen berechnet, und mit diesen Differenzen ein t-Test durchgeführt. Methode 3.2.3.8 (t-Test zum Vergleich verbundener Stichproben). • Statistischer Test, ob die Erwartungswerte zweier Zufallsvariablen X1 und X2 sich genau um einen Wert µ unterscheiden: H0 : Die Differenz der Erwartungswerte ist exakt µ, also: E(X1 )−E(X2 ) = µ. H1 : Je nach Problemstellung gibt es zwei einseitige und die zweiseitige Variante der Alternativhypothese: (a) E(X1 ) − E(X2 ) > µ, einseitig. (b) E(X1 ) − E(X2 ) < µ, einseitig. (a) E(X1 ) − E(X2 ) 6= µ, zweiseitig. α: Signifikanz α. • Datenmaterial: Eine Stichprobe, bestehend aus n Paaren aus je einer Realisierung von X1 und einer Realisierung von X2 : x11 , · · · , x1n Realisierungen von X1 , x21 , · · · , x2n Realisierungen von X2 . Die Paare sind voneinander unabhängig. • Bedingungen: Entweder, die Zufallsvariablen X1 , X2 sind (annähernd) normalverteilt oder der Stichprobenumfang ist ausreichend groß (Faustregel: n ≥ 30.) (Keine Annahme über Varianzhomogenität.) Beispiel 3.2.3.9. Eine Übungsveranstaltung aus Statistik wird in zwei Parallelgruppen (A,B) abgehalten. Der Lehrende aus Gruppe A ist in Verruf geraten, Hausübungsbeispiele besonders streng zu bewerten. Um das zu überprüfen, haben sich einige Studierende beider Gruppen paarweise zusammengetan. Insgesamt 8 Paare aus je einem Studierenden der Gruppe A und der Gruppe B wurden gebildet. Jedes Paar macht die Hausübung gemeinsam, und gibt identische Exemplare in der Gruppe A und B ab. Die Bewertung in Punkten durch die beiden Lehrenden sieht man in der folgenden Tabelle: Paar 1 Bewertung A 5 Bewertung B 5 2 10 10 3 7 9 4 5 6 7 8 4 2 2 5 8 3 4 3 7 8 3.2. T-TEST 131 Läßt sich aus diesen Daten mit einem Signifikanzniveau von 0.1 schließen, dass der Lehrende A im Durchschnitt weniger Punkte gibt als der Lehrende B? Diskussion: Hier liegt ein Vergleich von Mittelwerten der Zufallsvariablen X1 : “Von A vergebene Punkte” und X2 : “Von B vergebene Punkte” vor. Beachten Sie die große Streuung der Punktezahlen in jeder Gruppe, offensichtlich waren die Hausarbeiten von sehr unterschiedlicher Qualität. Durch die Wahl eines Versuchs mit verbundenen Stichproben wird diese Streuung eliminiert. Wir testen H0 : Der Lehrende in Gruppe A vergibt im Durchschnitt ebenso viele Punkte wie der Lehrende in Gruppe B. H1 : Der Lehrende in Gruppe A vergibt im Durchschnitt weniger Punkte als der Lehrende in Gruppe B. (einseitig). α: Signifikanzniveau α = 0.1. SPSS liefert die folgenden Tabellen: Mittelwert N 5.38 6.13 8 8 PrueferA PrueferB Mittelwert Standardabweichung 2.825 2.748 Standard fehler des MW .999 .972 Gepaarte Differenzen StandardStandardabweichung fehler des MW T df Sig 2 seitig -1.821 7 .111 PrueferA – -.750 1.724 .412 PrueferB Die erste Tabelle ist nur eine Übersicht über die Statistiken der Ergebnisse bei Prüfer A und Prüfer B separat. Wir sehen, dass der Mittelwert der von B vergebenen Punkte höher ist als von A. Die zweite Tabelle zeigt die Ergebnisse des t-Tests. Hier wird mit der Zufallsvariable D = Punktezahl bei Prüfer A minus Punktezahl bei Prüfer B gerechnet. Die ersten drei Spalten der Tabelle geben die Statistik von D an: Das Stichprobenmittel ist negativ, im Durchschnitt vergibt A weniger Punkte als B. Es werden noch die Standardabweichung von D und der Standardfehler des Stichprobenmittels angegeben. Vergleichen Sie die Standardabweichung der gepaarten Differenzen mit den Standardabweichungen der einzelnen Stichproben in der Tabelle darüber. Ein Teil der Streuung der einzelnen Stichproben kommt daher, weil sehr unterschiedlich gute Hausaufgaben abgegeben wurden. Die Differenzen werden jeweils von den Bewertungen derselben Hausarbeit durch beide Prüfer gebildet, der Einfluss der Qualität der Hausarbeit selbst hat sich durch die Subtraktion weggehoben. Die Streuung der Differenzen ist daher deutlich geringer. Die nächsten drei Spalten geben den t-Test wieder: Die Teststatistik t, die Anzahl der Freiheitsgrade (7 bei 8 Daten, wie wir wissen), und den p-Wert. SPSS weist die zweiseitige Signifikanz, also den p-Wert für den zweiseitigen Test aus. Der p-Wert des einseitigen Tests ist nur halb so groß. Daher ist für den einseitigen Test p = 0.056 im Vergleich zu α = 0.1. Daher wird die Nullhypothese zurückgewiesen. Es ist mit Signifikanzniveau 0.1 untermauert, dass der Lehrende A im Durchschnitt weniger Punkte vergibt als der Lehrende B. Im Nachspiel wendet der Lehrende A ein, dass seine Punktevergabe keiner Normalverteilung folgt, sondern eher zweigipfelig ist: ein Großteil der Hausarbeiten ist ziemlich gut, und ein anderer Teil ist ziemlich schlecht. Daher sei der obige Test bei diesem kleinen Stichprobenumfang nicht anwendbar. Den Studierenden wird als Hausaufgabe aufgetragen, eine parameterfreie Methode zum Vergleich zweier Zufallsvariablen in der Literatur zu suchen und an diesem Beispiel durchzuführen. ¤ 132 3. STATISTISCHES SCHÄTZEN UND TESTEN 3.2.3.4. F-Test zum Vergleich von Varianzen. Wichtiger als die Schätzung einzelner Varianzen ist der Vergleich von Varianzen. Wir haben bereits beim Vergleich von Mittelwerten die Bedingung der Varianzhomogenität kennengelernt. Der folgende Test ist eine Methode, um sie zu überprüfen. Bei der Beurteilung komplexerer statistischer Modelle spielt der Vergleich von Varianzen oft eine wichtige Rolle. Wir werden später sehen, dass die Methode der Varianzanalyse in einem Vergleichstest von Varianzen gipfelt. — Tabellen zur F-Verteilung findet man in fast allen Lehrbüchern der Statistik und statistischen Tabellenwerken. Methode 3.2.3.10 (F-Test nach Fisher zum Vergleich von Varianzen). • Test, ob die Varianzen σ12 , σ22 zweier Zufallsvariablen X1 , X2 gleich sind. • Hypothesen: H0 : Die Varianzen der beiden Zufallsvariablen sind exakt gleich (σ12 = σ22 ). H1 : Es gibt zwei einseitige und eine zweiseitige Variante der Alternativhypothese: (a) Die Varianz von X1 ist größer als die Varianz von X2 (σ12 > σ22 ), einseitig. (b) Die Varianz von X1 ist kleiner als die Varianz von X2 (σ12 < σ22 ), einseitig. (c) Die Varianz von X1 ist ungleich der Varianz von X2 (σ12 6= σ22 ), zweiseitig. α: Signifikanz α. • Datenmaterial: Zwei Schätzungen s21 , s22 der Varianzen aus unabhängigen Stichproben von X1 und X2 , mit ν1 bzw. ν2 Freiheitsgraden. • Bedingung: X1 und X2 sind (annähernd) normalverteilt. Der Test wird folgendermaßen durchgeführt: 1) Teststatistik und Freiheitsgrade des Zählers und Nenners: Je nach Alternativhypothese (a) (einseitig): F = s21 , νZ = ν1 , νN = ν2 . s22 F = s22 , νZ = ν2 , νN = ν1 . s21 (b) (einseitig): (c) (zweiseitig): s21 F = s22 , νZ = ν1 , νN = ν2 , F = s22 , s21 νZ = ν2 , νN = ν1 , falls s21 ≥ s22 , falls s21 < s22 . (Beim zweiseitigen Test kommt die Variable mit der größeren geschätzten Varianz in den Zähler. Beim einseitigen Test kommt die Variable in den Zähler, die nach der Alternativhypothese größer sein sollte.) 2) Kritischer Wert: Aus der Tabelle der Quantile der F -Verteilung mit νZ Freiheitsgraden des Zählers und νN Freiheitsgraden des Nenners entnimmt man den kritischen Wert: (a,b) (einseitig): Fα , sodass eine F-verteilte Zufallsvariable mit Wahrscheinlichkeit α Realisierungen größer als Fα liefert. 3.3. BINOMIALVERTEILUNG UND BINOMIALTEST 133 (c) (zweiseitig): Fα/2 , sodass eine F-verteilte Zufallsvariable mit Wahrscheinlichkeit α/2 Realisierungen größer als Fα/2 liefert. 3) Entscheidung: Ist F ≥ Fα bzw. F ≥ Fα/2 , so wird die Nullhypothese zurückgewiesen. Diskussion: Der Test beruht darauf, dass der Quotient der geschätzten Varianzen s2 1 s2 2 aus un- abhängigen Stichproben für zwei standardnormalverteilte Zufallsvariablen eine bekannte Verteilung hat, nämlich die F-Verteilung mit ν1 Freiheitsgraden des Zählers und ν2 Freiheitsgraden des Nenners. ¤ Was Sie jetzt können: Methoden: Von den folgenden Tests wissen Sie, für welche Hypothesen und und unter welchen Bedingungen man sie anwenden kann. Die genauen Rechenvorschriften finden Sie bei Bedarf in Lehr- und Handbüchern. Zumeist führt man T-Tests zum Vergleich von Mittelwerten bei unabhängigen Stichproben, Varianten mit und ohne Annahme der Varianzgleichheit. T-Test zum Vergleich von Mittelwerten bei gebundenen Stichproben. F-Test zum Vergleich von Varianzen. solche Tests heute ohnehin mit Hilfe von Computerprogrammen durch. 3.3. Binomialverteilung und Binomialtest Übersicht: 1. Abzählen 2. Binomialverteilung und Binomialtest 3. Normalapproximation der Binomialverteilung 3.3.1. Abzählen. Übersicht: 1. n faktorielle 2. Binomialkoeffizienten 3. k Objekte aus n Objekten auswählen 134 3. STATISTISCHES SCHÄTZEN UND TESTEN 3.3.1.1. n faktorielle. Definition 3.3.1.1. Sei n eine natürliche (= positive ganze) Zahl. Die Zahl n! n faktorielle, Fakultät von n wird definiert durch n! = 1.2.3. · · · .(n − 1).n Als zweckmäßige Konvention erweist sich die Definition 0! = 1. Beispiel 3.3.1.2. Aus der folgenden Tabelle sieht man, dass n! sehr schnell ansteigt: n n! 1 1 2 2 3 6 4 24 5 120 6 720 7 5 040 8 40 320 9 362 880 10 3 628 800 n 11 12 13 14 15 16 17 18 19 20 n! 39 916 800 479 001 600 6 227 020 800 87 178 291 200 ≈ 1.307 · 1012 ≈ 2.092 · 1013 ≈ 3.557 · 1014 ≈ 6.402 · 1015 ≈ 1.216 · 1017 ≈ 2.433 · 1018 Beispiel 3.3.1.3. Es gibt eine Ausgabe der theologischen Schriften des Bernhard von Clairvaux in 10 Bänden. Wieviele Möglichkeiten gibt es, die Bücher nebeneinander ins Regal zu stellen, wenn auf die Bandnummer nicht Rücksicht genommen wird? Diskussion: Wir beginnen links im Regal. Es stehen 10 Bände zur Auswahl, das gibt 10 Möglichkeiten für den Band ganz links. Nun liegen noch 9 Bände zur Aufstellung bereit, das gibt 9 Möglichkeiten, das Buch am zweiten Standort auszuwählen. Bisher hatten wir schon 10.9=90 Möglichkeiten für die ersten 2 Stellen. Für den dritten Platz liegen noch 8 Bücher bereit. Insgesamt ergeben sich 10 × 9 × 8 × · · · × 1 = 10! = 3628800 Möglichkeiten. ¤ Merksatz 3.3.1.4. Es gibt n! verschiedene Möglichkeiten, n Objekte auf n Plätze anzuordnen. 3.3.1.2. Binomialkoeffizienten. Beispiel 3.3.1.5. 1) Wieviele Möglichkeiten gibt es, aus den Zahlen von 1 bis 45 sechs verschiedene Zahlen auszuwählen, wobei es auf die Reihenfolge der Auswahl nicht ankommt? 2) Wie groß ist die Wahrscheinlichkeit, mit einem Tipp einen Lottosechser zu gewinnen? Diskussion: Wir beginnen unsere Überlegung so, als würde die Reihenfolge der Auswahl eine Rolle spielen. Für den ersten der sechs Plätze stehen 45 Zahlen zur Wahl, für den zweiten nur mehr 44, für den dritten nur mehr 43 und so weiter, das ergibt 45 × 44 × 43 × 42 × 41 × 40 = 5 864 443 200 3.3. BINOMIALVERTEILUNG UND BINOMIALTEST 135 Möglichkeiten, allerdings unter der Bedingung, dass zwei Tipps als verschieden betrachtet werden, wenn dieselben Zahlen in verschiedener Reihenfolge angeordnet werden. Weil es aber auf die Reihenfolge in Wirklichkeit nicht ankommt, sind zum Beispiel folgende Tipps identisch: Tipp A Tipp B Tipp C 3 12 30 4 4 7 7 3 25 12 30 12 25 7 4 30 25 3 Weil jeder Tipp aus 6 verschiedenen Zahlen besteht, und sich 6 Zahlen in 6! = 720 verschiedenen Möglichkeiten anordnen lassen, wird also nach der obigen Methode unter den 5864443200 Varianten jeder einzelne Tipp 720 mal aufgezählt. Es gibt daher “nur” 5864443200 45 × 44 × 43 × 42 × 41 × 40 = = 8 145 060 6×5×4×3×2×1 720 verschiedene Möglichkeiten. Weil bei einem fairen Auslosungssystem alle Möglichkeiten gleich wahrscheinlich gezogen werden, ist die Wahrscheinlichkeit, mit einem Tipp einen Sechser zu landen, 1 ≈ 1.23 · 10−7 . 8145060 ¤ Definition 3.3.1.6. Seien n und k ganze Zahlen größer oder gleich Null mit n ≥ k. Der Binomialkoeffizient n über k ist µ ¶ n! n · (n − 1) · · · (n − k + 1) n = = . k k!(n − k)! k · (k − 1) · · · 1 Als zweckmäßig erweist sich µ folgende Erweiterung der Definition: Ist k < 0 oder ¶ n k > n eine ganze Zahl, so ist = 0. k Diskussion: Beachten Sie: Beim zweiten Bruch in der Definition stehen im Zähler und im Nenner jeweils k Faktoren. Die beiden Brüche in der Definition sehen auf ersten Blick verschieden aus, jedoch ergibt sich dieselbe Zahl. Man muss nur den zweiten Bruch mit (n − k)! erweitern: n · (n − 1) · · · (n − k + 1) · (n − k)! n · (n − 1) · · · (n − k + 1) = k! k!(n − k)! n · (n − 1) · · · (n − k + 1) · (n − k) · (n − k − 1) · · · 1 n! = = . k!(n − k)! k!(n − k)! Obwohl man es den Brüchen auf ersten Blick nicht ansieht, lassen sie sich immer kürzen, sodass der Binomialkoeffizient eine ganze Zahl ist. ¤ Beispiel 3.3.1.7. Berechnen Sie die Binomialkoeffizienten µ ¶ µ ¶ µ ¶ µ ¶ µ ¶ 6 6 6 6 6 , , , , . 4 2 1 0 8 Diskussion: ¤ µ ¶ 6 4 µ ¶ 6 2 µ ¶ 6 1 µ ¶ 6 0 µ ¶ 6 8 = = = = = 6×5×4×3 = 15, 4×3×2×1 6×5 = 15, 2×1 6 = 6, 1 6! = 1, 6! × 0! 0. 136 3. STATISTISCHES SCHÄTZEN UND TESTEN Merksatz 3.3.1.8. Es gilt immer: µ ¶ µ ¶ n n = = 1, 0 n ¶ µ ¶ µ n n = = n, 1 n−1 µ ¶ µ ¶ n n = . k n−k Im Hinblick auf die Diskussion zu Beispiel 3.3.1.5 sehen wir: Merksatz 3.3.1.9. Wenn es auf die Reihenfolge nicht ankommt, gibt es µ ¶ n k Möglichkeiten, aus n Objekten k Objekte auszuwählen. Über Binomialkoeffizienten gibt es noch sehr viel zu sagen. Wir begnügen uns hier mit der Erklärung, wie es zum Namen kommt. Der Ausdruck (a + b) besteht aus zwei Teilen, ist also ein sogenanntes Binom. Wie man die Potenzen von Binomen bildet, klärt der Binomische Lehrsatz: Merksatz 3.3.1.10 (Binomischer Lehrsatz). µ ¶ µ ¶ µ ¶ µ ¶ n 0 n n 1 n−1 n 2 n−2 n n 0 n (a + b) = a b + a b + a b + ··· + a b . 0 1 2 n Die Binomialkoeffizienten sind also die Koeffizienten in dieser Formel für die Potenzen der Binome. Diskussion: Zum Beispiel ergeben sich für n = 2 und n = 3 die folgenden, in der Schule wohlbekannten und beliebten Rechenregeln: µ ¶ µ ¶ µ ¶ 2 2 2 a2 b0 a1 b1 + a0 b2 + (a + b)2 = 2 1 0 =b2 + 2ab + a2 , µ ¶ µ ¶ µ ¶ µ ¶ 3 3 3 3 a2 b1 + a3 b0 a1 b2 + (a + b)3 = a0 b3 + 2 3 1 0 =b3 + 3ab2 + 3a2 b + a3 . ¤ 3.3.1.3. k Objekte aus n Objekten auswählen. Merksatz 3.3.1.11. Wenn aus n Objekten k Objekte ausgewählt werden, sind zwei Kriterien zu berücksichtigen: 1.) Spielt die Reihenfolge eine Rolle, in der die Objekte ausgewählt werden? Wird also jedes Objekt für einen anderen Zweck gewählt? Gelten also zwei Möglichkeiten, dieselben Objekte auszuwählen, aber in verschiedener Reihenfolge, als zwei verschiedene Möglichkeiten oder als dieselbe Möglichkeit? 2.) Sind Wiederholungen zulässig? Darf also dasselbe Objekt mehrmals gewählt werden? Daraus ergibt sich dann die Anzahl der verschiedenen Möglichkeiten, k aus n Objekten auszuwählen, nach 4 verschiedenen Formeln: 3.3. BINOMIALVERTEILUNG UND BINOMIALTEST Wiederholungen zulässig Wiederholungen unzulässig Reihenfolge spielt eine Rolle nk n · (n − 1) · · · (n − k + 1) | {z } k Faktoren Reihenfolge spielt keine Rolle µ ¶ n+k−1 k µ ¶ n k 137 Was Sie jetzt können: Wissen und Begriffe: Faktorielle und Binomialkoeffizienten Methoden: Abzählen von Möglichkeiten, aus n Objekten k Objekte auszuwählen. 3.3.2. Binomialverteilung und Binomialtest. Übersicht: 1. Binomialverteilung 2. Stichproben dichotomer Merkmale 3. Binomialtest 3.3.2.1. Binomialverteilung. Beispiel 3.3.2.1. 30% aller Bäume in der Umgebung eines bekannten gallischen Dorfes sind mit Misteln bewachsen. Der Druide Miraculix besteigt auf gut Glück 5 verschiedene Bäume. Wie groß ist die Wahrscheinlichkeit, dass er darunter genau 2 Bäume mit Misteln gefunden hat? Diskussion: Wir zerlegen die Überlegung in zwei Teile. Zunächst hat der Druide 5 Bäume bestiegen, sagen wir, die Bäume A,B,C,D,E. Dann gibt es verschiedene Möglichkeiten darunter genau 2 Mistelträger zu finden, zum Beispiel AB, oder AC, oder CE, und so weiter. Insgesamt gibt es µ ¶ 5 = 10 Möglichkeiten, 2 Bäume unter 5 Bäumen als potentielle Mistelträger auszuwählen. 2 Von diesen 10 Möglichkeiten betrachten wir eine genauer. Wie groß ist zum Beispiel die Wahrscheinlichkeit, dass genau die Bäume A und C Mistelträger sind, und die restlichen drei Bäume keine Misteln hatten? Mit Wahrscheinlichkeit 0.3 hat A Misteln, mit Wahrscheinlichkeit 1 − 0.3 = 0.7 hat B keine Misteln. Damit haben wir eine Wahrscheinlichkeit von 0.3 × 0.7, dass A Misteln hat, und gleichzeitig B keine Misteln hat. Führen wir die Überlegung für die Bäume C,D,E weiter, so erhalten wir eine Wahrscheinlichkeit von 0.3 × 0.7 × 0.3 × 0.7 × 0.7 = 0.32 × 0.75−2 dass A und C Misteln hatten, und die restlichen drei Bäume nicht. Beachten Sie, dass der Faktor 0.3 zweimal, und der Faktor 0.7 dreimal vorkommt. Für jede der 10 Kombinationen von 2 aus 5 Bäumen als Mistelträgern ergibt sich dieselbe Überlegung, und am Ende finden wir folgende Wahrscheinlichkeit, dass genau 2 aus 5 Bäumen Misteln hatten: µ ¶ 5 0.32 (1 − 0.3)5−2 = 0.3087. 2 ¤ 138 3. STATISTISCHES SCHÄTZEN UND TESTEN Definition 3.3.2.2. Eine Zufallsgröße X heißt B(n, p)-binomialverteilt, wenn sie als Realisierungen die Werte 0 · · · n annehmen kann, und die Wahrscheinlichkeit, dass als Realisierung die Zahl k angenommen wird, nach der folgenden Formel berechnet werden kann: µ ¶ n P (X = k) = pk (1 − p)n−k . k Wenn wir die Überlegungen aus Beispiel 3.3.2.1 nachvollziehen, kommen wir zu folgendem Merksatz: Merksatz 3.3.2.3. Ein Zufallsexperiment Y soll nur zwei Ausgänge haben: “positiv” und “negativ”. Dabei sei p die Wahrscheinlichkeit, dass der Ausgang positiv ist. Wird das Zufallsexperiment in n unabhängigen Versuchen realisiert, und bezeichnet X die Anzahl der Versuche, in denen das Experiment positiv ausgeht, so ist X eine B(n, p)-binomialverteilte Zufallsvariable. 3.3.2.2. Stichproben mit dichotomen Merkmalen. Als Spezialfall von Merksatz 3.3.2.3 ergibt sich: Merksatz 3.3.2.4. Ein dichotomes Merkmal in einer Population habe die Ausprägungen “positiv” und “negativ”. Dabei sei p die relative Häufigkeit der positiven Merkmalsträger in der Gesamtpopulation. Aus der Population wird eine Stichprobe des Umfanges n so entnommen, dass sich durch die Entnahme der Stichprobe die Anteile von positiven und negativen Merkmalsträgern nicht (bzw. nicht wesentlich) verschieben. Bezeichnet X die Anzahl der positiven Merkmalsträger in der Stichprobe, so ist X eine (annähernd) B(n, p)-binomialverteilte Zufallsvariable. Beispiel 3.3.2.5. In einem Käfig sitzen 5 Ratten. Zwei davon beißen jede Hand, die nach ihnen greift, die andern drei beißen nicht, sondern lassen sich gerne kraulen. 1) Andrea fischt zwei (verschiedene) Ratten aus dem Käfig. Ist die Anzahl der bissigen Ratten, die sie erwischt, binomialverteilt? 2) Barbara greift zweimal blind in den Käfig nach einer Ratte, ohne sie aber herauszunehmen. Ist die Anzahl der Bisse, die sie ausfasst, binomialverteilt? 3) 40% der Ratten im Kanalsystem von Palermo sind bissig. Claudia fischt 2 Ratten aus dem Kanal. Ist die Anzahl der bissigen Ratten, die sie erwischt, binomialverteilt? Diskussion: Zu Beginn sitzen 5 Ratten im Käfig, davon sind 40% bissig. Nehmen wir an, Andrea hat die erste Ratte entnommen, und diese hat gebissen. Nun sitzen noch 4 Ratten im Käfig, aber davon ist nur mehr eine bissig, das sind 25%. Durch die Entnahme der Stichprobe hat sich der Anteile der “positiven” bissigen Ratten verschoben. Keine Binomialverteilung! Barbara dagegen entnimmt die Ratte nicht, es kann sein, dass sie das zweite Mal nach derselben Ratte greift. Durch die Stichprobenwahl verschiebt sich der Anteil der bissigen Ratten nicht, er ist nach wie vor 40%. Binomialverteilung B(2, 0.4). Im Hinblick auf die dem Verfasser unbekannte, aber zweifellos ehrfurchtgebietende Zahl der Ratten im Kanal von Palermo kann die Entnahme von zwei Ratten den Anteil der bissigen Tiere nicht wesentlich verschieben. Daher ist die Anzahl der bissigen Tiere, die Claudia findet, zumindest in hervorragender Näherung B(2, 0.4)-binomialverteilt. ¤ 3.3. BINOMIALVERTEILUNG UND BINOMIALTEST 139 3.3.2.3. Binomialtest. Methode 3.3.2.6 (Binomialtest). Statistischer Test auf den Anteil “positiver” Merkmalsträger in einer Grundgesamtheit. • Ein dichotomes Merkmal sei in einer Grundgesamtheit mit den Ausprägungen “positiv” und “negativ” vertreten. Sei γ eine vorgegebene Zahl zwischen 0 und 1. • Hypothesen: H0 : Nullhypothese: Der Anteil der positiven Merkmalsträger in der Grundgesamtheit beträgt γ. H1 : Alternativhypothese: Der Anteil der positiven Merkmalsträger ist kleiner als γ (einseitig). α: Signifikanzniveau α. • Daten: Eine Stichprobe von n zufällig und unabhängig ausgewählten Merkmalsträgern. Darunter befinden sich k positive. • Bedingungen: Die Entnahme der Stichprobe ändert nicht (wesentlich) den Anteil der positiven Merkmalsträger in der verbleibenden Gesamtheit. Der Test wird folgendermaßen durchgeführt: 1) Berechnung des p-Wertes: p ist die kumulative Wahrscheinlichkeit p = P (0 ≤ X ≤ k) für eine B(n, γ)-binomialverteilte Zufallsvariable X. 2) Ist p ≤ α, so wird die Nullhypothese zurückgewiesen. Beispiel 3.3.2.7. In einem Versuch wurde untersucht, ob sich KohlreutheriaExtrakte zur Bekämpfung von roten Nacktschnecken (Arion lusitanicus) eignen. Von 40 Nacktschnecken überlebten 2 die nächsten 24 Stunden nach der Behandlung mit einer bestimmten Dosis von Kohlreuteria-Extrakt. Folgt mit einer Signifikanz von 0.05, dass rote Nacktschnecken mit einer Wahrscheinlichkeit von weniger als 20% einen Tag lang die Berührung mit Kohlreutheria überleben? Diskussion: Wir stellen die Hypothesen: H0 : Der Anteil der roten Nacktschnecken, die Kohlreutheria einen Tag überleben können, ist 0.2 = 20%. H1 : Der Anteil der roten Nacktschnecken, die Kohlreutheria einen Tag überleben können, ist kleiner als 0.2. Um den Test durchzuführen, brauchen wir die kumulative Wahrscheinlichkeit P (X ≤ 2) für eine B(40, 0.2)-binomialverteilte Zufallsgröße X. j 0 1 2 µ ¶ 40 j 1 40 780 0.2j 1 0.2 0.04 0.840−j 10−4 1.329 · 1.662 · 10−4 2.077 · 10−4 P (X = j) 10−4 1.329 · 1.329 · 10−3 6.480 · 10−3 P (X ≤ j) 1.329 · 10−4 1.462 · 10−3 7.942 · 10−3 Insbesondere ist also die kumulative Wahrscheinlichkeit p = P (X ≤ 2) ≈ 7.942 · 10−3 ≤ 0.05, daher kann die Nullhypothese zurückgewiesen werden. Es ist signifikant untermauert, dass Kohlreutheria mehr als 80% der roten Nacktschnecken innerhalb eines Tages tötet. ¤ Tipp 3.3.2.8. Für die kumulativen Verteilungen der Binomialverteilung gibt es natürlich Tabellen. Für große Stichprobenumfänge verwendet man ein Näherungsverfahren (Methode 3.3.3.6). 140 3. STATISTISCHES SCHÄTZEN UND TESTEN Was Sie jetzt können: Wissen und Begriffe: Binomialverteilung. Methoden: Erkennen von Situationen, auf welche die Binomialverteilung anwendbar ist. Binomialtest auf Anteile. 3.3.3. Normalapproximation der Binomialverteilung. Übersicht: 1. Normalapproximation 2. Test auf Anteile bei großen Stichproben 3. Konfidenzintervall für Anteile bei großen Stichproben 3.3.3.1. Normalapproximation. Wir bemerken zunächst, dass Erwartungswert und Standardabweichung binomialverteilter Zufallsvariablen einfache Formeln haben: Merksatz 3.3.3.1. Sei X eine B(n, p)-binomialverteilte Zufallsvariable. Dann gilt: 1) Der Erwartungswert von X beträgt E(X) = np. p 2) Die Standardabweichung von X beträgt σ(X) = np(1 − p). Beispiel 3.3.3.2. Vergleichen Sie das Stabdiagramm einer B(10, 0.4)-binomialverteilten Zufallsgröße X mit der Dichtekurve einer Normalverteilung Y mit demselben Erwartungswert und derselben Standardabweichung. Diskussion: Nach Merksatz 3.3.3.1 sind Erwartungswert und Standardabweichung der binomialverteilten Zufallsvariablen X gegeben: √ √ E(X) = 10 × 0.4 = 4, σ(X) = 10 × 0.4 × 0.6 = 2.4 ≈ 1.55. Wir berechnen die Häufigkeiten der 11 möglichen Ausprägungen von X: µ ¶ 10 0.4k 0.610−k P (X = k) k 0 1 1 0.00605 0.00605 1 10 0.4 0.01008 0.04031 2 45 0.16 0.01680 0.12093 3 120 0.064 0.02799 0.21499 4 210 0.0256 0.04666 0.25082 5 252 0.01024 0.07776 0.20066 6 210 0.00410 0.1296 0.11148 7 120 0.00164 0.216 0.04247 8 45 0.00655 0.36 0.01062 9 10 0.00026 0.6 0.00157 10 1 0.00010 1 0.00010 Wir stellen nun ein Stabdiagramm dieser Verteilung her, wobei √ wir die Breite der Stäbe mit 1 wählen. Zum Vergleich zeichnen wir die Dichtekurve der N (4, 2.4)-Normalverteilung ein. k 3.3. BINOMIALVERTEILUNG UND BINOMIALTEST 141 0.25 0.2 0.15 0.1 0.05 0 0 1 2 3 4 5 6 B(10, 0.4)-Binomialverteilung und N (4, 7 √ 8 9 10 2.4)-Normalverteilung Wir sehen, dass die Dichtekurve der Normalverteilung das Stabdiagramm der Binomialverteilung ziemlich gut annähert. ¤ Merksatz 3.3.3.3 (Normalapproximation der Binomialverteilung). Für große n kann eine B(n, p)-binomialverteilte Zufallsvariable näherungsweise durch eine p Normalverteilung mit Mittelwert np und Standardabweichung np(1 − p) ersetzt werden. Als Faustregel gilt: Diese Näherung darf verwendet werden, wenn np(1 − p) ≥ 9. Beispiel 3.3.3.4. Eine Zufallsvariable X ist B(50, 0.3)-binomialverteilt. Wie groß ist die Wahrscheinlichkeit, dass X eine Realisierung zwischen 10 und 20 annimmt? Diskussion: Die exakte Rechnung wäre µ P (10 ≤ X ≤ 20) = ¶ µ ¶ µ ¶ 50 50 50 0.310 0.540 + 0.311 0.539 + · · · + 0.320 0.530 . 10 11 20 Diese Rechnung ist nicht nur mühsam. Einerseits sind die Binomialkoeffizienten sehr große Zahlen, andererseits sind die hohen Potenzen von 0.3 und 0.7 sehr klein. Die Rundungsfehler dieser langwierigen Rechnung könnten sich sehr unangenehm aufschaukeln, und trotz der exakten Formel könnte das Ergebnis auf Grund dieser Fehler sehr ungenau ausfallen. Wir überprüfen daher, ob wir in diesem Fall auf die Normalapproximation zurückgreifen können. Tatsächlich ist 50 × 0.3 × (1 − 0.3) = 10.5 > 9, also darf die Normalapproximation verwendet werden. 142 3. STATISTISCHES SCHÄTZEN UND TESTEN 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 5 10 15 20 B(50, 0.3)-Binomialverteilung und N (15, 25 √ 30 10.5)-Normalverteilung Betrachten Sie das obige Diagramm. Die Fläche der Balken über 10, 11, · · · , 20 gemeinsam ergeben die gesuchte Wahrscheinlichkeit. Wir nehmen statt dessen die Fläche unter der Dichtekurve. Beachten Sie, dass jeder Balken die Breite 1 hat. Die Fläche beginnt also nicht bei 10, sondern bei 9.5, und endet nicht bei 20, sondern bei 20.5. (Diese Überlegung, nicht die Fläche zwischen den Balkenmitten, sondern von Balkenende zu Balkenende zu berechnen, heißt die Stetigkeitskorrektur.) Sei also nun √ Y eine normalverteilte Zufallsvariable mit Mittelwert 50 × 0.3 = 50 und Standardabweichung 10.5. Wir suchen die Wahrscheinlichkeit, dass Y zwischen 9.5 und 20.5 zu liegen kommt. Wir standardisieren zunächst: Y − 15 Z= √ . 10.55 Insbesondere ist für Y = 20.5 ist Z ≈ 1.70, für Y = 9, 5 ist Z ≈ −1.70. Aus der Tabelle der Standardnormalverteilung entnehmen wir P (0 ≤ Z ≤ 1.70) = 0.4554. Daher ist P (9.5 ≤ Y ≤ 20.5) = P (−1.70 ≤ Z ≤ 1.70) = 2 × 0.4554 = 0.9108. (Die exakte Rechnung mit MATLAB ergab 0.9120.) ¤ Methode 3.3.3.5 (Normalapproximation der Binomialverteilung mit Stetigkeitskorrektur). Sei X eine B(n, p)-binomialverteilte Zufallsvariable. Gesucht ist die Wahrscheinlichkeit P (k1 ≤ X ≤ k2 ) mit zwei ganzen Zahlen k1 , k2 . Sei np(1 − p) ≥ 9, sodass die Normalapproximation zulässig ist. Dann definiert man eine p normalverteilte Zufallsvariable Y mit Mittelwert np und Standardabweichung np(1 − p) und berechnet näherungsweise: P (k1 ≤ X ≤ k2 ) ≈ P (k1 − 0.5 ≤ Y ≤ k2 + 0.5). Die zweite Wahrscheinlichkeit erhält man durch Standardisierung und mit Hilfe einer Tabelle für die Standardnormalverteilung. 3.3. BINOMIALVERTEILUNG UND BINOMIALTEST 143 3.3.3.2. Test auf Anteile bei großen Stichproben. Die Normalapproximation erlaubt vor allem eine näherungsweise Durchführung des Binomialtests auf Anteile von Populationen bei großen Stichproben: Methode 3.3.3.6 (Näherung des Binomialtests für große Stichproben). Statistischer Test auf den Anteil von “positiven” Merkmalsträgern in einer Gesamtheit. • Ein dichotomes Merkmal X sei in einer Gesamtheit mit den Ausprägungen “positiv” und “negativ” vertreten. • Hypothesen: H0 : Nullhypothese: Der Anteil der positiven Merkmalsträger in der Grundgesamtheit beträgt γ. H1 : Es gibt eine einseitige und eine zweiseitige Variante der Alternativhypothese: a) Der Anteil der positiven Merkmalsträger in der Grundgesamtheit ist größer als γ (einseitig). b) Der Anteil der positiven Merkmalsträger in der Grundgesamtheit ist ungleich γ (zweinseitig). α: Signifikanzniveau α. • Daten: Eine zufällige Stichprobe von n verschiedenen Merkmalsträgern. Darunter befinden sich k positive Merkmalsträger. Der Anteil der positiven Merkmalsträger in der Stichprobe beträgt γ̂ = k/n. • Bedingungen: nγ(1 − γ) ≥ 9. Die Entnahme der Stichprobe ändert nicht (wesentlich) den Anteil der positiven Merkmalsträger in der Gesamtheit. Der Test wird folgendermaßen durchgeführt: 1) Teststatistik γ̂ − γ Z=p . γ(1 − γ)/n 2) Kritische Werte aus der Tabelle der Quantile der Standardnormalverteilung: Für den einseitigen Test Zα , für den zweiseitigen Test Zα/2 . 3) a) Einseitiger Test: Wenn Z ≥ Zα , dann wird die Nullhypothese zurückgewiesen. b) Zweiseitiger Test: Wenn |Z| ≥ Zα/2 , dann wird die Nullhypothese zurückgewiesen. Beispiel 3.3.3.7. Auf eine unfangreiche Befragung von 10000 Personen im Alter über 30 Jahre gaben 40.2% an, schon einmal im Leben längere Zeit unter Schlafstörungen gelitten zu haben. Folgt mit einer Signifikanz von 0.05, dass mindestens 40% aller Personen im Alter über 30 im längere Zeit hindurch unter Schlafstörungen gelitten haben? Diskussion: Dies ist ein einseitiger Binomialtest. H0 : Der Anteil der Personen, die durch längere Zeit Schlafstörung hatten, in der Altersgruppe über 30 beträgt 0.4=40 H1 : Der Anteil der Personen, die durch längere Zeit Schlafstörung hatten, in der Altersgruppe über 30 beträgt mehr als 0.4. Der große Stichprobenumfang rechtfertigt mühelos die Normalapproximation: 10000 × 0.4 × 0.6 = 2400 ≥ 9. Berechnung der Teststatistik: 0.402 − 0.4 Z= p = 0.408. 0.4(1 − 0.4)/10000 144 3. STATISTISCHES SCHÄTZEN UND TESTEN Der kritische Wert der Standardnormalverteilung für α = 0.05 wird aus der Tabelle der Quantile der t-Verteilung, “Freiheitsgrad ∞”, entnommen: Z0.05 = 1.645. Da Z < Zα , wird die Nullhypothese nicht zurückgewiesen. Diese Daten untermauern nicht mit Signifikanz 0.05, dass mehr als 40% aller Menschen der betroffenen Altersklasse längere Zeit Schlafstörungen hatten. ¤ 3.3.3.3. Konfidenzintervall für Anteile bei großen Stichproben. Methode 3.3.3.8 (Konfidenzintervall für Anteile, große Stichproben). In einer Grundgesamtheit sei ein dichotomes Merkmal mit den Ausprägungen “positiv” und “negativ” vertreten. Eine Stichprobe von n zufällig ausgewählten Merkmalsträgern enthalte k positive Merkmalsträger. Der Anteil der positiven in der Stichprobe ist daher γ̂ = k/n. Es sei nγ̂(1 − γ̂) ≥ 9, und die Stichprobe sei so entnommen, dass durch die Entnahme der Anteil der positiven Merkmalsträger in der verbleibenden Gesamtheit nicht wesentlich verändert wird. Ein 1 − α-Konfidenzintervall für den Anteil der positiven Merkmalsträger in der Grundgesamtheit errechnet sich folgendermaßen: 1) Man entnimmt der Tabelle den kritischen Wert Zα/2 der Standardnormalverteilung. 2) Die halbe Breite des Konfidenzintervalls ist r γ̂(1 − γ̂) b = Zα/2 . n 3) Das Konfidenzintervall ist [γ̂ − b, γ̂ + b]. Beispiel 3.3.3.9. In einer Umfrage unter 400 StudentInnen stimmten 56 Personen für mehr Übungen aus Statistik. Ermitteln Sie ein 95%-Konfidenzintervall für den Anteil aller StudentInnen, welche sich für mehr Übungen aus Statistik aussprechen würden. Diskussion: Es ist γ̂ = 56/400 = 0.14. Dürfen wir die Normalapproximation einsetzen? Es ist 400 × 0.14 × 0.86 = 48.16 ≥ 9, also dürfen wir hier mit Normalverteilung arbeiten. Der kritische Wert der Standardnormalverteilung für α/2 = 0.025 ist Z0.025 = 1.96. Damit errechnet sich die halbe Breite des Konfidenzintervalles r 0.14 × 0.86 b = 1.96 ≈ 0.034. 400 Das Konfidenzintervall ist daher [0.106, 0.174]. Zwischen 10% und 18% liegt der Anteil der Studierenden, die gerne mehr Übungen aus Statistik hätten. ¤ Was Sie jetzt können: Wissen und Begriffe: Erwartungswert und Standardabweichung der Binomialverteilung, Approximation der Binomialverteilung durch Normalverteilung. Methoden: Test und Konfidenzintervall für Anteile positiver Merkmalsträger bei großen Stichproben. 3.4. PARAMETERFREIE METHODEN 145 3.4. Parameterfreie Methoden Übersicht: 1. Anpassungstests 2. χ2 -Tests für nominale Daten 3. Tests für ordinale Daten 3.4.1. Anpassungstests. Übersicht: 1) Kolmogorov-Smirnov-Test 2) Grafische Methoden 3.4.1.1. Kolmogorov-Smirnov-Test. Merksatz 3.4.1.1. Anpassungstests dienen dazu, zu entscheiden, ob einer Stichprobe eine bestimmte Wahrscheinlichkeitsverteilung zugrundeliegt. Viele statistische Verfahren setzen zum Beispiel normalverteilte Zufallsvariablen voraus. Mit Anpassungstests kann man testen, ob eine Zufallsvariable, deren Realisierungen aus einer Stichprobe bekannt sind, normalverteilt ist. Methode 3.4.1.2 (Kolmogorov-Smirnov-Anpassungstest). • Statistischer Test, ob Zufallsvariable X (bzw. ein metrisches Merkmal) nach einer gegebenen Wahrscheinlichkeitsverteilung verteilt ist. Dabei sei Φ die Verteilungsfunktion der gegebenen Verteilung. • Hypothesen und Signifikanz: H0 : Nullhypothese: Die Verteilungsfunktion von X ist die vorgegebene Funktion Φ. H1 : Alternativhypothese: Die Verteilungsfunktion von X ist nicht gleich Φ (zweiseitig). α: Signifikanzniveau: α. • Datenmaterial: n unabhängige Realisierungen von X, daraus errechnet die relativen kumulativen Häufigkeiten. • Bedingung: Die Verteilungsfunktion Φ wurde nicht auf Grund der getesteten Daten gewählt. Es wurden auch keine Parameter von Φ aus den getesteten Daten geschätzt. Der Test wird folgendermaßen durchgeführt: 1) Tragen Sie in einem Diagramm waagrecht x, senkrecht sowohl die Verteilungsfunktion Φ als auch die relativen Häufigkeiten FProbe auf. (Die relativen Häufigkeiten ergeben eine steigende Treppe.) 2) Teststatistik (Kolmogorov-Smirnov-Statistik): K ist der größte senkrechten Abstand (aufwärts oder abwärts) zwischen den Kurven Φ und FProbe . 3) Aus der Tabelle der kritischen Werte für den Kolmogorov-Smirnov-Test entnehmen Sie den Wert Kα für die gewünschte Signifikanz α. 4) Falls |K| ≥ Kα , wird die Nullhypothese zurückgewiesen. 146 3. STATISTISCHES SCHÄTZEN UND TESTEN Die folgende Grafik zeigt, wie man im Diagramm der Verteilungsfunktionen die KolmogorovSmirnov-Statistik findet: 1 größter Abstand: Kolmogorov−Smirnov− Statistik 0.5 blau: kumulative relative Häufigkeiten rot: Verteilungsfunktion 0 Kolmogorov-Smirnov-Statistik Quantile der Kolmogorov-Smirnov-Statistik α ist die Wahrscheinlichkeit, dass die KS-Statistik oberhalb des Tabellenwertes liegt. n α 1 2 3 4 5 0.2 0.90 0.68 0.56 0.49 0.45 0.1 0.95 0.78 0.64 0.56 0.51 0.05 0.98 0.84 0.71 0.62 0.56 0.01 0.99 0.93 0.83 0.73 0.67 6 7 8 9 10 0.41 0.38 0.36 0.34 0.32 0.47 0.44 0.41 0.39 0.37 0.52 0.49 0.46 0.43 0.41 0.62 0.58 0.54 0.51 0.49 11 12 13 14 15 0.31 0.30 0.28 0.27 0.27 0.35 0.34 0.32 0.31 0.30 0.39 0.38 0.36 0.35 0.34 0.47 0.45 0.43 0.42 0.40 16 17 18 19 20 0.26 0.25 0.24 0.24 0.23 0.30 0.29 0.28 0.27 0.26 0.33 0.32 0.31 0.30 0.29 0.39 0.38 0.37 0.36 0.35 25 30 35 40 45 0.21 0.19 0.18 0.17 0.16 0.24 0.22 0.21 0.19 0.18 0.26 0.24 0.23 0.21 0.20 0.32 0.29 0.27 0.25 0.24 groß 1.07 √ n 1.22 √ n 1.36 √ n 1.63 √ n Tipp 3.4.1.3. Der Kolmogorov-Smirnov-Test wird bei großen Stichproben (n ≥ 500) sehr leicht signifikant: Zum Beispiel werden Zufallsvariablen, die nicht exakt 3.4. PARAMETERFREIE METHODEN 147 normalverteilt sind, durch den KS-Test dann erkannt. Oft braucht man aber nicht, dass eine Zufallsvariable exakt einer Verteilung Φ folgt, sondern nur, dass sie näherungsweise vergleichbare Eigenschaften wie Φ hat. Beispiel 3.4.1.4. Entstammen die folgenden Daten von Realisierungen einer Zufallsvariablen, die über das Intervall [0, 1] gleichverteilt ist? (D.h., deren Dichtefunktion auf [0, 1] konstant 1, und außerhalb dieses Intervalles Null ist.) Signifikanznivau: 0.05. Daten: Stichprobe von 10 Realisierungen mit den Werten Realisierung Nr. Wert 1 0.05 2 0.08 3 0.18 4 0.25 5 6 0.47 0.64 7 0.64 8 0.85 9 0.86 10 0.94 Diskussion: Die kumulativen relativen Häufigkeiten springen an den einzelnen Datenpunkten um je ein Zehntel aufwärts. (Beachten Sie den doppelten Sprung an der Stelle 0.64). Die Verteilungsfunktion der Gleichverteilung wächst im Intervall [0, 1] linear von 0 auf 1. Damit ergibt sich das folgende Bild: 1 Verteilungs− funktion: rot 0.9 0.8 größte Abweichung nach unten: 0.14 0.7 0.6 0.5 0.4 kumulative relative Häufigkeiten: blau 0.3 0.2 größte Abweichung nach oben: 0.15 KS−Statistik 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Verteilungsfunktion und kumulative relative Häufigkeiten zu Beispiel 3.4.1.4 Die maximale Abweichung der beiden Kurven finden wir bei 0.25 mit dem Wert 0.15. Vergleichen wir mit dem kritischen Wert für n = 10 und α = 0.05: Kα = 0.41 so erhalten wir K = 0.15 < 0.41 = Kα . Daher wird die Nullhypothese nicht zurückgewiesen. Es kann nicht mit Signifikanzniveau 0.05 geschlossen werden, dass diese Daten von einer anderen als einer gleichverteilten Zufallsvariablen stammen. ¤ Um eine Zufallsvariable auf Normalverteilung N (µ, σ) zu testen, werden normalerweise die Parameter µ und σ geschätzt, und erst anschließend ein Anpassungstest durchgeführt. Der KolmogorovSmirnov-Test erlaubt nicht das vorherige Schätzen von Parametern. Dieses Problem wurde durch die sogenannte Lillefors-Korrektur des Kolmogorov-Smirnov-Tests zur Testung auf Normalverteilung gelöst. Methode 3.4.1.5 (Lillefors-Korrektur des Kolmogorov-Smirnov-Tests). • Statistischer Test, ob eine Zufallsvariable X normalverteilt ist. • Hypothesen: 148 3. STATISTISCHES SCHÄTZEN UND TESTEN H0 : Nullhypothese: X ist normalverteilt. H1 : Alternativhypothese: X ist nicht normalverteilt. α: Signifikanzniveau: α. • Datenmaterial: n unabhängige Realisierungen x1 , · · · , xn von X. Der Test wird folgendermaßen durchgeführt: 1) Aus den Daten x1 · · · xn werden Mittelwert x und Standardabweichung sx nach den üblichen Formeln geschätzt. 2) Die Daten werden mit den geschätzten Parametern standardisiert Z = X−x sx : xi − x zi = . sx 3) Es werden die Verteilungsfunktion der Standardnormalverteilung und die beobachteten kumulativen relativen Häufigkeiten von Z auf Grund der standardisierten Daten z1 , · · · , zn aufgetragen wie im Kolmogorov-SmirnovTest, und die Kolmogorov-Smirnov-Statistik K ermittelt. 4) Aus einer Tabelle für die Lillefors-Korrektur des K.S.-Tests entnimmt man den kritischen Wert Kα für das gegebene Signifikanzniveau α und den Stichprobenumfang n. 5) Ist K ≥ Kα , so wird die Nullhypothese zurückgewiesen. Tabellen zur Lillefors-Korrektur findet man allerdings gar nicht so leicht in der Lehrbuchliteratur, weshalb hier eine solche abgedruckt werden soll. Die folgende Tabelle stammt aus dem sehr nützlichen Nachschlagewerk H. Rinner, Taschenbuch der Statistik, 3. Aufl., Verlag Harri Deutsch, 2003. Quantile der Kolmogorov-Smirnov-Lillefors-Statistik α ist die Wahrscheinlichkeit, dass die KS-Statistik beim K.S.-Lillefors-Test mit einer normalverteilten Zufallsvariablen oberhalb des Tabellenwertes liegt. n α 4 5 0.2 0.300 0.285 0.1 0.352 0.315 0.05 0.381 0.337 0.01 0.417 0.405 6 7 8 9 10 0.265 0.247 0.233 0.223 0.215 0.294 0.276 0.261 0.249 0.239 0.319 0.300 0.285 0.271 0.258 0.364 0.348 0.331 0.311 0.294 11 12 13 14 15 0.206 0.199 0.190 0.183 0.177 0.230 0.223 0.214 0.207 0.201 0.249 0.242 0.234 0.227 0.220 0.284 0.275 0.268 0.261 0.257 16 17 18 19 20 0.173 0.169 0.166 0.163 0.160 0.195 0.189 0.184 0.179 0.174 0.213 0.206 0.200 0.195 0.190 0.250 0.245 0.239 0.235 0.231 25 30 0.142 0.131 0.158 0.144 0.173 0.161 0.200 0.187 groß 0.736 √ n 0.805 √ n 0.886 √ n 1.031 √ n 3.4. PARAMETERFREIE METHODEN 149 Bemerkung 3.4.1.6. Sei X eine Zufallsvariable. Es gibt mehrere Tests, welche mit Hilfe von Schiefe und Kurtosis die folgenden Hypothesen testen: H0 : X ist normalverteilt. H1 : X ist nicht normalverteilt. Diskussion: Bekanntlich hat eine normalverteilte Zufallsvariable die Schiefe Null und die Kurtosis 3. Wenn die Stichprobe als Schätzwerte deutlich andere Schiefe und Kurtosis ergibt, wird die Alternativhypothese unterstützt, dass die zugrundeliegende Zufallsvariable nicht normalverteilt ist. ¤ 3.4.1.2. Grafische Methoden. Wir zeigen noch zwei bequeme grafische Methoden, eine Menge von Daten mit einer vorgegebenen Verteilung zu vergleichen. Eine grafische Sichtung von Daten vor der Anwendung statistischer Verfahren ist in jedem Fall unbedingt zu empfehlen. Das folgende Beispiel dient als Vorbereitung zum Verständnis der grafischen Verfahren, die wir anschließend einführen werden: Beispiel 3.4.1.7. Die folgende Grafik zeigt die Verteilungskurve einer Zufallsvariablen X. Eingezeichnet sind auch und die Quantile für 81 , 28 usw., die drei Quartile sind dabei deutlich hervorgehoben. Vier unabhängige Realisierungen von X werden erhoben und anschließend der Größe nach geordnet: x1 ≤ x2 ≤ x3 ≤ x4 . Wo würde man auf Grund der Verteilungskurve ungefähr die 4 Werte xi erwarten? erstes Viertel zweites Viertel drittes Viertel viertes Viertel Diskussion: Das erste Viertel der Daten fällt in den Bereich vor dem ersten Quartil. Daher erwarten wir, zumindest heuristisch, den untersten der vier Werte, also x1 , in diesem Bereich, etwa in der Nähe des 18 -Quantils. Der nächste Wert wird voraussichtlich in den Bereich zwischen dem ersten und zweiten Quartil fallen, wir erwarten ihn etwa in der Nähe des 83 -Quantils. Der nächstfolgende Wert wird voraussichtlich in der Nähe des 58 -Quantils liegen, der Wert x4 in der Nähe des 78 -Quantils. Das ist natürlich nur Heuristik. Wenn der Zufall es will, könnten auch alle vier Realisierungen zum Beispiel weit unter das erste Quartil fallen, doch werden solche Fälle nicht oft auftreten. ¤ Methode 3.4.1.8 (P-P-Diagramm). Gegeben sei eine Stichprobe von n unabhängigen Realisierungen x1 , · · · , xn einer Zufallsvariablen X. An Hand einer Grafik soll beurteilt werden, ob die Verteilungsfunktion von X einer vorgegebenen Verteilungsfunktion Φ entspricht. 150 3. STATISTISCHES SCHÄTZEN UND TESTEN 1) Die Realisierungen werden der Größe nach geordnet: x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn . 2) Wir zeichnen ein Achsenkreuz x ∈ [0, 1], y ∈ [0, 1]. 3) Wir tragen n Datenpunkte auf, und zwar – waagrecht: Die Zahlen n − 0.5 0.5 1.5 2.5 , , ,··· , n n n n – senkrecht: Die Werte Φ(x1 ), Φ(x2 ), · · · , Φ(xn ) (Damit sind für jede Realisierung xi waagrecht die beobachtete kumulative Häufigkeit und senkrecht die nach der Verteilungsfunktion Φ erwartete kumulative Häufigkeit aufgezeichnet.) 4) Die Daten entsprechen gut der vorgegebenen Verteilungsfunktion, wenn sie nahe an der Diagonalen x = y liegen. 1 -Quantils liegt, x2 vorDiskussion: Wir erwarten, dass der unterste Wert x1 in der Nähe des 2n 3 aussichtlich in der Nähe des 2n -Quantils, und so weiter. Wenn das wirklich so ist, sind für die Zufallsvariable X also die Wahrscheinlichkeiten P (X ≤ x1 ) ≈ 1 , n P (X ≤ x2 ) ≈ 3 , n ··· Ist, zum Vergleich, eine Zufallsvariable Y nach der Verteilungsfunktion Φ verteilt, so ist die Wahrscheinlichkeit P (Y ≤ xi ) = Φ(xi ). Wir tragen nun waagrecht die (vermuteten) Wahrscheinlichkeiten P (X ≤ xi ) und senkrecht die Wahrscheinlichkeiten P (Y ≤ xi ) auf. Wenn wirklich X so wie Y nach der Verteilungsfunktion Φ verteilt ist, müssten diese Wahrscheinlichkeiten für X und Y dieselben sein, und die aufgetragenen Punkte auf der Diagonalen liegen. ¤ Beispiel 3.4.1.9. Sind die folgenden Daten annähernd standardnormalverteilt? Zeichnen Sie ein P-P-Diagramm: Realisierung Nummer: xi 1 -1.5 2 -1.0 3 -0.5 4 -0.3 5 -0.2 6 0.1 7 0.2 8 0.8 9 1.2 10 1.8 Diskussion: Der Stichprobenumfang ist n = 10. Wir verwenden zunächst die Tabelle der Verteilungsfunktion der Standardnormalverteilung: Nummer i 1 2 3 4 5 6 7 8 9 10 waagrecht i−0.5 10 0.05 0.15 0.25 0.35 0.45 0.55 0.65 0.75 0.85 0.95 Wir fertigen jetzt die Zeichnung an: Realisierung xi -1.5 -1.0 -0.5 -0.3 -0.2 0.1 0.2 0.8 1.2 1.8 senkrecht F (xi ) 0.0668 0.1587 0.3085 0.3821 0.4207 0.5398 0.5793 0.7881 0.8849 0.9641 3.4. PARAMETERFREIE METHODEN 151 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 P-P-Diagramm zu Beispiel 3.4.1.9 Die Daten liegen einigermaßen genau auf der Diagonalen, daher passen sie gut zu einer standardnormalverteilten Zufallsvariablen. ¤ Methode 3.4.1.10 (Q-Q-Diagramm). Gegeben sei eine Stichprobe von n unabhängigen Realisierungen x1 , · · · , xn einer Zufallsvariablen X. An Hand einer Grafik soll beurteilt werden, ob die Verteilungsfunktion von X einer vorgegebenen Verteilungsfunktion Φ entspricht. 1) Die Realisierungen werden der Größe nach geordnet: x1 ≤ x2 ≤ x3 ≤ · · · ≤ xn . 2) Wir zeichnen ein Achsenkreuz. Auf der x-Achse müssen die Realisierungen xi Platz finden. Auf der y-Achse muss der Bereich Platz finden, auf den eine nach Φ verteilte Zufallsvariable mit großer Wahrscheinlichkeit (nämlich 1 − n1 ) fällt. 3) Wir tragen n Datenpunkte auf, und zwar – waagrecht: Die Werte x1 , x2 , · · · , xn – senkrecht: Die γ-Quantile einer nach Verteilungsfunktion Φ verteilten Zufallsvariable für 0.5 1.5 n − 0.5 , ,··· , . n n n Es stehen also waagrecht die beobachteten γ-Quantile, senkrecht die nach Φ erwarteten theoretischen γ-Quantile. 4) Die Daten entsprechen der vorgegebenen Verteilungsfunktion Φ gut, wenn die gezeichneten Punkte näherungsweise auf der Diagonalen x = y liegen. γ= Diskussion: Wieder nehmen wir an, dass die 2i−1 -Quantile von X voraussichtlich nahe bei xi n liegen, und vergleichen mit einer Zufallsvariable Y , welche nach der Verteilungsfunktion Φ verteilt -Quantile von X und senkrecht die entsprechenden ist. Diesmal tragen wir aber waagrecht die 2i−1 n Quantile von Y auf. Wenn X und Y dieselbe Verteilungsfunktion Φ haben, müssen die Quantile für X und Y dieselben sein, und die aufgetragenen Punkte liegen auf der Diagonalen. ¤ 152 3. STATISTISCHES SCHÄTZEN UND TESTEN Merksatz 3.4.1.11. Zur Beurteilung, ob eine Zufallsgröße normalverteilt ist, eignet sich das Q-Q-Diagramm besonders gut. Man muss nämlich gar nicht zuvor die Parameter der Normalverteilung schätzen: Wenn man ein Q-Q-Diagramm einer Stichprobe gegen eine Standardnormalverteilung zeichnet, so ergibt sich annähernd eine Gerade, wenn der Stichprobe eine Normalverteilung N (µ, σ) zugrundeliegt. Dabei ist 1/σ die Steigung der Geraden, und µ der Achsenabschnitt auf der waagrechten Achse. Beispiel 3.4.1.12. Sind die folgenden Daten annähernd normalverteilt? Zeichnen Sie ein Q-Q-Diagramm: Realisierung Nummer: 1 2 3 4 5 6 7 8 9 10 xi 2 10 12 15 20 20 23 30 36 42 Diskussion: Der Stichprobenumfang ist n = 10. Wir erstellen zunächst die Tabelle der aufzutragenden Werte. Wir benötigen diesmal mehr Quantile der Standardnormalverteilung, als wir in der kurzen Tabelle der Quantile der t-Verteilung finden. Wir ermitteln die Quantile etwas mühsam durch “Rückwärts-Ablesen” der Tabelle der Verteilungsfunktion. Nummer i 1 2 3 4 5 6 7 8 9 10 waagrecht xi 2 10 12 15 20 20 23 30 36 42 γ 0.05 0.15 0.25 0.35 0.45 0.55 0.65 0.75 0.85 0.95 senkrecht γ-Quantil -1.64 -1.04 -0.67 -0.38 -0.12 0.12 0.38 0.67 1.04 1.64 Wir fertigen jetzt die Zeichnung an: 2.5 2 1.5 Quantile 1 senkrecht 1 Einheit 0.5 0 waagrecht ca 12 Einheiten −0.5 Mittelwert ca 22 −1 −1.5 −2 0 5 10 15 20 25 x 30 35 40 45 50 Q-Q-Diagramm zu Beispiel 3.4.1.12 Die Punkte liegen annähernd auf einer Geraden durch den Punkt x = 22, y = 0 mit Steigung 1/12. Daher passen die Daten gut zu einer Normalverteilung mit Mittelwert 22 und Standardabweichung 12. ¤ 3.4. PARAMETERFREIE METHODEN 153 Was Sie jetzt können: Begriffe und Wissen: Anpassungstests Methoden Kolmogorov-Smirnov-Test, PP-Diagramm, QQDiagramm, Ablesen der Parameter einer Normalverteilung aus einem QQ-Diagramm. 3.4.2. χ2 -Tests für nominale Daten. Übersicht: 1. Anpassungstest für nominale Daten 2. Unabhängigkeit nominaler Daten 3.4.2.1. Anpassungstest für nominale Daten. Die folgende Methode dient dazu, die Häufigkeitsverteilung der Ausprägungen eines nominalen Merkmales mit einer vorgegebenen Wahrscheinlichkeitsverteilung zu vergleichen: Methode 3.4.2.1 (χ2 -Anpassungstest für nominale Daten). • Test, ob ein nominales Merkmal mit endlich vielen Ausprägungen x1 , · · · , xk einer bestimmten Wahrscheinlichkeitsverteilung folgt. • Hypothesen: H0 : Die Wahrscheinlichkeiten für das Auftreten der Ausprägungen x1 , · · · , xk sind p1 , · · · , pk . H1 : Mindestens eine der Ausprägungen xi tritt mit einer anderen Wahrscheinlichkeit als pi auf. α: Signifikanz α. • Datenmaterial: Eine Stichprobe von n unabhängigen Realisierungen des Merkmals, mit beobachteten absoluten Häufigkeiten b1 , · · · , bk der einzelnen Ausprägungen. • Bedingungen: Ausreichend große Stichprobe: npi ≥ 1 für alle i. (Und Pk Pk natürlich muss gelten: i=1 pi = 1, n = i=1 bi .) Der Test wird folgendermaßen durchgeführt: 1) Man berechnet die erwarteten absoluten Häufigkeiten der einzelnen Ausprägungen nach der Formel ei = npi . 2) Teststatistik χ2 = k X (bi − ei )2 i=1 ei = k X b2 i i=1 ei − n. 3) Anzahl der Freiheitsgrade: k − 1. 4) Aus der Tabelle der Quantile der χ2 -Verteilung mit k − 1 Freiheitsgraden entnimmt man den kritischen Wert χ2α , sodass eine χ2 -verteilte Zufallsvariable mit Wahrscheinlichkeit α einen größeren Wert als χ2α annimmt. 5) Falls χ2 ≥ χ2α , wird die Nullhypothese zurückgewiesen. 154 3. STATISTISCHES SCHÄTZEN UND TESTEN Diskussion: Klar, dass χ2 umso größer ausfällt, je mehr die beobachteten Häufigkeiten von den erwarteten Häufigkeiten abweichen. Das Verfahren ist eine Näherungsmethode: Für ausreichend große Stichproben ist die Teststatistik χ2 annähernd χ2 -verteilt. Es gibt nur k − 1 unabhängige P Zahlen (bi − ei ), denn die Summe ki=1 (bi − ei ) = n − n = 0. Entsprechend verwenden wir eine χ2 -Verteilung mit k − 1 Freiheitsgraden. ¤ Beispiel 3.4.2.2. Bei einer Pflanzenart sei ein Gen in einer dominanten (A) und einer rezessiven (a) Form vertreten. Gemischterbige Pflanzen (Aa) haben die äußere Erscheinungsform (Phänotyp) A. Wenn nur gemischterbige Pflanzen miteinander gekreuzt werden, treten die Genotypen mit folgenden Wahrscheinlichkeiten auf: Genotyp AA Aa Wahrscheinlichkeit 0.25 0.5 aa 0.25 Eine Stichprobe von 20 Pflanzen wurde genetisch untersucht und ergab folgende Genotypen: Genotyp Anzahl Pflanzen AA Aa aa 8 8 4 gesamt 20 Kann aus diesen Daten mit Signifikanzniveau 0.05 geschlossen werden, dass die Wahrscheinlichkeitsverteilung der Genotypen in der Population, aus der die Stichprobe entstammt, nicht dem Gesetz 14 — 12 — 41 folgt (und daher die Pflanzen nicht die erste Generation nach einer durchwegs gemischterbigen Generation sind)? Diskussion: Wir testen: H0 : Die relativen Häufigkeiten der einzelnen Genotypen in der Grundgesamtheit sind je 0.25 für die beiden reinerbigen, und 0.5 für den gemischterbigen Genotypen. H1 : Mindestens einer der 3 Genotypen hat eine andere relative Häufigkeit. Wir fassen unsere Nebenrechnungen in der folgenden Tabelle zusammen: Beispielsweise ergibt sich die erwartete absolute Häufigkeit des Genotyps AA durch ei = n · pi = 20 × 0.25 = 5. Genotyp AA Aa aa Summe −n χ2 theoretische beobachtete erwartete Wahrscheinlichkeit pi 0.25 0.50 0.25 Häufigkeit bi 8 8 4 20 Häufigkeit ei 5 10 5 20 b2 i ei 12.8 6.4 3.2 22.4 -20.000 2.4 Da es 3 verschiedene Ausprägungen gibt, hat χ2 zwei Freiheitsgrade. Aus der Tabelle der Quantile der χ2 -Verteilung entnehmen wir für α = 0.05 den kritischen Wert χ2α = 5.991. Damit ist χ2 = 2.4 < 5.991 = χ2α , und die Nullhypothese kann nicht zurückgewiesen werden. Es ist durchaus denkbar, dass die Stichprobe aus einer Generation nach einer durchwegs gemischterbigen Pflanzenmenge entstammt. ¤ Tipp 3.4.2.3. Die Bedingung, dass jede Ausprägung mindestens die erwartete Häufigkeit ei ≥ 1 haben soll, läßt sich gelegentlich erreichen, indem man mehrere seltene Ausprägungen zu einer Klasse zusammenfasst. 3.4. PARAMETERFREIE METHODEN 155 Methode 3.4.2.4 (Anpassungstest mit geschätzten Parametern). Der Test aus Methode 3.4.2.1 ist natürlich nur fair, wenn zur Auswahl der theoretischen Verteilung p1 , · · · , pk nicht die getesteten Daten herangezogen wurden. Es gibt aber folgende Modifikation: Wird das Datenmaterial mit einer Familie von Verteilungen mit m verschiedenen Parametern verglichen, indem zunächst die m Parameter aus den Daten geschätzt wurden, und dann für die somit festgelegte Verteilung der Anpassungstest durchgeführt wird, so sind an Stelle von k − 1 nur k − m − 1 Freiheitsgrade zu wählen. Es muss aber mindestens ein Freiheitsgrad übrig sein: k − m − 1 > 0. 3.4.2.2. Unabhängigkeit nominaler Daten. Wir greifen auf Unterabschnitt 1.2.5 zurück und erinnern uns: Seien x1 , · · · , xk die Ausprägungen eines nominalen Merkmals X mit den Wahrscheinlichkeiten p1 , · · · , pk , und sind y1 , · · · , yk die Ausprägungen eines nominalen Merkmals Y mit den Wahrscheinlichkeiten q1 , · · · , qm . Die beiden Merkmale sind dann unabhängig, wenn die Tabelle der relativen Häufigkeiten der verschiedenen Kombinationen von X und Y folgendermaßen aussieht: x1 x2 . .. xk gesamt y1 p1 q1 p2 q1 . .. pk q1 q1 y2 p1 q2 p2 q2 . .. pk q2 q2 ··· ··· ··· ··· ··· ym p1 qm p2 qm . .. pk qm qm gesamt p1 p2 . .. pk 1 Als Maßzahl für die Unabhängigkeit haben wir in Definition 1.2.5.10 die Zahl χ2 (und ausserdem den Kontingenzkoeffizienten und den korrigierten Kontingenzkoeffizienten) eingeführt. Mittels χ2 können wir die Unabhängigkeit zweier Merkmale testen: Methode 3.4.2.5 (χ2 -Test auf Unabhängigkeit nominaler Merkmale). • Statistischer Test, ob zwei nominale Merkmale mit je endlich vielen Ausprägungen x1 , · · · , xk bzw. y1 , · · · , ym statistisch abhängig sind. • Hypothesen: H0 : Die Stichprobe entstammt einer Grundgesamtheit, in der die Merkmale unabhängig sind. H1 : Die Merkmale sind abhängig. α: Signifikanzniveau α. • Datenmaterial: Eine Stichprobe von n zufällig gewählten Merkmalsträgern. Daraus erhoben: bij =beobachtete absolute Häufigkeit der Merkmalskombination (xi , yj ). • Bedingungen: Alle erwarteten Häufigkeiten eij (siehe unten) sind größer oder gleich 1. Gegebenenfalls sind mehrere seltenere Ausprägungen zu einer Klasse zusammenzufassen, um diese Bedingung zu erfüllen. Der Test wird folgendermaßen durchgeführt: 1) Die beobachteten absoluten Häufigkeiten werden in eine Tabelle zusammengefaßt, jede Zeile entspricht einer Ausprägung xi , jede Spalte entspricht einer Ausprägung yj . 2) Die Zeilensummen z1 , · · · , zk sind die beobachteten absoluten Häufigkeiten der Ausprägungen von X, die Spaltensummen s1 , · · · , sm sind die beobachteten absoluten Häufigkeiten der Ausprägungen von Y : zi = m X j=1 bij , sj = k X i=1 bij . 156 3. STATISTISCHES SCHÄTZEN UND TESTEN 3) Der Stichprobenumfang n ist n= k X zi = i=1 m X sj . j=1 4) Die erwarteten Häufigkeiten sind zi sj eij = . n 5) Teststatistik: χ2 = k X k X m m X X b2ij (bij − eij )2 = − n. eij e i=1 j=1 ij i=1 j=1 6) Die Anzahl der Freiheitsgrade ist ν = (k − 1)(m − 1). 7) Aus der Tabelle der Quantile der χ2 -Verteilung mit ν Freiheitsgraden entnimmt man den kritischen Wert χ2α , sodass eine χ2 -verteilte Zufallsvariable mit Wahrscheinlichkeit α einen größeren Wert als χ2α annimmt. 8) Falls χ2 ≥ χ2α , wird die Nullhypothese zurückgewiesen. Diskussion: Die erwarteten Häufigkeiten ergeben sich aus den beobachteten Gesamthäufigkeiten z1 , · · · , zk und s1 , · · · , sm , wenn die Merkmale tatsächlich unabhängig sind. Klar, dass χ2 umso größer wird, je weiter die beobachteten Häufigkeiten bij von den erwarteten Häufigkeiten eij abweichen. Damit ist χ2 ein Mass für die Abhängigkeit zwischen den beiden Merkmalen. ¤ Beispiel 3.4.2.6. Die Hauskatzenpopulation in zwei griechischen Dörfern besteht aus einfarbigen, getigerten und gefleckten Katzen. Ist die Zeichnung der Hauskatzen in den beiden Dörfern verschieden? Aus jedem Dorf wurde eine Stichprobe von 50 Katzen erfasst, dabei fanden sich Zeichnung einfarbig getigert gefleckt gesamt Herkunft Dorf A Dorf B gesamt 16 24 40 20 16 36 14 10 24 50 50 100 Kann aus diesen Daten mit Signifikanzniveau 0.05 geschlossen werden, dass die Zeichnung der Hauskatzen in beiden Dörfern verschieden verteilt ist, also ein statistischer Zusammenhang zwischen der Herkunft einer Katzen und ihrer Fellzeichnung besteht? Diskussion: Die beobachteten Häufigkeiten sind bij Dorf A Dorf B gesamt einfarbig 16 24 40 getigert 20 16 36 gefleckt 14 10 24 gesamt 50 50 100 Wir bestimmen die Tabelle der erwarteten Häufigkeiten. Beispielsweise ist 50 × 36 e12 = = 18. 100 eij Dorf A Dorf B gesamt einfarbig 20 20 40 getigert 18 18 36 gefleckt 12 12 24 gesamt 50 50 100 Als nächstes erstellen wir die Tabelle der Beiträge zu χ2 und errechnen χ2 : 3.4. PARAMETERFREIE METHODEN b2ij /eij Dorf A Dorf B gesamt −n χ2 einfarbig 12.8 28.8 41.6 getigert 22.2 14.2 36.4 gefleckt 16.3 8.3 24.7 157 gesamt 51.4 51.4 102.7 -100.0 2.7 Wir haben (3 − 1) × (2 − 1) = 2 Freiheitsgrade. Der kritische Wert der χ2 -Verteilung für 2 Freiheitsgrade und α = 0.05 ist χ2α = 5.991. Es ist also χ2 = 2.7 < 5.991 = χ2α . Daher wird die Nullhypothese nicht zurückgewiesen. Aus diesen Daten ergibt sich kein signifikanter Zusammenhang zwischen Heimatdorf und Fellzeichnung. ¤ Was Sie jetzt können: Methoden: χ2 -Anpassungstest für nominale Daten. χ2 -Unabhängigkeitstest für nominale Daten. 3.4.3. Tests für ordinale Daten. Übersicht: 1. Vorzeichentest auf den Median ordinaler Daten 2. Rangsummenstests für ordinale Daten 3.4.3.1. Vorzeichentest auf den Median ordinaler Daten. Methode 3.4.3.1 (Vorzeichentest). • Statistischer Test, ob der Median eines ordinalen Merkmals X exakt auf einem vorgegebenen Wert m liegt. • Hypothesen: H0 : Nullhypothese: Der Median von X ist exakt m. H1 : Es gibt zwei einseitige und eine zweiseitige Form der Alternativhypothese: (a) Der Median von X ist größer als m (einseitig). (b) Der Median von X ist kleiner als m (einseitig). (c) Der Median von X ist ungleich m (zweiseitig). α: Signifikanzniveau: α. • Datenmaterial: Eine Stichprobe von N unabhängigen Realisierungen x1 · · · xN des Merkmals X. • Bedingungen: X ist mindestens ordinalskaliert. Der Test wird folgendermaßen durchgeführt: 1) Wir zählen k+ = Anzahl der Realisierungen xi aus der Stichprobe mit xi > m k− = Anzahl der Realisierungen xi aus der Stichprobe mit xi < m n = k+ + k− (Realisierungen mit xi = m werden in diesem Test nicht weiter berücksichtigt.) 158 3. STATISTISCHES SCHÄTZEN UND TESTEN 2) Der p-Wert des Tests ergibt sich aus einer B(n, 0.5)-Binomialverteilung: (a) (H1 : Median von X ist größer als m:) p = kumulative Häufigkeit der B(n, 0.5)-Binomialverteilung für k = k− . (b) (H1 : Median von X ist kleiner als m:) p = kumulative Häufigkeit der B(n, 0.5)-Binomialverteilung für k = k+ . (c) (H1 : Median von X ist ungleich m:) Sei k der kleinere Wert von k+ , k− . Dann ist p/2 die kumulative Häufigkeit der B(n, 0.5)-Binomialverteilung für k. Diskussion: Wenn der Median von X bei m liegt, ist für Realisierungen 6= m die Wahrscheinlichkeit, dass eine Realisierung über m liegt, exakt 1/2. Damit ist die Anzahl der Realisierungen über m in einer Stichprobe von n unabhängigen Realisierungen binomialverteilt nach B(n, 1/2). Der Vorzeichentest ist somit einfach ein Binomialtest auf den Anteil der positiven Differenzen. ¤ Das folgende Beispiel zeigt, dass sich der Vorzeichentest, ähnlich wie der t-Test, auch zum Vergleich von zwei verbundenen Stichproben eignet. Einen effektiveren Test dafür, den WilcoxonTest, lernen wir im nächsten Abschnitt kennen. Jedoch setzt dieser stetig verteilte Merkmale voraus. Beispiel 3.4.3.2. Wir führen für Beispiel 3.2.3.9 einen parameterfreien Test durch: Eine Übungsveranstaltung aus Statistik wird in zwei Parallelgruppen (A,B) abgehalten. Der Lehrende aus Gruppe A ist in Verruf geraten, Hausübungsbeispiele besonders streng zu bewerten. Um das zu überprüfen, haben sich einige Studierende beider Gruppen paarweise zusammengetan. Insgesamt 8 Paare aus je einem Studierenden der Gruppe A und der Gruppe B wurden gebildet. Jedes Paar macht die Hausübung gemeinsam, und gibt identische Exemplare in der Gruppe A und B ab. Die Bewertung in Punkten durch die beiden Lehrenden sieht man in der folgenden Tabelle: Paar 1 Bewertung A 5 Bewertung B 5 2 10 10 3 7 9 4 5 6 7 8 4 2 2 5 8 3 4 3 7 8 Läßt sich aus diesen Daten mit einem Signifikanzniveau von 0.1 schließen, dass der Lehrende A im Durchschnitt weniger Punkte gibt als der Lehrende B? Diskussion: Da die Vergabe von Noten voraussichtlich nicht normalverteilt ist, und die Stichprobe klein ist, hatten wir Bedenken gegen die in Beispiel 3.2.3.9 eingesetzte Methode des t-Tests zum Vergleich verbundener Stichproben. Werden die Punkte nur ganzzahlig vergeben, so sind die getesteten Zufallsvariablen (Benotung einer Arbeit durch A, Benotung einer Arbeit durch B) diskret, sodass auch gegen den Wilcoxon-Test 3.4.3.4 Einwände erhoben werden können. Wir können aber den Vorzeichentest auf die Differenz der Punktewertungen anwenden, und die Hypothesen testen: H0 : Der Median der Punktedifferenz zwischen A und B liegt bei Null. H1 : Der Median der Punktedifferenz zwischen A und B liegt unter Null. Durchführung des Tests: Paar Bewertung A Bewertung B Differenz A-B 1 5 5 0 2 10 10 0 3 7 9 -2 4 4 3 1 5 2 4 -2 6 2 3 -1 7 5 7 -2 8 8 8 0 3.4. PARAMETERFREIE METHODEN 159 Es bleiben 5 Differenzen übrig, die ungleich Null sind. Davon sind 4 kleiner als Null. Wir haben also: n=5 k+ = 1 k− = 4. Die kumulative Häufigkeit der B(5, 21 )-Binomialverteilung finden wir in einer Tabelle, sie läßt sich aber auch leicht ausrechnen: µ ¶ 5 · 0.50 · 0.55 = 0.55 = 0.03125 0 µ ¶ 5 P (k = 1) = · 0.51 · 0.54 = 5 · 0.55 = 0.15625 1 P (k = 0) = zusammengezählt: P (k ≤ 1) = 0.1875. Dies ist der p-Wert des Tests. Zum Vergleich ist α = 0.1 < 0.1875 = p. Daher läßt sich nicht mit Signifikanz von 0.1 schließen, dass der Lehrende A weniger Punkte vergibt als der Lehrende B. Im Vergleich zu Beispiel 3.2.3.9 sehen Sie, dass der Vorzeichentest weniger leicht signifikant wird als der t-Test. Der t-Test arbeitet mit starken zusätzlichen Voraussetzungen, nämlich dass die getesteten Zufallsvariablen normalverteilt sind. Mit stärkeren Annahmen lassen sich natürlich auch leichter Schlüsse ziehen. Die Ergebnisse der Berechnung widersprechen sich auch nicht: • Ergebnis des t-Tests: Wenn wir zusätzlich annehmen können, dass die Noten normalverteilt sind, kann aus den gegebenen Daten mit Signifikanz von 0.1 geschlossen werden, dass der Lehrende A im Durchschnitt weniger Punkte vergibt als der Lehrende B. • Ergebnis des Vorzeichentests: Wenn wir keine Annahmen über die Verteilung der Noten machen, können wir aus den gegebenen Daten nicht mit Signifikanz von 0.1 schließen, dass die Differenz der Punkte von A minus Punkte von B ihren Median unter Null hat. Das kann zwar durchaus wahr sein, nur kann es nicht aus unserer Stichprobe gefolgert werden. ¤ 3.4.3.2. Vergleichstests für ordinale Daten. Die Versionen des t-Tests zum Vergleich von metrischen Daten setzen voraus, dass entweder die Stichprobenumfänge groß sind, oder die einzelnen Zufallsvariablen zumindest annähernd normalverteilt sind. Wenn keine dieser beiden Bedingungen erfüllt ist, muss man eine Methode einsetzen, die nicht auf der Normalverteilung beruht. Wie bei den t-Tests gibt es auch hier verschiedene Methoden für unabhängige und verbundene Stichproben. Methode 3.4.3.3. Um die Mediane von ordinalen oder metrischen Merkmalen zu vergleichen, gibt es Methoden, welche auf Rangsummen beruhen und nicht die Normalverteilung einsetzen: 1.) Bei verbundenen (gepaarten) Stichproben den Wilcoxon-Test für verbundene Stichproben. 2.) Bei zwei unabhängigen Stichproben den Mann-Whitney U-Test oder den Wilcoxon-Test für unabhängige Stichproben. (Obwohl diese beiden Tests mit verschiedenen Formeln arbeiten, liefern sie letztlich denselben p-Wert.) 3.) Um festzustellen, ob bei mehreren ordinalen Merkmalen mindestens eines in der Lage von den anderen abweicht, gibt es den Kruskal-Wallis Test. 160 3. STATISTISCHES SCHÄTZEN UND TESTEN Um Ihnen eine Vorstellung zu geben, wie ein Rangsummentest funktioniert, diskutieren wir den Wilcoxon-Test für verbundene Stichproben im Detail. Methode 3.4.3.4 (Wilcoxon-Test zum Vergleich verbundener Stichproben). • Statistischer Test, ob die Mediane zweier Zufallsgrößen X1 ,X2 gleich sind. • Hypothesen: H0 : Die Mediane der beiden Zufallsgrößen sind gleich. H1 : Es gibt wiederum zwei einseitige und eine zweiseitige Variante: (a) Der Median von X1 liegt über dem Median von X2 (einseitig). (b) Der Median von X liegt unter dem Median von X2 (einseitig). (c) Der Median von X1 ist ungleich dem Median von X2 (zweiseitig). α: Signifikanzniveau α. • Datenmaterial: Eine Stichprobe von N unabhängigen Probanden, für jeden Probanden je eine Realisierung von X1 und X2 : x11 , · · · , x1N Realisierungen von X1 x21 , · · · , x2N Realisierungen von X2 • Bedingungen: Die Merkmale müssen metrisch mit stetigen Verteilungen sein, sodass man Differenzen berechnen kann. Die Verteilungen haben dieselbe Form, nur möglicherweise gegeneinander parallelverschoben, sodass die Mediane verschieden sind. Sie müssen aber nicht normalverteilt sein, und die Stichproben können klein sein. Der Test wird folgendermaßen durchgeführt: 1) Für jeden Probanden wird die Differenz di = x1i − x2i berechnet. 2) Daten mit Differenz 0 werden aus der Statistik ausgeschlossen. Sei n die Anzahl der verbleibenden Differenzen. 3) Die Differenzen werden gemeinsam der Größe ihrer Absolutbeträge nach aufsteigend geordnet, wobei man sich merkt, welcher Betrag zu einer positiven Differenz und welcher Betrag zu einer negativen Differenz gehört. 4) Den Realisierungen werden in aufsteigender Reihenfolge die Rangzahlen 1, 2, · · · , (n1 + n2 ) zugeteilt. 4a) Wenn mehrere Realisierungen genau gleich groß sind, spricht man von Bindungen. In diesem Fall bestimmt man, welche Rangzahlen diesen Realisierungen insgesamt zufallen würden, und teilt diese Rangzahlen zu gleichen Teilen (arithmetisches Mittel) auf die gleich großen Realisierungen auf. 5) Man bestimmt W + und W − als die Summe der Rangzahlen, die den positiven beziehungsweise negativen Differenzen zugekommen sind. 6) Teststatistik: Aus der Tabelle des Wilcoxon-Tests lesen wir für den einseitigen Test den Wert Wα bzw. für den zweiseitigen Test Wα/2 ab. Zu jedem Stichprobenumfang n gehört ein anderer kritischer Wert. 7) Je nach Alternativhypothese entscheidet man: (a) (H1 : Median von X1 > Median von X2 ): Falls W − < Wα , wird die Nullhypothese zurückgewiesen. (b) (H1 : Median von X1 < Median von X2 ): Falls W + < Wα , wird die Nullhypothese zurückgewiesen. (c) (H1 : Median von X1 6= Median von X2 ): Sei W der kleinere der beiden Werte W + , W − . Falls W < Wα/2 , wird die Nullhypothese zurückgewiesen. 3.4. PARAMETERFREIE METHODEN 161 Diskussion: Hat X1 einen größeren Median als X2 , so werden die negativen Differenzen X1 − X2 seltener und zumeist kleiner sein als die positiven, sie werden daher niedrigere Ränge belegen. Damit wird die Rangsumme der negativen Differenzen, also W − klein, und W + wird groß. Also unterstützt ein kleines W − die Alternativhypothese: Der Median von X1 ist größer als der Median von X2 . ¤ Kritische Werte für den Wilcoxon-Test für verbundene Stichproben α ist das Signifikanzniveau für den einseitigen Test. n ist der Stichprobenumfang. α n 6 7 8 9 10 0.05 0.025 0.01 2 3 5 8 10 0 2 3 5 8 0 1 3 5 11 12 13 14 15 13 17 21 25 30 10 13 17 21 25 16 17 18 19 20 35 41 47 53 60 21 22 23 24 25 0.005 0.05 0.025 0.01 0.005 0 1 3 α n 36 37 38 39 40 227 241 256 271 286 208 221 235 249 264 185 498 211 224 238 171 182 194 207 220 7 9 12 15 19 5 7 9 12 15 41 42 43 44 45 302 319 336 353 371 279 294 310 327 343 252 266 281 296 312 233 247 261 276 291 29 34 40 46 52 23 27 32 37 43 19 23 27 32 37 46 47 48 49 50 389 407 426 446 466 361 378 396 415 434 328 345 362 379 397 307 322 339 355 373 67 75 83 91 100 58 65 73 81 89 49 55 62 69 76 42 48 54 61 68 51 52 53 54 55 486 507 529 550 573 453 473 494 514 536 416 434 454 473 493 390 408 427 445 465 26 27 28 29 30 110 119 130 140 151 98 107 116 126 137 84 92 101 110 120 75 83 91 100 109 56 57 58 59 60 595 618 642 666 690 557 579 602 625 648 514 535 556 578 600 484 504 525 546 567 31 32 33 34 35 163 175 187 200 213 147 159 170 182 195 130 140 151 162 173 118 128 138 148 159 61 62 63 64 65 715 741 767 793 820 672 697 721 747 772 623 646 669 693 718 589 611 634 657 681 Tipp 3.4.3.5. In Beispiel 3.4.3.2 haben wir einen Medianvergleich für verbundene Stichproben durch einen Vorzeichentest durchgeführt. Der Wilcoxon-Test hat gegenüber dem Vorzeichentest den Vorteil, dass er nicht nur die Information ausnützt, welche der Paardifferenzen positiv und welche negativ sind, sondern auch die Größen der Paardifferenzen. Dadurch ist er aber auch sensibler auf Ausreißer. Anders als der Vorzeichentest sind der Mann-Whitney-U-Test und der Wilcoxon-Test ziemlich stark, fast so stark wie der t-Test. Dafür werden aber auch zusätzliche Voraussetzungen benötigt. Beispiel 3.4.3.6. Beeinflußt das Medikament XXX die Reaktionszeit beim Autofahren? Mit einer Versuchseinrichtung wurde an 10 Personen die Reaktionszeit ohne Medikament und eine halbe Stunde nach Einnahme des Medikamentes gemessen. Es ergab sich folgende Tabelle: Person Reaktionszeit ohne Medikament mit Medikament A B C D E F G H I J 0.40 0.45 0.60 0.68 0.81 0.86 0.75 0.73 0.72 0.80 0.46 0.44 0.64 0.64 0.98 0.98 0.84 0.91 0.52 0.58 162 3. STATISTISCHES SCHÄTZEN UND TESTEN Läßt sich mit Signifikanz von 0.05 schließen, dass der Median der Reaktionszeit nach Einnahme von XXX größer ist der Median der Reaktionszeit ohne Einfluß von XXX? Diskussion: Wir führen einen einseitigen Wilcoxon-Test durch. H0 : Die Mediane der Reaktionszeiten mit und ohne XXX sind gleich. H1 : Der Median der Reaktionszeit mit XXX ist größer als der Median der Reaktionszeit ohne XXX. ohne Medikament mit Medikament Differenz 0.40 0.45 -0.05 0.60 0.68 -0.08 0.81 0.86 -0.05 0.75 0.73 0.02 0.72 0.80 -0.08 0.46 0.44 0.02 0.64 0.64 0.00 0.98 0.98 0.00 0.84 0.91 -0.07 0.52 0.58 -0.06 Es bleiben n = 8 Differenzen übrig, die nicht gleich Null sind. Wir ordnen diese nach der Größe ihrer Beträge. geordnet negative Differenzen positive Differenzen Rangplätze negative Differenzen positive Differenzen 0.02 1.5 -0.05 -0.05 -0.06 -0.07 -0.08 -0.08 3.5 3.5 5 6 7.5 7.5 0.02 1.5 Rangsummen 33 3 Wir testen H1 : Median von X1 kleiner als Median von X2 . Daher ist unsere Teststatistik die Rangsumme W = W + = 3. Aus der Tabelle für den Wilcoxon-Test mit Stichprobenumfang n = 8 entnehmen wir den kritischen Wert für α = 0.05 und Stichprobenumfang n = 8: W0.05 = 5. Also ist W = 3 ≤ 5 = Wα und die Nullhypothese ist zurückzuweisen. Aus diesen Daten folgt signifikant, dass das Medikament die Reaktionszeit verlängert. ¤ Methode 3.4.3.7 (Mann-Whitney-U-Test für unabhängige Stichproben). • Statistischer Test, ob die Mediane zweier Zufallsvariablen X1 , X2 gleich sind. • Hypothesen H0 : Die Mediane der Zufallsvariablen sind gleich. H1 : Es gibt wiederum zwei einseitige und eine zweiseitige Variante: (a) Der Median von X1 liegt über dem Median von X2 (einseitig). (b) Der Median von X1 liegt unter dem Median von X2 (einseitig). (c) Der Median von X1 ist ungleich dem Median von X2 (zweiseitig). α: Signifikanzniveau α. • Datenmaterial: Zwei voneinander unabhängige Stichproben von jeweils n1 unabhängigen Realisierungen von X1 und n2 unabhängigen Realisierungen von X2 . • Bedingungen: X1 und X2 haben stetige Verteilungen und dieselbe Form der Verteilung, nur parallelverschoben, sodass die Mediane ungleich sein können. (Ohne diese Bedingung testet der U-Test die Nullhypothese: “Die Verteilungen sind gleich” gegen die Alternativhypothese “Die Verteilungen sind ungleich”.) 3.4. PARAMETERFREIE METHODEN 163 Diskussion: Bei diesem Test werden die Daten beider Stichproben zunächst gemeinsam auf n1 + n2 Rangplätze angeordnet. Es wird dann für jede Stichprobe die Summe der von ihr belegten Rangplätze ermittelt. Aus diesen beiden Rangsummen wird eine Teststatistik berechnet und mit einer Tabelle für den Mann-Whitney Test verglichen. ¤ Beispiel 3.4.3.8. Ein Weinversand legt seinen Sendungen eine Antwortkarte bei, mit der die Kunden ihre Zufriedenheit mit den erhaltenen Weinen auf der Skala 0% bis 100% beurteilen können. Für den Wein California Carboxyle Valley kamen insgesamt 6 Antworten, für den Wein Grinzinger Protonenringelspiel kamen 4 Antworten. Die folgende Tafel zeigt die Ergebnisse. Kann geschlossen werden, dass die Kundschaft die beiden Weine unterschiedlich beurteilt? (Signifikanzniveau 0.1). Carboxyle Valley 50 60 Protonenringelspiel 20 80 70 90 90 50 30 50 Diskussion: Wir testen H0 : Die Mediane der Bewertungen beider Weine durch die Kundschaft sind gleich. H1 : Die Mediane der Bewertungen beider Weine durch die Kundschaft sind verschieden. SPSS liefert folgende Tabellen: Bezeichnung Carboxyle Valley Grinzinger Protonenringelspiel gesamt N 6 4 10 mittlerer Rang 5.42 5.63 Rangsumme 32.50 22.50 Mann-Whitney U 11.50 Wilcoxon W 32.50 Asymptotische Signifikanz (2-seitig) 0.914 Exakte Signifikanz (2* einseitig) 0.914a a nicht für Bindungen korrigiert Die erste Tabelle zeigt die Stichprobenumfänge, die Rangsummen, und daraus berechnet den mittleren Rang, den die Weine der jeweiligen Stichprobe belegen. Wir sehen, dass die mittleren Ränge sich nicht sehr unterscheiden, Grinzing schneidet eine Spur schlechter ab als Kalifornien. Die zweite Tabelle zeigt die Teststatistiken sowohl nach Mann-Whitney als auch nach Wilcoxon, und die daraus errechnete Signifikanz. Mit einem p-Wert von 0.914 kann die Nullhypothese nicht zurückgewiesen werden. Aus diesen Daten kann nicht gefolgert werden, dass die beiden Weine bei den KonsumentInnen verschieden gut ankommen. Oft bietet SPSS zwei Rechenverfahren an, ein asymptotisches mit Näherungsformel, und ein exaktes. Bei großen Stichproben liefert das asymptotische Verfahren sehr ähnliche Resultate wie das zeit- und rechenaufwändige exakte Verfahren, und man kann sich mit dem Näherungsverfahren begnügen. Bei kleinen Stichproben sollte man sich nur auf das exakte Verfahren verlassen. In vielen Fällen kann man bei SPSS das exakte Verfahren an- oder abwählen. In unserem Beispiel liefern beide Methoden bis auf drei Dezimalen denselben Zahlenwert. Streng genommen gelten die Mann-Whitney-U Tabellen nur für Daten ohne Bindungen (also ohne ex-aequo Rangplätze) und müssten noch korrigiert werden, wenn Bindungen auftreten. Allerdings verwendet man, wenn nur einige wenige Bindungen auftreten, unbesorgt die unkorrigierten Tabellen. ¤ Methode 3.4.3.9 (Kruskal-Wallis-H-Test ). • Parameterfreier statistischer Test, ob mehrere Zufallsvariablen X1 , · · · , Xk gleich verteilt sind. • Hypothesen H0 : Die Verteilungen aller Zufallsvariablen sind gleich. H1 : Mindestens zwei von den k Zufallsvariablen weichen in der Lage voneinander ab. α: Signifikanzniveau α. 164 3. STATISTISCHES SCHÄTZEN UND TESTEN • Datenmaterial: Zu jeder Zufallsvariablen Xj eine Stichprobe von jeweils nj unabhängigen Realisierungen. • Bedingungen: Keine Normalverteilungsbedingung! Mindestens 5 Merkmalsträger in jeder Stichprobe. Diskussion: Auch dieser Test beruht, wie der Mann-Whitney-U-Test, auf Rangsummen. ¤ Tipp 3.4.3.10. Wir haben bisher keine Variante des t-Tests zum Vergleich von mehr als 2 Mittelwerten kennengelernt. Wenn Normalverteilung vorausgesetzt wird, verwendet man statt des Kruskal-Wallis-Tests die Varianzanalyse. Was Sie jetzt können: Methoden: Vorzeichentest, Mann-Whitney-U-Test, Wilcoxon-Test für verbundene Stichproben, Kruskal-Wallis-Test. Sie wissen von diesen Methoden, wann man sie anwendet, und wissen, dass sie auf Grundlage von Rangornungen funktionieren. Die genauen Formeln und Tabellen finden Sie gegebenenfalls in der Lehr- und Handbuchliteratur. KAPITEL 4 Wechselwirkungen zwischen Merkmalen Übersicht: 1. Varianzanalyse 1.1. Prinzip der einfaktoriellen Varianzanalyse 1.2. Modell und Durchführung der einfaktoriellen Varianzanalyse 1.3. Post hoc Tests 1.4. Zweifaktorielle Varianzanalyse 2. Lineare Regression 2.1 Modell der linearen Regression 2.2 Interpretation der Ergebnisse und Modelldiagnostik 4.1. Varianzanalyse Übersicht: 1. 2. 3. 4. Prinzip der einfaktoriellen Varianzanalyse Durchführung der einfaktoriellen Varianzanalyse Post hoc Tests Zweifaktorielle Varianzanalyse 4.1.1. Prinzip der einfaktoriellen Varianzanalyse. Übersicht: Einflüsse von Faktoren zeigen sich in der Streuung Feste und zufällige Faktorstufen Variabilität innerhalb und zwischen den Faktorstufen 4.1.1.1. Einflüsse von Faktoren zeigen sich in der Streuung. Beispiel 4.1.1.1. Bei allen folgenden Versuchen werden die Messwerte streuen. Welche Ursachen können die Streuungen haben? 1) 2) 3) 4) Eine Person wird 3 mal gewogen. 5 Personen gleichen Alters und Geschlechtes werden je 3 mal gewogen. Es werden je 5 Frauen und 5 Männer jeweils 3 mal gewogen. Aus jeder der folgenden Altersstufen: 10 Jahre, 30 Jahre, 60 Jahre werden je 5 Frauen und 5 Männer jeweils 3 mal gewogen. 165 166 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN Diskussion: 1.) Auch wenn dieselbe Person öfters gewogen wird, werden die Messwerte nicht exakt gleich sein. Einerseits schleichen sich bei jeder Messung Fehler ein. Andererseits schwankt auch das Gewicht einzelner Personen (zum Beispiel schwerer knapp nach einer reichlichen Mahlzeit). 2.) Werden mehrere Personen gleichen Alters und Geschlechts gewogen, so kommt zu den obigen Ursachen für die Streuung noch die bekannte Tatsache, dass auch Personen gleichen Alters und Geschlechtes sehr unterschiedlich schwer sein können. Wir haben eine Streuung innerhalb der Alters- und Geschlechtsklasse. 3.) Frauen und Männer sind unterschiedlich groß und schwer. Zu den Streuungen auf Grund der Verschiedenheit aller Menschen untereinander kommt noch der systematische Unterschied zwischen den Geschlechtern. Das Geschlecht ist ein Faktor, der das Gewicht beeinflusst. Daher wird die Streuung der Gewichte innerhalb von Gruppen mit gemischten Geschlecht im Allgemeinen größer sein als die Streuung innerhalb reiner Frauen- oder Männergruppen. 4.) Natürlich sind Kinder viel leichter als Erwachsene. Das Alter ist ein weiterer Faktor, der das Gewicht beeinflusst. Die Streuung der Gewichte innerhalb von Gruppen, die mehrere Altersstufen umfassen, wird normalerweise größer sein als die Streuung der Gewichte innerhalb einer Altersklasse. ¤ Definition 4.1.1.2. Die Varianzanalyse (englisch ANOVA, analysis of variance) ist eine Methode, festzustellen, ob ein oder mehrere nominale Merkmale F1 , F2 , · · · ein metrisches Merkmal X beeinflussen. Die nominalen Merkmale F1 , F2 , · · · heißen die Faktoren, ihre Ausprägungen sind die Faktorstufen. Das metrische Merkmal X heißt die Zielvariable oder abhängige Variable. 4.1.1.2. Feste und zufällige Faktorstufen. In der Versuchsplanung für eine Varianzanalyse gibt es grundsätzlich zwei Strategien: Definition 4.1.1.3. 1) Bei der Varianzanalyse mit festen Effekten wird systematisch zu jeder Stufe des Faktors eine Stichprobe angelegt. 2) Bei der Varianzanalyse mit zufälligen Effekten ergeben sich die Faktorstufen aus der zufälligen Auswahl der Stichprobe. Beispiel 4.1.1.4. Haben verschiedene Exemplare derselben Gattung von Passiflora unterschiedlich große Früchte? 5 Exemplare von Passiflora werden zufällig ausgewählt, und unter gleichen Bedingungen gehalten. Jede ausgereifte Frucht wird gewogen. Unter welches Modell von Varianzanalyse fällt dieses Problem? Diskussion: Zielvariable ist das Gewicht der Frucht, Faktor ist das einzelne Exemplar. Die Frage bezieht sich nicht auf die ausgewählten 5 Exemplare, sondern generell, ob verschiedene Faktorstufen (Exemplare) unterschiedlich große Früchte haben. Aus allen möglichen Faktorstufen wurden 5 zufällig ausgewählt. Daher liegt hier eine Varianzanalyse mit zufälligen Effekten vor. ¤ Beispiel 4.1.1.5. Haben die Apfelsorten Schafnase, Kronprinz Rudolf, Oststeirische Zitronette unterschiedlich große Früchte? Von jeder der drei Sorten wurden 10 Bäume zufällig ausgewählt und je 20 Früchte davon gewogen. Unter welches Modell der Varianzanalyse fällt dieses Problem? Diskussion: Zielvariable ist wieder das Gewicht der Frucht, Faktor die Apfelsorte in den drei Stufen Schafnase, Kronprinz, Zitronette. Die Frage dreht sich diesmal um drei spezielle Faktorstufen (nämlich um den Vergleich genau der drei genannten Sorten), und zu jeder Faktorstufe wurde gezielt eine Stichprobe angelegt. Das ist eine Varianzanalyse mit festen Effekten. ¤ 4.1. VARIANZANALYSE 167 4.1.1.3. Variabilität innerhalb und zwischen den Faktorstufen. Damit die Rechnungen einfach und durchsichtig bleiben, verwenden wir in diesem Beispiel unrealistische Zahlenwerte und extrem kleine Stichproben. Beispiel 4.1.1.6. Eine Stichprobe von 10 Käfern von 3 verwandten Arten wurde erhoben. Es ergaben sich folgende Längen: Art A B C 1 1 8 3 3 6 3 2 1 2 Welche Mittelwerte und Streuungen lassen sich innerhalb dieser Stichprobe errechnen, und welche Freiheitsgrade gehören zu diesen Streuungen? Vergleichen Sie die Streuung, die auf die Unterschiede der Arten zurückzuführen ist, mit der Streuung, die darauf zurückzuführen ist, dass die Käfer innerhalb einer Art verschieden groß sind. Diskussion: Wir werden unsere Daten immer in der folgenden Form und mit der folgenden Nomenklatur anschreiben: j i 1 2 .. . Summen Stichprobenumfänge Mittelwerte 1 x11 x12 .. . T1 n1 x1 Faktorstufen 2 ··· x21 · · · x22 · · · .. . T2 ··· n2 ··· x2 ··· Für unsere Daten ergibt das die Tabelle: 1 2 1 1 1 2 3 3 3 3 2 4 1 2 Ti 8 8 ni 4 4 xi 2 2 total k xk1 xk2 .. . Tk nk xk Gesamtsumme Gesamtumfang Gesamtmittelwert 3 8 6 total 14 2 7 T = 30 N = 10 x=3 T N x Beachten Sie, dass der Gesamtmittelwert das gewichtete Mittel der drei Mittelwerte der Faktorstufen ist: 4×2+4×2+2×7 . x= 4+4+2 Wir wenden uns nun den Streuungen zu. Zunächst schätzen wir die Varianz aus der gesamten Stichprobe, also 1 X (xij − x)2 . N − 1 i,j Die Quadratsumme ohne Division durch N − 1 werden wir als SST (Summe der Quadrate total) bezeichnen. Die folgende Tabelle liefert die Quadrate der Abweichungen vom Gesamtmittelwert: Zum Beispiel ist der erste Eintrag (x11 − x)2 = (1 − 3)2 = 4. 168 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN 1 4 0 0 4 8 1 2 3 4 Summe 2 4 0 1 1 6 3 25 9 total 34 48 Wir erhalten SST = 48. Als geschätzte Varianz aus der gesamten Stichprobe ergibt sich MST (Mittel der Quadratsummen total): M ST = 48/9 ≈ 5.33. Diese Varianz hat 9 Freiheitsgrade. Wir wollen nun nur jenen Teil der Streuung schätzen, der nicht durch die Unterschiede zwischen den Arten entsteht, sondern nur dadurch, dass jeder Käfer in der Größe mehr oder weniger vom Mittelwert seiner eigenen Art abweicht. Die Tabelle ist ebenso gebaut wie die vorige, jedoch werden die Quadrate der Abweichungen der xij von ihren eigenen Klassenmittelwerten statt vom Gesamtmittelwert berechnet. Zum Beispiel ist der erste Eintrag (x11 − x1 )2 = (1 − 2)2 = 1. 1 1 1 1 1 4 1 2 3 4 Summe 2 1 1 0 0 2 3 1 1 total 2 8 Wir benennen die erhaltene Quadratsumme SSI (Summe der Quadrate innerhalb der Faktorstufen) und die daraus geschätzte Varianz MSI. Da wir zur Berechnung dieser Varianz drei Mittelwerte bilden mußten, wurden von 10 Daten 3 Freiheitsgrade verbraucht, und es bleiben 7 Freiheitsgrade. SSI = 8 M SI = 8/7 ≈ 1.143 Nun berechnen wir die Streuung, die durch die Unterschiede der Arten entsteht. Wir errechnen also aus den Mittelwerten der drei Faktorstufen eine Varianz. Dabei berücksichtigen wir, welche Stichprobenumfänge hinter jedem der drei Mittelwerte stehen, wir berechnen also eine gewichtete Quadratsumme: i xi ni ni (xi − x)2 1 2 4 4 2 2 4 4 3 7 2 32 total 3 40 Die erhaltene Quadratsumme bezeichnen wir SSZ (Summe der Quadrate zwischen den Faktorstufen), die daraus geschätzte Varianz mit MSZ. Da wir aus drei Werten eine Varianz unter Berücksichtigung eines (gewichteten) Mittelwertes errechnet haben, hat MSZ zwei Freiheitsgrade. SSZ = 40 M SZ = 40/2 = 20 Wir stellen noch einmal die drei Quadratsummen einander gegenüber: Z I T Zwischen den Faktorstufen Innerhalb der Faktorstufen gesamt SS Quadratsumme 40 dF Freiheitsgrade 2 MS Varianz 20 8 7 8/7 48 9 48/9 4.1. VARIANZANALYSE 169 Wir beobachten, dass sich nicht nur die Freiheitsgrade, sondern vor allem auch die Quadratsummen addieren: SST = SSZ + SSI. Diese wichtige Formel ist keineswegs selbstverständlich, aber mit etwas mathematischem Geschick kann man sie beweisen. Es hätte also genügt, SST und SSZ auszurechnen, SSI hätten wir dann durch eine einfache Subtraktion erhalten. Nun vergleichen wir die geschätzten Varianzen. MSZ ist deutlich größer als MSI, daher ist nicht zu erwarten, dass MSZ nur auf Grund der zufälligen Größendifferenzen der Käfer, die sich ja auch in MSI manifestieren, entsteht, sondern die Käferart bei der Größe kräftig mitmischt. Je größer MSZ im Vergleich zu MSI ausfällt, umso stärker sprechen die Daten für die Annahme eines Einflusses der Käferart auf die Größe. Um diese Gedanken zu quantifizieren, betrachten wir den Quotienten F = M SZ = 17.5. M SI Unter geeigneten Annahmen ist das Verhältnis geschätzter Varianzen F-verteilt, hier mit 2 Freiheitsgraden des Zählers und 7 Freiheitsgraden des Nenners. Laut Tabelle liegt eine F-verteilte Zufallsvariable mit diesen Freiheitsgraden nur mit Wahrscheinlichkeit 0.05 über dem kritischen Wert F0.05 = 4.737. Damit können wir mit Signifkanzniveau 0.05 schließen, dass ein Einfluss von der Käferart auf die Größe besteht, anders ausgedrückt, dass nicht alle drei Arten im Mittel gleich groß sind. ¤ Merksatz 4.1.1.7. Die Grundidee der Varianzanalyse ist, eine Stichprobe von mehreren Gruppen mit konstanten Faktorstufen zu untersuchen. Wenn die Streuung der Zielvariablen in der gesamten Stichprobe signifikant größer ist als die Streuung innerhalb der einzelnen Gruppen mit konstanten Faktorstufen, so läßt sich folgern, dass die Faktoren Einfluss auf die Zielvariable haben. Was Sie jetzt können: Begriffe und Wissen: Grundkonzept der einfaktoriellen Varianzanalyse, Variabilität innerhalb und zwischen den Faktorstufen. Zufällige und feste Faktorstufen. 4.1.2. Modell und Durchführung der einfaktoriellen Varianzanalyse. Übersicht: 1. Modell der einfaktoriellen Varianzanalyse mit festen Faktoren 2. Durchführung der Varianzanalyse 170 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN 4.1.2.1. Modell der einfaktoriellen Varianzanalyse mit festen Faktoren. Jede statistische Methode baut auf Voraussetzungen über die untersuchten Merkmale auf. Zum Beispiel wissen wir, dass der t-Test angewendet werden kann, wenn die untersuchten Zufallsvariablen normalverteilt sind. Auf dieser mathematischen Annahme bauen die Rechengesetze des t-Tests auf. Die Annahme trifft aber nicht immer zu, und ist oft auch nur annäherungsweise erfüllt. Wenn wir für Merkmale oder Zufallsvariablen eine mathematische Struktur voraussetzen, sprechen wir von einem Modell. Merksatz 4.1.2.1. Einer einfaktoriellen Varianzanalyse liegt folgendes Modell zugrunde: 1. Für jede der Faktorstufen i = 1, 2, · · · , k ist die abhängige Variable Yi eine Zufallsvariable Yi = µi + σZ, 2. Dabei ist Z eine standardnormalverteilte Zufallsvariable. 3. Der Parameter µi ist der Mittelwert von Yi . 4. Der Parameter σ ist die Standardabweichung von Yi , diese ist für alle Faktorstufen i = 1, 2, · · · , k dieselbe. Die Varianzanalyse testet die Hypothesen H0 : µ1 = µ2 = · · · = µk . H1 : Mindestens zwei Werte µi , µj sind ungleich. Diskussion: Die Erhebung einer Stichprobe für die Faktorstufe i wird also als Stichprobe von Realisierungen einer Zufallsvariablen Yi betrachtet. Dabei werden aber wesentliche Annahmen gemacht: Die Zufallsvariablen Yi sind normalverteilt. Die Standardabweichung hängt nicht von der Faktorstufe ab (Varianzhomogenität). Auch die Grundfrage, ob das metrische Merkmal von den Faktorstufen abhängt, lässt sich durch das Modell ausdrücken: Haben die verschiedenen Zufallsvariablen alle denselben Mittelwert? ¤ Tipp 4.1.2.2. Nur für (annähernd) normalverteilte Merkmale, deren Standardabweichung (fast) nicht von den Faktorstufen abhängt, ist die Varianzanalyse gültig. (In anderen Situationen bietet sich als parameterfreie Methode der Kruskal-Wallis H-Test an.) Bemerkung 4.1.2.3. Man kann die Varianzanalyse auch als einen Vergleich zweier Modelle ansehen: Wieder ist für jede Faktorstufe i = 1, 2, · · · , k die abhängige Variable Yi eine Zufallsvariable: Modell B Modell A (einfaches Modell) (komplexes Modell) Yi = µ + σZ Yi = µi + σZ mit mit Z standardnormalverteilt Z standardnormalverteilt µ Mittelwert von Yi µi Mittelwert von Yi (derselbe für alle i) (können verschieden sein) σ Standardabweichung von Yi σ Standardabweichung von Yi (dieselbe für alle i) (dieselbe für alle i) Die Varianzanalyse testet dann die Hypothesen: H0 : Es gilt das einfache Modell A. H1 : Es gilt das komplexere Modell B. 4.1. VARIANZANALYSE 171 Diskussion: Tatsächlich ist Modell A das einfachere, es hat nur 2 Parameter, nämlich µ und σ. Dagegen hat Modell B insgesamt k + 1 Parameter, nämlich σ, µ1 , µ2 , · · · , µk . Damit lässt sich Modell B besser an Daten anpassen, das heißt, mehr von den Daten wird durch die Parameter beschrieben, und für die zufällige Streuung, die durch σ repräsentiert wird, bleibt weniger übrig. Tatsächlich findet wird die Varianzanalyse oft herangezogen, um einfachere mit komplexeren Modellen zu vergleichen. ¤ 4.1.2.2. Durchführung der Varianzanalyse. Methode 4.1.2.4 (Einfaktorielle Varianzanalyse mit festen Effekten). Statistischer Test, ob ein nominales Merkmal (Faktor) auf ein metrisches Merkmal X (Zielvariable) Einfluß nimmt. • Hypothesen: H0 : Nullhypothese: Für alle Faktorstufen hat das Merkmal X denselben Mittelwert. H1 : Alternativhypothese: Es gibt mindestens ein Paar von Faktorstufen, für welche X verschiedene Mittelwerte hat. α: Signifikanzniveau: α. • Daten: Unabhängige Stichproben von je mindestens 2 Realisierungen von X für jede Faktorstufe. • Nomenklatur: Anzahl der Faktorstufen k Stichprobenumfänge für die Faktorstufen n1 · · · nk Gesamtstichprobenumfang N = n1 + · · · + nk Realisierungen für Faktorstufe i xi1 · · · xini • Bedingungen: – Für jede feste Faktorstufe ist X normalverteilt mit Mittelwert µi und Standardabweichung σ. – Die Standardabweichung von X ist für alle Faktorstufen dieselbe. (“Varianzhomogenität”). – Die Stichproben jeder Faktorstufe für sich bestehen aus unabhängigen Realisierungen, und die Stichproben der Faktorstufen untereinander sind ebenfalls unabhängig. – Für jede Faktorstufe wurde eine Stichprobe gezielt erhoben. (Feste Effekte). Durchführung des Testes: 1) Für jede Faktorstufe i = 1 · · · k berechnet man die Summe der Realisierungen: ni X Ti = xij . j=1 Daraus berechnet man die Gesamtsumme T = k X Ti . i=1 1a) Die Mittelwerte werden zwar in der weiteren Durchführung der Varianzanalyse selbst nicht gebraucht, sind aber für die darauf folgenden Analysen wertvoll: Ti T xi = , x = . ni N 172 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN 2) Die Gesamtvariabilität SST ist SST = ni k X X k x2ij − i=1 j=1 n i XX T2 2 = x2ij − N x N i=1 j=1 Diese Variabilität hat N − 1 Freiheitsgrade. Daraus errechnet sich die geschätzte Varianz M ST = SST . N −1 3) Die Variabilität zwischen den Faktorstufen ist SSZ = k X T2 i i=1 ni k − X T2 2 = ni x2i − N x . N i=1 Diese Variabilität hat k − 1 Freiheitsgrade. Daraus errechnet sich die geschätzte Varianz M SZ = SSZ . k−1 4) Die Variabilität innerhalb der Faktorstufen ist SSZ = SST − SSI. Diese Variabilität hat N − k Freiheitsgrade. Daraus errechnet sich die geschätzte Varianz M SI = SSI . N −k 5) Die Teststatistik ist F = M SZ M SI 6) Aus einer Tabelle der Quantile der F-Verteilung mit k − 1 Freiheitsgraden des Zählers und N − k Freiheitsgraden des Nenners sucht man Fα so, dass eine F-verteilte Zufallsvariable mit diesen Freiheitsgraden mit Wahrscheinlichkeit α größer als Fα ausfällt. 7) Ist F ≥ Fα , so wird die Nullhypothese zurückgewiesen, und ein Einfluss des Faktors auf die Zielvariable ist mit Signifikanzniveau α statistisch untermauert. 4.1. VARIANZANALYSE 173 Quantile der F-Verteilung 0,05 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt. Freiheitsgrade des Nenners 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 100 ∞ 1 2 3 4 des Zaehlers 5 6 7 8 9 161,446 18,513 10,128 7,709 6,608 5,987 5,591 5,318 5,117 4,965 4,844 4,747 4,667 4,600 4,543 4,494 4,451 4,414 4,381 4,351 4,325 4,301 4,279 4,260 4,242 4,225 4,210 4,196 4,183 4,171 4,085 4,001 3,936 3,841 199,499 19,000 9,552 6,944 5,786 5,143 4,737 4,459 4,256 4,103 3,982 3,885 3,806 3,739 3,682 3,634 3,592 3,555 3,522 3,493 3,467 3,443 3,422 3,403 3,385 3,369 3,354 3,340 3,328 3,316 3,232 3,150 3,087 2,996 215,707 19,164 9,277 6,591 5,409 4,757 4,347 4,066 3,863 3,708 3,587 3,490 3,411 3,344 3,287 3,239 3,197 3,160 3,127 3,098 3,072 3,049 3,028 3,009 2,991 2,975 2,960 2,947 2,934 2,922 2,839 2,758 2,696 2,605 224,583 19,247 9,117 6,388 5,192 4,534 4,120 3,838 3,633 3,478 3,357 3,259 3,179 3,112 3,056 3,007 2,965 2,928 2,895 2,866 2,840 2,817 2,796 2,776 2,759 2,743 2,728 2,714 2,701 2,690 2,606 2,525 2,463 2,372 230,160 19,296 9,013 6,256 5,050 4,387 3,972 3,688 3,482 3,326 3,204 3,106 3,025 2,958 2,901 2,852 2,810 2,773 2,740 2,711 2,685 2,661 2,640 2,621 2,603 2,587 2,572 2,558 2,545 2,534 2,449 2,368 2,305 2,214 233,988 19,329 8,941 6,163 4,950 4,284 3,866 3,581 3,374 3,217 3,095 2,996 2,915 2,848 2,790 2,741 2,699 2,661 2,628 2,599 2,573 2,549 2,528 2,508 2,490 2,474 2,459 2,445 2,432 2,421 2,336 2,254 2,191 2,099 236,767 19,353 8,887 6,094 4,876 4,207 3,787 3,500 3,293 3,135 3,012 2,913 2,832 2,764 2,707 2,657 2,614 2,577 2,544 2,514 2,488 2,464 2,442 2,423 2,405 2,388 2,373 2,359 2,346 2,334 2,249 2,167 2,103 2,010 238,884 19,371 8,845 6,041 4,818 4,147 3,726 3,438 3,230 3,072 2,948 2,849 2,767 2,699 2,641 2,591 2,548 2,510 2,477 2,447 2,420 2,397 2,375 2,355 2,337 2,321 2,305 2,291 2,278 2,266 2,180 2,097 2,032 1,938 240,543 19,385 8,812 5,999 4,772 4,099 3,677 3,388 3,179 3,020 2,896 2,796 2,714 2,646 2,588 2,538 2,494 2,456 2,423 2,393 2,366 2,342 2,320 2,300 2,282 2,265 2,250 2,236 2,223 2,211 2,124 2,040 1,975 1,880 Beispiel 4.1.2.5. Rechnen Sie Beispiel 4.1.1.6 nach der obigen Methode nach: Eine Stichprobe von 10 Käfern von 3 verwandten Arten wurde erhoben. Es ergaben sich folgende Längen: Art A B C 1 1 8 3 3 6 3 2 1 2 Kann aus diesen Daten mit Signifikanzniveau α = 0.05 geschlossen werden, dass die Durchschnittslänge der Käfer nicht für alle drei Arten gleich ist? Diskussion: Schritt 1) Bestimmung der Stichprobensummen: 174 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN i Ti ni xi 1 1 3 3 1 8 4 2 2 1 3 2 2 8 4 2 3 8 6 total 14 2 7 T = 30 N = 10 x=3 Schritt 2) Gesamte Variabilität: SST = 12 + 32 + 33 + 12 + 12 + 32 + 22 + 22 + 82 + 62 − 302 = 48, 10 Freiheitsgrade 10 − 1 = 9, 48 ≈ 5.3333. M ST = 9 Schritt 3) Variabilität zwischen den Faktorstufen: 82 82 142 302 + + − = 40, 4 4 2 10 Freiheitsgrade 3 − 1 = 2, 40 = 20. M SZ = 2 Schritt 4) Variabilität innerhalb der Faktorstufen: SSZ = SSI = Freiheitsgrade M SI = 48 − 40 = 8, 10 − 3 = 7, 8 ≈ 1.1429. 7 Schritt 5) Vergleichstabelle und Teststatistik: SS 40 8 48 Z I T dF 2 7 9 MS 20 1.1429 5.3333 F 17.5 Schritt 6) Kritischer Wert der F-Verteilung mit 2 Freiheitsgraden des Zählers und 7 Freiheitsgraden des Nenners für α = 0.05 aus der Tabelle: F0.05 = 4.737. Schritt 7) Testentscheidung: Weil F = 17.5 > 4.737 = F0.05 , wird die Nullhypothese zurückgewiesen. Es ist mit Signifikanzniveau 0.05 untermauert, dass die mittlere Größe für mindestens zwei der Käferarten verschieden ist. ¤ Beispiel 4.1.2.6. Für Beispiel 4.1.2.5 wurde in SPSS eine einfaktorielle Varianzanalyse durchgeführt. Der Test soll für das Signifikanzniveau α = 0.05 durchgeführt werden. Das Programm liefert die folgende Tabelle: Zwischen den Gruppen Innerhalb der Gruppen Gesamt Quadratsumme 40 8 48 dF 2 7 9 Mittel der Quadrate 20 1.143 F Signifikanz 17.5 0.002 Diskussion: Die Tabelle zeigt die Variabilitäten zwischen und innerhalb der Gruppen, sowie die totale Variabilität. Daneben jeweils ihre Freiheitsgrade und die daraus geschätzten Varianzen. F ist der Wert der Teststatistik MSZ/MSI und die Signifikanz der p-Wert des F-Tests bei 2 Freiheitsgraden des Zählers und 7 Freiheitsgraden des Nenners. Da p = 0.002 < 0.05 = α, wird die Nullhypothese zurückgewiesen. Aus den Daten kann geschlossen werden, dass mindestens zwei der drei Käferarten sich in der Durchschnittsgröße unterscheiden. ¤ 4.1. VARIANZANALYSE 175 Was Sie jetzt können: Begriffe und Wissen: Modell und Bedingungen der einfaktoriellen Varianzanalyse. Methoden: Einfaktorielle Varianzanalyse mit festen Faktoren. 4.1.3. Post-hoc Tests. Übersicht: 1. 2. 2. 4. 5. Problematik des Testens nach Sichten der Daten Geplanter t-Test Signifikanz des Einzeltests und der Serie Bonferroni-Korrektur Erst sichten, dann testen? 4.1.3.1. Problematik des Testens nach Sichten der Daten. Wenn die Varianzanalyse ergeben hat, dass zwischen den Faktorstufen signifikante Unterschiede bestehen, wollen wir natürlich auch wissen, welche Stufen sich von welchen unterscheiden. Grundsätzlich steht für die Frage, ob sich zwei Gesamtheiten unterscheiden, der t-Test für unabhängige Stichproben zur Verfügung. Die Mittelwerte der Zielvariablen in den einzelnen Faktorstufen und eine geschätzte Varianz (nämlich SQI) für den t-Test hat schon die Berechnung der Varianzanalyse geliefert. Daher wird der Vergleich der einzelnen Faktorstufen rechentechnisch keinen großen Aufwand mehr machen. Es ist jedoch problematisch, sehr viele t-Tests anzusetzen. Wenn auch der einzelne Test vielleicht mit einem kleinen Signifikanzniveau α angesetzt wird, steigt die Wahrscheinlichkeit, dass unter vielen Tests mindestens einmal eine Nullhypothese zu Unrecht abgelehnt wird, stark an. Auch sind die Tests, wenn ein Mittelwert in mehreren Tests verwendet wird, nicht mehr unabhängig, so dass sich die Fehlerwahrscheinlichkeiten nicht mehr exakt ableiten lassen. Noch komplizierter wird das Problem, wenn wir — was wir natürlich in Wirklichkeit am liebsten wollen — erst die Mittelwerte ansehen, und dann jene heraussuchen, die am weitesten auseinanderliegen. Wenn wir nun mit diesen ausgewählten Mittelwerten einen t-Test durchführen würden, wäre die Wahrscheinlichkeit, ein (scheinbar) signifikantes Ergebnis zu erhalten, übermäßig groß. Denn natürlich ist es viel wahrscheinlicher, dass der t-Wert über einen kritischen Tabellenwert steigt, wenn erst aus vielen Mittelwerten die beiden entferntesten ausgewählt werden, und daraus t errechnet wird, als wenn einfach zwei Mittelwerte vorgegeben sind. Wir werden also für Tests, die wir erst nach Sichtung der Ergebnisse der Varianzanalyse ansetzen, besondere Methoden brauchen. Definition 4.1.3.1. Die Hypothesen eines a-priori Test werden festgelegt, bevor die Mittelwerte der Faktorstufen bekannt sind. (Die tatsächliche Durchführung der Berechnung erfolgt aber nach der Varianzanalyse mit Hilfe der in der Varianzanalyse errechneten Zwischengrößen.) Ein a-posteriori oder post-hoc Test wird erst angesetzt, nachdem die Ergebnisse der Varianzanalyse, insbesondere die Mittelwerte der Zielvariablen in den einzelnen Faktorstufen, gesichtet wurden. 176 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN 4.1.3.2. Geplanter t-Test. Wir beginnen mit einer a-priori Methode ohne vorheriges Ansehen der Mittelwerte. Vielleicht haben wir schon vor der Durchführung der Varianzanalyse die Vermutung, dass ganz bestimmte Faktorstufen unterschiedliche Wirkung auf die Zielvariable haben. Wenn wir einige wenige bestimmte Paare auf jeden Fall vergleichen wollen, eignet sich der folgende Test. Er ist einfach eine Sammlung von t-Tests zum Vergleich unabhängiger Stichproben. Methode 4.1.3.2 (LSD-Test, least significant difference, geplanter multipler t-Test). Statistischer Test im Zusammenhang mit einer Varianzanalyse über k Faktorstufen. Unterscheiden sich bestimmte ausgewählte Paare von Faktorstufen bezüglich der Zielvariablen? • Hypothesen: Für jedes Vergleichspaar Stufe i mit Stufe j ein Test: H0 : Nullhypothese: Der Mittelwert der Zielvariablen ist in Faktorstufe i und Stufe j gleich. H1 : Alternativhypothese: Die Mittelwerte der Zielvariablen sind für die beiden Faktorstufen verschieden. (zweiseitig). α: Signifikanzniveau α für jeden einzelnen Test separat. • Daten: Unabhängige Stichproben von ni Realisierungen der Zielvariablen für jede Faktorstufe i, Mittelwert davon xi . Varianz innerhalb der Stufen MSI aus der Varianzanalyse. • Bedingungen: – Jede Faktorstufe kommt höchstens in einem Vergleichspaar vor. – Die Varianzanalyse ergibt einen signifikanten Unterschied zwischen mindestens 2 Faktorstufen. – Die Bedingungen der einfaktoriellen Varianzanalyse sind erfüllt: Die Zielvariable ist in den einzelnen Faktorstufen normalverteilt. Die Varianz der Zielvariablen ist in allen Faktorstufen gleich. – Die Vergleichspaare werden vor Sichtung der Mittelwerte ausgewählt. Der Test wird folgendermaßen durchgeführt: 1) Anzahl der Freiheitsgrade ist N − k (der Freiheitsgrad von MSI). 2) Aus der Tabelle der Quantile der t-Verteilung wird der kritische Wert tα/2 mit N − k Freiheitsgraden entnommen. 3) Für jedes Vergleichspaar Stufe i mit Stufe j wird die Grenzdifferenz berechnet: s ni + nj GD = tα/2 M SI . ni nj 3a) Sonderfall: Sind die Umfänge der Stichproben aller Faktorstufen gleich: ni = n, so muss die Grenzdifferenz nur einmal berechnet werden: r 2 GD = tα/2 M SI . n 4) Ist |xi − xj | ≥ GD, so wird für das Paar (i, j) die Nullhypothese zurückgewiesen. Zwischen den Faktorstufen i und j besteht ein signifikanter Unterschied. Diskussion: Das ist einfach eine Aneinanderreihung von t-Tests für 2 unabhängige Stichproben. Statt jeweils die Varianz für jedes Paar neu zu schätzen, nehmen wir die Schätzung MSI aus der Varianzanalyse. MSI schätzt ja gerade, was wir brauchen: Den Anteil der Streuung, die nicht auf Unterschiede zwischen den Faktorstufen zurückzuführen ist. Nachteil dieses Tests ist, dass wir nicht alle Paare vergleichen dürfen, sondern noch vor Sichtung der Daten einige wenige auswählen müssen, die uns besonders interessant erscheinen. ¤ 4.1. VARIANZANALYSE 177 Beispiel 4.1.3.3. 5 verschiedene Käsesorten werden verglichen. Bestehen Unterschiede im Fettgehalt? Es wird insbesondere vermutet, dass Sorte E deutlich fetter als A und B ist. Die Ergebnisse der Varianzanalyse werden erwartet. Wir setzen einen LSD-Test an, ob B und E unterschiedlichen Fettgehalt haben: H0 : B und E haben im Mittel denselben Fettgehalt. H1 : Der mittlere Fettgehalt von E ist größer als von B. (einseitig) α: Signifikanzniveau: 0.05. Leider dürfen wir keinen zweiten LSD für A und E ansetzen, sonst käme E in zwei Vergleichen vor. Von jeder Sorte wurde eine Stichprobe vom Umfang 5 erhoben. Der mittlere Fettgehalt in % für jede der Stichproben ist unten tabelliert: Sorte Fettgehalt (Stichprobenmittel) A 46 B 47 C 50 D 51 E 56 Die Varianzanalyse ergab: zwischen Stufen innerhalb Stufen gesamt Quadratsumme 310 140 450 dF 4 20 24 Varianz 77.5 7 18.75 F 11.07 Signifikanz .000 Diskussion: Wir haben k = 5 Faktorstufen, bei gleich großen Stichproben für jede Faktorstufe ni = n = 5, und einem Gesamtstichprobenumfang von N = 25. Die Varianzanalyse ergab einen signifikanten Unterschied zwischen den Faktorstufen. Wir führen nun den LSD-Test durch. Der ANOVA-Tabelle entnehmen wir SQI = 7 sowie die Anzahl der Freiheitsgrade 20. Da der Test einseitig angesetzt ist, entnehmen wir der Tabelle den kritischen Wert der t-Verteilung für α = 0.05 und 20 Freiheitsgrade: t0.05 = 1.725. Der kleinste signifikante Abstand (Grenzdifferenz) ist dann r r 2 7×2 ≈ 2.886. GD = tα M SI = 1.725 n 5 Die Mittelwerte für Faktorstufen B und E entnehmen wir der Tabelle der Mittelwerte: xE − xB = 56 − 47 = 9. Also gilt xE − xB = 9 ≥ 2.886 = GD. Wir können daher die Nullhypothese zurückweisen. Unsere Analyse untermauert signifkant, dass Käsesorte E im Durchschnitt einen höheren Fettgehalt hat als Sorte B. ¤ 4.1.3.3. Signifikanz des Einzeltests und der Serie. Wenn wir 5 Faktoren haben und jeden mit jedem durch einen t-Test vergleichen wollen, so ergibt das 10 t-Tests. Nehmen wir an, wir testen mit α = 0.05 und alle Faktoren haben denselben Mittelwert. Jeder der t-Tests spricht dann mit einer Wahrscheinlichkeit von 0.95 für H0 . Die Wahrscheinlichkeit, dass alle 10 Tests für H0 sprechen, ist allerdings nur mehr 0.9510 ≈ 0.6, das heißt, die Wahrscheinlichkeit, dass unter allen diesen Tests mindestens einer für H1 spricht, ist bereits 0.4. Daher ist es nicht sinnvoll, ohne weitere Vorsichtsmaßnahmen sehr viele Tests durchzuführen, und dann die signifikanten herauszuklauben. Merksatz 4.1.3.4. Wenn wir eine Serie von Tests durchführen, müssen wir unterscheiden: 1) Das Signifikanzniveau der Serie. Dies ist das erlaubte Risiko, dass innerhalb der gesamten Serie eine Nullhypothese zu Unrecht zurückgewiesen wird. 178 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN 2) Das Signifikanzniveau des einzelnen Tests. Dies ist die erlaubte Risiko, dass in diesem einen Test die Nullhypothese zu Unrecht zurückgewiesen wird. Natürlich ist das Signifikanzniveau der Serie größer als das des Einzeltests. Als vorsichtige Faustregel gilt: Das Signifikanzniveau einer Serie von Tests ist nur geringfügig kleiner als die Summe der Signifikanzniveaus der einzelnen Tests. 4.1.3.4. Bonferroni-Korrektur. Die folgende Methode kontrolliert das Signifikanzniveau der gesamten Vergleichsserie. Sie erlaubt, alle möglichen Vergleiche anzusetzen. Damit ist sie eine post-hoc Methode, einfach deshalb, weil Nachsehen in den Ergebnissen der Varianzanalyse ohnehin keinen Einfluss auf die Hypothesenstellung hat. Merksatz 4.1.3.5. Die Bonferroni-Korrektur dient dazu, eine Serie von m Tests mit einer Signifikanz α für die gesamte Testserie durchzuführen. Man führt zu diesem Zweck einfach jeden Einzeltest mit einer Signifikanz von α/m aus. Es gibt verfeinerte Varianten des Bonferroni-Verfahrens, welche die verschiedenen Vergleiche mit unterschiedlichen Signifikanzniveaus durchführen, sodass sich als Signifikanzniveau der gesamten Vergleichsserie wieder α ergibt. Methode 4.1.3.6 (Bonferroni-Korrektur des multiplen t-Tests). Statistischer Test, welche Faktorstufen einer Varianzanalyse über k Faktorstufen sich bezüglich der Zielvariablen unterscheiden. Jede Stufe wird mit jeder Stufe verglichen. • Hypothesen: Für jedes Vergleichspaar Stufe i mit Stufe j ein Test: H0 : Nullhypothese: Der Mittelwert der Zielvariablen ist in Faktorstufe i und Stufe j gleich. H1 : Alternativhypothese: Die Mittelwerte der Zielvariablen sind für die beiden Faktorstufen verschieden. (zweiseitig). α: Signifikanzniveau α für die gesamte Vergleichsserie. • Daten: Unabhängige Stichproben von ni Realisierungen der Zielvariablen für jede Faktorstufe i, Mittelwert davon xi . Varianz innerhalb der Stufen MSI aus der Varianzanalyse. • Bedingungen: – Die Varianzanalyse ergibt einen signifikanten Unterschied zwischen mindestens 2 Faktorstufen. – Die Bedingungen der einfaktoriellen Varianzanalyse sind erfüllt: Die Zielvariable ist in den einzelnen Faktorstufen normalverteilt. Die Varianz der Zielvariablen ist in allen Faktorstufen gleich. Der Test wird folgendermaßen durchgeführt: 1) m ist die Anzahl der Vergleiche, das ist m = k(k−1) . 2 2) Anzahl der Freiheitsgrade ist N − k (der Freiheitsgrad von MSI). 3) Aus der Tabelle der Quantile der t-Verteilung wird der kritische Wert tα/(2m) mit N − k Freiheitsgraden entnommen. 4) Für jedes Vergleichspaar Stufe i mit Stufe j wird die Grenzdifferenz berechnet: s GD = tα/(2m) M SI ni + nj . ni nj 4.1. VARIANZANALYSE 179 4a) Sonderfall: Sind die Umfänge der Stichproben aller Faktorstufen gleich: ni = n, so muss die Grenzdifferenz nur einmal berechnet werden: r 2 GD = tα/(2m) M SI . n 5) Ist |xi − xj | ≥ GD, so wird für das Paar (i, j) die Nullhypothese zurückgewiesen. Zwischen den Faktorstufen i und j besteht ein signifikanter Unterschied. Diskussion: Der Unterschied zum LSD-Test besteht nur in der vorsichtigeren Handhabe von α. Erlaubt man für jeden einzelnen Test eine Wahrscheinlichkeit von α/m, dass die Nullhypothese zu Unrecht zurückgewiesen wird, so ergibt das insgesamt eine Fehlerwahrscheinlichkeit, die kleiner als α ist. Das Verfahren ist konservativ, das heißt, es wird nur selten zu Unrecht eine Nullhypothese zurückweisen, wird also selten ein Paar von Faktorstufen als signifikant unterschiedlich ausweisen. ¤ Definition 4.1.3.7. Ein Testverfahren heißt konservativ, wenn es nur selten Nullhypothesen zurückweist und daher nur bei großer Sicherheit Daten als signifikant ausweist. Beispiel 4.1.3.8. Untersuchen Sie die 5 Käsesorten der Studie Beispiel 4.1.3.3 systematisch nach Paaren, für welche der Fettgehalt signifikant verschieden ist. Signifikanzniveau der gesamten Testserie sei 0.05. Die Studie baut auf je einer Stichprobe mit Umfang 5 für jede Käsesorte auf. Die Mittelwerte und die Tabelle der Varianzanalyse waren in dieser Studie: Sorte Fettgehalt (Stichprobenmittel) zwischen Stufen innerhalb Stufen gesamt Quadratsumme 310 140 450 dF 4 20 24 A 46 B 47 Varianz 77.5 7 18.75 C 50 D 51 F 11.07 E 56 Signifikanz .000 Diskussion: Da nun alle möglichen Paare verglichen werden sollen, können wir nicht den LSD-Test anwenden sondern greifen auf Bonferroni zurück. Insgesamt haben wir 5(5 − 1) = 10 2 Vergleiche. Testen wir jeden einzelnen Vergleich mit Signifikanz 0.01, so erhalten wir als Signifikanzniveau für die gesamte Serie 10 × 0.005 = 0.1. Da die Tests zweiseitig sind, entnehmen wir der Tabelle den kritischen t-Wert für 0.005 bei 20 Freiheitsgraden: t0.005 = 2, 845. Der kleinste signifikante Abstand nach Bonferroni ist dann r r 2M SI 2×7 GDBonferroni = t0.0025 = 3.153 ≈ 5.276. n 5 Wir erstellen nun eine Tabelle aller Differenzen der Mittelwerte und vergleichen diese mit dem kritischen Abstand. Für alle Paare mit |xi − xj | ≥ GDBonferroni = 5.276 ist die Nullhypothese zurückzuweisen. Für diese Paare ist also signifikant untermauert, dass die beiden Käsesorten im Durchschnitt unterschiedlichen Fettgehalt haben. Wir markieren diese Paare in der Tabelle mit einem Sternchen ∗. (Natürlich müßten wir in Wirklichkeit nur die halbe Tabelle ausfüllen, die Werte unter der Diagonalen sind die Spiegelung der Werte über der Diagonalen, mit umgedrehtem Vorzeichen. Auf der Diagonalen steht immer Null.) 180 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN Faktor A B C D E xi 46 47 50 51 56 A 46 0 -1 -4 -5 -10* B 47 1 0 -3 -4 -9* C 50 4 3 0 -1 -6* D 51 5 4 1 0 -5 E 56 10* 9* 6* 5 0 Der Bonferroni-Test findet signifikante Unterschiede im Fettgehalt bei folgenden paarweisen Vergleichen: Käsesorte A mit E, Sorte B mit E, und Sorte C mit E. ¤ 4.1.3.5. Erst sichten, dann testen? Die nächstliegende Methode wäre, nach der Varianzanalyse zunächst die Paare mit den größten Mittelwertunterschieden herauszupicken und auf Signifikanz des Unterschiedes zu testen. Allerdings muss jetzt in Rechnung gestellt werden, dass man aus k Mittelwerten die beiden weitest entfernten wählt: Natürlich bekommt man im Durchschnitt einen größeren Abstand, wenn man aus mehreren Mittelwerten die entferntesten wählt, als wenn man von vorneherein nur 2 Mittelwerte zum Vergleich hat. Daher würde beim Vergleich mit einer t-Tabelle übermäßig oft die Nullhypothese (H0 : “Mittelwerte sind gleich”) zurückgewiesen werden. Es gibt aber andere Testverteilungen und darauf aufgebaute A-posteriori Tests, die diesen Effekt einrechnen (z.B. Student-Newman-Keuls Test). Was Sie jetzt können: Begriffe und Wissen: Geplante Tests. Problematik des Testens a posteriori: Signifikanz der Serie und Signifikanz des Einzeltests, Testen von Hypothesen nach Sichten der Daten. Methoden: Geplanter t-Test, Bonferroni-Korrektur. 4.1.4. Zweifaktorielle Varianzanalyse. Übersicht: 1. 2. 2. 3. 4. Problemstellung an einem Beispiel Analyse der Mittelwerte Hierarchie der Modelle Quadratsummen Testen der Modelle gegeneinander Dieses Kapitel wurde vor allem in die Vorlesung aufgenommen, um Ihnen an einem Beispiel eine Hierarchie ineinandergeschachtelter einfacherer und komplexerer statistischer Modelle vorzuführen. 4.1.4.1. Problemstellung an einem Beispiel. Beispiel 4.1.4.1. Unter Schulkindern der 4. Volksschulklasse in einer Bevölkerungsgruppe soll eine bestimmte Fähigkeit getestet werden. Dabei wurde die Bevölkerung unterteilt: in drei Einkommensschichten: reich, durchschnittlich, arm, und in zwei Wohnlagen: Stadt und Land. Haben Einkommen der Eltern und Wohnlage einen Einfluss auf die untersuchte Fähigkeit der Schulkinder? Aus jeder Kombination Einkommen-Wohnlage wurde je eine Stichprobe von 4 Kindern getestet, die erreichten Punkte sind in der folgenden Tabelle angegeben: 4.1. VARIANZANALYSE Land Summe Mittelwert Stadt Summe Mittelwert ges. Einkommenklasse: Summe Mittelwert 181 reich mittel arm 13 14 14 15 56 14 30 32 33 33 128 32 7 9 10 10 36 9 28 29 29 30 116 29 6 6 7 9 28 7 28 28 28 32 116 29 184 23 152 19 144 18 ges. Stadt und Land 120 10 360 30 480 20 Diskussion: Zum Unterschied von der einfaktoriellen Varianzanalyse wird nun die Abhängigkeit eines metrischen Merkmals von zwei nominalen Merkmalen untersucht. Die Tabelle zeigt die Ergebnisse der Stichproben für jede Kombination der Faktorstufen. Jede Stichprobe umfasst 4 Merkmalsträger. Insgesamt wurden 24 Kinder getestet. In der Tabelle wurden gleich die Mittelwerte der sechs einzelnen Stichproben berechnet. Unten finden Sie die Mittelwerte je für die drei Einkommensklassen (zu jeder Einkommensklasse gehören 8 Kinder), und rechts die Mittelwerte je für eine Wohnlage (zu jeder Wohnlage gehören 12 Kinder). Im rechten unteren Eck steht der Mittelwert über die gesamte Probe. ¤ Merksatz 4.1.4.2. Die zweifaktorielle Varianzanalyse untersucht folgende Fragestellung: Gegeben sei ein metrisches Merkmal (Zielvariable oder abhängige Variable) und zwei nominale Merkmale (Faktoren) mit je endlich vielen Ausprägungen (den Faktorstufen). Gibt es einen statistischen Zusammenhang zwischen den Faktoren und dem Mittelwert der abhängigen Variablen? Wenn ja, haben beide Faktoren Einfluss, oder nur einer der Faktoren? Beeinflussen sich die Faktoren gegenseitig in ihrer Wirkung auf die Zielvariable (Potenzierung oder gegenseitige Abschwächung)? In der Tabelle unseres Beispiels 4.1.4.1 wurde zu jeder möglichen Kombination von Einkommensgruppe und Wohnlage eine Stichprobe erhoben. Da 2 Faktorstufen der Wohnlage (Stadt Land) und drei Faktorstufen der Einkommensgruppe (reich - mittel - arm) vorliegen, gibt das insgesamt 6 Stichproben. Merksatz 4.1.4.3. Ein vollständiger Versuch in einer zweifaktoriellen Varianzanalyse besteht aus je einer Stichprobe zu jeder möglichen Kombination von zwei Faktorstufen. 4.1.4.2. Analyse der Mittelwerte. In der folgenden Tabelle finden Sie noch einmal die Mittelwerte der Stichproben zu den sechs Faktorkombinationen, sowie unten die Mittelwerte der drei Einkommenstufen, und rechts die Mittelwerte der zwei Wohnlagen. Die Bedeutung der weiteren Einträge werden sich in der folgenden Analyse ergeben: 182 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN reich mittel arm 14 9 7 erwartet ohne Wechselwirkungen: Beitrag Wechselwirkungen: Stadt tatsächlicher Mittelwert: 13 1 9 0 8 -1 32 29 29 erwartet ohne Wechselwirkungen: Beitrag Wechselwirkungen: gesamte Einkommensgruppe: tatsächlicher Mittelwert: Gesamtmittelwert: Beitrag Einkommensgruppe: 33 -1 29 0 28 1 23 20 3 19 20 -1 18 20 -2 Land tatsächlicher Mittelwert: alle Einkommen tatsächlicher Mittelwert: Gesamtmittelwert: Beitrag Wohnlage: 10 20 -10 tatsächlicher Mittelwert: Gesamtmittelwert: Beitrag Wohnlage: 30 20 10 Gesamtmittelwert: 20 Wir beginnen die Analyse rechts unten, wo wir finden, dass die gesamte Probe einen Mittelwert von 20 Punkten liefert. Der Mittelwert für die Landkinder ist aber nur 10, dafür beträgt der Mittelwert für die Stadtkinder 30. Die Wohnlage scheint also einen Beitrag zur abhängigen Variablen zu leisten: Am Land im Durchschnitt -10, in der Stadt im Durchschnitt 10. Diese Beiträge summieren sich auf 0. Landkinder haben anscheinend einen deutlichen Nachteil gegenüber Stadtkindern, zumindest was die geteste Fähigkeit betrifft. Nun führen wir dieselbe Analyse mit dem Faktor “Einkommenstufe” durch. Der Mittelwert für die reichen Kinder beträgt 23, also um 3 besser als der Gesamtmittelwert. Für die Kinder der mittleren Einkommenstufe liegt der Mittelwert bei 19, um 1 Punkt weniger als der Gesamtmittelwert, und die Kinder der armen Bevölkerungsschicht erreichen im Mittel nur 18, um zwei Punkte weniger als der Gesamtdurchschnitt. Also liefert auch der Faktor Einkommenstufe einen Beitrag: +3 für Reiche, -1 für durchschnittliche Einkommen, und -2 für Kinder aus armen Verhältnissen. Wieder summieren sich diese drei Beiträge auf Null. Allerdings ist der Effekt des Einkommens weit weniger deutlich ausgeprägt als der Effekt des Wohnorts. Ist es nur ein Zufallseffekt, oder ist er statistisch signifikant? Wenn wir also die Beiträge der beiden Faktoren ermittelt haben, könnten wir jetzt für jede Kombination der Faktorstufen eine zumindest plausible Vorhersage auf den Mittelwert machen: Der Gesamtmittelwert ist 20. Aber zum Beispiel haben reiche Landkinder einen Malus von -10 durch die Wohnlage am Land, aber wieder einen Bonus von 3 durch die guten Einkommensverhältnisse. Wir erwarten also einen Mittelwert von 20 − 10 + 3 = 13 für reiche Landkinder. Der tatsächliche Mittelwert der entsprechenden Stichprobe ist aber 14, um 1 besser als erwartet. Ebenso hätten arme Stadtkinder einen Bonus von 10 durch die Wohnlage und einen Malus von -2 durch das schlechte Einkommen, das ergibt einen erwarteten Mittelwert von 28. Der tatsächliche Mittelwert der Stichprobe ist 29, um 1 besser als erwartet. In der Berechnung der erwarteten Mittelwerte sind wir davon ausgegangen, dass jeder Faktor seinen Beitrag zur Verbesserung oder Verschlechterung einbringt, und sich diese beiden Beiträge einfach zum Gesamtdurchschnitt addieren. Es könnten sich die Faktoren aber gegenseitig beeinflussen. Vielleicht wirkt sich der Wohnort auf reiche und arme Kinder ganz verschieden aus: Ein Einfamilienhaus auf dem Land mit großem Garten ist vielleicht kindgerechter als eine noch so vornehme Stadtwohnung. Arme Kinder in der Stadt spielen vielleicht eher auf der Straße, während reiche möglicherweise meist in der Wohnung eingesperrt sind. Wenn die Wirkung eines Faktors auf die Zielvariable für verschiedene Faktorstufen des anderen Faktors verschieden ausfällt, sprechen wir von Wechselwirkungen. Im vorigen Absatz haben wir gesehen, dass möglicherweise Wechselwirkungen auftreten, wenn auch nur in unauffälligem Ausmaß. Für jede der Stichprobe haben wir einen entsprechenden Korrekturbeitrag gefunden: Am Land 1, 0 , -1 je nach Einkommen, in der Stadt -1, 0 , 1 je nach Einkommen. Beachten Sie auch, dass sich diese Korrekturbeiträge in jeder Wohnlage und in jeder Einkommenstufe jeweils auf Null summieren. Merksatz 4.1.4.4. Wenn in einer zwei- oder mehrfaktoriellen Varianzanalyse oder in einer Regressionsrechnung die Wirkung eines Faktors auf die Zielvariable durch die Ausprägungen eines anderen Faktors verändert werden kann, sprechen wir von Wechselwirkungen. 4.1. VARIANZANALYSE 183 4.1.4.3. Hierarchie der Modelle. Je nachdem, welche Einflüsse für wichtig erachtet werden, und welche als Zufallseffekte verworfen werden, ergeben sich mehrere verschiedene statistische Modelle für die Situation. Die Aufgabe der Varianzanalyse wird dann sein, herauszufinden, welches der Modelle am besten passt, welche Effekte also als signifikant angesehen werden. Bauen wir zum Beispiel ein Modell, in dem der Einfluss des Wohnorts und der Einkommensverhältnisse ernst genommen werden, aber Wechselwirkungen zwischen den Faktorstufen ausgeschlossen werden. Dann haben wir für reiche Landkinder einen erwarteten Mittelwert von 20 − 10 + 3, dazu kommt aber zweifellos noch eine Streuung innerhalb der Population der reichen Landkinder, welche wir durch eine normalverteilte Zufallsvariable σZ darstellen. Dabei ist Z standardnormalverteilt, σZ hat also Mittelwert 0 und Standardabweichung σ. Das Testergebnis eines reichen Landkindes ist dann eine Zufallsvariable YLand,reich , die sich folgendermaßen zusammensetzt: YLand,reich YLand,reich = = 20 µ + + (−10) αLand + + 3 βreich + + σZ σZ Ebenso ist das Modell für das Testergebnis eines Stadtkindes aus durchschnittlichen Verhältnissen YStadt,mittel YStadt,mittel = = 20 µ + + 10 αStadt + + (−1) βmittel + + σZ σZ Sollen auch Wechselwirkungen zwischen den Faktoren eingerechnet werden, führen wir auch noch die Korrekturterme für die einzelnen Stichproben ein, z.B. YLand,reich YLand,reich = = 20 µ +(−10) +αLand +3 +βreich +1 +γLand,reich +σZ +σZ Auf diese Weise erhalten wir ein komplexeres Modell. Sollen aber nur die Einflüsse des Wohnortes eingebaut sein, und wird der Faktor Einkommenstufe als irrelevant angesehen, fällt das Modell entsprechend einfacher aus: YLand,reich YLand,reich = = 20 µ + + (−10) αLand + + σZ σZ Insgesamt kommen wir auf 5 verschiedene Modelle: Modell 1.) berücksichtigt keine Faktorwirkungen Gleichung Yij = µ + σZ Zusatzbedingungen 2a.) Wohnlage Yij = µ + αi + σZ α1 + α2 = 0 2b.) Einkommen Yij = µ + βj + σZ β1 + β2 + β3 = 0 3.) Wohnlage und Einkommen 4.) Wohnlage und Einkommen und Wechselwirkungen Yij = µ + αi + βj + σZ Yij = µ + αi + βj + γij + σZ P α = 0, Pi i j βj = 0 P Pi αi = 0, β =0 Pj j γ = 0, Pi ij j γij = 0 In allen Modellen ist σ ≥ 0 und Z eine standardnormalverteilte Zufallsvariable. Der Index i durchläuft die Faktorstufen Land - Stadt, der Index j durchläuft die Faktorstufen reich - mittel - arm. Die αi , βj , γi,j und σ sind hier Modellparameter, welche sich aus den Daten schätzen lassen. Tatsächlich haben wir ja alle bis auf σ bereits durch die Analyse der Mittelwerte berechnet. Beachten Sie auch, dass wir eigentlich nur das komplexeste Modell 4 formulieren müssten. Die einfacheren Modelle erhalten wir aus Modell 4 durch Nullsetzen bestimmter Parameter. Zum Beispiel erhalten wir Modell 2b, wenn wir in Modell 4 alle γij und alle αi auf Null setzen. Merksatz 4.1.4.5. Das allgemeine Modell der zweifaktoriellen Varianzanalyse ist Yij = µ + αi + βj + γij + σZ. 184 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN Der Index i durchläuft dabei die Faktorstufen des ersten Faktors, der Index j durchläuft die Faktorstufen des zweiten Faktors. Dabei haben die Parameter folgende Bedeutung: µ Mittelwert der Gesamtheit αi Einfluss des ersten Faktors auf den Mittelwert βj Einfluss des zweiten Faktors auf den Mittelwert γij Wechselwirkung zwischen den Faktoren σ Zufällige Effekte Die Parameter αi , βj , γi,j werden durch Vergleich der Stichprobenmittelwerte ermittelt. Durch Nullsetzen bestimmter Mengen von Parametern werden einfachere Modelle aus dem allgemeinen abgeleitet. (Die Rolle des Parameters σ wird gleich unten besprochen.) 4.1.4.4. Quadratsummen. Noch immer ist die Frage offen, für welches Modell wir uns letztlich entscheiden sollen. Den Schlüssel wird uns eine genauere Analyse der Zufallseffekte, also von σZ liefern. Wir beginnen mit einer Analyse des einfachsten Modells 1: Hier sind keine Wirkungen von Faktoren eingebaut. Der Mittelwert für alle Situationen ist 20, alles andere wird als Zufallseffekt erklärt. Das heißt, alle Parameter αi , βj , γij sind in diesem Modell durch Definition des Modells gleich Null gesetzt. Die folgende Tabelle zeigt, wie die Stichprobenergebnisse vom Gesamtmittelwert 20 abweichen (“Fehler”). Die Stichprobenergebnisse sind die Realisierungen von Yij = µ + σZ. Da wir µ abgezogen haben, verbleiben in der Liste die Realisierungen von σZ. Aus diesen Realisierungen schätzen wir die Varianz von σZ. Da der Mittelwert von σZ gerade 0 ist, erhalten wir die Varianz durch die Quadratsumme der Realisierungen, dividiert durch die Anzahl der Freiheitsgrade. 24 Daten wurden erhoben, ein Mittelwert, nämlich µ = 20, wurde vor Berechnung der Varianz abgezogen, daher hat diese geschätzte Varianz 23 Freiheitsgrade: Modell 1) Land γ1j µ + α1 + βj + γ1j Fehler: Quadratsumme: Stadt: γ2j µ + α2 + βj + γ2j Fehler: Quadratsumme: βj Quadratsumme gesamt: Freiheitsgrade: c2 : geschätzte Varianz σ reich mittel arm 0 20 -7 -6 -6 -6 146 0 20 -13 -11 -10 -10 419 0 20 -14 -14 -13 -11 682 0 20 10 12 13 13 582 0 0 20 18 19 19 20 326 0 0 20 18 18 18 22 336 0 αi 0 0 µ = 20 2562 23 111.4 Wir machen in der folgenden Tabelle die gleiche Analyse für Modell 2a. Hier ist der Einfluss des Wohnortes eingerechnet, das heißt, die Parameter αi sind die aus der Analyse der Mittelwerte berechneten Beiträge des Wohnortes, während βj und γij nach wie vor auf Null gesetzt bleiben. Nun sind die vorausgesagten Mittelwerte für die Gruppen Land und Stadt verschieden, und den Daten besser angepasst, nämlich 10 für das Land, und 30 für die Stadt. Entsprechend fallen die Abweichungen der Daten von den vorausgesagten Mittelwerten meist kleiner aus, und es ergibt sich eine kleinere Quadratsumme. Nun wurden vor der Berechnung der Quadratsummen drei Parameter zum Abzug verwendet, nämlich µ, α1 und α2 . Allerdings sind α1 und α2 nicht unabhängig, weil sie sich auf Null summieren. Es wurden also vorher zwei Parameter geschätzt, µ 4.1. VARIANZANALYSE 185 und α1 , der dritte ergibt sich zwangsläufig α2 = −α1 . Von 24 Daten verbleiben daher 24 − 2 = 22 Freiheitsgrade. Modell 2a) Land γ1j µ + α1 + βj + γ1j Fehler: Quadratsumme: Stadt: γ2j µ + α2 + βj + γ2j Fehler: Quadratsumme: βj Quadratsumme gesamt: Freiheitsgrade: c2 : geschätzte Varianz σ reich mittel arm 0 10 3 4 4 5 66 0 10 -3 -1 0 0 10 0 10 -4 -4 -4 -1 42 0 30 0 2 3 3 22 0 0 30 -2 -1 -1 0 6 0 0 30 -2 -2 -2 2 16 0 αi -10 10 µ = 20 162 22 7.4 Die geschätzte Varianz in Modell 2a, nämlich 7.4, ist viel kleiner als die in Modell 1. Durch das Einbeziehen der Faktorstufen Land-Stadt kann das Modell viel besser den Daten angepasst werden. Offensichtlich entsteht ein sehr beachtlicher Teil der Streuung der Gesamtstichprobe dadurch, dass zwischen Land- und Stadtkindern im Mittel ein deutlicher Unterschied besteht. Modell 1 kann diesen Unterschied nicht formulieren und nicht erklären, er bleibt als Zufallseffekt unerklärt. Modell 2 erklärt diesen Unterschied, indem α1 und α2 deutlich verschieden sind. Der Zufall muss nur mehr die Streuungen erklären, welche nicht aus dem Stadt-Land-Gegensatz herleitbar sind. Als letztes Beispiel analysieren wir das komplexeste Modell 4, das beide Faktoren und auch deren Wechselwirkungen inkludiert. Modell 4) Land γ1j µ + α1 + βj + γ1j Fehler: Quadratsumme: Stadt: γ2j µ + α2 + βj + γ2j Fehler: Quadratsumme: βi Quadratsumme gesamt: Freiheitsgrade: c2 : geschätzte Varianz σ reich mittel arm 1 14 -1 0 0 1 2 0 9 -2 0 1 1 6 -1 7 -1 -1 0 2 6 -1 32 -2 0 1 1 6 3 0 29 -1 0 0 1 2 -1 1 29 -1 -1 -1 3 12 -2 αi -10 10 µ = 20 34 18 1.89 Die Parameter αi , βj , γij wurden in der Analyse der Mittelwerte berechnet. Nun hat jede Faktorkombination ihren eigenen vorausgesagten Mittelwert, entsprechend klein fallen die Fehler aus. Nur eine Quadratsumme von 18 bleibt durch den Zufall zu erklären, im Vergleich dazu musste in Modell 1 durch den Zufall eine Quadratsumme von 2562 erklärt werden. Vor der Berechnung mussten geschätzt werden: µ, α1 (dann ergibt sich automatisch α2 ), β1 und β2 (dann ergibt sich automatisch β3 , weil die Summe der drei βj Null ergibt), γ11 (dann ergibt sich automatisch γ21 = −γ11 ) und letztlich γ12 (dann ergeben sich automatisch γ22 = −γ12 , γ13 = −γ11 − γ12 und 186 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN γ23 = −γ13 . Also mussten 6 unabhängige Parameter geschätzt werden, und von 24 Daten bleiben 18 Freiheitsgrade. Man kann auch folgendermaßen überlegen: Modell 4 ist gerade so konstruiert, dass für jede Faktorenkombination ein eigener Mittelwert gebildet wird. Das ergibt 6 geschätzte Mittelwerte aus 24 Daten, und es bleiben 18 Freiheitsgrade. Natürlich kann man dieselbe Analyse auch für die übrigen Modelle 2b und 3 anstellen. Tipp 4.1.4.6. In der praktischen händischen Rechnung werden diese Tabellen nicht ausgerechnet. Es gibt, wie bei der einfaktoriellen Varianzanalyse, zahlreiche Rechenvorteile und Abkürzungen. Merksatz 4.1.4.7. Im Modell der Varianzanalyse ist µ + αi + βj + γij der vorausgesagte Mittelwert der Zielvariablen Yij für die Faktorstufenkombination i, j. Sei SSM die Quadratsumme der Realisierungen von Yij − µ − αi − βj − γij im gegebenen Modell und sei ν die Anzahl der Freiheitsgrade. 1.) ν ist die Anzahl der Daten, abzüglich der Anzahl der unabhängigen Parameter, welche vor Berechnung der Quadratsummen geschätzt und abgezogen werden mussten. c2 = SSM ergibt einen Schätzwert für die Varianz von σZ, und damit ein 2.) σ ν Maß für den Einfluss des Zufalls. 3.) Die Quadratsumme SSM ist ein Maß dafür, wieviel Schwankung der Zielvariablen durch den Zufall erklärt werden muss. Je kleiner sie ist, desto genauer erklärt das Modell die Daten, und desto weniger Einfluss kommt dem Zufall zu. 4.) Die Parameter (Mittelwert und Beiträge der Faktoren) sind genau so beschaffen, dass die Quadratsummen durch den Abzug der Parameter möglichst klein werden. Erhält man ein einfacheres Modell durch Nullsetzen von gewissen Parametern aus einem komplexeren Modell, so ist die Quadratsumme des einfacheren Modells größer als die des komplexeren Modells. 4.1.4.5. Testen der Modelle gegeneinander. Die folgende Tabelle zeigt eine Übersicht über alle 5 Modelle, mit ihren Quadratsummen, Freiheitsgraden und geschätzten σ̂. Außerdem wird jedes Modell mit dem nächsten einfacheren Modell verglichen. Modell 1) 2a) Differenz 2b) Differenz 3) Differenz Differenz 4) Differenz auf Modell 1: auf Modell 1: auf Modell 2a: auf Modell 2b: auf Modell 3: Quadratsumme 2562 162 2400 2450 112 50 112 2400 34 16 Freiheitsgrade 23 22 1 21 2 20 2 1 18 2 Mittel der Quadrate 111.4 7.4 2400 116.7 56 2.5 56 2400 1.89 8 F F0.05 324.3* 4.301 0.48 3.467 22.4* 960* 3.493 4.351 4.23* 3.555 Betrachten wir zum Beispiel Modell 2a, welches nur die Wohnlage berücksichtigt. Die Quadratsumme der Fehler ist 162. Das nächst einfachere Modell ist Modell 1, wir erhalten es aus Modell 2a durch Nullsetzen von α1 und α2 . Die Quadratsumme von Modell 1 muss also größer 4.1. VARIANZANALYSE 187 sein, sie beträgt 2562. Das macht einen Unterschied von 2400 auf die Quadratsumme von Modell 2a. Dies ist der Anteil der von Modell 1 noch nicht erklärten Schwankungen, welche durch den Faktor Wohnlage in Modell 2a erklärt werden können. Wir haben also folgende Zerlegung Von Modell 1 nicht erklärte Schwankungen Von Modell 2 erklärter Anteil Von Modell 2 nicht erklärter Anteil 2562 2400 162 23 Freiheitsgrade 1 Freiheitsgrad 22 Freiheitsgrade geschätzte Varianz 111.4 geschätzte Varianz 2400 geschätzte Varianz 7.4 Testen wir die Hypothesen H0 : Es gilt Modell 1, also α1 = α2 = 0 (d.h. der Faktor Wohnlage hat keinen Einfluss auf die Leistungen der Kinder) H1 : Es gilt Modell 2a mit α1 6= 0 oder α2 6= 0. α: Signifikanzniveau 0.05. Für die Alternativhypothese spricht, dass durch Einbringen der Wohnlage in Modell 2a ein großer Anteil von Schwankung erklärt werden kann, der ohne Berücksichtigung der Wohnlage nur als Zufallsschwankung gedeutet wurde. Als Teststatistik verwenden wir F = Von Modell 2a erklärte Varianz 2400 = = 324.3. Von Modell 2a nicht erklärte Varianz 7.4 Je größer F ist, desto stärker sprechen die Daten für die Alternativhypothese. Als Vergleichswert dient der kritische Wert Fα einer F-Verteilung mit 1 Freiheitsgrad des Zählers und 22 Freiheitsgraden des Nenners. Für α = 0.05 ist das 4.301. Da F = 324.3 ≥ 4.301 = Fα , ist die Alternativhypothese untermauert: Aus den Daten kann gefolgert werden, dass die Wohnlage Einfluss auf das Abschneiden der Kinder in diesem Test hat. Dagegen liefert der gleiche Vergleich zwischen Modell 2b und Modell 1 keinen signifikanten Einfluss durch den Faktor Einkommen. Modelle 2a und 2b können nicht direkt durch einen F-Test miteinander verglichen werden: Keines von beiden ist ein Spezialfall des anderen. Methode 4.1.4.8 (F-Test zum Vergleich von Modellen in der Varianzanalyse). Wir betrachten zwei Modelle Modell A und Modell B in einer Varianzanalyse. Dabei sei Modell A das einfachere Modell im Sinne, dass Modell A aus Modell B hervorgeht, indem man in Modell B einige Parameter auf Null festlegt. Die Fehlerquadratsummen in den Modellen seien SSMA bzw. SSMB , mit den Freiheitsgraden νA und νB . Es gilt dann jedenfalls: SSMA ≥ SSMB und νA > νB . 1) Die Quadratsumme von A wird folgendermaßen zerlegt Von Modell A nicht erklärt Von Modell B erklärt Von Modell B nicht erklärt Quadratsumme Freiheitsgrade SSMA νA SSMA − SSMB νA − νB SSMB νB Mittel der Quadrate MSMA = MSMD = SSMA νA SSMA − SSMB νA −νB MSMB = SSMB νB 2) Wir testen die Hypothesen: H0 : Es gilt das einfachere Modell A. H1 : Es gilt das komplexere Modell B. α: Signifikanzniveau α. 3) Die Teststatistik ist MSMD F = . MSMB 4) Der kritische Wert ist Fα für eine F-Verteilung mit νA − νB Freiheitsgraden des Zählers und νB Freiheitsgraden des Nenners. 5) Ist F ≥ Fα , so wird die Nullhypothese zurückgewiesen. 188 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN In der Tabelle der 5 Modelle wurden alle Vergleichstests ausgeführt. Wir sehen, dass jedenfalls Modell 2a statt Modell 1 gilt, jedoch wird Modell 3 signifikant gegenüber Modell‘2a unterstützt, sodass wir auch das Einkommen als einflussreichen Faktor berücksichtigen, auch wenn der Test von Modell 2b gegen Modell 1 nicht signifikant war. Letztlich wird aber auch der Test von Modell 4 gegenüber Modell 3 signifikant, sodass wir Wechselwirkungen zwischen den Faktoren Einkommen und Wohnlage annehmen müssen. Aus solchen Wechselwirkungen erklärt sich auch, dass der Test auf den Faktor Einkommen allein nicht signifikant wurde, während der Test auf das Faktorenpaar Einkommen und Wohnlage gegen Wohnlage allein signifikant war. Was Sie jetzt können: Begriffe und Wissen: Sie kennen das Prinzip und den Anwendungsbereich der zweifaktoriellen Varianzanalyse. Hierarchien von Modellen. Methoden: F-Test zwischen ineinandergeschachtelten Modellen. 4.2. Lineare Regression Übersicht: 1. Modell der linearen Regression 2. Interpretation der Ergebnisse und Modelldiagnostik Wiederholen Sie vor dieser Sektion die Berechnung und Interpretation der Regressionsgeraden (Sektion 1.3). 4.2.1. Modell der linearen Regression. Übersicht: 1. Zielsetzung und lineares Regressionsmodell 2. Vorteil einer multiplen Analyse gegenüber mehreren einfachen Regressionen 3. Die Modellhierarchie und Strategien zur Modellauswahl 4.2.1.1. Zielsetzung und lineares Regressionsmodell. Varianzanalyse deckt Zusammenhänge zwischen einem oder mehreren nominalen unabhängigen Variablen (Faktoren) und einer abhängigen metrischen Variablen auf. Lineare Regression dagegen deckt lineare Zusammenhänge zwischen einer oder mehreren unabhängigen (erklärenden) Variablen und einer abhängigen Variablen auf. Beispiel 4.2.1.1. An einer Abteilung eines Krankenhauses, die auf Behandlung von Bluthochdruck spezialisiert ist, werden bei allen Neuaufnahmen unter anderem die Daten Alter, Körpergewicht, Körpergröße, systolischer Blutdruck, Cholesterin erhoben. Ein wesentliches Merkmal für den Behandlungsfortschritt ist der systolische Blutdruck 6 Monate nach der Aufnahme. Um mögliche Zusammenhänge zwischen den Aufnahmedaten und dem Blutdruck 6 Monate später aufzudecken, wurde eine multiple Regression angesetzt, wobei die Aufnahmedaten als erklärende (“unabhängige”) Variable und der Blutdruck nach 6 Monaten als abhängige Variable eingesetzt wurden. Quelle: A. Bühl, P. Zöfel, SPSS 12. 9. Auflage, Pearson, 2005. 4.2. LINEARE REGRESSION 189 Diskussion: Alle gegebenen Messdaten und Laborwerte sind von Patient zu Patient verschieden, sie sind Zufallsvariable, abhängig vom Ergebnis des Experiments: Ein neuer Patient wird untersucht. Wenn auch für den einzelnen Patienten aus den Labordaten zum Aufnahmezeitpunkt nicht eindeutig der Blutdruck nach einem halben Jahr Behandlung bestimmt werden kann, so erwartet man doch einen statistischen Zusammenhang. Allerdings wissen wir zu Beginn der Studie nicht, welche von den Daten zum Aufnahmezeitpunkt bestimmend für den Blutdruck nach 6 Monaten sein werden. Diese Daten festzustellen, wird eines der wichtigsten Ergebnisse der Regression sein. ¤ Definition 4.2.1.2. Das Modell der multiplen linearen Regression für die unabhängigen Variablen (erklärenden Variablen, Einflussvariablen) X1 , · · · , Xk und die abhängige Variable Y lautet: Y = b0 + b1 X1 + b2 X2 + · · · + bk Xk + σZ, dabei sind b0 , b1 , · · · , bk und σ > 0 die Modellparameter. Z ist eine standardnormalverteilte Zufallsvariable, welche von X1 , · · · , Xk unabhängig ist. Diskussion: Das Modell sagt also, dass sich Y nach einem linearen Gesetz aus den Xi berechnen lässt, wobei allerdings noch ein unvorhersagbarer Zufallseffekt hinzukommt. Dieser wird durch σZ beschrieben. Je größer σ, desto stärker der Einfluss des Zufalls, und desto unsicherer die Berechnung von Y aus den Xi . Obwohl die Variablen X1 , · · · , Xk die “unabhängigen” Variablen in der Regression heißen, ist nicht verlangt, dass sie im statistischen Sinn voneinander unabhängige Zufallsvariable sind. Sehr wohl ist aber verlangt, dass Z von den restlichen X1 , · · · , Xk unabhängig ist. ¤ Merksatz 4.2.1.3. Das Modell der linearen Regression zerlegt die abhängige Variable Y in die Summe von zwei Teilen: 1.) einen Teil, der sich aus den erklärenden Variablen (zumindest theoretisch) exakt vorherberechnen läßt: b0 + b1 X1 + · · · + bk Xk . Der Zufall wirkt auf diesen Teil höchstens insofern, als die Xk selbst vom Zufall abhängen können. 2.) einen Teil, der von den erklärenden Variablen statistisch unabhängig und rein vom Zufall bestimmt ist: σZ. Je geringer der Anteil des zufälligen Teils am Gesamtergebnis ist, desto genauer lässt sich Y aus den Variablen Xi vorhersagen. Allerdings bleiben uns die Parameter b0 , · · · , bk , welche man zur Berechnung des deterministischen Teiles braucht, in Wirklichkeit unbekannt. Die Regressionrechnung liefert aber Schätzwerte für diese Parameter. Methode 4.2.1.4. Bei der linearen Regression sind n unabhängige Datensätze x1,1 .. . , ··· , xk,1 .. . , y1 .. . x1,n , ··· , xk,n , yn von Realisierungen von X1 , · · · , Xk , Y gegeben. Durch die Regressionsrechnung werden Schätzer für die Modellparameter b̂1 , · · · , b̂k , σ̂ und deren Genauigkeit bestimmt, sowie die Güte der Datenanpassung ermittelt. Computerprogramme liefern uns auf einen Schlag die erforderlichen Rechenergebnisse. Wir werden die Formeln, die dabei verwendet werden, nicht im Detail vorstellen. Wichtig ist aber die Interpretation der Ergebnisse. 190 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN Tipp 4.2.1.5. Ebenso wie es Paare von Merkmalen gibt, die zwar in einem deutlichen nichtlinearen Zusammenhang stehen, aber zu keiner Regressionsgerade passen und daher (fast oder sogar ganz) unkorreliert sind, kann auch eine multiple lineare Regression nur lineare Zusammenhänge zwischen Merkmalen aufdecken. Definition 4.2.1.6. Eine lineare Regression mit nur einer erklärenden Variablen heißt einfache Regression. Bei mehreren erklärenden Variablen spricht man von multipler Regression. Werden gleichzeitig auch mehrere abhängige Variablen betrachtet, spricht man von multivariater Regression. Diskussion: Eine einfache lineare Regression ist rechnerisch nichts Anderes als die Berechnung einer Regressionsgeraden. Vom Standpunkt der schließenden Statistik kommt noch dazu, dass für die Parameter und Modelle Signifikanzschätzungen vorgenommen werden. ¤ 4.2.1.2. Vorteil einer multiplen Analyse im Gegensatz zu mehreren einfachen Regressionen. Während sich die einfache Regression auf die Wechselwirkung von zwei Variablen miteinander beschränkt, kann die multiple Reaktion das Netzwerk von Wechselwirkungen mehrerer erklärender Variablen untereinander und zur abhängigen Variablen ausloten. Die Wechselwirkungen der erklärenden Variablen untereinander sind von entscheidender Bedeutung. Es ist eine sehr wesentliche Entscheidung, welche Variablen in die Liste der erklärenden Variablen aufgenommen werden. Läßt man eine wichtige Variable weg, kann das Ergebnis der gesamten Studie verfälscht sein, wie die beiden folgenden Beispiele zeigen: Beispiel 4.2.1.7. Ist das Tragen von Zündhölzern krebsfördernd? Eine Studie, die nur zwei dichotome Variablen vergleicht: “Proband trägt gewöhnlich Zündhölzer bei sich”, “Proband hat Lungenkrebs”, könnte eine solche Behauptung signifikant untermauern. Denn Raucher unterliegen einem höheren Krebsrisiko, aber sie tragen auch öfter Zündhölzer bei sich. Um keinen Trugschlüssen aufzusitzen, muss in eine seriöse Studie auch die Variable “Anzahl der gerauchten Zigaretten pro Tag” (oder ähnlich) eingebaut werden. Beispiel 4.2.1.8. Verkürzt Bettruhe die Heilung von leichten Virusinfektionen? Eine Studie an ProbandInnen, die im letzten Jahr eine leichte Virusinfektion hatten, und nur die Variablen “PatientIn befolgte Bettruhe”, ”Heilungsdauer der Infektion” würde eine solche Behauptung möglicherweise nicht unterstützen, vielleicht sogar ins Gegenteil verkehren. Denn die PatientInnen mit den schweren, und daher auch lang dauernden Infektionen werden sich eher zur Bettruhe entschließen. Baut man in die Studie eine Variable ein, die die Schwere der Infektion bewertet, wird der Zusammenhang zwischen Bettruhe und Genesungsdauer anders beurteilt werden. Merksatz 4.2.1.9. Wir betrachten die Wirkung einer Einflussvariablen X auf eine abhängige Variable Y . 1.) Ein Confounder ist eine Variable Z, welche mit X korreliert ist, und kausale Einflüsse auf Z ausübt. Ein Confounder kann in einer Regression von X auf Y eine Wirkung von X auf Y vortäuschen. Um dieser Täuschung zu entgehen, muss der Confounder in die Liste der Einflussvariablen der Regression aufgenommen werden. 2.) Ein Suppressor ist ein Confounder, der einen bestehenden Zusammenhang zwischen X und Y verschleiert. 4.2. LINEARE REGRESSION 191 Beispiel 4.2.1.10. Verkürzt Alkoholkonsum die Lebensdauer? Welche Auswirkungen hätte es auf eine Studie zu diesem Thema, wenn man die möglichen “Confounder” Blutdruck, Cholesterin, Leberwerte in die multiple Regression einschließt? Diskussion: Das Ergebnis wäre wahrscheinlich, dass zwar Bluthochdruck, erhöhtes Cholesterin und schlechte Leberfunktionen mit kürzerer Lebensdauer einhergehen, doch der Zusammenhang zwischen Alkoholkonsum und Lebensdauer nicht signifikant ausgewiesen würde. Viele der Wege, über die Alkohol auf die Lebensdauer wirkt, wurden schon als eigene erklärende Variablen zugelassen. ¤ 4.2.1.3. Modellhierarchie und Strategien zur Modellauswahl. Bei der multiplen Regression steht eine Vielzahl von möglichen Modellen zur Auswahl, je nachdem, welche Variablen eingeschlossen werden. Bei k Variablen gibt es 2k mögliche Modelle. Typischerweise steht zu Beginn der Untersuchung nicht fest, welche der erklärenden Variablen in das endgültige Modell aufgenommen werden sollen. Beispiel 4.2.1.11. Bei einer multiplen Regression von 2 erklärenden Variablen auf eine abhängige Variable sind folgende vier Modelle möglich: Y = b0 Y Y Y = = = b0 b0 b0 + σZ + + b1 X1 b1 X1 + + b2 X2 b2 X2 + σZ + σZ + σZ (triviales Modell: Y von beiden Xi unabhängig), (Y von X1 abhängig), (Y von X2 abhängig), (volles Modell). Merksatz 4.2.1.12. Es ist nicht unbedingt das komplexeste Modell das beste: Je komplexer ein Modell ist, desto besser kann es die Daten wiedergeben. Andererseits gilt: Je mehr Parameter geschätzt werden müssen, desto unsicherer sind die Schätzungen der einzelnen Parameter. Man könnte einfach alle Modelle durchrechnen, und jedes mit jedem vergleichen. Bei vielen erklärenden Variablen wird das aber äußerst umfangreich und unübersichtlich, daher gibt es andere Strategien. Sie beruhen auf dem Signifikanzniveau einer Variablen in einem Modell (vgl. Methode 4.2.2.1: Zu jeder Variablen im Modell kann ein Signifikanzniveau berechnet werden. Je kleiner dieses ist, desto wichtiger ist die Variable im Modell.) Methode 4.2.1.13. Bei der multiplen linearen Regression gibt es mehrere Systeme, die verschiedenen Modelle abzusuchen und zu vergleichen: 1) Alle Modelle: Man rechnet die Regression für alle möglichen Modelle durch und wählt am Ende das beste Modell aus. Nachteil: Bei vielen Variablen sind das sehr viele Modelle. 2) Einschlussmethode: Man legt eine Signifikanzschwelle für Einschluss fest. Man berechnet zunächst das triviale Modell. Dann bestimmt man für jede Variable die Signifikanz p, die sie hätte, wenn man sie in das Modell einbauen würde. Die Variable mit dem kleinsten Signifikanzniveau wird eingebaut, falls das Niveau unter der Signifikanzschwelle für den Einbau liegt. Das neue Modell wird durchgerechnet. Für das neue Modell überprüft man wieder alle noch nicht eingebauten Variablen. Die Variable mit der kleinsten Signifikanz wird eingebaut, falls die Signifikanz unter dem Schwellwert liegt. So baut man das Modell immer weiter aus, bis keine von den noch nicht eingefügten Variablen ein Signifikanznivau unter der Schwelle für den Einschluss erreicht. 192 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN 3) Ausschlussmethode: Man legt ein Signifikanznivau für den Ausschluss fest. Man beginnt mit dem vollen Modell (alle Variablen eingebaut) und bestimmt, welche Variable den höchsten p-Wert hat. Liegt das Signifikanznivau dieser Variablen über der Schwelle, so lässt man sie aus dem Modell weg. Dieser Schritt wird solange wiederholt, bis ein Modell übrigbleibt, in dem alle enthalten Variablen Signifikanzniveaus unterhalb der Schwelle besitzen. 4) Schrittweise Methode: Eine Mischung aus Einschluss- und Ausschlussmethode. Man beginnt mit dem trivialen Modell und baut weitere Modelle, indem man entweder Variablen hinzufügt oder weglässt, bis man ein Modell erhält, in dem alle enthaltenen Variablen signifikant sind, und keine nicht enthaltene Variable signifikant würde, wenn man sie hinzunähme. Die Signifikanzsschwelle für den Einschluss muss kleiner sein als die Schwelle für den Ausschluss, sonst pendelt am Ende ständig eine Variable zwischen Einschluss und Ausschluss hin und her, und das Programm findet kein Ende der Rechnung. Statistikpaketen kann man bei Ansatz einer multiplen Regression vorgeben, nach welcher dieser Strategien sie die Modelle durchsuchen sollen. Die Ausgabe enthält dann die Parameter und deren Signifikanzen, sowie andere statistische Kennwerte separat für jedes der durchsuchten Modelle. Was Sie jetzt können: Begriffe und Wissen: Einfache und multiple lineare Regression, Modell der linearen Regression, Confounder und Suppressor, Modellhierarchie. 4.2.2. Interpretation der Ergebnisse und Modelldiagnostik. Übersicht: 1. 2. 3. 4. Interpretation der Parameter und ihre Signifikanz Vorhersage und Residuen Quadratsummen und Vergleich der Modelle untereinander Multikollinearität 4.2.2.1. Interpretation der Parameter und ihrer Signifikanz. Methode 4.2.2.1 (Interpretation der Regressionsparameter bei multipler Regression). Wenn die Variable Nummer i im Modell eingeschlossen ist, sagt der Modellparameter bi folgendes aus: Erhöht man Xi um eine Einheit, und lässt alle anderen Variablen Xj unverändert, so steigt Y im Mittel um bi Einheiten. Aus den Daten lassen sich erwartungstreue Schätzer b̂i für alle eingeschlossenen Variablen berechnen, dazu lassen sich auch Standardfehler des Schätzers und Konfidenzintervalle angeben. Zum Parameter bi gehört auch eine Signifikanz. Diese ist der p-Wert für folgenden Test: H0 : Es gilt das Modell mit allen Variablen, die im vorliegenden Modell eingeschlossen sind, ausser der Variablen i. H1 : Es gilt das vorliegende Modell mit bi 6= 0. 4.2. LINEARE REGRESSION 193 Ist das Signifikanzniveau von bi kleiner als ein vorgegebenes Signifikanzniveau α, so bedeutet das, dass ein Einfluss der Variablen Xi auf die abhängige Variable Y statistisch untermauert werden kann. Merksatz 4.2.2.2. Der Parameter b̂i hängt auch wesentlich davon ab, welche andere Variablen im Modell eingeschlossen sind. In den beiden Modellen Y = b0 + b1 X1 + σZ, Y = b0 + b1 X1 + b2 X2 + σZ, hat b̂1 normalerweise bei denselben Daten verschiedene Zahlenwerte und auch verschiedene Signifikanzen. Ist der Parameter bi signifikant, so ist statistisch untermauert, dass die Variable Xi einen Einfluss auf Y hat. Wie stark dieser Einfluss ist, ist eine ganz andere Frage. Beispiel 4.2.2.3. Für drei Zufallsvariablen X1 , X2 , Y gelte das Modell Y = 0.2X1 + 20X2 + 5Z. Dabei sei Z standardnormalverteilt und von X1 und X2 unabhängig. Die Standardabweichung von X1 sei ungefähr 1000, die Standardabweichung von X2 sei ungefähr 0.01. Wie stark wird Y durch die Zufallsvariablen X1 , X2 beeinflusst? Diskussion: Der unabhängige Zufallsanteil in Y ist 5Z. Da Z die Standardabweichung 1 hat, beträgt die Standardabweichung des zufälligen “Rauschens” in Y also 5. Die Variable X2 hat die Standardabweichung 0.01. Daher hat der Beitrag 20X2 dieser Variablen zu Y die Standardabweichung 20×0.01 = 0.2, deutlich geringer als das Zufallsrauschen. Dagegen hat der Beitrag 0.2X1 zu Y die Standardabweichung 0.2 × 1000 = 200. Der größte Teil der Schwankung von Y entsteht also aus der Einwirkung von X1 , obwohl gerade b1 der kleinste Koeffizient im Modell ist. Dagegen ist die Wirkung von X2 trotz des großen Koeffizienten b2 vor dem Hintergrund des Zufallsrauschens nur bei großen Datenmengen überhaupt auszunehmen. ¤ Um die Stärke der Auswirkung der Variablen vergleichen zu können, standardisiert man die Regressionsparameter: Methode 4.2.2.4 (Standardisierte Regressionsparameter bei multipler Regression). Wir betrachten ein Regressionsmodell Y = b0 + b1 X1 + · · · + bk Xk + σZ. Es seien σ̂(Xi ) und σ̂(Y ) die aus der Stichprobe geschätzten Standardabweichungen von Xi und Y . Die Parameter σ̂(Xi ) β̂i = b̂i σ̂(Yi ) heißen die standardisierten Regressionsparameter. Die standardisierten Regressionsparameter sind ein Maß für die Stärke des Einflusses von Xi auf Y . Je größer β̂i , desto stärkeren Einfluss übt Xi auf Y aus. Beispiel 4.2.2.5. Die multiple Regression aus Beispiel 4.2.1.1 wurde nach dem schrittweisen Verfahren angesetzt. Schwellwert der Signifikanz für Einschluss war 0,05, für Ausschluss 0,10. SPSS lieferte unter anderem folgende Tabellen: 194 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN Koeffizienten Nicht standard. Koeffizienten B Standardfehler Modell 1 (Konstante) 3 Konfid.intervall für B (95%) UnterObergrenze grenze T Signifikanz 7,930 ,000 71,641 118,821 4,725 ,000 ,191 ,465 6,766 ,000 59,788 109,047 95,141 11,997 ,328 ,069 84,417 12,477 syst. Blutdruck Ausgangswert ,312 ,069 ,322 4,554 ,000 ,177 ,448 Alter ,217 ,082 ,187 2,635 ,009 ,054 ,379 68,572 13,360 5,133 ,000 42,200 94,944 syst. Blutdruck Ausgangswert ,278 ,068 ,287 4,080 ,000 ,143 ,413 Alter ,296 ,085 ,255 3,484 ,001 ,128 ,464 Körpergewicht ,228 ,078 ,215 2,924 ,004 ,074 Abhängige Variable: Systolischer Blutdruck nach 6 Monaten. ,382 syst. Blutdruck Ausgangswert 2 standard. Koeff. Beta (Konstante) (Konstante) ,339 Ausgeschlossene Variablen Modell 1 2 3 Alter Cholesterin Körpergewicht Körpergrösse Blutzucker Cholesterin Körpergewicht Körpergrösse Blutzucker Cholesterin Körpergrösse Blutzucker Beta In ,187 ,077 ,133 -,115 ,166 ,050 ,215 -,058 ,150 ,055 -,125 ,124 T 2,635 1,027 1,853 -1,606 2,300 ,673 2,924 - ,765 2,098 ,753 -1,634 1,757 Signifikanz ,009 ,306 ,066 ,110 ,023 ,502 ,004 ,446 ,037 ,453 ,104 ,081 Was kann man aus diesen Tabellen ablesen? Diskussion: Das Programm hat drei verschiedene Modelle durchgerechnet. Abhängige Variable war der systolische Blutdruck 6 Monate nach Behandlungsbeginn. In Modell 1 war nur der Blutdruck bei Aufnahme als erklärende Variable zugelassen. In Modell 2 wurde zusätzlich das Alter als erklärende Variable herangezogen, Modell 3 nimmt dazu noch das Körpergewicht. Obwohl wir dem Programm die schrittweise Methode vorgegeben hatten, welche sowohl erlaubt, Variablen einzuschließen, als auch wieder Variablen zu entfernen, hat das Programm hier hintereinander drei Variablen eingeschlossen, keine ausgeschlossen, und dann geendet. Für jedes der drei Modelle werden Schätzungen und Signifikanzen für die Koeffizienten angegeben. Zum Beispiel betrachten wir den Tabellenteil für Modell 2: Wir finden zunächst die Liste der eingeschlossenen Einflussvariablen, in der nächsten Spalte, mit B bezeichnet, die Schätzwerte für die Regressionsparameter. Das geschätzte Modell wäre also: Druck nach 6 Monaten = 84.417 + 0.312 × Anfangsdruck + 0.217 × Alter + zufällige Störung. Die standardisierten Koeffizienten (hier Beta genannt) sind β̂Anfangsdruck = 0.322, β̂Alter = 0.187. Der Einfluss des Anfangsdruckes ist also etwas stärker als der Einfluss des Alters. Alle drei Parameter sind stark signifikant, der p-Wert ist auf drei Stellen genau gleich Null. Daher kann für jeden Parameter die Hypothese, dass er in Wirklichkeit Null ist, mit hoher Signifikanz zurückgewiesen werden. In der Tabelle finden wir auch Konfidenzintervalle für die Parameter, sowie den 4.2. LINEARE REGRESSION 195 Standardfehler des Schätzers des Parameters und die t-Statistik, aus der die Signifikanz berechnet wird, als Nebenergebnisse. Vergleichen wir das zweite Modell mit Modell 3, so stellen wir fest, dass nicht nur eine neue Variable, das Körpergewicht, eingeschlossen wurde. Auch die Parameter der beiden schon im Modell 2 vorhandenen Variablen und ihre Signifikanzen haben sich etwas geändert. Diese Änderung könnte viel stärker ausfallen, wenn zwischen Ausgangsblutdruck und Körpergewicht oder Alter und Körpergewicht starke Zusammenhänge bestehen. Dass sich die Parameter wenigstens in der Größenordnung nicht sehr geändert haben, ist beruhigend. Es zeigt, dass Wechselwirkungen zwischen den drei erklärenden Variablen die Regression nicht allzu stark durcheinander bringen. Wir stellen auch fest, dass im dritten Modell alle Parameter signifikant sind, am wenigsten signifikant das Körpergewicht mit p = 0.004. Es besteht kein Grund, eine Variable wegzulassen. Ob ein Grund bestünde, eine Variable aufzunehmen, sieht man in der Tabelle der ausgeschlossenen Variablen. Betrachten wir wieder Modell 2. Ausgeschlossen von diesem Modell waren Cholesterin, Körpergewicht, Körpergröße und Blutzucker. Für jede dieser Variablen zeigt die Tabelle die Werte, die sie bekäme, wenn man sie als nächstes einschließen würde. Betrachten wir zunächst die Signifikanzen. Das Körpergewicht hat die deutlichste Signifikanz mit nur 0.004. Blutzucker wäre immerhin noch signifikant mit 0.037. In Modell 3 wird daher das Körpergewicht aufgenommen werden, und tatsächlich finden wir es dort mit der Signifikanz 0.004. Die Spalte Beta In gibt den standardisierten Koeffizienten an, den die Variable bekommt, wenn sie aufgenommen wird. Wir finden für das Körpergewicht 0.215, auch dieser Wert findet sich in der Koeffiziententabelle von Modell 3 wieder. Die Spalte T zeigt die t-Statistik, mit der die Signifikanzen berechnet wurden. Betrachten wir nun die ausgeschlossenen Variablen zu Modell 3, sehen wir, dass keine davon signifikant würde, wenn sie in das Modell aufgenommen würde. Daher wird keine weitere Variable aufgenommen. ¤ 4.2.2.2. Voraussage und Residuen. Methode 4.2.2.6 (Vorhersage mittels linearer Regression). Wir gehen davon aus, dass eine lineare Regression von den erklärenden metrischen Merkmalen X1 , · · · , Xk auf das metrische abhängige Merkmal Y nach dem Modell Y = b0 + b1 X1 + · · · + bk Xk + σZ zu den geschätzten Parametern b̂0 , b̂1 , · · · b̂k , σ̂ geführt hat. Seien x1 , x2 , · · · , xk gegebene Zahlen. Für die Situation, dass die Variablen Xi durch die Werte xi realisiert werden, wird durch das Modell ein Schätzer von Y gegeben: ŷ = b̂0 + b̂1 x1 + · · · + b̂k xk . Der Wert ŷ heißt der vom Modell vorhergesagte Wert und ist ein erwartungstreuer Schätzer für Y . Liegt zugleich eine Realisierung y von Y in dieser Situation vor, so heißt die Abweichung dieser Realisierung vom vorhergesagten Wert e = y − ŷ das Residuum. Diskussion: Laut Modell zerfällt Y in einen vorhersagbaren Teil b0 + b1 X1 + · · · + bk Xk und einen rein zufälligen Teil σZ. Da aber für die Parameter bi nur Schätzwerte b̂i bekannt sind, haben wir den folgenden Schätzer für den vorhersagbaren Teil: Ŷ = b̂0 + b̂1 X1 + · · · + b̂k Xk . Der zufällige Teil σZ wird dann durch Y − Ŷ , also durch die Residuen, geschätzt. ¤ Merksatz 4.2.2.7. Ein und derselbe vorhergesagte Wert ŷ = b̂0 + b̂1 x1 + · · · + b̂k xk aus einer linearen Regression lässt sich auf zwei verschiedene Weisen interpretieren: 196 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN 1. In einer Realisierung sind die erklärenden Variablen X1 , · · · , Xk durch die Zahlenwerte x1 , · · · , xk realisiert. Was ist die Realisierung von Y ? (Vorhersage des Einzelwertes.) 2. Was ist der Mittelwert aller Realisierungen von Y in den Fällen, in denen X1 , · · · , Xk durch die Zahlen x1 , · · · , xk realisiert werden? Während der Zahlenwert der Vorhersage in beiden Fällen ŷ ist, sind die Konfidenzintervalle der Vorhersage verschieden: Die Vorhersage des Mittelwertes hat ein wesentlich schmäleres Konfidenzintervall als die Vorhersage des Einzelwertes. Diskussion: Bei der Vorhersage des Einzelwertes muss eine Realisierung von b0 + b1 x1 + · · · + bk xk + σZ geschätzt werden. Einerseits können die bi nur geschätzt werden, durch die geschätzten Parameter b̂i . Vor allem ist aberder Zufallsanteil Z ist völlig unbekannt. Bei der Vorhersage des Mittelwertes muss b0 + b1 x1 + · · · + bk xk geschätzt werden. Die Unsicherheit dieses Schätzers beruht also nur darauf, dass die Parameter bi nur als Schätzwerte b̂i vorliegen. ¤ Bemerkung 4.2.2.8. Die folgenden Faktoren beeinflussen die Unsicherheit der Vorhersage, und damit die Breite der Konfidenzintervalle: 1) Vorhersage des Einzelwertes ist unsicherer als Vorhersage des Mittelwertes. 2) Unsicherheit in der Schätzung der Parameter b̂i . 3) Starker Beitrag des Zufalls, also großes σ̂. 4) Daten für x1 , · · · , xk , welche weit entfernt von den Datensätzen liegen, aus denen die Regressionsparameter geschätzt wurden. Umgekehrt kann sich die Schätzung der Parameter stark ändern, wenn man einen Datensatz zur Regression dazunimmt, welcher von den anderen Datensätzen weit entfernt liegt. Man sagt, dass solche Datensätze einen starken Hebelwert haben. Diskussion: Statistikprogramme können zu jedem Datensatz den Hebelwert berechnen. Auf Datensätze mit besonders großem Hebelwert reagiert die Regression besonders empfindlich, daher empfiehlt es sich, solche Daten besonders sorgfältig nachzuprüfen. Sind es vielleicht Ausreisser? ¤ Merksatz 4.2.2.9. Da die Residuen Schätzer für den Teil σZ sind, müssen sie annähernd normalverteilt mit Mittelwert 0 sein. Ausserdem müssen sie von den erklärenden Variablen Xi annähernd unabhängig sein. Eine Überprüfung der Residuen auf diese Kriterien heißt Residuendiagnostik. Ergibt die Residuendiagnostik, dass diese Bedingungen verletzt sind, sind die Voraussetzungen für die lineare Regression nicht gegeben. Die Punktschätzer der Parameter funktionieren allerdings auch mit einem linearen Modell, in dem Z nicht normalverteilt ist, sondern nur Mittelwert 0 und endliche Varianz hat. Die Signifikanzniveaus, welche das Programm errechnet, sind aber in diesem Fall nicht verlässlich. Zeigen sich deutliche Abhängigkeiten der Residuen von den erklärenden Variablen, so ist die Regression jedenfalls zu verwerfen. 4.2. LINEARE REGRESSION 197 4.2.2.3. Quadratsummen und Vergleich der Modelle untereinander. Methode 4.2.2.10 (Erklärte und nicht erklärte Schwankung). Für die metrischen Variablen X1 , · · · , Xk als erklärende Variablen und Y als abhängige Variablen wird an Hand der n Datensätze x1,1 , · · · , xk,1 , , y1 .. .. .. . . . x1,n , ··· , xk,n , , yn eine lineare Regression Y = b0 + b1 X1 + · · · + bk Xk + σZ durchgeführt. Mit b̂i bezeichnen wir wie üblich den Schätzwert für bi , welcher in der Regressionsrechnung bestimmt wird. Es sei y der Stichprobenmittelwert von y, und für jeden Datensatz sei ŷi der vom Modell vorhergesagte Wert ŷi = b̂0 + b̂1 x1,i + · · · + b̂k xk,i . Wir betrachten die folgenden Quadratsummen n X SSY = (yi − y)2 , Gesamtschwankung von Y , i=1 SSR = n X (ŷi − y)2 , erklärte Schwankung, ”regression” i=1 SSE = n X (yi − ŷi )2 , nicht erklärte Schwankung, ”error”. i=1 Es gilt die Summenformel SSY = SSE + SSR . Diesen Quadratsummen entsprechen die Freiheitsgrade: Für SSY: Freiheitsgrad n − 1, für SSE: Freiheitsgrad n − 1 − k (für jeden herangezogenen Parameter einen Freiheitsgrad weniger), für SSR: Freiheitsgrad k. Das Bestimmtheitsmaß der Regression ist SSR SSE R2 = =1− SSY SSY R2 liegt immer zwischen 0 und 1. Es drückt aus, welcher Anteil der Gesamtschwankung von Y durch die Regression erklärt werden kann. Bei R2 = 1 werden die Daten der abhängigen Variablen Y perfekt durch die Regression aus den Daten der Xi vorhergesagt. Bei √R2 = 0 ist keinerlei Voraussage für Y auf Grund der Xi möglich. Die Zahl R = R2 heißt der multiple Korrelationskoeffizient. Diskussion: Die Gesamtschwankung ist jene Quadratsumme, aus der sich die Stichprobenvarianz von Y berechnet, also ein Maß dafür, wie stark die Variable Y streut. Laut Modell besteht Y aus zwei Teilen: Y = [b0 + b1 X1 + · · · bk Xk ] + σZ. Der erste Teil hängt deterministisch von den Xi ab. Wenn die Xi Schwankungen unterworfen sind, schwankt der deterministiche Teil natürlich mit. Die Schwankungen des ersten Teils werden durch SSR wiedergegeben, nur dass wir, weil wir ja die bi nicht kennen, stattdessen die Schätzwerte b̂i in die Formel einsetzen. Der zweite Teil σZ ist von den Xi unabhängig und reines Zufallsergebnis. Seine Schwankung wird durch SSE wiedergegeben. Da die beiden Teile voneinander unabhängig sind, summieren sie sich zur Gesamtschwankung: SSY = SSE + SSR. 198 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN Je größer SSR und je kleiner SSE ist, desto besser kann das Modell die Schwankungen von Y auf Grund der Werte der Xi erklären, und desto kleiner ist der Anteil der Schwankungen von Y , welche unerklärt bleiben und nur dem Zufall zugeschrieben werden können. SSE kann man auch einfach als die Quadratsumme der Residuen auffassen, also der Abweichungen der beobachteten Werte von Y von den vorhergesagten Werten. Je kleiner diese Fehlerquadratsumme ausfällt, desto besser gibt das Modell die tatsächlich beobachteten Werte wieder. ¤ Merksatz 4.2.2.11. Je komplexer ein Modell ist, desto besser kann es die Daten wiedergeben. Enthält ein Regressionsmodell I alle Variablen, welche in einem einfacheren Modell I enthalten sind, so hat automatisch Modell II das höhere Bestimmtheitsmaß. Andererseits gilt: Je mehr Parameter geschätzt werden müssen, desto unsicherer sind die Schätzungen der einzelnen Parameter. Es gibt mehrere Methoden, einen Kompromiss zu finden und ein Modell auszusuchen, welches mit einer nicht allzu großen Anzahl von Parametern ein ausreichend hohes Bestimmtheitsmaß erreicht. Beispielsweise kann man das Modell mit dem höchsten korrigierten Bestimmtheitsmaß wählen: SSE /(n − k − 1) 2 Rkorr =1− . SSY /(n − 1) Ähnlich wie der Vergleich verschiedener Modelle bei der zweifaktoriellen Varianzanalyse (vgl. Methode 4.1.4.8) kann man auch ineinandergeschachtelte Modelle der multiplen Regression durch einen F-Test vergleichen: Methode 4.2.2.12 (Varianzanalyse bei multipler Regression). Wir vergleichen zwei multiple Regressionsmodelle, von denen eines mehr unabhängige Variable berücksichtigt als das andere: Modell 0 Y = b0 + b1 X1 + · · · + bp Xp + σZ, Modell 1 Y = b0 + b1 X1 + · · · + bp Xp + bp+1 Xp+1 + · · · + bq Xq + σZ. Getestet werden die Hypothesen H0 : Es gilt das einfachere Modell 0. H1 : Es gilt das komplexere Modell 1, wobei nicht alle der Koeffizienten bp+1 , · · · , bq gleich Null sind. Zu jedem der Modelle gehören die Quadratsummen und deren Mittelwerte: erklärt Residuen Gesamt Modell 0 Quadratsumme Freiheitsgrade SSR0 p SSE0 n−1−p SSY n−1 Modell 1 Quadratsumme Freiheitsgrade SSR1 q SSE1 n−1−q SSY n−1 Der Zuwachs an erklärter Quadratsumme durch das komplexere Modell ist SSR1 − SSR0 mit q − p Freiheitsgraden. Daher ist (SSR1 − SSR0 )/(q − p) F = SSE1 /(n − 1 − q) ein Maß für die Überlegenheit des komplexeren Modells über das einfachere. Der Test geht zugunsten von H1 aus, wenn F größer ist als der kritische Wert der FVerteilung mit q − p Freiheitsgraden des Zählers und n − 1 − q Freiheitsgraden des Nenners. Statistikpakete liefern insbesondere für jedes Modell den Vergleich mit dem trivialen Modell. 4.2. LINEARE REGRESSION 199 Beispiel 4.2.2.13. Die multiple Regression aus Beispiel 4.2.1.1 wurde nach dem schrittweisen Verfahren angesetzt. SPSS lieferte unter anderem folgende Tabellen: Modellzusammenfassungd Modell a b c d R R-Quadrat 1 ,339a ,115 2 ,387b ,149 3 ,436c ,190 Einflussvariablen: (Konstante), Einflussvariablen: (Konstante), Einflussvariablen: (Konstante), Abhängige Variable: Blutdruck ANOVA Modell 1 2 3 Korrigiertes Standardfehler R-Quadrat des Schätzers ,110 12,663 ,139 12,449 ,176 12,184 Blutdruck Ausgangswert Blutdruck Ausgangswert, Alter Blutdruck Ausgangswert, Alter, Körpergewicht nach 6 Monaten Regression Residuen Gesamt Regression Residuen Gesamt Regression Residuen Gesamt Quadratsumme 3579,023 27579,167 31158,190 4654,942 26503,248 31158,190 5923,676 25234,513 31158,190 df 1 172 173 2 171 173 3 170 173 Mittel der Quadrate 3579,023 160,344 F Signifikanz 22,321 ,000 2327,471 154,990 15,017 ,000 1974,559 148,438 13,302 ,000 Diskussion: Aus der Modellzusammenfassung sieht man, dass das Programm drei verschiedene Modelle untersucht hat: Zunächst wurde als Einflussvariable außer der Konstanten nur der Ausgangswert des systolischen Blutdrucks aufgenommen. Im Modell 2 wurde zusätzlich das Alter eingeschlossen, in Modell 3 noch dazu das Körpergewicht. Man sieht, dass mit steigender Komplexität auch das Bestimmtheitsmaß steigt: R2 ist für das Modell mit einer erklärenden Variablen 0.115, bei drei erklärenden Variablen 0.190. Das korrigierte Bestimmtheitsmaß steigt ebenfalls, aber nicht so schnell wie R2 , da die Anzahl der Parameter größer wird. Würde das korrigierte Bestimmtheitsmaß fallen, müsste man schließen, dass der Mehraufwand an Parametern für die größeren Modelle sich nicht lohnt. In diesem Fall geben wir dem komplexesten Modell den Vorzug, da auch das korrigierte Bestimmtheitsmass für dieses Modell am größten ausfällt. Der Standardfehler des Schätzers ist der Schätzwert σ̂. Je größer der Anteil der Schwankung von Y ist, der durch die Einflussvariablen erklärt wird, desto geringere Schwankung muss von Z beigetragen werden. Daher sinkt σ̂, wenn das Bestimmtheitsmaß steigt. Die Tabelle der Varianzanalysen testet jedes der Modelle gegen das triviale Modell (Y unabhängig von allen Einflussvariablen). In jedem Fall erhalten wir eine sehr deutliche Signifikanz (Null auf drei Stellen), das triviale Modell kann mit großer Signifikanz zu Gunsten von jedem der drei durchgerechneten Modelle abgelehnt werden. Jedenfalls besteht ein deutlicher Einfluss der erklärenden Variablen auf den Blutdruck nach 6 Monaten. In der Tabelle finden wir für jedes der drei Modelle untereinander die Quadratsummen SSR (erklärte Schwankung), SSE (unerklärte Schwankung), sowie SSY , die Gesamtschwankung, welche vom Modell unabhängig ist. Daneben die Freiheitsgrade. Zum Beispiel gibt es im zweiten Modell zwei erklärende Variablen. Daher hat SSR zwei Freiheitsgrade. Aus 174 Datensätzen verbleiben für SSY noch 173 Freiheitsgrade, damit entfallen auf SSE genau 171 Freiheitsgrade. Die Quadratmittelwerte sind die Quadratsummen, dividiert durch die Freiheitsgrade, und F ist die Teststatistik für den F -Test, aus dem die Signifikanz berechnet wird. ¤ 4.2.2.4. Multikollinearität. Die Wechselwirkungen zwischen den erklärenden Variablen können die Qualität der Regression entscheidend beeinflussen. Im Idealfall hat man lauter erklärende Variablen, die voneinander unabhängig sind. Dieser Fall ist normalerweise nicht erfüllt. Abhängigkeiten zwischen den erklärenden Variablen nennt man Multikollinearität. 200 4. WECHSELWIRKUNGEN ZWISCHEN MERKMALEN Beispiel 4.2.2.14. Eine Datenbank über GrippepatientInnen beinhaltet sowohl die Körpertemperatur in Celsius als auch in Fahrenheit. In einer multiplen Regression werden in die Liste der Einflussvariablen unter anderem auch beide Maße der Körpertemperatur aufgenommen: X1 Körpertemperatur in Celsius. X2 Körpertemperatur in Fahrenheit. X3 usw.: Andere erklärende Variablen. Was geschieht? Diskussion: Für den Anfang betrachten wir ein Modell, in dem b2 auf Null gesetzt wird, anders ausgedrückt, in dem die Variable “Körpertemperatur in Fahrenheit” nicht vorkommt. Wenn die Körpertemperatur die abhängige Variable beeinflußt, muss der Koeffizient b1 ungleich Null sein, sagen wir z.B. b1 = 3.6. Erhöhung der Körpertemperatur um 1◦ C bewirkt eine durchschnittliche Erhöhung der abhängigen Variablen um 3.6. Y = b0 + 3.6X1 + 0 + b3 X3 + · · · . Nun nehmen wir die Variable X2 hinzu und lassen dafür X1 weg. Erhöht sich die Körpertemperatur um 1◦ C, so erhöht sie sich um etwa 1.8◦ F. Erhöht man also die Temperatur um 1◦ F, erhöht sich die abhängige Variable im Durchschnitt um 3.6/1.8 = 2. Y = b0 + 0 + 2X2 + b3 X3 + · · · . Nun sind aber beide Variable, X1 und X2 im Modell enthalten. Beide Sätze von Parametern: b1 = 3.6, b2 = 0.0 b1 = 0.0, b2 = 2.0 beschreiben genau denselben Zusammenhang, und passen daher exakt gleich gut zu den Daten, ebenso wie etwa die Wahl b1 = 5.4, b2 = −1.0. Die Modellparameter sind also nicht eindeutig bestimmbar. Nach der Umrechnungsformel wäre X2 = 1.8X1 + 32. In der Praxis werden sich aber, weil ja nur auf ganze Grad abgelesen und daher gerundet wird, die Ablesungen in der Celsius- und Fahrenheitskala von dieser Formel um eine ganz kleine Störung unterscheiden. Dieser Zufall entscheidet dann, auf welchen Parameter, b1 oder b2 , die Regression das Hauptgewicht legt. Das Statistikpaket wird also Parameter ausrechnen, diese werden aber extrem breite Konfidenzbreiten haben, und selbst dann große p-Werte besitzen, wenn die Körpertemperatur in Wirklichkeit eine sehr wesentliche Rolle für die abhängige Variable spielt. ¤ Merksatz 4.2.2.15 (Multikollinearität). Multikollinearität in einer multiplen Regression liegt vor, wenn zwischen den Einflussvariablen deutliche lineare Zusammenhänge vorhanden sind. Multikollinearität bewirkt, dass die Parameter unsichere Schätzungen (große Konfidenzintervalle) und übermäßig große p-Werte haben. Multilinearität wird vermieden, indem Variablen, die durch andere erklärenden Variablen bereits weitgehend festgelegt sind, nicht in die Liste der erklärenden Variablen aufgenommen werden. Statistikpakete geben zu den Variablen die sogenannte Toleranz an, eine Zahl zwischen 0 und 1. Eine Toleranz von 1 sagt, dass zwischen dieser Variablen und den anderen erklärenden Variablen keinerlei linearer Zusammenhang besteht. Bei einer Toleranz von Null läßt sich die Variable mit Hilfe der anderen erklärenden Variablen bereits eindeutig festlegen. Toleranzen unter 0.25 sind suspekt auf Multikollinearität, Toleranzen unter 0.1 zeigen ernste Multikollinearitäten an. Der sogenannte Variance Inflation Factor ist der Reziprokwert der Toleranz. 4.2. LINEARE REGRESSION 201 Was Sie jetzt können: Begriffe und Wissen: Hauptergebnisse einer Regressionsrechnung. Bedeutung der Quadratsummen und F-Test zwischen Modellen. Rolle der Residuendiagnostik. Multikollinearität. Methoden: Interpretation der folgenden Ergebnisse einer multiplen Regression: geschätzte Parameter und ihre Konfidenzintervalle, Signifikanz eines Parameters, standardisierte Parameter, erklärte und nicht erklärte Quadratsumme, Bestimmtheitsmaß und korrigiertes Bestimmtheitsmaß. KAPITEL 5 Übungen Übersicht: Dieses Kapitel enthält Übungsbeispiele zum Stoff des Skriptums, welche mit Hilfe des Statistik-Softwarepaketes SPSS zu lösen sind. Die Beispiele wurden mit der deutschen Version von SPSS 14 getestet. 1. Dateneingabe und erste Schritte zur Analyse 2. Navigieren und Editieren im Viewer 3. Diagramme 4. Explorative Datenanalyse, Transformationen 5. Vergleichstests 6. Nominale Daten und Anpassungstests 7. Varianzanalyse 8. Lineare Regression Die Übungen beziehen sich auf folgende Datenfiles, welche Sie von meiner Homepage herunterladen können: www.uni-graz.at\ desch\Inhalt.html (Link Lehre, Beschreibung der Lehrveranstaltung Statistik für BiologInnen) Die verwendeten Files sind teils reale, aber gekürzte Daten, teils fiktive Daten. • kurztests.sav: Ergebnisse von drei Kurztests in einer mathematischen Lehrveranstaltung. Eigene Daten. • wasserbilanz.sav: Niederschlags- und Abflusshöhen in den alten Bundesländern der BRD nach Monaten. U. Maniak, Hydrologie und Wasserwirtschaft, 3. Aufl., Springer 1988. • phwerte.txt pH-Werte vor und nach geringfügiger ergometrischer Belastung. S. Porta und MitarbeiterInnen. • ergodaten.sav: Blutgase, Laktat und Elektrolyte vor und nach geringfügiger ergometrischer Belastung. S. Porta und MitarbeiterInnen. • stoerfall.sav: Meldepflichtige Störfälle in verfahrenstechnischen Anlagen in den Monaten der Jahre 2000 – 2005. Zentrale Melde- und Auswertestelle für Störfälle in Verfahrenstechnischen Anlagen, BRD, Homepage. • aepfel.sav: Gewichte von Äpfeln nach Sorten und Herkunft. Fiktive Daten. • troglophyli.sav: Zählung von Troglophylus in einem steirischen Stollen im Februar. B. Freitag. Die Verwendung dieser Datenfiles zu anderen Zwecken als als Übungsmaterial ist unzulässig. 203 204 5. ÜBUNGEN 5.1. Dateneingabe und erste Schritte zur Analyse Aufgabe 5.1.1 (Vorbereitung). 1. Loggen Sie mit Ihrem Studierenden-Account ein. 2. Legen Sie sich auf Laufwerk H einen Datenordner Statistik an, auf dem Sie später Ihre Files ablegen können. 3. Starten Sie SPSS deutsch im Terminalserver. Erreichbar im Internet unter http://www-ts.kfunigraz.ac.at 4. Auf die Frage der Dateneingabe wählen Sie: “Neue Daten eingeben” und beginnen mit Aufgabe 5.1.2. Aufgabe 5.1.2. In dieser Aufgabe wird gezeigt, wie man Daten in SPSS eingibt. 20 zahme Ratten werden nach Farbe und Geschlecht sortiert und gewogen. Es ergibt sich die Tabelle: Farbe weiss weiss weiss weiss weiss grau grau grau andere andere Geschlecht weiblich weiblich weiblich männlich männlich weiblich weiblich männlich weiblich männlich Gewicht (Gramm) 250,00 220,00 180,00 220,00 unbekannt 160,00 240,00 170,00 310,00 280,00 Farbe weiss weiss weiss weiss grau grau grau grau andere andere Geschlecht weiblich weiblich männlich männlich weiblich weiblich männlich männlich weiblich männlich Gewicht (Gramm) 210 180 230 240 190 270 250 260 230 200 Legen Sie in SPSS diese Daten an: 1.) Legen Sie in der Variablenansicht Variablen für Farbe, Geschlecht und Gewicht an. Die nominalen Merkmale Farbe und Geschlecht sollen numerisch gespeichert werden, mit Wertelabels 1...weiss, 2...grau, 0...andere Farbe; 1...weiblich, 2...männlich. Fehlende Werte im Gewicht sollen als 999 gespeichert werden. 1.1 Öffnen Sie die Variablenansicht. Jede Zeile gehört zu einer Variablen. Sie erklären jetzt, welche Variablen vorkommen und welche Eigenschaften sie haben. 1.2 Name: (Vorsicht mit Zahlen und Sonderzeichen. Zahlen nicht an erste Stelle, nicht alle Sonderzeichen dürfen vorkommmen.) z.B. Color, Sex, Weight. 1.3 Typ: Wird die Variable intern als Zahl oder String (Wort) gespeichert? Tip: Speichern Sie auch nominale Variable als numerisch. (Aber natürlich: Stringvariablen z.B. für Namen in Adressverwaltung etc.) 1.4 Spaltenformat: Der interne für die Variable bereitgestellte Datenspeicherplatz. Hier z.B. 8. 1.5 Dezimalstellen: Anzahl der Dezimalstellen. 0 für ganzzahlige. z.B. 2 für Gewicht. 1.6 Variablenlabel: Eine genauere Bezeichnung der Variablen, v.a. bei kurzen Namen. Z.B. Geschlecht, Farbe, Gewicht. 1.7 Wertelabels: Erklären, welche Zahlen welche Farbe und welches Geschlecht bedeuten. Klicken Sie die Box mit Wertelabels, es erscheint ein graues Quadrat. Klicken Sie darauf, dann erscheint ein Fenster. Hier können Sie immer eine Ausprägung mit einem Wertelabel versehen. Z.B. bei Farbe: Wert: 0 – Label: andere – Hinzufügen, Wert 1 – Label weiss – Hinzufügen, usw. 1.8 Fehlende Werte: Was soll in der Tabelle stehen, wenn der Wert nicht bekannt ist. z.B. bei Gewicht: einzelner Wert 999. 1.9 Spalten: Die Anzahl der Spalten im Dateneditor. Hier z.B. 8. 1.10 Ausrichtung: links, Mitte, rechts im Dateneditor. 1.11 Messniveau: nominale, ordinale oder metrische Merkmale? 2. Tragen Sie nun die einzelnen Daten in der Datenansicht ein. 2.1 2.2 2.3 2.4 2.5 Wechseln Sie von der Variablenansicht in die Datenansicht Für jede Variable ist bereits eine Spalte reserviert. Jede Zeile gehört zu einem Merkmalsträger, also einer Ratte. Tragen Sie zuerst das Gewicht der ersten Ratte aus der Tabelle ein. Wenn Sie nun die Farbe der ersten Ratte eintragen, können Sie 1 für weiss eintragen. Bequemer ist aber das Auswahlmenu unter dem kleinen Pfeil im entsprechenden Kästchen. 2.6 Stellen Sie die Tabelle fertig. 3. Schalten Sie im Dateneditor die Variablenlabels ein und aus. 4. Speichern Sie den Datenfile unter dem Titel aufgabe12.sav. 5. Laden Sie den Datenfile neu. 5.1. DATENEINGABE UND ERSTE SCHRITTE ZUR ANALYSE 205 Aufgabe 5.1.3. In dieser Aufgabe machen wir erste Schritte zur Datenanalyse in SPSS Falls er noch nicht geladen ist, laden Sie den Datenfile aufgabe12.sav aus Aufgabe 5.1.2. 1. Erstellen Sie eine Übersicht über die eingegebenen Daten: 1.1 Menüpunkt Analysieren – Berichte – Bericht in Zeilen. 1.2 Wählen Sie die Datenspalten an. Markieren Sie dazu im linken Feld (das alle Variablen zeigt) je eine Variable und verschieben sie mit dem Pfeil in das rechte Feld “Datenspalten”. Versuchen Sie verschiedene Variablen zwischen links und recht hin und her zu schieben. Markieren Sie auch mit gedrückter CTRL-Taste mehrere Variablen zugleich, um sie zu verschieben. Probieren Sie auch die Wirkung des Schalters “Zurücksetzen” aus. 1.3 Verwenden Sie letztlich die Variablen Farbe und Gewicht als Datenvariablen, die Variable Geschlecht als Breakvariable. 1.4 Kreuzen Sie an: Fälle anzeigen. 1.5 Schalten Sie auf OK, und betrachten Sie die Tabelle im Viewer. 2. Erstellen Sie eine Häufigkeitstabelle für die Farbe, mit Kreisdiagramm. 2.1 2.2 2.3 2.4 2.5 2.6 SPSS-Menu Analysieren –Deskriptive Statistik – Häufigkeiten. Wählen Sie als Variable “Farbe”. Wählen Sie unter Statistik gar nichts an. Wählen Sie unter Diagramme: “Kreisdiagramm”. “Häufigkeitstabelle anzeigen” ankreuzen. OK. Interpretieren Sie das Ergebnis im Viewer. 3.1 3.2 3.3 3.4 3.5 3.6 SPSS-Menu Analysieren – Deskriptive Statistik – Häufigkeiten. Wählen Sie als Variable “Gewicht”. Unter Statistik kreuzen Sie die gewünschten Parameter an. Unter Diagramme: “Histogramm” Häufigkeitstabelle nicht anzeigen. OK. Interpretieren Sie das Ergebnis im Viewer. 3. Erstellen Sie eine Häufigkeitstabelle für das Gewicht, und ermitteln Sie Mittelwert, Standardabweichung, Minimum, Maximum und Median des Gewichts. Erstellen Sie ein Histogramm. 4 Speichern Sie die Ausgabe als aufgabe13.spo. 5 Ganz unten am Bildschirm befindet sich eine Leiste, an der Sie zwischen Datenansicht und Viewer hin und her schalten können. 206 5. ÜBUNGEN 5.2. Navigieren und Editieren im Viewer Aufgabe 5.2.1. Wir zeigen, wie man im Viewer navigieren kann. Laden Sie die Daten aufgabe12.sav aus Aufgabe 5.1.2 und die Ausgabe aufgabe13.spo von Aufgabe 5.1.3. 1. Erstellen Sie zusätzlich eine Kreuztabelle für Geschlecht und Farbe. 1.1 1.2 1.3 1.4 1.5 Menu Analysieren – Deskriptive Statistik – Kreuztabellen Zeilenvariable: Geschlecht. Spaltenvariable: Farbe. Statistik: keine Zellen: Prozente sowohl zeilenweise, als auch spaltenweise, als auch gesamt. OK. Interpretieren Sie die Tabelle. 2. Speichern Sie die Ausgabe als aufgabe21.spo. 3. Machen Sie sich mit der Gliederung links im Viewer vertraut. 3.1 Navigieren Sie durch Anklicken der Gliederung zu den verschiedenen Ausgabepunkten. 3.2 Durch doppeltes Anklicken der Buchsymbole können Sie Teile der Ausgabe verstecken und wieder öffnen. 3.3 Sie können die Reihenfolge der Ausgabe durch Ziehen mit der Maus in der Gliederung umstellen. 3.4 Löschen Sie einzelne Ausgabepunkte: Rechte Maustaste, Ausschneiden, oder mit der Entf-Taste. Mit Bearbeiten – Rückgängig können Sie das Löschen wieder rückgängig machen. 4. Machen Sie sich mit den Strukturelementen einer einzelnen Ausgabe vertraut, z.B. am Histogramm: 4.1 Titel: Häufigkeiten. Alle SPSS-Analysen beginnen in der Ausgabe mit einem Titel und den beiden folgenden Punkten: 4.2 Anmerkungen: (diese sind im Default geschlossen, öffnen Sie durch Doppelklicken auf das Buchsymbol in der Gliederung). Sie sind ein Protokoll, mit welchen Daten und Zusatzbedingungen die Analyse zustandegekommen ist, sowie die Befehle in SPSSProgrammiersprache, welche dieselbe Analyse ergeben würden. 4.3 Arbeitsdatei: Die verwendeten Daten. 4.4 Statistiken: Nun beginnen die Ergebnisse. Zunächst, wieviele Daten verwendet wurden, es wird angegeben, dass ein Datum fehlt (ein Gewicht war als unbekannt eingegeben). Anschließend die angeforderten Kenngrößen. 4.5 Histogramm: Das gewünschte Histogramm. Je nach Analyse kann die Liste der Ergebnisse sehr umfangreich werden. Aufgabe 5.2.2. Wir zeigen, wie man Tabellen und Diagramme im Viewer editieren kann. Laden Sie (falls nicht schon geladen) die Ausgabe aufgabe21.spo von Aufgabe 5.2.1. 1. Editieren Sie den Titel des Berichtes. 1.1 Doppelklicken Sie den Titel, es erscheint das Bearbeitungsfenster. 1.2 Ändern Sie Text des Titels, Schriftfont, Größe, Stil nach Ihrem Geschmack. 1.3 Bei Bedarf (z.B. großer Schriftgröße) können Sie das Fenster des Titels an seinem Rahmen vergrößern oder verkleinern. 1.4 Bei Schließen des Bearbeitungsfensters wird die Änderung in die Ausgabe übernommen. 2. Ändern Sie Text in der Berichtstabelle. 2.1 Doppelklicken Sie die Tabelle. Es wird ein Rahmen darum sichtbar. 2.2 In diesem Rahmen können Sie Text ändern. (z.B. von “weiblich” auf “Damen”, die Zahlen ändert man natürlich nur, wenn man die Statistik fälschen will). 2.3 Wenn Sie irgendwo ausserhalb der Tabelle klicken, verschwindet der Rahmen wieder. 3. Editieren Sie das Histogramm. 3.1 Doppelklicken Sie das Histogramm, es erschient der Diagramm-Editor. 3.2 Doppelklicken Sie die Beschriftung “Häufigkeiten” der y-Achse. Es erscheint ein Fenster mit den Eigenschaften der y-Achse. Sie können die Art der Achsenteilung, die Größe des gesamten Histogramms und den Stil Beschriftung ändern. Erst wenn Sie auf “Zuweisen” drücken, wird die Änderung übernommen. 3.3 Klicken Sie, noch während das Eigenschaftenfenster geöffnet ist, noch einmal auf die Beschriftung “Häufigkeiten”. Sie können jetzt den Text der Beschriftung ändern. 3.4 Schließen Sie das Eigenschaftsfenster der y-Achse und doppelklicken Sie jetzt auf einen Balken des Histogramms. Es erscheint das Eigenschaftsfenster des Histogramms selbst. 3.5 Unter der Karte “Optionen für Histogramme” ändern Sie die Anzahl der Balken: 15 Balken, verankert bei 100. Wählen Sie nun selbst eine möglichst günstige Anzahl oder Breite der Balken, und geben Sie dem Histogramm eine gefällige Farbe. 3.6 Schließen Sie das Eigenschaftsfenster des Histogramms. Suchen Sie nach weiteren editierbaren Objekten in der Grafik und verändern Sie nach Ihrem Gutdünken. Schließen Sie dann den Diagramm-Editor. 4. Editieren Sie die Kreuztabelle. 4.1 Doppelklicken Sie die Kreuztabelle. Es öffnet sich ein Fenster Pivot-Leisten. (Sie können die Pivot-Leisten auch öffnen mit dem Menupunkt: Pivot). 4.2 Im Fenster Pivot-Leisten finden sich drei farbige Quadrate, diese stehen für Statistik (die Prozente), Geschlecht und Farbe. Verschieben Sie die Quadrate zwischen den Bereichen Zeilen / Spalten / Schicht hin und her und beachten Sie, wie sich die Tabelle dabei verändert. 5.2. NAVIGIEREN UND EDITIEREN IM VIEWER 207 Aufgabe 5.2.3. Wir übertragen Daten aus der Ausgabe in andere Dateien. Laden Sie (falls nicht schon geladen) die Ausgabe aufgabe21.spo von Aufgabe 5.2.1. 1. Exportieren Sie das Kreisdiagramm als JPG-File aufgabe23.jpg. 1.1 Klicken Sie einmal auf das Kreisdiagramm. Es wird ein Rahmen sichtbar. 1.2 Klicken Sie die rechte Maustaste. Wählen Sie Exportieren. 1.3 Wählen Sie: Export: Nur Diagramme. Was: ausgewählte Diagramme. Exportdatei: H:\statistik\aufgabe22. Datentyp: JPG. 1.4 Überzeugen Sie sich, dass ein JPG-File aufgabe23.jpg in Ihrem Ordner H:\statistik liegt und das Kreisdiagramm enthält. 2. Übertragen Sie Teile der Ausgabe in eine Word-Datei. 2.1 Starten Sie eine neue Word-Datei. 2.2 Klicken Sie ein Objekt (Grafik, Tabelle, Text) mit der Maus an, sodass der Rahmen sichtbar wird. 2.3 Klicken Sie die rechte Maustaste, wählen Sie “Kopieren”. 2.4 Gehen Sie mit der Maus in das Word-Dokument. Rechte Maustaste: “Einfügen”. 208 5. ÜBUNGEN 5.3. Diagramme Aufgabe 5.3.1. Erstellen und interpretieren von Balkendiagrammen Laden Sie die Datei kurztests.sav, die Ihnen zur Verfügung gestellt wird. Die Datei enthält die anonymisierten Ergebnisse der ersten drei Kurztests einer mathematischen Lehrveranstaltung im WS 2007. Jede Zeile ist ein abgegebenes Testblatt. Es sind festgehalten: Punkte: Erreichte Punktezahl, erreichbar waren jeweils 4 Punkte. Test: Erster, zweiter oder dritter Kurztest Stud: Kennzahl der oder des Studierenden Gesch: Geschlecht der oder des Studierenden (1 . . . weiblich, 2 . . . männlich) 1. Erstellen Sie ein Balkendiagramm, aus dem man ersieht, wieviel Studierende bei den drei Kurztests jeweils teilgenommen haben. Also für jeden Kurztest ein Balken, die Höhe des Balkens bedeutet die Anzahl der teilnehmenden Studierenden. 1.1 SPSS-Menu Grafiken – Balken 1.2 Wählen Sie: Einfach, Auswertung über Kategorien einer Variablen, und gehen Sie auf den Schalter Definieren. 1.3 Balken bedeuten Häufigkeiten 1.4 Kategorienvariable: Test 1.5 OK. Interpretieren Sie die Ausgabe. 2. Erstellen Sie ein Balkendiagramm: Zu jedem Kurztest je ein Balken für weibliche und männliche Studierende, die Höhe des Balkens bedeutet die durchschnittliche in diesem Kurztest erreichte Punktezahl. 2.1 SPSS-Menu Grafiken – Balken 2.2 Wählen Sie: Gruppiert, Auswertung über Kategorien einer Variablen, und gehen Sie auf den Schalter Definieren. 2.3 Balken bedeuten andere Statistik, nun öffnet sich ein Platz für eine Variable. Bringen Sie die Variable Punkte in dieses Feld. SPSS interpretiert das als MEAN(Punkte) . . . Mittelwert der Punkte. Das ist gewünscht. Sollten Sie stattdessen z.B. die Summe der Punkte wollen, könnten Sie das mit dem Schalter Statistik ändern erreichen. 2.4 Kategorienvariable: Test, Gruppen definieren durch Gesch. 2.5 Gehen Sie auf den Schalter Optionen. Kreuzen Sie an: Fehlerbalken erstellen. Balken bedeuten: Standardabweichung, 1-fach. 2.6 OK. Sie sehen je für die drei Kurzstests und beide Geschlechter die erreichte durchschnittliche Punktezahl, die Fehlerbalken grenzen ±1× Standardabweichung der Punktezahl ein. Für das unterschiedliche Abschneiden der beiden Geschlechter im dritten Kurztest habe ich keine Erklärung. 3. Dieselbe Aufgabe wie Teil 2 dieser Aufgabe in einer anderen Darstellungsform: Erstellen Sie je ein Balkendiagramm für jedes Geschlecht. Die Höhe des Balkens zeigt den Mittelwert der erreichten Punktezahl. 3.1 SPSS-Menu Grafiken – Balken 3.2 Wählen Sie: Einfach, Auswertung über Kategorien einer Variablen, und gehen Sie auf den Schalter Definieren. 3.3 Balken bedeuten andere Statistik, nun öffnet sich ein Platz für eine Variable. Bringen Sie die Variable Punkte in dieses Feld. SPSS interpretiert das als MEAN(Punkte) . . . Mittelwert der Punkte. 3.4 Kategorienvariable: Test 3.5 Felder anordnen in Zeilen nach Geschlecht 3.6 Schalten Sie die Fehlerbalken in Optionen ab. 3.7 OK. Vergleichen Sie das Diagramm mit dem Diagramm aus Teil 2 dieser Aufgabe. 4. Erstellen Sie ein Balkendiagramm: Für jede(n) Studierende(n) ein Balken. Höhe des Balkens bedeutet die erreichte Punktezahl. Der Balken ist senkrecht in drei Bereiche für jeden Kurztest gegliedert. 4.1 SPSS-Menu Grafiken – Balken 4.2 Wählen Sie: Gestaffelt, Auswertung über Kategorien einer Variablen, und gehen Sie auf den Schalter Definieren. 4.3 Balken bedeuten andere Statistik, nun öffnet sich ein Platz für eine Variable. Bringen Sie die Variable Punkte in dieses Feld. SPSS interpretiert das als MEAN(Punkte) . . . Mittelwert der Punkte. Schalten Sie mit Statistik ändern auf Summe der Punkte um. 4.4 Kategorienvariable: Stud 4.5 Stapel nach Test. 4.6 OK. Interpretieren Sie das Diagramm. 5.3. DIAGRAMME 209 Aufgabe 5.3.2. Erstellen von Liniendiagrammen Laden Sie die Datei wasserbilanz.sav, die zur Verfügung gestellt wird. Die Datei zeigt für 24 Monate die mittlere Niederschlagshöhe und die mittlere Abflusshöhe in mm für die alten Bundesländer der BRD. Die Abflußhöhe beschreibt die Wassermenge, die durch Grundwasser und Flüsse weggetragen wird. Das restliche Niederschlagswasser verschwindet durch Verdunstung. Jede Zeile entspricht einem Monat, gespeichert wurden Jahreszahl und Monat, sowie die Niederschlagshöhe N und die Abflusshöhe A. 1. Zeichnen Sie eine Kurve, auf der waagrecht die Monate, senkrecht die durchschnittliche Niederschlagshöhe im jeweiligen Monat aufgetragen ist. (Der Durchschnitt wird demnach jeweils über zwei Werte gebildet, weil zu jedem Monat Messwerte aus zwei Jahren vorliegen.) 1.1 Grafiken – Linie 1.2 Einfache Linie. Kategorien einer Variablen (nämlich Niederschlag). Definieren. 1.3 Linie entspricht: anderer Statistik, Niederschlagshöhe (SPSS schaltet automatisch auf Mittelwert dieser Variablen. Andere Auswahl wäre durch den Schalte Statistik ändern möglich. 1.4 Kategorienvariable: Monat. 2. Zeichnen Sie wie oben die durchschnittliche Niederschlagshöhe für jeden Monat, jedoch im selben Diagramm auch die durchschnittliche Abflusshöhe. 2.1 Grafiken – Linie 2.2 Mehrfache Linie. Kategorien mehrerer Variablen (nämlich Niederschlag und Abflusshöhe). Definieren. 2.3 Linien entsprechen: Niederschlagshöhe, Abflusshöhe. 2.4 Kategorienvariable: Monat. 3. Zeichnen Sie die Niederschlagshöhe für jeden Monat, und zwar im selben Diagramm drei Kurven für jedes Jahr 1958, 1959, 1960. 3.1 3.2 3.3 3.4 3.5 Grafiken – Linie Mehrfache Linie. Kategorien einer Variablen (nämlich Niederschlag). Definieren. Linie entspricht: anderer Statistik, Niederschlagshöhe Kategorienvariable: Monat. Linien definieren durch: Jahr 4. Zeichnen Sie ein Diagramm, in dem waagrecht die Monate aufgetragen sind, und darüber je ein senkrechter Balken, an welchem kleinster Wert, größter Wert und Mittelwert der für diesen Monat gemessenen Niederschlagswerte markiert sind. Im selben Diagramm werden in einer anderen Farbe analog Balken für die Abflusshöhen eingetragen. 4.1 Grafiken – Hoch-Tief 4.2 Gruppiert: Hoch-Tief-Schluss. Auswertung über mehrere Variablen (nämlich Niederschlag und Abfluss). Definieren. 4.3 Variablenset 1: Hoch: Niederschlag. Statistik ändern: Maximalwert. Tief: Niederschlag. Statistik ändern: Minimum. Schluss: Niederschlagswert (Mean). Weiter im Variablenset. 4.4 Variablenset 2: Hoch: Abflusshöhe. Statistik ändern: Maximalwert. Tief: Abflusshöhe. Statistik ändern: Minimum. Schluss: Abflusshöhe (Mean). 4.5 Kategorienvariable: Monat Aufgabe 5.3.3. Zeichnen von Streudiagrammen (Punktwolken) Laden Sie (falls nicht schon geladen) die Datei wasserbilanz.sav. 1. Erstellen Sie ein Streudiagramm, in dem jeder der 24 Mess-Monate als Punkt aufgetragen ist. Waagrecht aufgetragen: Niederschlagshöhe, senkrecht aufgetragen: Abflusshöhe. Beschriften Sie die Punkte durch die Monate. 1.1 1.2 1.3 1.4 1.5 Grafiken – Streudiagramme Einfaches Streudiagramm. Definieren. y-Achse: Abflusshöhe. x-Achse: Niederschlagshöhe. Fallbeschriftung: Monat. Optionen: Fallbeschriftung anzeigen. Gibt es einen Zusammenhang zwischen Niederschlagshöhe und Abflusshöhe? 210 5. ÜBUNGEN 5.4. Explorative Datenanalyse, Transformationen Aufgabe 5.4.1. Wir zeigen, wie man Daten aus einem Textfile importieren kann. 1. Laden Sie die Daten aus dem (bereitgestellten) Textfile phwerte.txt. Der File enthält pH-Werte von Blutproben von ProbandInnen jeweils vor und nach einer geringfügigen körperlichen Belastung durch Ergometrie. 1.1 Datei öffnen, Dateityp: Text (txt). File phwerte.txt öffnen. 1.2 Die Datei hat kein vordefiniertes Format. 1.3 Die Daten sind im Textfile in Spalten mit fester Breite angeordnet, es gibt kein Trennzeichen. Die erste Zeile enthält die Variablennamen. 1.4 Beginnend mit Zeile 2, ist jede Zeile ein Fall. Alle Fälle laden. 1.5 SPSS erkennt die Spalten selbst, es sollten keine Korrekturen nötig sein. 1.6 Jede Variable ist mit der im File gegebenen Namen gekennzeichnet und ist vom Typ Komma. (Um die einzelnen Variablen zu schalten, klicken Sie die Spalten in der Tabelle an.) SPSS sucht nach der letzten Spalte noch eine Variable V3, diese nicht importieren. 1.7 Eingabeformat nicht speichern, Daten nicht in die Zwischenablage, fertig stellen. 1.8 Speichern Sie den Datenfile unter aufgabe41.sav. Aufgabe 5.4.2. Erstansicht von Daten. Ausreisser entdecken. Wie man Daten auswählt. Falls noch nicht geladen, laden Sie den File aufgabe41.sav. 1. Verschaffen Sie sich einen ersten Überblick über den pH-Wert vor der Ergometrie (Variable PHvor) mit Mittelwert, Ausreissern, Box-Whisker Plot, Histogramm und Stengel-Blatt-Diagramm. 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 Analysieren - Deskriptive Statistiken - Explorative Datenanalyse Abhängige Variable: PHvor. Keine Faktoren. Statistik und Diagramme anzeigen. Statistik: Deskriptive Statistiken, Ausreisser. Diagramme: Boxplot (Faktorstufen zusammen, denn es gibt gar keine), Stengel-Blatt, Histogramm. OK. Interpretieren Sie das Stengel-Blatt-Diagramm. Warum ist das Histogramm so wenig informativ? Beachten Sie die Liste der Extremwerte. Ein pH-Wert von 5.51 ist physiologisch unmöglich! Betrachten Sie den Boxplot. Auch hier finden Sie den Ausreisser und seine Fallnummer 417. In welchem Bereich findet sich der Großteil der pH-Werte ungefähr? Sehen Sie im Datenfile nach, ob Fall 417 auch nach der Ergometrie eine so extrem niedrige pH-Angabe PHnach hat. 2. Um die physiologisch unmöglichen Ausreisser auszuschließen, arbeiten Sie nur mit den Fällen weiter, für die der pH-Wert nicht kleiner als 7.3 ist. 2.1 Daten - Fälle auswählen 2.2 Falls Bedingung zutrifft. 2.3 Schalter: Falls. Es öffnet sich ein Fenster zum Bearbeiten der Bedingung. Mit Tastatur und Mausklick erstellen Sie die Bedingung PHvor >= 7.3 (Dezimalzeichen Punkt, nicht Komma). 2.4 Weiter. OK. In der Datenansicht zeigt eine neue Variable “filter”, welche Daten ausgewählt wurden. 2.5 Heben Sie die Auswahl wieder auf, indem Sie in Daten - Fälle auswählen auf “alle Fälle” schalten. Schalten Sie dann wieder auf “Falls Bedingung” zurück, um die Auswahl zu treffen. 3. Wiederholen Sie die explorative Datenanalyse für PHvor nun, wenn die Ausreisser weggefiltert sind. Überprüfen Sie auch, ob der pH-Wert annähernd normalverteilt sein kann. Geben Sie für den Mittelwert des pH vor der Ergometrie ein 99%-Konfidenzintervall an. 3.1 Analysieren - Deskriptive Statistiken - Explorative Datenanalyse 3.2 Abhängige Variable: PHvor (gefiltert). Keine Faktoren. Statistik und Diagramme anzeigen. 3.3 Statistik: Deskriptive Statistiken. Konfidenzintervall für den Mittelwert: 99%. 3.4 Diagramme: Boxplot (Faktorstufen zusammen, denn es gibt gar keine), Stengel-Blatt, Histogramm. Normalverteilungsdiagramme mit Tests. 3.5 OK. Interpretieren Sie die Ausgabe. Wenn sie die Anmerkungen öffnen, finden Sie einen Hinweis, dass Sie nur mit ausgefilterten Daten gearbeitet haben. 3.6 Wo liegt der Mittelwert des pH-Wertes vor der Ergometrie? (Punkt- und Konfidenzschätzer) 3.7 Können sie in weiteren Arbeiten an diesen Daten davon ausgehen, dass der pH-Wert annähernd normalverteilt ist? 5.4. EXPLORATIVE DATENANALYSE, TRANSFORMATIONEN 211 Aufgabe 5.4.3. Berechnen neuer Variablen aus den Daten. Falls noch nicht geladen, laden Sie die Datei aufgabe41.sav. 1. Berechnen Sie eine neue Variable PHshift = PHnach - PHvor, welche also die Veränderung des pH-Wertes durch die Ergometrie beschreibt. 1.1 Transformieren - Berechnen 1.2 Als Name der Zielvariablen geben Sie PHshift ein. 1.3 In das Formelfeld können Sie Variablen aus der Variablenliste mit der Pfeiltaste transportieren, und mit der Tastatur oder durch Mausklick auf dem Rechnerfeld Formeln schreiben. Schreiben Sie die Formel PHnach - PHvor. 1.4 OK. In der Datenansicht entsteht eine neue Spalte mit den Differenzen der ersten beiden Spalten. Auch in der Variablenansicht ist die neue Variable eingetragen. 2. Konstruieren Sie aus der Variablen PHshift eine neue Variable pHsteigt mit den Werten +1, falls der pH nach der Ergometrie höher ist als vorher, -1, falls pH gefallen ist, und 0, falls der pH-Wert gleich bleibt. 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 Transformieren - Umkodieren - in andere Variablen (eine neue Variable entsteht) Verschieben Sie die Variable PHshift in das Fenster. Name der Ausgabevariablen: PHsteigt. Beschriftung: Steigt oder fällt pH-Wert Schalter Alte und Neue Werte. Sie können jetzt eine Liste von Regeln erstellen, nach denen die neue Variable erstellt wird. Alter Wert: 0, Neuer Wert: 0. Hinzufügen. Alter Wert: Kleinster bis 0. Neuer Wert: -1. Hinzufügen. Alter Wert: 0 bis größter. Neuer Wert: 1. Hinzufügen. Weiter. OK. In der Datenansicht entsteht eine neue Spalte. In der Variablenansicht können Sie Wertelabels einführen und die neue Variable als nominale Variable erklären 212 5. ÜBUNGEN 5.5. Vergleichstests Aufgabe 5.5.1. Konfidenzintervall und t-Test auf die Lage eines Mittelwertes. Laden Sie den File ergodaten.sav. Die Datei enthält Daten für pH, den Partialdruck von CO2 und die Konzentrationen von HCO3 , Laktat, sowie der Elektrolyte Mg, Ca, K und Na, jeweils vor und nach einer geringfügigen körperlichen Belastung durch Ergometrie. Daten von S. Porta, leicht abgeändert. 1. Bestimmen sie ein 98%-Konfidenzintervall für die Mittelwerte des pHWertes und des Partialdruckes von CO2 in Ruhe (PHvor, PCO2vor). 1.1 Analysieren - Mittelwerte vergleichen - t-Test mit einer Stichprobe 1.2 Testvariablen PHvor, PCO2vor. 1.3 Testwert 0 (für die Abweichung der Variablen von diesem Testwert berechnet das Programm das Konfidenzintervall.) 1.4 Optionen: 98% Konfidenzintervall. 1.5 Ok. In der Ausgabe finden Sie eine Statistik der verwendeten Daten, und die Konfidenzintervalle. Die angegebene Signifikanz ist der p-Wert für die Hypothese, dass der Mittelwert vom Testwert 0 abweicht. In diesem Zusammenhang ist dies biologisch nicht aussagekräftig. Warum? 2. Ist der Mittelwert des pH-Wertes in Ruhe für Frauen größer als 7.46? Führen Sie mit der Variablen PHvor einen einseitigen t-Test mit Signifikanzniveau 0.10 durch. 2.1 2.2 2.3 2.4 2.5 2.6 Erstellen Sie die Hypothesen des Testes auf einem Blatt Papier. Daten - Fälle auswählen - Falls (vgl. Aufgabe 5.4.2, Teil 2). Bedingung im Fenster konstruieren: Sex = 0. Weiter. OK. Analysieren - Mittelwerte vergleichen - t-Test mit einer Stichprobe Variablen: PHvor. Testwert: 7,46. OK. Sie erhalten die Statistik der verwendeten Daten und das Ergebnis des Tests mit den Nebenergebnissen T (der Wert von t im t-Test) und df (Anzahl der Freiheitsgrade, bei 113 Daten sind das 112 Freiheitsgrade), sowie den p-Wert für den zweiseitigen Test. 2.7 Der p-Wert des einseitigen Tests ist nur die Hälfte des p-Wertes für den zweiseitigen Test. 2.8 Wie geht der Test aus? Aufgabe 5.5.2. t-Test zum Vergleich von Mittelwerten für gepaarte Stichproben und tTest für 2 unabhängige Stichproben. Laden Sie, falls nicht schon geladen, die Datei ergodaten.sav. (Vgl. Aufgabe 5.5.1). Schalten Sie, falls noch vom vorigen Beispiel anders eingestellt, die Datenauswahl auf “alle Fälle”. 1. Bewirkt die Ergometrie eine Erhöhung des Laktatspiegels? Vergleichen Sie die Mittelwerte der Variablen Laktatnach und Laktatvor mittels eines einseitigen t-Tests mit Signifikanzniveau 0.05. 1.1 Schreiben Sie die Hypothesen auf einem Blatt Papier auf. 1.2 Bevor Sie weiterschauen: Wird das ein Vergleich mit gepaarten oder unabhängigen Stichproben? 1.3 Analysieren - Mittelwerte vergleichen - T-Test für gepaarte Stichproben. 1.4 Klicken Sie beide Variablen Laktatnach, Laktatvor und bringen Sie sie dann durch die Pfeiltaste ins Variablenfeld. 1.5 OK. Sie sehen die Statistik der verwendeten Daten, ferner, dass zwischen Laktatvor und Laktatnach eine signifikant untermauerte positive Korrelation besteht, und schließlich das Testergebnis mit Statistiken über die Differenz Laktatnach-Laktatvor, den Nebenergebnissen t und den Freiheitsgraden, sowie dem zweiseitigen p-Wert. 1.6 Wie geht der Test aus? 2. Haben Frauen einen anderen Kaliumspiegel in Ruhe als Männer? Vergleichen Sie die Mittelwerte von Kvor für Frauen und für Männer mittels eines zweiseitigen t-Tests mit Signifikanzniveau 0.05. 2.1 Schreiben Sie die Hypothesen auf einem Blatt Papier auf. 2.2 Bevor Sie weiterschauen: Wird das ein Vergleich mit gepaarten oder unabhängigen Stichproben? 2.3 Analysieren - Mittelwerte vergleichen - T-Test für unabhängige Stichproben. 2.4 Testvariable: Kvor. Gruppenvariable: Sex (sie teilt die Stichprobe in die beiden Stichproben, welche verglichen werden sollen.) 2.5 Gruppen definieren: Gruppe 1: Wert 0 (Frauen), Gruppe 2: Wert 1 (Männer). Weiter. 2.6 OK. Sie sehen die Statistik der verwendeten Daten und die Ergebnisse des Tests. 2.7 Können Sie von Varianzhomogenität ausgehen? Betrachten Sie das Ergebnis des LeveneTests und entscheiden Sie, in welcher Zeile der Testergebnisse Sie weiterlesen müssen. 2.8 Sie finden die üblichen Nebenrechnungen, sowie den p-Wert für den zweiseitigen Test. Wie geht der Test aus? 5.5. VERGLEICHSTESTS 213 Aufgabe 5.5.3. Parameterfreie Tests für gepaarte Stichproben. Eine Übungsveranstaltung aus Statistik wird in zwei Parallelgruppen (A,B) abgehalten. Der Lehrende aus Gruppe A ist in Verruf geraten, Hausübungsbeispiele besonders streng zu bewerten. Um das zu überprüfen, haben sich einige Studierende beider Gruppen paarweise zusammengetan. Insgesamt 8 Paare aus je einem Studierenden der Gruppe A und der Gruppe B wurden gebildet. Jedes Paar macht die Hausübung gemeinsam, und gibt identische Exemplare in der Gruppe A und B ab. Die Bewertung in Punkten durch die beiden Lehrenden sieht man in der folgenden Tabelle: Paar 1 Bewertung A 5 Bewertung B 5 2 10 10 3 7 9 4 5 6 7 8 4 2 2 5 8 3 4 3 7 8 Läßt sich aus diesen Daten mit einem Signifikanzniveau von 0.10 schließen, dass der Lehrende A im Durchschnitt weniger Punkte gibt als der Lehrende B? 1. Geben Sie die Daten in SPSS ein. Jede Spalte entspricht einem Prüfer, jede Zeile einer Hausübung. Vgl. Aufgabe 5.1.2). 1.1 Eröffnen Sie ein neues Datendokument. 1.2 Legen Sie in der Variablenansicht die Variablen APunkte und BPunkte als metrische Variablen an. 1.3 Tragen Sie die Punkte in der Datenansicht ein. 1.4 Speichern Sie die Datei unter aufgabe53.sav. 2. Welchen der folgenden Tests würden Sie verwenden, und warum? T-Test für verbundene Stichproben, Wilcoxon-Test für verbundene Stichproben, Vorzeichentest? 2.1 Entscheiden Sie sich für eine Methode und begründen Sie Ihre Entscheidung. 2.2 Ist es wichtig, sich zuerst für eine Methode zu entscheiden, oder kann man erst alle drei Methoden durchspielen und die Entscheidung dann treffen? 2.3 Schreiben Sie sich die Hypothesen in Worten auf. 3. Vergleichen Sie die Variablen APunkte, BPunkte durch einen einseitigen t-Test für gepaarte Stichproben. Vgl. Aufgabe 5.5.2, Teil 1. 3.1 3.2 3.3 3.4 Analysieren - Mittelwerte vergleichen - T-Test für gepaarte Stichproben Testvariablen APunkte, BPunkte Interpretieren Sie das Ergebnis. Wie geht der Test aus? Speichern Sie zur Sicherheit und zum späteren Vergleich die Ausgabe als aufgabe3.spo. 4. Vergleichen Sie die Variablen APunkte, BPunkte durch einen WilcoxonTest und einen Vorzeichentest für gepaarte Stichproben. 4.1 4.2 4.3 4.4 4.5 4.6 Analysieren - Nichtparametrische Tests - Zwei verbundene Stichproben Bringen Sie das Variablenpaar APunkte, BPunkte in das Fenster der Testvariablen. Wählen Sie Wilcoxon-Test und Vorzeichentest. Schalter Exakt: exakte Rechnung, falls sie nicht länger als 5 Minuten braucht. Weiter. OK. Sie sehen je eine Ausgabe für den Wilcoxon-Test und den Vorzeichen-Test. Bei beiden Tests sehen Sie erst eine Übersicht über die Daten. Es gibt drei Bindungen: die drei Hausübungen, die von beiden Prüfern gleich bewertet wurden. Eine Arbeit wurde von Prüfer A besser bewertet als von Prüfer B. Der Wilcoxon-Test zählt nicht nur die positiven und negativen Differenzen, sondern arbeitet mit Rangsummen. 4.7 Wie gehen die beiden Tests aus? 4.8 Bei diesem geringen Stichprobenumfang weichen die exakten Ergebnisse stark von den asymptotischen (Näherungsformeln) ab. Verlassen Sie sich nur auf die exakten Ergebnisse, die Näherungsformeln sind für große Stichproben. 5. Vergleichen Sie die Ergebnisse der drei Tests. 5.1 Welcher Test zeigt die höchste Signifikanz, und warum? 5.2 Die drei Tests zeigen verschiedene p-Werte. Also müsste die ganze Statistik ein Schwindel sein, der sich selbst widerspricht. Oder doch nicht? 214 5. ÜBUNGEN 5.6. Nominale Daten und Anpassungstests Aufgabe 5.6.1. Häufigkeitstabellen anlegen, Binomialtest auf Anteile Ein neues Medikamentes gegen Schnupfen wird getestet. In einem ersten Test von 20 ProbandInnen stellte sich bei 12 ProbandInnen innerhalb von 24 Stunden eine Verbesserung des Zustandes ein. Kann mit einem Signifikanzniveau von 0.05 geschlossen werden, dass dieses Medikament bei mindestens 40% der PatientInnen innerhalb von 24 Stunden eine Verbesserung bewirkt? 1. Legen Sie die Daten in SPSS an. Sie müssen dazu nicht 20 Datenzeilen anlegen, sondern gehen Sie wie folgt vor: 1.1 Legen Sie in einem neuen SPSS-Datenblatt in der Variablenansicht die Variablen Erfolg (nominal dichotom mit Wertelabels Verbesserung / keine Verbesserung) und Häufigkeit (metrisch) an. 1.2 Die Datenansicht besteht aus zwei Zeilen mit den Werten: Erfolg Verbesserung, Häufigkeit 12, und Erfolg keine Verbesserung, Häufigkeit 8. Hier entspricht also nicht jeder Merkmalsträger, sondern jede Ausprägung der Variablen Erfolg einer Datenzeile. 1.3 Daten - Fälle gewichten - Gewichten mit Häufigkeit. Durch diesen Schritt wird festgelegt, dass die beiden Zeilen nicht je zu einem, sondern zu 12 bzw. 8 Merkmalsträgern gehören. 2. Stellen Sie die Hypothesen des Tests in Worten auf. 3. Führen Sie einen einseitigen Binomialtest durch. 3.1 3.2 3.3 3.4 Analysieren - Nichtparametrische Tests - Binomial Testvariable: Erfolg. Testwert: 0,4. Schalter Exakt: Exakt falls Rechnung weniger als 5 Minuten dauert. OK. Wie geht der Test aus? 4. Versuchen Sie den Test mit anderen Nullhypothesen: 4.1 Versuchen Sie den gleichen Test mit dem Testwert 0,8. SPSS rechnet normalerweise mit der Alternativhypothese: “Die Wahrscheinlichkeit, dass ein Merkmalsträger in Gruppe 1 fällt, ist größer als der Testwert.” Jedoch würde ein solcher Test bei dieser Datenlage nicht sinnvoll sein, und SPSS wählt automatisch eine passende Alternativhypothese! 4.2 Versuchen sie den Test mit Testwert 0,5. SPSS rechnet für diesen speziellen Testwert mit einer zweiseitigen Alternativhypothese. Halbieren Sie diese, wenn Sie den p-Wert für einen einseitigen Test brauchen. 5. In einem größer angelegten Versuch zeigte sich, dass das Medikament bei 450 von 1000 PatientInnen Verbesserungen brachte. Kann aus diesen Daten mit Signifikanzniveau 0.05 geschlossen werden, dass dieses Medikament bei mindestens 40% der PatientInnen Verbesserungen bringt? 5.1 Ändern Sie die Daten in der Datenansicht auf 450 Erfolge und 550 Misserfolge ab. 5.2 Führen Sie den Binomialtest durch. Statt exakt rechnen Sie diesmal nur asymptotisch. 5.3 Wie geht der Test aus? Aufgabe 5.6.2. χ2 -Anpassungstest für nominale Merkmale Ein genetisches Merkmal sei in einer Population in der dominanten Form A und der rezessiven Form a vertreten. Kreuzt man nur Individuen mit gemischtem Genotyp Aa miteinander, sind in der nächsten Generationen die drei Genotypen mit folgenden Wahrscheinlichkeiten verteilt: AA Aa aa 0.25 0.50 0.25 In einer Versuchsgruppe wurden folgende Häufigkeiten beobachtet: AA Aa aa gesamt 4 14 2 20 Kann mit Signifikanznivau 0.05 geschlossen werden, dass diese Gruppe nicht nur aus Nachkommen von gemischterbigen Eltern besteht? 1. Legen Sie die Daten an. 1.1 Zwei Variablen: Genotyp (nominal, Wertelabels 1=AA, 2=Aa, 3=aa) und Häufigkeit (metrisch). Eine Datenzeile für jeden Genotyp. 1.2 Daten - Fälle gewichten - gewichten mit Häufigkeit. 2. Schreiben Sie die Hypothesen des Tests auf. 3. Führen Sie einen χ2 -Anpassungstest durch. 3.1 Analysieren - Nichtparametrische Tests - Chi-Quadrat 3.2 Testvariable: Genotyp 3.3 Werte: Eingeben, und zwar die drei Werte 0.25, 0.5, 0.25 nacheinander, jeweils einen Wert eintippen und hinzufügen. 3.4 Exakte Rechnung. OK. 3.5 Wie geht der Test aus? 5.6. NOMINALE DATEN UND ANPASSUNGSTESTS 215 Aufgabe 5.6.3. Kreuztabellen anlegen und χ2 -Test auf Unabhängigkeit nominaler Merkmale. Um die Aktivität von drei Affen zu vergleichen, wurde für jeden Affen in Abständen von je Viertelstunden in einer Liste erfasst, womit der Affe in der jeweiligen Viertelstunde vornehmlich beschäftigt war. Nach Erfassung von 25 Stunden gesamt für jedes Tier ergab sich folgende Tabelle: Adam Beatrice Caesar gesamt dösen oder schlafen 40 45 43 128 klettern 35 32 28 105 12 10 15 37 fressen andere 13 13 14 40 gesamt 100 100 100 300 1. Legen Sie die Daten in SPSS an. 1.1 Zwei nominale Variablen Affe (Wertelabels Adam, Beatrice, Caesar) und Aktivität (dösen, klettern, fressen, andere), und eine metrische Variable Häufigkeit. 1.2 Je eine Datenzeile für jede Kombination je eines Affen mit einer Tätigkeit, z.B. “Adam dösen 40”. 1.3 Fälle gewichten mit Häufigkeit. 2. Erstellen Sie eine Kreuztabelle, die die obige Tabelle wiedergibt, und aus der man sieht, welchen Prozentsatz seiner Zeit jeder Affe für die verschiedenen Tätigkeiten aufwendet. 2.1 Analysieren - Deskriptive Statistiken - Kreuztabellen 2.2 Zeilenvariable: Aktivität. Spaltenvariable: Affe. 2.3 Zellen: Prozente spaltenweise. 3. Lässt sich mit einem Signifikanzniveau von 0.05 schließen, dass nicht alle drei Affen ihre Zeit nach denselben Proportionen aufteilen? Führen Sie einen χ2 -Test auf Unabhängigkeit aus. 3.1 3.2 3.3 3.4 Analysieren - Deskriptive Statistiken - Kreuztabellen. Zeilen und Spalten wie vorhin. Statistik: Chi-Quadrat. Wie geht der Test aus? Aufgabe 5.6.4. Kolmogorov-Smirnov-Test Laden Sie den (bereitgestellten) Datenfile stoerfall.sav. Der File zeigt, aufgeschlüsselt nach Jahr 2000–2005 und Monat, die Anzahl der meldepflichtigen Störfälle in verfahrenstechnischen Anlagen in der BRD. Jede Zeile beschreibt einen Monat. (Quelle: Zentrale Melde- und Auswertestelle für Störfälle in Verfahrenstechnischen Anlagen, ZEMA). Sollten die Störfälle voneinander unabhängig und unabhängig vom Monat auftreten, so muss die Anzahl der Störfälle eine poissonverteilte Zufallsvariable sein, welche in jedem Monat neu realisiert wird. Unter gewissen Umständen kann eine Poissonverteilung auch durch eine Normalverteilung angenähert werden. 1. Erstellen Sie ein Balkendiagramm, das zeigt, wieviele meldepflichtige Störfälle in den einzelnen Jahren 2000 bis 2005 aufgetreten sind. 1.1 Grafiken - Balkendiagramme - einfaches Diagramm über Kategorien einer Variablen 1.2 Kategorienachse: Jahr 1.3 Balken bedeuten: andere Statistik, nämlich Summe der Zahlen der gemeldeten Störfälle. 2. Erstellen Sie ein Balkendiagramm, das zeigt, in wievielen der erfassten Monate je 0,1,2,3 usw. Störfälle aufgetreten sind. 2.1 Grafiken - Balkendiagramme - einfaches Diagramm über Kategorien einer Variablen 2.2 Kategorienachse: Anzahl der Störfälle 2.3 Balken bedeuten: Anzahl der Fälle (jeder Fall ist ein Monat). 3. Weicht die Anzahl der Störfälle pro Monat deutlich von einer Poissonverteilung / einer Normalverteilung ab? Führen Sie einen KolmogorovSmirnov-Test mit Signifikanzniveau 0.05 durch. 3.1 Schreiben Sie die Hypothesen des Tests auf. 3.2 Analysieren - Nichtparametrische Tests - Kolmogorov-Smirnov bei einer Stichprobe 3.3 Testvariable: Zahl der gemeldeten Störfälle. Verteilungen auswählen: Normalverteilung, Poissonverteilung 3.4 OK. Wie gehen die Tests aus? 216 5. ÜBUNGEN 5.7. Varianzanalyse Aufgabe 5.7.1. Einfaktorielle Varianzanalyse Laden Sie die (bereitgestellte) Datei aepfel.sav. Diese (fiktiven) Daten beschreiben die Gewichte von Stichproben von 5 verschiedenen Sorten Äpfeln, welche aus 3 verschiedenen Obstplantagen stammen. Jede Zeile ist ein Apfel, die drei Variablen geben an, zu welcher Sorte (A . . . E) der Apfel gehört, aus welcher Plantage (A . . . C) er stammt, und wie schwer er ist. 1. Machen Sie sich durch eine Kreuztabelle und durch einen Box-Whisker Plot für jede Art einen Überblick über die Stichprobe. 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 Analysieren - Deskriptive Statistik - Kreuztabellen Zeilen: Art. Spalten: Plantage. Schalter Zellen: Prozentangabe bezogen auf den Gesamtumfang OK. Wieviele Äpfel sind in der Stichprobe. Ist die Stichprobe ausgeglichen, d.h., ist der Umfang der Stichprobe zu jeder Faktorkombination gleich groß? Analysieren - Deskriptive Statistik - Explorative Datenanalyse Faktoren: Art. Abhängige Variable: Gewicht. Nur Diagramme anzeigen. Diagramme: Box Whisker, Faktorstufen gemeinsam. OK. Welche Arten sind besonders schwer? 2. Ist das mittlere Gewicht der Apfelsorten verschieden? Erstellen Sie eine einfaktorielle Varianzanalyse für die abhängige Variable Gewicht mit dem Faktor Art. Überprüfen Sie die Varianzhomogenität mit Signifikanzniveau 0.05. Rechnen Sie auch (für den folgenden Punkt 3.) gleich folgende PostHoc Analysen mit: LSD, Bonferroni, Scheffe, Student-Newman-Keuls. 2.1 2.2 2.3 2.4 2.5 2.6 2.7 Analysieren - Mittelwerte vergleichen - Einfaktorielle Varianzanalyse Abhängige Variable: Gewicht. Faktor: Art Optionen: Test auf Varianzhomogenität, deskriptive Statistik Post Hoc: LSD, Bonferroni, Scheffe, SNK OK. Welche Durchschnittsgewichte haben die einzelnen Arten? Müssen wir damit rechnen, dass die Gewichte der einzelnen Arten verschiedene Varianzen haben? Welche Auswirkungen hätte das auf die Varianzanalyse? 2.8 Was bedeuten die Quadratsummen in der Tabelle der ANOVA? Wie geht der Test aus? 3. Vergleichen Sie die einzelnen Arten untereinander mit Hilfe der Post-HocMethoden. 3.1 Zwischen welchen Paaren von Arten gibt es signifikante Unterschiede? Sehen Sie in der Scheffe-Kreuztabelle nach. (Der Scheffe-Test ist so ausgelegt, dass die Gesamtsignifikanz des Tests 0.05 ist.) 3.2 Vergleichen Sie die Signifikanzen in der LSD und der Bonferroni-Tabelle. Welche Tabelle verwendet man wann? 3.2 Lassen sich die Arten in mehrere Gruppen ungefähr gleich schwerer Arten unterteilen? Interpretieren Sie die Student-Newman-Keuls Tabelle. Aufgabe 5.7.2. Zweifaktorielle Varianzanalyse Laden Sie, falls noch nicht geladen, die Datei aepfel.sav. 1. Erstellen Sie eine zweifaktorielle Varianzanalyse für die abhängige Variable Gewicht mit dem ersten Faktor Art und dem zweiten Faktor Plantage. 1.1 Analysieren - Allgemeine lineare Modelle - Univariat 1.2 abhängige Variable: Gewicht. Faktoren: zuerst Art, dann Plantage einfügen. 1.3 Schalter Modell: Quadratsumme Typ I. Gesättigtes Modell: Alle Faktoren und Wechselwirkungen werden berücksichtigt. Konstanten Term einschließen. 1.4 Diagramme: Horizontale Achse: Art. Separate Linien für Plantagen. 1.5 Optionen: Residuendiagramme. 1.6 OK 1.7 Analysieren Sie die Varianzanalyse der Zwischensubjekteffekte. Liefert der Faktor Art einen signifikanten Beitrag? Wird das Modell signifikant besser, wenn der Faktor Plantage dazugenommen wird? 1.8 Die Residuen sind die Abweichungen der tatsächlich beobachteten Werte von den Werten, welche das Modell vorhersagt. Sie sollten von den vorhergesagten Werten unabhängig sein. Zeigt das Residuendiagramm eine deutliche Abhängigkeit? 1.9 Warum sind die Residuen nicht unabhängig von den beobachteten Werten? 1.10 Vergleichen Sie die mittleren Gewichte der Arten für die drei Plantagen an Hand der Liniendiagramme. Wird eine Wechselwirkung zwischen Art und Plantage sichtbar? 2. Wiederholen Sie die zweifaktorielle Varianzanalyse mit umgekehrter Reihenfolge der Faktoren Plantage und Art. 2.1 Ansetzen der Analyse wie oben, nur dass nun der Faktor Plantage zuerst kommt. Die Diagramme können jetzt abgeschaltet werden. 2.2 Die Zahlenwerte in der ANOVA-Tabelle sind verändert und haben eine andere Bedeutung, z.B. bedeutet der Wert bei Plantage nun nicht den Anteil der Varianz, der erklärt wird, wenn Plantage zum Faktor Art dazugenommen wird, sondern jenen Anteil der Varianz, der erklärt wird, wenn Plantage als erster Faktor ins Spiel kommt. 5.7. VARIANZANALYSE 217 2.3 Bei ausgeglichenen Designs kommt es auf die Reihung der Faktoren nicht an. Bei unausgegleichenen Experimenten (wie hier) rechnet man besser mit Summen vom Typ III, diese schätzen den Einfluss jedes Faktors separat. Aufgabe 5.7.3. Kruskal-Wallis-Test Laden Sie die (bereitgestellte) Datei troglophyli.sav. Troglophylus, ein heuschreckenähnliches Insekt, lebt im Sommer im Freien und überwintert in Höhlen. In den Höhlen schlüpfen auch die Larven. Eine steirischen Höhle wurde in Tiefenintervalle von 0-10m, 10-20m, usw. unterteilt, und in jedem Intervall die Anzahl der Weibchen, Männchen und Larven gezählt. Ausserdem wurden Temperatur und Luftfeuchte in jedem Intervall gemessen. Daten: Bernd Freitag, auszugsweise. 1. Jede Zeile beschreibt mehrere Troglophyli, nämlich alle Individuen eines Geschlechts in einem Tiefenabschnitt. Gewichten Sie die Fälle adäquat. 1.1 Daten - Fälle gewichten 1.2 Gewichten mit Anzahl Troglophyli. 2. Verschaffen Sie sich mit einem gruppierten Stabdiagramm Übersicht, in welchen Tiefen die drei Ausprägungen Larve, Weibchen, Männchen bevorzugt leben. 2.1 Grafiken - Balken 2.2 Gruppiert, über Kategorien einer Variablen 2.3 Schalter Definieren: Höhe bedeutet Anzahl der Fälle. Kategorienachse: Tiefe. Gruppen: Sex. 2.4 OK. Interpretieren Sie das Balkendiagramm. 2.5 Ist die Zufallsvariable Tiefe für die einzelnen Geschlechter annähernd normalverteilt? 3. Überprüfen Sie durch einen Kruskal-Wallis H-Test, ob der Faktor Geschlecht einen Einfluss auf die Variable Tiefe hat. (Leben also die drei Geschlechter bevorzugt in verschiedenen Tiefen?) Signifikanzniveau 0.05. 3.1 Analysieren - Nichtparametrische Tests - K unabhängige Stichproben 3.2 Kruskal-Wallis Test. Abhängige Variable: Tiefe. Gruppe: Sex, im Bereich 0–2. 3.3 Wie geht der Test aus? 218 5. ÜBUNGEN 5.8. Regression Aufgabe 5.8.1. Korrelationskoeffizienten Laden Sie die Datei ergodaten.sav (vgl. Aufgabe 5.5.1). Die vier Elektrolyte Mg, Ca, Na, K (in Ruhe, also Daten vor der Ergometrie) sollen auf mögliche lineare Zusammenhänge untersucht werden. 1. Bestimmen Sie die Korrelationskoeffizienten für jedes Paar von Elektrolyten. 1.1 Analysieren - Korrelation - bivariat 1.2 Variablen: Cavor, Kvor, Mgvor, Navor. Pearsonscher Korrelationskoeffizient, zweiseitige Signifikanz. 1.3 Schalter Optionen: Mittelwerte und Standardabweichungen. 1.4 OK. Überprüfen Sie für jedes Paar von Elektrolyten an Hand der Korrelationskoeffizienten: Verhalten sie sich eher gleich- oder gegenläufig? 1.5 Welche dieser Zusammenhänge zwischen den Elektrolyten sind statistisch untermauerbar? 1.6 Was bedeutet ein relativ kleiner Korrelationskoeffizient mit einer deutlichen statistischen Signifikanz (p sehr klein)? 1.7 Was muss man bedenken, wenn man für viele Variablen gleichzeitig alle Korrelationen auf Signifikanz testet? 2. Erstellen Sie ein Streudiagramm mit waagrecht K und senkrecht Na, eines mit waagrecht Ca und senkrecht Na. Vergleichen Sie die Streudiagramme mit den berechneten Korrelationskoeffizienten. 2.1 Grafiken - Streudiagramme - Einfaches Streudiagramm 2.2 x-Achse Kvor, y-Achse Navor. OK. 2.3 Das zweite Streudiagramm geht ebenso. 3. Es ist bekannt, dass manche der Elektrolyte deutlich mit pH und Blutgasen korrelieren. Ist der Zusammenhang zwischen Mg und Ca eine Scheinkorrelation, mit pH und Blutgasen als Confounders? Bestimmen Sie die partiellen Korrelationen zwischen den Elektrolyten unter Kontrolle von pH, PCO2 und HCO3 (jeweils vor der Ergometrie). 3.1 Analysieren - Korrelation - Partiell 3.2 Variablen: Cavor, Kvor, Mgvor, Navor. Kontrollvariablen PHvor, PCO2vor, HCO3vor. OK. 3.3 Welche Korrelationen zwischen den 4 Elektrolyten bleiben signifikant, wenn man pH und Blutgase kontrolliert? Aufgabe 5.8.2. Lineare Regression Laden Sie, falls nicht schon geladen, die Datei ergodaten.sav. Kann der pH-Wert nach der Ergometrie aus den Messwerten vor der Ergometrie vorhergesagt werden? Führen Sie eine multiple lineare Regression durch. 1. Setzen Sie die Regression an. 1.1 Analysieren - Regression - Linear 1.2 Abhängige Variable PHnach, unabhängige Variablen: Cavor, HCO3vor, Kvor, Laktatvor, Mgvor, Navor, PCO2vor, PHvor. 1.3 Schrittweises Verfahren. 1.4 Schalter Optionen: Signifikanz(= Wahrscheinlichkeits-)wert für Einschluss: 0.05, Ausschluss: 0.1. Konstante ins Modell einbeziehen. OK. 2. Analysieren Sie die Tabelle: Modellzusammenfassung 2.1 Wieviele Modelle hat SPSS durchgerechnet, und welche Variablen kommen darin vor? 2.2 Welche Bestimmtheitsmaße erzielen die Modelle, welches Modell hat das höchste Bestimmtheitsmaß? 2.3 Welchen Schätzwert liefern die Modelle für σ, die Standardabweichung des Zufallsanteils? 2.4 Welches Modell würden Sie endgültig auswählen? 3. Analysieren Sie die Koeffiziententabelle. 3.1 Wie sieht die Regressionsformel nach Modell 3 aus? Schreiben Sie sich die Formel des Modells auf. 3.2 Kann mit einer Signifikanzniveau von 0.05 geschlossen werden, dass ein Einfluss von Mg vor der Ergometrie auf den pH nach der Ergometrie vorliegt? 3.3 Wenn Mg vor der Ergometrie um 1 mEq/l erhöht wird, und alle anderen Variablen vor der Ergometrie unverändert bleiben: Um welchen Betrag und in welche Richtung ändert sich im Durchschnitt der pH-Wert nach der Ergometrie? 3.4 Welcher Effekt wirkt sich am Ende stärker auf den pH-Wert nach der Ergometrie aus: Der Einfluss von Mg oder der Einfluss von HCO3? 3.5 Sowohl Modell 2 als auch Modell 3 enthalten die Variable PHvor, aber mit verschiedenen Koeffizienten. Ist das ein Widerspruch? 4. Analysieren Sie die Tabelle der ausgeschlossenen Variablen. 4.1 Die Variable HCO3vor kommt in Modell 2 nicht vor und wird in Modell 3 aufgenommen. Vergleichen Sie die Werte für diese Variable in der Koeffiziententabelle (Modell 3) und der Tabelle der nicht aufgenommenen Variablen (Modell 2). 5.8. REGRESSION 219 4.2 Nach der Henderson-Hasselbalch’schen Gleichung besteht ein Zusammenhang zwischen pH-Wert, Partialdruck von CO2 und Konzentration von HCO3 . Die Toleranz der Variablen PCO2vor zu Modell 2 und zu Modell 3 fallen sehr verschieden aus. Erklären Sie, warum. 5. Analysieren Sie die Tabelle der Varianzanalyse. 5.1 Wie groß ist die Gesamtschwankung des pH-Wertes nach der Ergometrie? 5.2 Welchen Anteil der Gesamtschwankung kann Modell 2 erklären, und welcher bleibt unerklärt? Welche Freiheitsgrade gehören zu diesen Anteilen? 5.3 Zu welchem Test sind in der ANOVA-Tabellen die Signifikanzen ausgegeben, und wie geht der Test aus? 5.4 Welcher Anteil der Gesamtschwankung wird zusätzlich erklärt, wenn man Modell 2 durch Modell 3 ersetzt? 6. Fassen Sie zusammen: Von welchen Variablen hängt der pH-Wert nach der Ergometrie ab, und wie gut lässt er sich aus diesen Variablen vorhersagen? Aufgabe 5.8.3. Lineare Regression: Modelldiagnostik Laden Sie, falls nicht schon geladen, die Datei ergodaten.sav. Kann die Konzentration des Mg in Ruhe (vor Ergometrie) aus den anderen Ruheparametern vorhergesagt werden? Führen Sie eine lineare Regression durch, und machen Sie zu dieser Regression eine Modelldiagnostik. 1. Setzen Sie die Regression an. 1.1 Analysieren - Regression - Linear 1.2 Abhängige Variable: Mgvor. Unabhängige Variablen: Cavor, HCO3vor, Kvor, Laktatvor, Navor, PCO2vor, PHvor. Schrittweise Methode. 1.3 Statistiken: Schätzer für Regressionskoeffizienten. Änderung in R2 . Residuen: Fallweise Diagnose bei Ausreissern außerhalb 3facher Standardabweichung. Kollinearitätsdiagnose. 1.4 Diagramme: Standardisierte Residuen im Histogramm und Normalverteilungsdiagramm. Streudiagramm mit waagrecht standardisiertem vorhergesagtem Mgvor (*ZPRED) und senkrecht standardisierten Residuen (*ZRESID). 1.5 Speichern: Residuen (nicht standardisiert), Cook’s Distanz. 2. Was sind die Ergebnisse der Regression? 2.1 2.2 2.3 2.4 Welche Modelle wurden durchgerechnet, welche Variablen kommen darin vor? Welcher Anteil der Gesamtschwankung des Mg wird durch die Modelle erklärt? Welchem der durchgerechneten Modelle geben Sie den Vorzug? Für welche Variablen lässt sich mit Signifikanzniveau 0.05 nachweisen, dass sie auf Mg einen Einfluss haben. 2.5 Welche Variablen haben den stärksten Einfluss auf Mg? 3. Untersuchen Sie die Residuen 3.1 Datenpunkte mit extrem hohen oder niedrigen Residuen finden sich in der Tabelle fallweise Diagnose. 3.2 Analysieren Sie die Tabelle Residuenstatistik. In welchem Bereich liegen die vorhergesagten Werte, in welchem Bereich liegen die Residuen? Vergleichen Sie die Standardabweichung der nicht standardisierten Residuen mit dem “Standardfehler des Schätzers” in der Modellzusammenfassung. 3.3 Sind die Residuen annähernd normalverteilt? Betrachten Sie das PP-Diagramm und das Histogramm. 3.4 Sind die Residuen unabhängig vom vorhergesagten Wert? Betrachten Sie das Streudiagramm. 3.5 Sind die Residuen unabhängig von der erklärenden Variablen pH-Wert? Erstellen Sie ein Streudiagramm mit waagrecht PHvor und senkrecht Residuen. 4. Gibt es Datensätze auf die die Regression besonders stark reagieren würde? 4.1 Machen Sie mit Hilfe von Analysieren - Deskriptive Statistik - Explorative Datenanalyse einen Box-Whisker Plot und ein Histogramm sowie eine Tabelle der Extremwerte der Cookschen Distanz. Datenpunkte mit hoher Cookscher Distanz sind solche, auf die die Regression besonders stark reagiert. Faustregel: Cooksche Distanz unter 1 ist unbedenklich. 5. Gibt es Hinweise auf Multikollinearität? 5.1 Gibt es unter den aufgenommenen Variablen welche mit niedriger Toleranz? (Toleranzen unter 0.25 gelten als suspekt.) KAPITEL 6 Tabellen und Literatur Übersicht: 1) Tabellen 2) Literatur 6.1. Tabellen Übersicht: 1 2 3–4 5–6 7–8 9–10 11–12 13 14 15 16 17 18 Verteilungsfunktion der Standardnormalverteilung Quantile der t-Verteilung Quantile der χ2 -Verteilung Perzentile der F-Verteilung (α = 10%) Perzentile der F-Verteilung (α = 5%) -Perzentile der F-Verteilung (α = 2.5%) Perzentile der F-Verteilung (α = 0.1%) Kritische Werte für die Kolmogorov-Smirnov-Statistik Kritische Werte für den Kolmogorov-Smirnov-Lillefors Test Binomialkoeffizienten Kumulative Häufigkeiten der B(n, 0.5)-Binomialverteilung Kritische Werte für den Mann-Whitney-U-Test Kritische Werte für den Wilcoxon-Test α ist hier die Wahrscheinlichkeit, dass die Zufallsvariable über dem Tabellenwert liegt. Die Tabelle zu α = 0.025 zeigt also das 97.5%-Perzentil. 221 222 6. TABELLEN UND LITERATUR Tabelle 1 Verteilungsfunktion der Standardnormalverteilung Z Die Tabelle zeigt die Wahrscheinlichkeit, dass Z zwischen 0 und dem angegebenen Wert liegt. 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.00 0.0000 0.0398 0.0793 0.1179 0.1554 0.1915 0.2257 0.2580 0.2881 0.3159 0.01 0.0040 0.0438 0.0832 0.1217 0.1591 0.1950 0.2291 0.2611 0.2910 0.3186 0.02 0.0080 0.0478 0.0871 0.1255 0.1628 0.1985 0.2324 0.2642 0.2939 0.3212 0.03 0.0120 0.0517 0.0910 0.1293 0.1664 0.2019 0.2357 0.2673 0.2967 0.3238 0.04 0.0160 0.0557 0.0948 0.1331 0.1700 0.2054 0.2389 0.2704 0.2995 0.3264 0.05 0.0199 0.0596 0.0987 0.1368 0.1736 0.2088 0.2422 0.2734 0.3023 0.3289 0.06 0.0239 0.0636 0.1026 0.1406 0.1772 0.2123 0.2454 0.2764 0.3051 0.3315 0.07 0.0279 0.0675 0.1064 0.1443 0.1808 0.2157 0.2486 0.2794 0.3078 0.3340 0.08 0.0319 0.0714 0.1103 0.1480 0.1844 0.2190 0.2517 0.2823 0.3106 0.3365 0.09 0.0359 0.0753 0.1141 0.1517 0.1879 0.2224 0.2549 0.2852 0.3133 0.3389 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 0.3413 0.3643 0.3849 0.4032 0.4192 0.4332 0.4452 0.4554 0.4641 0.4713 0.3438 0.3665 0.3869 0.4049 0.4207 0.4345 0.4463 0.4564 0.4649 0.4719 0.3461 0.3686 0.3888 0.4066 0.4222 0.4357 0.4474 0.4573 0.4656 0.4726 0.3485 0.3708 0.3907 0.4082 0.4236 0.4370 0.4484 0.4582 0.4664 0.4732 0.3508 0.3729 0.3925 0.4099 0.4251 0.4382 0.4495 0.4591 0.4671 0.4738 0.3531 0.3749 0.3944 0.4115 0.4265 0.4394 0.4505 0.4599 0.4678 0.4744 0.3554 0.3770 0.3962 0.4131 0.4279 0.4406 0.4515 0.4608 0.4686 0.4750 0.3577 0.3790 0.3980 0.4147 0.4292 0.4418 0.4525 0.4616 0.4693 0.4756 0.3599 0.3810 0.3997 0.4162 0.4306 0.4429 0.4535 0.4625 0.4699 0.4761 0.3621 0.3830 0.4015 0.4177 0.4319 0.4441 0.4545 0.4633 0.4706 0.4767 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 0.4772 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.4965 0.4974 0.4981 0.4778 0.4826 0.4864 0.4896 0.4920 0.4940 0.4955 0.4966 0.4975 0.4982 0.4783 0.4830 0.4868 0.4898 0.4922 0.4941 0.4956 0.4967 0.4976 0.4982 0.4788 0.4834 0.4871 0.4901 0.4925 0.4943 0.4957 0.4968 0.4977 0.4983 0.4793 0.4838 0.4875 0.4904 0.4927 0.4945 0.4959 0.4969 0.4977 0.4984 0.4798 0.4842 0.4878 0.4906 0.4929 0.4946 0.4960 0.4970 0.4978 0.4984 0.4803 0.4846 0.4881 0.4909 0.4931 0.4948 0.4961 0.4971 0.4979 0.4985 0.4808 0.4850 0.4884 0.4911 0.4932 0.4949 0.4962 0.4972 0.4979 0.4985 0.4812 0.4854 0.4887 0.4913 0.4934 0.4951 0.4963 0.4973 0.4980 0.4986 0.4817 0.4857 0.4890 0.4916 0.4936 0.4952 0.4964 0.4974 0.4981 0.4986 3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990 6.1. TABELLEN 223 Tabelle 2 Quantile der t-Verteilung α ist die Wahrscheinlichkeit, dass t oberhalb des Tabellenwertes liegt. α Freiheitsgrade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 100 ∞ 0,1 0,05 0,025 0,01 0,005 0,0025 0,001 0,0005 0,00025 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,290 1,282 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,660 1,645 12,706 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,984 1,960 31,821 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,390 2,364 2,326 63,656 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,626 2,576 127,321 14,089 7,453 5,598 4,773 4,317 4,029 3,833 3,690 3,581 3,497 3,428 3,372 3,326 3,286 3,252 3,222 3,197 3,174 3,153 3,135 3,119 3,104 3,091 3,078 3,067 3,057 3,047 3,038 3,030 2,971 2,915 2,871 2,807 318,289 22,328 10,214 7,173 5,894 5,208 4,785 4,501 4,297 4,144 4,025 3,930 3,852 3,787 3,733 3,686 3,646 3,610 3,579 3,552 3,527 3,505 3,485 3,467 3,450 3,435 3,421 3,408 3,396 3,385 3,307 3,232 3,174 3,090 636,578 31,600 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,768 3,745 3,725 3,707 3,689 3,674 3,660 3,646 3,551 3,460 3,390 3,290 1273,155 44,703 16,326 10,305 7,976 6,788 6,082 5,617 5,291 5,049 4,863 4,717 4,597 4,499 4,417 4,346 4,286 4,233 4,187 4,146 4,109 4,077 4,047 4,021 3,997 3,974 3,954 3,935 3,918 3,902 3,788 3,681 3,598 3,481 224 6. TABELLEN UND LITERATUR Tabelle 3 Quantile der χ2 -Verteilung α ist die Wahrscheinlichkeit, dass χ2 oberhalb des Tabellenwertes liegt. Freiheitsgrade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 0,995 0,990 α 0,975 0,950 0,900 0,000039 0,010025 0,071723 0,206984 0,411751 0,675733 0,989251 1,344403 1,734911 2,155845 2,603202 3,073785 3,565042 4,074659 4,600874 5,142164 5,697274 6,264766 6,843923 7,433811 8,033602 8,642681 9,260383 9,886199 10,519647 11,160218 11,807655 12,461281 13,121067 13,786682 20,706577 27,990825 35,534397 43,275305 51,171933 59,196327 67,327533 0,000157 0,020100 0,114832 0,297107 0,554297 0,872083 1,239032 1,646506 2,087889 2,558199 3,053496 3,570551 4,106900 4,660415 5,229356 5,812197 6,407742 7,014903 7,632698 8,260368 8,897172 9,542494 10,195689 10,856349 11,523951 12,198177 12,878468 13,564666 14,256406 14,953464 22,164201 29,706725 37,484796 45,441700 53,539983 61,754019 70,064995 0,000982 0,050636 0,215795 0,484419 0,831209 1,237342 1,689864 2,179725 2,700389 3,246963 3,815742 4,403778 5,008738 5,628724 6,262123 6,907664 7,564179 8,230737 8,906514 9,590772 10,282907 10,982330 11,688534 12,401146 13,119707 13,843881 14,573373 15,307854 16,047051 16,790756 24,433058 32,357385 40,481707 48,757536 57,153152 65,646592 74,221882 0,003932 0,102586 0,351846 0,710724 1,145477 1,635380 2,167349 2,732633 3,325115 3,940295 4,574809 5,226028 5,891861 6,570632 7,260935 7,961639 8,671754 9,390448 10,117006 10,850799 11,591316 12,338009 13,090505 13,848422 14,611396 15,379163 16,151395 16,927876 17,708381 18,492667 26,509296 34,764236 43,187966 51,739263 60,391459 69,126018 77,929442 0,015791 0,210721 0,584375 1,063624 1,610309 2,204130 2,833105 3,489537 4,168156 4,865178 5,577788 6,303796 7,041500 7,789538 8,546753 9,312235 10,085183 10,864937 11,650912 12,442601 13,239596 14,041490 14,847954 15,658679 16,473405 17,291880 18,113889 18,939235 19,767740 20,599245 29,050516 37,688637 46,458885 55,328945 64,277842 73,291079 82,358127 6.1. TABELLEN 225 Tabelle 4 Quantile der χ2 -Verteilung α ist die Wahrscheinlichkeit, dass χ2 oberhalb des Tabellenwertes liegt. Freiheitsgrade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 0,1 0,05 α 0,025 0,01 0,005 2,706 4,605 6,251 7,779 9,236 10,645 12,017 13,362 14,684 15,987 17,275 18,549 19,812 21,064 22,307 23,542 24,769 25,989 27,204 28,412 29,615 30,813 32,007 33,196 34,382 35,563 36,741 37,916 39,087 40,256 51,805 63,167 74,397 85,527 96,578 107,565 118,498 3,841 5,991 7,815 9,488 11,070 12,592 14,067 15,507 16,919 18,307 19,675 21,026 22,362 23,685 24,996 26,296 27,587 28,869 30,144 31,410 32,671 33,924 35,172 36,415 37,652 38,885 40,113 41,337 42,557 43,773 55,758 67,505 79,082 90,531 101,879 113,145 124,342 5,024 7,378 9,348 11,143 12,832 14,449 16,013 17,535 19,023 20,483 21,920 23,337 24,736 26,119 27,488 28,845 30,191 31,526 32,852 34,170 35,479 36,781 38,076 39,364 40,646 41,923 43,195 44,461 45,722 46,979 59,342 71,420 83,298 95,023 106,629 118,136 129,561 6,635 9,210 11,345 13,277 15,086 16,812 18,475 20,090 21,666 23,209 24,725 26,217 27,688 29,141 30,578 32,000 33,409 34,805 36,191 37,566 38,932 40,289 41,638 42,980 44,314 45,642 46,963 48,278 49,588 50,892 63,691 76,154 88,379 100,425 112,329 124,116 135,807 7,879 10,597 12,838 14,860 16,750 18,548 20,278 21,955 23,589 25,188 26,757 28,300 29,819 31,319 32,801 34,267 35,718 37,156 38,582 39,997 41,401 42,796 44,181 45,558 46,928 48,290 49,645 50,994 52,335 53,672 66,766 79,490 91,952 104,215 116,321 128,299 140,170 226 6. TABELLEN UND LITERATUR Tabelle 5 Quantile der F-Verteilung 0,1 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt. Freiheitsgrade des Nenners 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 100 ∞ des Zaehlers 5 1 2 3 4 39,864 8,526 5,538 4,545 4,060 3,776 3,589 3,458 3,360 3,285 3,225 3,177 3,136 3,102 3,073 3,048 3,026 3,007 2,990 2,975 2,961 2,949 2,937 2,927 2,918 2,909 2,901 2,894 2,887 2,881 2,835 2,791 2,756 2,706 49,500 9,000 5,462 4,325 3,780 3,463 3,257 3,113 3,006 2,924 2,860 2,807 2,763 2,726 2,695 2,668 2,645 2,624 2,606 2,589 2,575 2,561 2,549 2,538 2,528 2,519 2,511 2,503 2,495 2,489 2,440 2,393 2,356 2,303 53,593 9,162 5,391 4,191 3,619 3,289 3,074 2,924 2,813 2,728 2,660 2,606 2,560 2,522 2,490 2,462 2,437 2,416 2,397 2,380 2,365 2,351 2,339 2,327 2,317 2,307 2,299 2,291 2,283 2,276 2,226 2,177 2,139 2,084 55,833 9,243 5,343 4,107 3,520 3,181 2,961 2,806 2,693 2,605 2,536 2,480 2,434 2,395 2,361 2,333 2,308 2,286 2,266 2,249 2,233 2,219 2,207 2,195 2,184 2,174 2,165 2,157 2,149 2,142 2,091 2,041 2,002 1,945 57,240 9,293 5,309 4,051 3,453 3,108 2,883 2,726 2,611 2,522 2,451 2,394 2,347 2,307 2,273 2,244 2,218 2,196 2,176 2,158 2,142 2,128 2,115 2,103 2,092 2,082 2,073 2,064 2,057 2,049 1,997 1,946 1,906 1,847 6 7 8 9 58,204 9,326 5,285 4,010 3,405 3,055 2,827 2,668 2,551 2,461 2,389 2,331 2,283 2,243 2,208 2,178 2,152 2,130 2,109 2,091 2,075 2,060 2,047 2,035 2,024 2,014 2,005 1,996 1,988 1,980 1,927 1,875 1,834 1,774 58,906 9,349 5,266 3,979 3,368 3,014 2,785 2,624 2,505 2,414 2,342 2,283 2,234 2,193 2,158 2,128 2,102 2,079 2,058 2,040 2,023 2,008 1,995 1,983 1,971 1,961 1,952 1,943 1,935 1,927 1,873 1,819 1,778 1,717 59,439 9,367 5,252 3,955 3,339 2,983 2,752 2,589 2,469 2,377 2,304 2,245 2,195 2,154 2,119 2,088 2,061 2,038 2,017 1,999 1,982 1,967 1,953 1,941 1,929 1,919 1,909 1,900 1,892 1,884 1,829 1,775 1,732 1,670 59,857 9,381 5,240 3,936 3,316 2,958 2,725 2,561 2,440 2,347 2,274 2,214 2,164 2,122 2,086 2,055 2,028 2,005 1,984 1,965 1,948 1,933 1,919 1,906 1,895 1,884 1,874 1,865 1,857 1,849 1,793 1,738 1,695 1,632 6.1. TABELLEN 227 Tabelle 6 Quantile der F-Verteilung 0,1 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt. Freiheitsgrade des Nenners 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 100 ∞ des Zaehlers 40 60 10 15 20 30 60,195 9,392 5,230 3,920 3,297 2,937 2,703 2,538 2,416 2,323 2,248 2,188 2,138 2,095 2,059 2,028 2,001 1,977 1,956 1,937 1,920 1,904 1,890 1,877 1,866 1,855 1,845 1,836 1,827 1,819 1,763 1,707 1,663 1,599 61,220 9,425 5,200 3,870 3,238 2,871 2,632 2,464 2,340 2,244 2,167 2,105 2,053 2,010 1,972 1,940 1,912 1,887 1,865 1,845 1,827 1,811 1,796 1,783 1,771 1,760 1,749 1,740 1,731 1,722 1,662 1,603 1,557 1,487 61,740 9,441 5,184 3,844 3,207 2,836 2,595 2,425 2,298 2,201 2,123 2,060 2,007 1,962 1,924 1,891 1,862 1,837 1,814 1,794 1,776 1,759 1,744 1,730 1,718 1,706 1,695 1,685 1,676 1,667 1,605 1,543 1,494 1,421 62,265 9,458 5,168 3,817 3,174 2,800 2,555 2,383 2,255 2,155 2,076 2,011 1,958 1,912 1,873 1,839 1,809 1,783 1,759 1,738 1,719 1,702 1,686 1,672 1,659 1,647 1,636 1,625 1,616 1,606 1,541 1,476 1,423 1,342 62,529 9,466 5,160 3,804 3,157 2,781 2,535 2,361 2,232 2,132 2,052 1,986 1,931 1,885 1,845 1,811 1,781 1,754 1,730 1,708 1,689 1,671 1,655 1,641 1,627 1,615 1,603 1,592 1,583 1,573 1,506 1,437 1,382 1,295 62,794 9,475 5,151 3,790 3,140 2,762 2,514 2,339 2,208 2,107 2,026 1,960 1,904 1,857 1,817 1,782 1,751 1,723 1,699 1,677 1,657 1,639 1,622 1,607 1,593 1,581 1,569 1,558 1,547 1,538 1,467 1,395 1,336 1,240 100 150 ∞ 63,007 9,481 5,144 3,778 3,126 2,746 2,497 2,321 2,189 2,087 2,005 1,938 1,882 1,834 1,793 1,757 1,726 1,698 1,673 1,650 1,630 1,611 1,594 1,579 1,565 1,551 1,539 1,528 1,517 1,507 1,434 1,358 1,293 1,185 63,114 9,485 5,141 3,772 3,119 2,738 2,488 2,312 2,179 2,077 1,994 1,927 1,870 1,822 1,781 1,744 1,713 1,684 1,659 1,636 1,616 1,597 1,580 1,564 1,549 1,536 1,523 1,512 1,501 1,491 1,416 1,337 1,270 1,151 63,328 9,491 5,134 3,761 3,105 2,722 2,471 2,293 2,159 2,055 1,972 1,904 1,846 1,797 1,755 1,718 1,686 1,657 1,631 1,607 1,586 1,567 1,549 1,533 1,518 1,504 1,491 1,478 1,467 1,456 1,377 1,291 1,214 1,000 228 6. TABELLEN UND LITERATUR Tabelle 7 Quantile der F-Verteilung 0,05 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt. Freiheitsgrade des Nenners 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 100 ∞ 1 2 3 4 des Zaehlers 5 6 7 8 9 161,446 18,513 10,128 7,709 6,608 5,987 5,591 5,318 5,117 4,965 4,844 4,747 4,667 4,600 4,543 4,494 4,451 4,414 4,381 4,351 4,325 4,301 4,279 4,260 4,242 4,225 4,210 4,196 4,183 4,171 4,085 4,001 3,936 3,841 199,499 19,000 9,552 6,944 5,786 5,143 4,737 4,459 4,256 4,103 3,982 3,885 3,806 3,739 3,682 3,634 3,592 3,555 3,522 3,493 3,467 3,443 3,422 3,403 3,385 3,369 3,354 3,340 3,328 3,316 3,232 3,150 3,087 2,996 215,707 19,164 9,277 6,591 5,409 4,757 4,347 4,066 3,863 3,708 3,587 3,490 3,411 3,344 3,287 3,239 3,197 3,160 3,127 3,098 3,072 3,049 3,028 3,009 2,991 2,975 2,960 2,947 2,934 2,922 2,839 2,758 2,696 2,605 224,583 19,247 9,117 6,388 5,192 4,534 4,120 3,838 3,633 3,478 3,357 3,259 3,179 3,112 3,056 3,007 2,965 2,928 2,895 2,866 2,840 2,817 2,796 2,776 2,759 2,743 2,728 2,714 2,701 2,690 2,606 2,525 2,463 2,372 230,160 19,296 9,013 6,256 5,050 4,387 3,972 3,688 3,482 3,326 3,204 3,106 3,025 2,958 2,901 2,852 2,810 2,773 2,740 2,711 2,685 2,661 2,640 2,621 2,603 2,587 2,572 2,558 2,545 2,534 2,449 2,368 2,305 2,214 233,988 19,329 8,941 6,163 4,950 4,284 3,866 3,581 3,374 3,217 3,095 2,996 2,915 2,848 2,790 2,741 2,699 2,661 2,628 2,599 2,573 2,549 2,528 2,508 2,490 2,474 2,459 2,445 2,432 2,421 2,336 2,254 2,191 2,099 236,767 19,353 8,887 6,094 4,876 4,207 3,787 3,500 3,293 3,135 3,012 2,913 2,832 2,764 2,707 2,657 2,614 2,577 2,544 2,514 2,488 2,464 2,442 2,423 2,405 2,388 2,373 2,359 2,346 2,334 2,249 2,167 2,103 2,010 238,884 19,371 8,845 6,041 4,818 4,147 3,726 3,438 3,230 3,072 2,948 2,849 2,767 2,699 2,641 2,591 2,548 2,510 2,477 2,447 2,420 2,397 2,375 2,355 2,337 2,321 2,305 2,291 2,278 2,266 2,180 2,097 2,032 1,938 240,543 19,385 8,812 5,999 4,772 4,099 3,677 3,388 3,179 3,020 2,896 2,796 2,714 2,646 2,588 2,538 2,494 2,456 2,423 2,393 2,366 2,342 2,320 2,300 2,282 2,265 2,250 2,236 2,223 2,211 2,124 2,040 1,975 1,880 6.1. TABELLEN 229 Tabelle 8 Quantile der F-Verteilung 0,05 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt. Freiheitsgrade des Nenners 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 100 ∞ 10 15 20 30 des Zaehlers 40 60 100 150 ∞ 241,882 19,396 8,785 5,964 4,735 4,060 3,637 3,347 3,137 2,978 2,854 2,753 2,671 2,602 2,544 2,494 2,450 2,412 2,378 2,348 2,321 2,297 2,275 2,255 2,236 2,220 2,204 2,190 2,177 2,165 2,077 1,993 1,927 1,831 245,949 19,429 8,703 5,858 4,619 3,938 3,511 3,218 3,006 2,845 2,719 2,617 2,533 2,463 2,403 2,352 2,308 2,269 2,234 2,203 2,176 2,151 2,128 2,108 2,089 2,072 2,056 2,041 2,027 2,015 1,924 1,836 1,768 1,666 248,016 19,446 8,660 5,803 4,558 3,874 3,445 3,150 2,936 2,774 2,646 2,544 2,459 2,388 2,328 2,276 2,230 2,191 2,155 2,124 2,096 2,071 2,048 2,027 2,007 1,990 1,974 1,959 1,945 1,932 1,839 1,748 1,676 1,571 250,096 19,463 8,617 5,746 4,496 3,808 3,376 3,079 2,864 2,700 2,570 2,466 2,380 2,308 2,247 2,194 2,148 2,107 2,071 2,039 2,010 1,984 1,961 1,939 1,919 1,901 1,884 1,869 1,854 1,841 1,744 1,649 1,573 1,459 251,144 19,471 8,594 5,717 4,464 3,774 3,340 3,043 2,826 2,661 2,531 2,426 2,339 2,266 2,204 2,151 2,104 2,063 2,026 1,994 1,965 1,938 1,914 1,892 1,872 1,853 1,836 1,820 1,806 1,792 1,693 1,594 1,515 1,394 252,196 19,479 8,572 5,688 4,431 3,740 3,304 3,005 2,787 2,621 2,490 2,384 2,297 2,223 2,160 2,106 2,058 2,017 1,980 1,946 1,916 1,889 1,865 1,842 1,822 1,803 1,785 1,769 1,754 1,740 1,637 1,534 1,450 1,318 253,043 19,486 8,554 5,664 4,405 3,712 3,275 2,975 2,756 2,588 2,457 2,350 2,261 2,187 2,123 2,068 2,020 1,978 1,940 1,907 1,876 1,849 1,823 1,800 1,779 1,760 1,742 1,725 1,710 1,695 1,589 1,481 1,392 1,243 253,465 19,489 8,545 5,652 4,392 3,698 3,260 2,959 2,739 2,572 2,439 2,332 2,243 2,169 2,105 2,049 2,001 1,958 1,920 1,886 1,855 1,827 1,802 1,779 1,757 1,738 1,719 1,702 1,686 1,672 1,564 1,453 1,359 1,197 254,311 19,496 8,526 5,628 4,365 3,669 3,230 2,928 2,707 2,538 2,404 2,296 2,206 2,131 2,066 2,010 1,960 1,917 1,878 1,843 1,812 1,783 1,757 1,733 1,711 1,691 1,672 1,654 1,638 1,622 1,509 1,389 1,283 1,000 230 6. TABELLEN UND LITERATUR Tabelle 9 Quantile der F-Verteilung 0,025 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt. Freiheitsgrade des Nenners 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 100 ∞ 1 2 3 4 des Zaehlers 5 6 7 8 9 647,793 38,506 17,443 12,218 10,007 8,813 8,073 7,571 7,209 6,937 6,724 6,554 6,414 6,298 6,200 6,115 6,042 5,978 5,922 5,871 5,827 5,786 5,750 5,717 5,686 5,659 5,633 5,610 5,588 5,568 5,424 5,286 5,179 5,024 799,482 39,000 16,044 10,649 8,434 7,260 6,542 6,059 5,715 5,456 5,256 5,096 4,965 4,857 4,765 4,687 4,619 4,560 4,508 4,461 4,420 4,383 4,349 4,319 4,291 4,265 4,242 4,221 4,201 4,182 4,051 3,925 3,828 3,689 864,151 39,166 15,439 9,979 7,764 6,599 5,890 5,416 5,078 4,826 4,630 4,474 4,347 4,242 4,153 4,077 4,011 3,954 3,903 3,859 3,819 3,783 3,750 3,721 3,694 3,670 3,647 3,626 3,607 3,589 3,463 3,343 3,250 3,116 899,599 39,248 15,101 9,604 7,388 6,227 5,523 5,053 4,718 4,468 4,275 4,121 3,996 3,892 3,804 3,729 3,665 3,608 3,559 3,515 3,475 3,440 3,408 3,379 3,353 3,329 3,307 3,286 3,267 3,250 3,126 3,008 2,917 2,786 921,835 39,298 14,885 9,364 7,146 5,988 5,285 4,817 4,484 4,236 4,044 3,891 3,767 3,663 3,576 3,502 3,438 3,382 3,333 3,289 3,250 3,215 3,183 3,155 3,129 3,105 3,083 3,063 3,044 3,026 2,904 2,786 2,696 2,566 937,114 39,331 14,735 9,197 6,978 5,820 5,119 4,652 4,320 4,072 3,881 3,728 3,604 3,501 3,415 3,341 3,277 3,221 3,172 3,128 3,090 3,055 3,023 2,995 2,969 2,945 2,923 2,903 2,884 2,867 2,744 2,627 2,537 2,408 948,203 39,356 14,624 9,074 6,853 5,695 4,995 4,529 4,197 3,950 3,759 3,607 3,483 3,380 3,293 3,219 3,156 3,100 3,051 3,007 2,969 2,934 2,902 2,874 2,848 2,824 2,802 2,782 2,763 2,746 2,624 2,507 2,417 2,288 956,643 39,373 14,540 8,980 6,757 5,600 4,899 4,433 4,102 3,855 3,664 3,512 3,388 3,285 3,199 3,125 3,061 3,005 2,956 2,913 2,874 2,839 2,808 2,779 2,753 2,729 2,707 2,687 2,669 2,651 2,529 2,412 2,321 2,192 963,279 39,387 14,473 8,905 6,681 5,523 4,823 4,357 4,026 3,779 3,588 3,436 3,312 3,209 3,123 3,049 2,985 2,929 2,880 2,837 2,798 2,763 2,731 2,703 2,677 2,653 2,631 2,611 2,592 2,575 2,452 2,334 2,244 2,114 6.1. TABELLEN 231 Tabelle 10 Quantile der F-Verteilung 0,025 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt. Freiheitsgrade des Nenners 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 100 ∞ 10 15 20 30 968,634 39,398 14,419 8,844 6,619 5,461 4,761 4,295 3,964 3,717 3,526 3,374 3,250 3,147 3,060 2,986 2,922 2,866 2,817 2,774 2,735 2,700 2,668 2,640 2,613 2,590 2,568 2,547 2,529 2,511 2,388 2,270 2,179 2,048 984,874 39,431 14,253 8,657 6,428 5,269 4,568 4,101 3,769 3,522 3,330 3,177 3,053 2,949 2,862 2,788 2,723 2,667 2,617 2,573 2,534 2,498 2,466 2,437 2,411 2,387 2,364 2,344 2,325 2,307 2,182 2,061 1,968 1,833 993,081 39,448 14,167 8,560 6,329 5,168 4,467 3,999 3,667 3,419 3,226 3,073 2,948 2,844 2,756 2,681 2,616 2,559 2,509 2,464 2,425 2,389 2,357 2,327 2,300 2,276 2,253 2,232 2,213 2,195 2,068 1,944 1,849 1,708 1001,405 39,465 14,081 8,461 6,227 5,065 4,362 3,894 3,560 3,311 3,118 2,963 2,837 2,732 2,644 2,568 2,502 2,445 2,394 2,349 2,308 2,272 2,239 2,209 2,182 2,157 2,133 2,112 2,092 2,074 1,943 1,815 1,715 1,566 des Zaehlers 40 1005,596 39,473 14,036 8,411 6,175 5,012 4,309 3,840 3,505 3,255 3,061 2,906 2,780 2,674 2,585 2,509 2,442 2,384 2,333 2,287 2,246 2,210 2,176 2,146 2,118 2,093 2,069 2,048 2,028 2,009 1,875 1,744 1,640 1,484 60 100 150 ∞ 1009,787 39,481 13,992 8,360 6,123 4,959 4,254 3,784 3,449 3,198 3,004 2,848 2,720 2,614 2,524 2,447 2,380 2,321 2,270 2,223 2,182 2,145 2,111 2,080 2,052 2,026 2,002 1,980 1,959 1,940 1,803 1,667 1,558 1,388 1013,163 39,488 13,956 8,319 6,080 4,915 4,210 3,739 3,403 3,152 2,956 2,800 2,671 2,565 2,474 2,396 2,329 2,269 2,217 2,170 2,128 2,090 2,056 2,024 1,996 1,969 1,945 1,922 1,901 1,882 1,741 1,599 1,483 1,296 1014,851 39,491 13,938 8,299 6,059 4,893 4,188 3,716 3,380 3,128 2,932 2,775 2,647 2,539 2,448 2,370 2,302 2,242 2,190 2,142 2,100 2,062 2,027 1,995 1,966 1,940 1,915 1,892 1,871 1,851 1,708 1,563 1,442 1,239 1018,260 39,498 13,902 8,257 6,015 4,849 4,142 3,670 3,333 3,080 2,883 2,725 2,595 2,487 2,395 2,316 2,247 2,187 2,133 2,085 2,042 2,003 1,968 1,935 1,906 1,878 1,853 1,829 1,807 1,787 1,637 1,482 1,347 1,000 232 6. TABELLEN UND LITERATUR Tabelle 11 Quantile der F-Verteilung 0,01 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt. Freiheitsgrade des Nenners 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 100 ∞ 1 2 3 4 des Zaehlers 5 6 7 8 9 4052,185 98,502 34,116 21,198 16,258 13,745 12,246 11,259 10,562 10,044 9,646 9,330 9,074 8,862 8,683 8,531 8,400 8,285 8,185 8,096 8,017 7,945 7,881 7,823 7,770 7,721 7,677 7,636 7,598 7,562 7,314 7,077 6,895 6,635 4999,340 99,000 30,816 18,000 13,274 10,925 9,547 8,649 8,022 7,559 7,206 6,927 6,701 6,515 6,359 6,226 6,112 6,013 5,926 5,849 5,780 5,719 5,664 5,614 5,568 5,526 5,488 5,453 5,420 5,390 5,178 4,977 4,824 4,605 5403,534 99,164 29,457 16,694 12,060 9,780 8,451 7,591 6,992 6,552 6,217 5,953 5,739 5,564 5,417 5,292 5,185 5,092 5,010 4,938 4,874 4,817 4,765 4,718 4,675 4,637 4,601 4,568 4,538 4,510 4,313 4,126 3,984 3,782 5624,257 99,251 28,710 15,977 11,392 9,148 7,847 7,006 6,422 5,994 5,668 5,412 5,205 5,035 4,893 4,773 4,669 4,579 4,500 4,431 4,369 4,313 4,264 4,218 4,177 4,140 4,106 4,074 4,045 4,018 3,828 3,649 3,513 3,319 5763,955 99,302 28,237 15,522 10,967 8,746 7,460 6,632 6,057 5,636 5,316 5,064 4,862 4,695 4,556 4,437 4,336 4,248 4,171 4,103 4,042 3,988 3,939 3,895 3,855 3,818 3,785 3,754 3,725 3,699 3,514 3,339 3,206 3,017 5858,950 99,331 27,911 15,207 10,672 8,466 7,191 6,371 5,802 5,386 5,069 4,821 4,620 4,456 4,318 4,202 4,101 4,015 3,939 3,871 3,812 3,758 3,710 3,667 3,627 3,591 3,558 3,528 3,499 3,473 3,291 3,119 2,988 2,802 5928,334 99,357 27,671 14,976 10,456 8,260 6,993 6,178 5,613 5,200 4,886 4,640 4,441 4,278 4,142 4,026 3,927 3,841 3,765 3,699 3,640 3,587 3,539 3,496 3,457 3,421 3,388 3,358 3,330 3,305 3,124 2,953 2,823 2,639 5980,954 99,375 27,489 14,799 10,289 8,102 6,840 6,029 5,467 5,057 4,744 4,499 4,302 4,140 4,004 3,890 3,791 3,705 3,631 3,564 3,506 3,453 3,406 3,363 3,324 3,288 3,256 3,226 3,198 3,173 2,993 2,823 2,694 2,511 6022,397 99,390 27,345 14,659 10,158 7,976 6,719 5,911 5,351 4,942 4,632 4,388 4,191 4,030 3,895 3,780 3,682 3,597 3,523 3,457 3,398 3,346 3,299 3,256 3,217 3,182 3,149 3,120 3,092 3,067 2,888 2,718 2,590 2,407 6.1. TABELLEN 233 Tabelle 12 Quantile der F-Verteilung 0,01 ist die Wahrscheinlichkeit, dass F oberhalb des Tabellenwertes liegt. Freiheitsgrade des Nenners 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 100 ∞ 10 15 20 30 des Zaehlers 40 60 100 150 ∞ 6055,925 99,397 27,228 14,546 10,051 7,874 6,620 5,814 5,257 4,849 4,539 4,296 4,100 3,939 3,805 3,691 3,593 3,508 3,434 3,368 3,310 3,258 3,211 3,168 3,129 3,094 3,062 3,032 3,005 2,979 2,801 2,632 2,503 2,321 6156,974 99,433 26,872 14,198 9,722 7,559 6,314 5,515 4,962 4,558 4,251 4,010 3,815 3,656 3,522 3,409 3,312 3,227 3,153 3,088 3,030 2,978 2,931 2,889 2,850 2,815 2,783 2,753 2,726 2,700 2,522 2,352 2,223 2,039 6208,662 99,448 26,690 14,019 9,553 7,396 6,155 5,359 4,808 4,405 4,099 3,858 3,665 3,505 3,372 3,259 3,162 3,077 3,003 2,938 2,880 2,827 2,780 2,738 2,699 2,664 2,632 2,602 2,574 2,549 2,369 2,198 2,067 1,878 6260,350 99,466 26,504 13,838 9,379 7,229 5,992 5,198 4,649 4,247 3,941 3,701 3,507 3,348 3,214 3,101 3,003 2,919 2,844 2,778 2,720 2,667 2,620 2,577 2,538 2,503 2,470 2,440 2,412 2,386 2,203 2,028 1,893 1,696 6286,427 99,477 26,411 13,745 9,291 7,143 5,908 5,116 4,567 4,165 3,860 3,619 3,425 3,266 3,132 3,018 2,920 2,835 2,761 2,695 2,636 2,583 2,536 2,492 2,453 2,417 2,384 2,354 2,325 2,299 2,114 1,936 1,797 1,592 6312,970 99,484 26,316 13,652 9,202 7,057 5,824 5,032 4,483 4,082 3,776 3,535 3,341 3,181 3,047 2,933 2,835 2,749 2,674 2,608 2,548 2,495 2,447 2,403 2,364 2,327 2,294 2,263 2,234 2,208 2,019 1,836 1,692 1,473 6333,925 99,491 26,241 13,577 9,130 6,987 5,755 4,963 4,415 4,014 3,708 3,467 3,272 3,112 2,977 2,863 2,764 2,678 2,602 2,535 2,476 2,422 2,373 2,329 2,289 2,252 2,218 2,187 2,158 2,131 1,938 1,749 1,598 1,358 6344,635 99,491 26,202 13,539 9,094 6,951 5,720 4,929 4,380 3,979 3,673 3,432 3,237 3,076 2,942 2,827 2,728 2,641 2,565 2,498 2,438 2,384 2,335 2,291 2,250 2,213 2,179 2,147 2,118 2,091 1,896 1,703 1,546 1,288 6365,967 99,500 26,125 13,463 9,020 6,880 5,650 4,859 4,311 3,909 3,602 3,361 3,165 3,004 2,868 2,753 2,653 2,566 2,489 2,421 2,360 2,305 2,256 2,211 2,169 2,131 2,097 2,064 2,034 2,006 1,805 1,601 1,427 1,000 234 6. TABELLEN UND LITERATUR Tabelle 13 Binomialkoeffizienten µ ¶ n k n k 0 1 2 3 4 5 1 2 3 4 5 6 7 8 9 10 1 1 1 2 1 1 3 3 1 1 4 6 4 1 1 5 10 10 5 1 1 6 15 20 15 6 1 7 21 35 35 21 1 8 28 56 70 56 1 9 36 84 126 126 1 10 45 120 210 252 1 7 1 28 8 1 84 36 9 1 210 120 45 10 1 6 7 8 9 10 n k 0 1 2 3 4 5 11 12 13 14 15 16 17 18 19 20 1 11 55 165 330 462 1 12 66 220 495 792 1 13 78 286 715 1287 1 14 91 364 1001 2002 1 15 105 455 1365 3003 1 16 120 560 1820 4368 1 17 136 680 2380 6188 1 18 153 816 3060 8568 1 19 171 969 3876 11628 1 20 190 1140 4845 15504 6 7 8 9 10 462 330 165 55 11 924 792 495 220 66 1716 1716 1287 715 286 3003 3432 3003 2002 1001 5005 6435 6435 5005 3003 8008 11440 12870 11440 8008 12376 19448 24310 24310 19448 18564 31824 43758 48620 43758 27132 50388 75582 92378 92378 38760 77520 125970 167960 184756 11 12 13 14 15 1 12 1 78 13 1 364 91 14 1 1365 455 105 15 1 4368 1820 560 120 16 12376 6188 2380 680 136 31824 18564 8568 3060 816 75582 50388 27132 11628 3876 167960 125970 77520 38760 15504 1 17 1 153 18 1 969 171 19 1 4845 1140 190 20 1 16 17 18 19 20 6.1. TABELLEN 235 Tabelle 14 Kumulative Häufigkeiten der B(n, 0.5)-Binomialverteilung µ ¶ Pk i=0 n −n 2 i n k 0 1 2 3 4 5 1 2 3 4 5 6 7 8 9 10 0,50000 1,00000 1,00000 1,00000 1,00000 1,00000 0,25000 0,75000 1,00000 1,00000 1,00000 1,00000 0,12500 0,50000 0,87500 1,00000 1,00000 1,00000 0,06250 0,31250 0,68750 0,93750 1,00000 1,00000 0,03125 0,18750 0,50000 0,81250 0,96875 1,00000 0,01563 0,10938 0,34375 0,65625 0,89063 0,98438 0,00781 0,06250 0,22656 0,50000 0,77344 0,93750 0,00391 0,03516 0,14453 0,36328 0,63672 0,85547 0,00195 0,01953 0,08984 0,25391 0,50000 0,74609 0,00098 0,01074 0,05469 0,17188 0,37695 0,62305 6 7 8 9 10 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 0,99219 1,00000 1,00000 1,00000 1,00000 0,96484 0,99609 1,00000 1,00000 1,00000 0,91016 0,98047 0,99805 1,00000 1,00000 0,82813 0,94531 0,98926 0,99902 1,00000 n k 0 1 2 3 4 5 11 12 13 14 15 16 17 18 19 20 0,00049 0,00586 0,03271 0,11328 0,27441 0,50000 0,00024 0,00317 0,01929 0,07300 0,19385 0,38721 0,00012 0,00171 0,01123 0,04614 0,13342 0,29053 0,00006 0,00092 0,00647 0,02869 0,08978 0,21198 0,00003 0,00049 0,00369 0,01758 0,05923 0,15088 0,00002 0,00026 0,00209 0,01064 0,03841 0,10506 0,00001 0,00014 0,00117 0,00636 0,02452 0,07173 0,00000 0,00007 0,00066 0,00377 0,01544 0,04813 0,00000 0,00004 0,00036 0,00221 0,00961 0,03178 0,00000 0,00002 0,00020 0,00129 0,00591 0,02069 6 7 8 9 10 0,72559 0,88672 0,96729 0,99414 0,99951 0,61279 0,80615 0,92700 0,98071 0,99683 0,50000 0,70947 0,86658 0,95386 0,98877 0,39526 0,60474 0,78802 0,91022 0,97131 0,30362 0,50000 0,69638 0,84912 0,94077 0,22725 0,40181 0,59819 0,77275 0,89494 0,16615 0,31453 0,50000 0,68547 0,83385 0,11894 0,24034 0,40726 0,59274 0,75966 0,08353 0,17964 0,32380 0,50000 0,67620 0,05766 0,13159 0,25172 0,41190 0,58810 11 12 13 14 15 1,00000 1,00000 1,00000 1,00000 1,00000 0,99976 1,00000 1,00000 1,00000 1,00000 0,99829 0,99988 1,00000 1,00000 1,00000 0,99353 0,99908 0,99994 1,00000 1,00000 0,98242 0,99631 0,99951 0,99997 1,00000 0,96159 0,98936 0,99791 0,99974 0,99998 0,92827 0,97548 0,99364 0,99883 0,99986 0,88106 0,95187 0,98456 0,99623 0,99934 0,82036 0,91647 0,96822 0,99039 0,99779 0,74828 0,86841 0,94234 0,97931 0,99409 16 17 18 19 20 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 1,00000 0,99999 1,00000 1,00000 1,00000 1,00000 0,99993 1,00000 1,00000 1,00000 1,00000 0,99964 0,99996 1,00000 1,00000 1,00000 0,99871 0,99980 0,99998 1,00000 1,00000 236 6. TABELLEN UND LITERATUR Tabelle 15 Quantile der Kolmogorov-Smirnov-Statistik α ist die Wahrscheinlichkeit, dass die KS-Statistik oberhalb des Tabellenwertes liegt. n α 1 2 3 4 5 0.2 0.90 0.68 0.56 0.49 0.45 0.1 0.95 0.78 0.64 0.56 0.51 0.05 0.98 0.84 0.71 0.62 0.56 0.01 0.99 0.93 0.83 0.73 0.67 6 7 8 9 10 0.41 0.38 0.36 0.34 0.32 0.47 0.44 0.41 0.39 0.37 0.52 0.49 0.46 0.43 0.41 0.62 0.58 0.54 0.51 0.49 11 12 13 14 15 0.31 0.30 0.28 0.27 0.27 0.35 0.34 0.32 0.31 0.30 0.39 0.38 0.36 0.35 0.34 0.47 0.45 0.43 0.42 0.40 16 17 18 19 20 0.26 0.25 0.24 0.24 0.23 0.30 0.29 0.28 0.27 0.26 0.33 0.32 0.31 0.30 0.29 0.39 0.38 0.37 0.36 0.35 25 30 35 40 45 0.21 0.19 0.18 0.17 0.16 0.24 0.22 0.21 0.19 0.18 0.26 0.24 0.23 0.21 0.20 0.32 0.29 0.27 0.25 0.24 groß 1.07 √ n 1.22 √ n 1.36 √ n 1.63 √ n 6.1. TABELLEN 237 Tabelle 16 Quantile der Kolmogorov-Smirnov-Lillefors-Statistik α ist die Wahrscheinlichkeit, dass die KS-Statistik beim K.S.-Lillefors-Test mit einer normalverteilten Zufallsvariablen oberhalb des Tabellenwertes liegt. n α 4 5 0.2 0.300 0.285 0.1 0.352 0.315 0.05 0.381 0.337 0.01 0.417 0.405 6 7 8 9 10 0.265 0.247 0.233 0.223 0.215 0.294 0.276 0.261 0.249 0.239 0.319 0.300 0.285 0.271 0.258 0.364 0.348 0.331 0.311 0.294 11 12 13 14 15 0.206 0.199 0.190 0.183 0.177 0.230 0.223 0.214 0.207 0.201 0.249 0.242 0.234 0.227 0.220 0.284 0.275 0.268 0.261 0.257 16 17 18 19 20 0.173 0.169 0.166 0.163 0.160 0.195 0.189 0.184 0.179 0.174 0.213 0.206 0.200 0.195 0.190 0.250 0.245 0.239 0.235 0.231 25 30 0.142 0.131 0.158 0.144 0.173 0.161 0.200 0.187 groß 0.736 √ n 0.805 √ n 0.886 √ n 1.031 √ n 238 6. TABELLEN UND LITERATUR Tabelle 17 Kritische Werte für den Mann-Whitney U-Test α = 0.05 zweiseitig. n1 , n2 sind die Stichprobenumfänge. n1 n2 1 2 3 4 5 1 2 3 4 5 6 7 8 9 10 - - 0 0 1 2 6 7 8 9 10 - 0 0 0 1 1 2 2 3 2 3 4 4 5 11 12 13 14 15 - 0 1 1 1 1 3 4 4 5 5 16 17 18 19 20 - 1 2 2 2 2 21 22 23 24 25 - 26 27 28 29 30 11 12 13 14 15 3 5 6 7 8 5 6 8 10 11 8 10 12 14 13 15 17 17 20 23 6 7 8 9 10 9 11 12 13 14 13 14 16 17 19 16 18 20 22 24 19 22 24 26 29 23 26 28 31 34 6 6 7 7 8 11 11 12 13 14 15 17 18 19 20 21 22 24 25 27 26 28 30 32 34 31 34 36 38 41 3 3 3 3 3 8 9 9 10 10 15 16 17 17 18 22 23 24 25 27 29 30 32 33 35 36 38 40 42 44 - 4 4 4 4 5 11 11 12 13 13 19 20 21 22 23 28 29 30 32 33 37 38 40 42 43 31 32 33 34 35 - 5 5 5 5 6 14 14 15 15 16 24 24 25 26 27 34 35 37 38 39 36 37 38 39 40 0 0 6 6 6 7 7 16 17 17 18 18 28 29 30 31 31 40 41 43 44 45 16 17 18 19 20 26 29 33 36 39 30 33 37 40 44 37 41 45 49 45 50 54 55 59 64 37 39 42 45 48 42 45 48 52 55 47 51 55 58 62 53 57 61 65 69 59 63 67 72 76 64 69 74 78 83 70 75 80 85 90 75 81 86 92 98 87 93 99 105 99 106 112 113 119 43 45 48 50 53 50 53 56 59 62 58 61 64 67 71 65 69 73 76 80 73 77 81 85 89 80 85 89 94 98 127 88 93 98 102 107 96 101 106 111 117 103 109 115 120 126 111 117 123 129 135 119 125 132 138 145 126 133 140 147 154 134 141 149 156 163 46 48 50 52 54 55 57 60 62 65 64 67 70 73 76 74 77 80 83 87 83 87 90 94 98 93 97 101 105 109 102 107 111 116 120 112 117 122 127 131 122 127 132 138 143 132 137 143 149 154 141 147 154 160 166 151 158 164 171 177 161 168 175 182 189 171 178 186 193 200 45 46 48 50 51 56 58 60 62 64 67 69 72 74 77 78 81 84 87 89 90 93 96 99 103 101 105 108 112 116 113 117 121 125 129 125 129 133 138 142 136 141 146 151 156 148 153 159 164 169 160 166 171 177 183 172 178 184 190 196 184 190 197 203 210 196 203 210 217 224 208 215 222 230 237 53 55 56 58 59 66 68 70 72 74 79 81 84 86 89 92 95 98 101 103 106 109 112 115 119 119 123 127 130 134 133 137 141 145 149 147 151 156 160 165 161 165 170 175 180 174 180 185 190 196 188 194 200 206 211 202 209 215 221 227 216 223 230 236 243 231 238 245 252 258 245 252 259 267 274 6.1. TABELLEN 239 Tabelle 18 Kritische Werte für den Wilcoxon-Test für verbundene Stichproben α ist das Signifikanzniveau für den einseitigen Test. n ist der Stichprobenumfang. α n 6 7 8 9 10 0.05 0.025 0.01 2 3 5 8 10 0 2 3 5 8 0 1 3 5 11 12 13 14 15 13 17 21 25 30 10 13 17 21 25 16 17 18 19 20 35 41 47 53 60 21 22 23 24 25 0.005 0.05 0.025 0.01 0.005 0 1 3 α n 36 37 38 39 40 227 241 256 271 286 208 221 235 249 264 185 498 211 224 238 171 182 194 207 220 7 9 12 15 19 5 7 9 12 15 41 42 43 44 45 302 319 336 353 371 279 294 310 327 343 252 266 281 296 312 233 247 261 276 291 29 34 40 46 52 23 27 32 37 43 19 23 27 32 37 46 47 48 49 50 389 407 426 446 466 361 378 396 415 434 328 345 362 379 397 307 322 339 355 373 67 75 83 91 100 58 65 73 81 89 49 55 62 69 76 42 48 54 61 68 51 52 53 54 55 486 507 529 550 573 453 473 494 514 536 416 434 454 473 493 390 408 427 445 465 26 27 28 29 30 110 119 130 140 151 98 107 116 126 137 84 92 101 110 120 75 83 91 100 109 56 57 58 59 60 595 618 642 666 690 557 579 602 625 648 514 535 556 578 600 484 504 525 546 567 31 32 33 34 35 163 175 187 200 213 147 159 170 182 195 130 140 151 162 173 118 128 138 148 159 61 62 63 64 65 715 741 767 793 820 672 697 721 747 772 623 646 669 693 718 589 611 634 657 681 240 6. TABELLEN UND LITERATUR 6.2. Literatur Es gibt unzählige Lehrbücher der Statistik für Naturwissenschaften, darunter viele sehr gute. Die folgende Auswahl erhebt keinen Anspruch auf Vollständigkeit und ist durchaus subjektiv gefärbt. Ich zitiere die mir vorliegenden Auflagen, sicher haben manche der Werke inzwischen Neuauflagen erfahren. Lehrbücher und Einführungen: • W. Köhler, G. Schachtel, P. Voleske, Biostatistik, 3. Auflage, Springer 2002. (Taschenbuch) Speziell auf die Bedürfnisse der Biologie zugeschnitten. Trotz des Taschenbuchformates sehr reichhaltig, sorgfältig erklärt, und mit vielen Methoden. Mein Tipp als Grundlage zum Lernen! • R. J. Lorenz, Grundbegriffe der Biometrie, 3. Auflage, Gustav Fischer Verlag, 1992. (Taschenbuch) Dieses Buch umfasst nicht sehr viele Methoden, der Autor gibt sich aber besondere Mühe um das Grundverständnis. Leicht lesbar. • R. Leonhart, Lehrbuch Statistik, Einstieg und Vertiefung, Verlag Hans Huber 2004. (Hardcover) Sehr viele Methoden! Der Autor gibt sich viel Mühe, die praktische Relevanz und den Sinn der Methoden zu erklären. Beachtung verdient auch die Sorgfalt, mit der die übersichtliche Gestaltung des Buches durchdacht wurde. Vom Beginn des Buches, der für meinen Geschmack etwas zu gelehrt aufgemacht sind “Eine Messung ist eine homomorphe Abbildung” sollte man sich nicht abschrecken lassen. Ich warte gespannt auf die zweite Auflage. • W. Mendenhall, T. Sincich, Statistics for Engineers and the Sciences, 4th ed., Prentice Hall 1995. (Hardcover, Englisch). Für meinen Geschmack das beste Statistiklehrbuch, das mir untergekommen ist. Sorgfältig erklärt, mit sehr vielen Übungsbeispielen, die wirklich aus der Praxis kommen. Umfangreich an Seiten, daher etwas langatmiger zu lesen. • M. Monka, N. M. Schöneck, W. Voss, Statistik am PC, Lösungen mit Excel. Carl Hanser Verlag, 2008. Umfangreicher Text, denn es wird großer Wert auf gut lesbare, verständliche und trotzdem fundierte Erklärung gelegt. Viele Methoden bis zur multiplen Regression und (allerdings nur kurz) Varianzanalyse. Ein besonderer Vorteil des Buches liegt in der Verwendung und Erklärung des allgegenwärtigen Programmes Excel. Weiterführende Literatur über multivariate Statistik: Gerade in den Biowissenschaften trifft man oft auf Studien mit Vergleich vieler verschiedener Merkmale und Faktoren. Für solche Situationen wurden die Methoden der multivariaten Statistik erfunden, für die in einer Grundvorlesung leider keine Zeit bleibt. • J. F. Hair, R. E. Anderson, R. L. Tatham, W. C. Black, Multivariable Data Analysis, 5th ed., Prentice Hall 1998. (Englisch, Hardcover) Eines der vielen Lehrbücher über multivariate Statistik, nach meiner Ansicht besonders gut gelungen. Jede Methode ein Kapitel, die Kapitel lassen sich voneinander unabhängig lesen, sodass man gezielt lernen kann, was man braucht. Zu jeder Methode eine Fallstudie. Keine Formeln, gut lesbar für Nicht-Mathematiker. • M. H. Katz, Multivariable Analysis, A practical guide for clinicians, Cambridge University Press 1999. (Englisch, Paperback) Kein Lehrbuch der multivariaten Statistik, aber eine sehr nützliche Ergänzung, die auf die praktischen Details und Hindernisse eingeht, auf die man bei der Umsetzung multivariater Methoden in klinischen Studien stößt. Tabellen, Computer, Sonstiges: • A. Bühl, P. Zöfel, SPSS 12, Einführung in die moderne Datenanalyse unter Windows, 9. Auflage, Pearson 2005. (Hardcover. Beiliegend CD mit 6.2. LITERATUR 241 Datenfiles). Sehr gut erklärte und umfangreiche Einführung in SPSS, gut geeignet zum Selbststudium, und auch zum Auffinden und Herauspicken einzelner Methoden. Praxisnahe Beispiele auf Datendiskette. • W. Krämer, So lügt man mit Statistik, Piper 2000. (Taschenbuch). Pointierte, sehr unterhaltsame Illustration, wie Statistik oft absichtlich oder unabsichtlich missbräuchlich und irreführend angewendet wird. Anregende Lektüre, vor allem, wenn man selbst in die Situation kommt, Daten darzustellen. • H. Rinne, Taschenbuch der Statistik, 3. Auflage, Verlag Harri Deutsch 2003. (Taschenbuch, Kunststoffeinband) Sammlung von Tabellen, Formeln, Verteilungen, Methoden im Überblick. Kein Lehrbuch, sondern ein Nachschlagebuch für jemand, der viel Statistik braucht.