STATISTIK III INDUKTIVE STATISTIK von Alex Keel 16. Auflage 2004 Verlag Wilhelm Surbir Wittenbach/St. Gallen Vorlesung an der Universität St. Gallen - Hochschule für Wirtschafts-, Rechts- und Sozialwissenschaften (HSG) Alle Rechte vorbehalten © 2004 Prof. Dr. Alex Keel, Bodanstrasse 6, CH-9000 St. Gallen, Tel. ++41 / 71 / 224 24 31, Fax. ++41 / 71 / 224 28 94 Verlag Wilhelm Surbir, Betten 10, CH-9303 Wittenbach, Tel. und Fax. ++41 / 71 / 298 36 16 Vorwort Der vorliegende Band Statistik III Induktive Statistik ist der dritte Teil der Vorlesungsunterlagen zur Einführung in die Statistik an der Universität St.Gallen. Der vorlesungsbegleitende Text soll den ersten anwendungsbezogenen Einstieg in die Grundlagen der Statistik erleichtern. Er baut auf den beiden Bänden Statistik I Beschreibende Statistik und Statistik II Wahrscheinlichkeitstheorie auf. Da sich der Text an Studierende der Wirtschaftswissenschaften richtet, wurde bewusst der intuitiven Anschauung Vorrang vor der formalen Strenge gewährt. Neben einem ersten Ziel, nämlich dem Umgang mit zufälligen Phänomenen, wurde weiter versucht, notwendige Grundlagen für die quantitative Ökonomie und Finanzmarkttheorie bereitzustellen. Die Theorie wurde soweit als möglich mittels praktischer Beispiele eingeführt und dargestellt. Zur eigenen Beurteilung über den persönlichen Fortschritt verfügen die Studierenden über eine ausführliche Beispielsammlung mit Kurzlösungen. Gerne benutze ich die Gelegenheit zum Dank an alle, welche zur Herausgabe des Skriptums beigetragen haben. Stefan Ott, Dipl.-Math.oec. und Reto Leibundgut, lic.oec. waren mir wertvolle Diskussionspartner sowohl in inhaltlicher als auch in formaler Hinsicht. Ohne ihre Hilfe wäre die vorliegende überarbeitete und ergänzte Auflage nicht möglich geworden. Ganz herzlich danke ich einmal mehr Marie-Claire Baumann. Sie hat die Tücken bei der Gestaltung formaler Texte mit stets sich wandelnder Software meisterhaft bewältigt. Ebenso weiss ich ihre Geduld und ihre Bereitschaft, auf immer neue Wünsche einzugehen, sehr zu schätzen. i INHALTSVERZEICHNIS EINLEITUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1. GRUNDGESAMTHEIT - STICHPROBE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.1 Zufällige Auswahlverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2 Stichprobenraum , Stichprobenfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.3 Verteilung von Stichprobenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2. SCHÄTZTHEORIE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1 Punktschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.1.1 Intuitiv heuristische Ansätze für Schätzfunktionen . . . . . . . . . . 14 2.1.2 Erwartungstreue Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . 16 2.1.3 Effiziente Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1.4 Suffizienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 2.1.5 Konsistente Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2.1.6 Mean squared error (MSE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.1.7 Methoden zur Konstruktion von Schätzfunktionen . . . . . . . . . . 31 2.1.8 Die Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.1.9 Die Maximum–Likelihood–Methode . . . . . . . . . . . . . . . . . . . . 32 2.2 Intervallschätzungen – Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . 42 2.2.1 Konfidenzintervall für den Mittelwert µ einer normalverteilten Grundgesamtheit bei bekannter Varianz σ 2 . . . . . . . . . . . . . . 43 2.2.2 Konfidenzintervall für den Mittelwert µ einer normalverteilten Grundgesamtheit bei unbekannter Varianz σ 2 . . . . . . . . . . . . 47 2.2.3 Konfidenzintervall für den Mittelwert µ bei beliebig verteilten Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.2.4 Konfidenzintervall für die Varianz einer normalverteilten Grundgesamtheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.2.5 Konfidenzintervall für p der Binomialverteilung . . . . . . . . . . . 51 2.2.6 Konfidenzintervall für λ der Poissonverteilung . . . . . . . . . . . . . 55 3. TESTEN VON HYPOTHESEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.1 Einführungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 3.2 Formulierung von Null- und Alternativhypothesen . . . . . . . . . . . . . . . . 64 3.3 Der Einfluss des Stichprobenumfangs . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.4 Der allgemeine Test für den Mittelwert einer Normalverteilung bei bekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 ii 3.5 Test für den Mittelwert einer Normalverteilung bei unbekannter Varianz σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 3.6 Test für die Varianz σ 2 einer Normalverteilung . . . . . . . . . . . . . . . . . . 3.7 Vergleich der Mittelwerte zweier Normalverteilungen . . . . . . . . . . . . . 3.7.1 Vergleich bei bekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . 3.7.2 Vergleich bei unbekannter Varianz . . . . . . . . . . . . . . . . . . . . . . 3.8 Vergleich der Varianzen zweier Normalverteilungen . . . . . . . . . . . . . . . 3.9 Querverbindung zur Theorie der Konfidenzintervalle . . . . . . . . . . . . . . 75 77 77 80 83 87 3.10 Chi–Quadrat Test ( χ 2 –Test) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.10.1 Der χ 2 –Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 3.10.2 Der χ 2 –Unabhängigkeitstest in Kontingenztafeln 98 3.10.3 Vergleich von r Stichproben in einer Kontingenztafel . . . . . 101 3.11 Test auf Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.12 Likelihood–Quotiententest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 3.12.1 Einfache Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 3.12.2 Theorem von Neyman und Pearson . . . . . . . . . . . . . . . . . . . . 110 3.12.3 Zusammengesetzte Hypothesen . . . . . . . . . . . . . . . . . . . . . . . 114 3.13 Verteilungsunabhängige Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 121 3.13.1 Mediantest für den 1–Stichprobenfall . . . . . . . . . . . . . . . . . . 122 3.13.2 Mediantest für eine Differenzvariable im Zweistichprobenfall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130 3.13.3 Der Vorzeichen-Rangtest von Wilcoxon für zwei verbundene Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 4. REGRESSIONSANALYSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Das lineare Modell der Einfachregression . . . . . . . . . . . . . . . . . . . . . . 4.2 Minimumquadratschätzungen von β0 und β1 . . . . . . . . . . . . . . . . . . . . . 4.3 Eigenschaften der Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 141 145 150 4.4 Schätzfunktion für σ U2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 4.5 Maximum–Likelihood–Schätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6 Verteilung der Schätzfunktionen B0 und B1 . . . . . . . . . . . . . . . . . . . . . 4.7 Hypothesentest und Konfidenzintervalle für β0 und β1 . . . . . . . . . . . . . 4.7.1 Konfidenzintervalle für β0 und β1 . . . . . . . . . . . . . . . . . . . . . . . 4.7.2 Hypothesentest für β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.8 Bedingtes Konfidenzintervall für Y bei gegebenem x0 . . . . . . . . . . . . . 4.9 Verletzung der Voraussetzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9.1 Varianzinhomogenität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9.2 Autokorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9.3 Test auf Autokorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 158 160 160 161 165 167 167 169 172 iii 4.9.4 Statistische Eigenschaften der Residuen . . . . . . . . . . . . . . . . . 4.9.5 Graphische Darstellung der Residuen . . . . . . . . . . . . . . . . . . . 4.9.6 Leverage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9.7 Studentized Residuals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.9.8 Test auf Unkorreliertheit der Residuen . . . . . . . . . . . . . . . . . . 4.10 Nichtlineare Regressionsansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 177 179 182 183 185 5. KORRELATIONSRECHNUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Der Korrelationskoeffizient nach Bravais–Pearson . . . . . . . . . . . . . . . 5.2 Der Korrelationskoeffizient in der Grundgesamtheit . . . . . . . . . . . . . . 5.3 Verteilung von R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Konfidenzintervall für ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 193 199 201 202 5.3.2 Hypothesentest über ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 5.4 Rangkorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Rangkorrelationskoeffizient der Stichprobe . . . . . . . . . . . . . . 5.4.2 Verteilung von Rs bei Unabhängigkeit . . . . . . . . . . . . . . . . . . . 5.4.3 Erwartungswert und Varianz von Rs bei Unabhängigkeit . . . . 5.4.4 Asymptotische Verteilung von Rs . . . . . . . . . . . . . . . . . . . . . . 5.4.5 Test auf Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 205 209 211 212 213 LITERATURVERZEICHNIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215 INDEX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216 iv 3. TEIL - I N D U K T I V E S T A T I S T I K EINLEITUNG In der Einführungsvorlesung Statistik I wurden neben der Indexrechnung Probleme der Erfassung, Aufbereitung, Darstellung und Auswertung von Daten diskutiert. Über eine geeignete Konzentration des verfügbaren Urmaterials wurde versucht, die wesentlichen Merkmale eines interessierenden Sachverhalts aus den Daten herauszuarbeiten. In erster Linie benutzte man dazu Häufigkeitsverteilungen und daraus abgeleitete Parameter wie Mittelwerte und Streuungsmasszahlen. In der Vorlesung Statistik II stand die Wahrscheinlichkeitstheorie im Zentrum. Aufbauend auf einer primär intuitiven Vorstellung des Wahrscheinlichkeitsbegriffes wurden Methoden zur formalen Beschreibung von Zufallsexperimenten dargestellt. Zu diesem Zweck wurde das Konzept einer "zufälligen Variablen" entwickelt und formalisiert. Mit einer Auswahl der wichtigsten diskreten und stetigen Verteilungen konnten jene Hilfsmittel bereitgestellt werden, welche den nun darzulegenden Schulterschluss zwischen Theorie und Praxis erst ermöglichen. Im Zentrum der Vorlesung Statistik III steht die induktive Statistik. Die Konzepte der beschreibenden Statistik werden insofern ergänzt, als das Informationspotential einer Stichprobe nicht nur dargestellt, sondern zur Bewältigung von Ungewissheitssituationen einer darüberliegenden Grundgesamtheit verwendet wird. In aller Regel verfügt man nicht über sämtliche Informationen einer Gesamtheit, über die man eine Aussage machen möchte. Ein Annahmekontrolleur kann entweder aus zeitlichen, sachlichen oder finanziellen Gründen nur einen Teil einer ganzen Lieferung überprüfen. Trotzdem muss er sich entscheiden, ob er die ganze Lieferung annehmen will oder nicht. Im Rahmen der induktiven Statistik steht die Frage im Zentrum, inwiefern aus einer zufällig ausgewählten Teilmenge Rückschlüsse auf die hinter dieser Teilmenge liegende Gesamtheit gezogen werden können. Die Entscheide aus der Stichprobe auf die Grundgesamtheit sind unter unvollständiger Information zu fällen. Dieses Charakteristikum der Unsicherheit kann mit noch so raffinierten, statistischen Methoden nicht beseitigt werden. Die Statistik lehrt nur, wie die Unsicherheit quantifiziert werden kann. Mit zufallsbedingten Teilinformationen können nie Beweise geführt werden. Wenn also der Statistik nachgesagt wird, dass sie mit richtigen Zahlen Falsches und mit falschen Zahlen Richtiges beweise, so wird ihr Unmögliches unterstellt. 1 1. GRUNDGESAMTHEIT - STICHPROBE Statistische Analysen erfolgen mit dem Zweck, Aussagen über eine wohldefinierte Menge von Untersuchungseinheiten zu machen. Bei der Formulierung des Untersuchungszieles ist neben den zu erhebenden Merkmalen insbesondere auch die Menge der potentiellen Merkmalsträger festzulegen. Beispiel Untersuchungsziel: Untersuchungseinheiten: Untersuchungsmerkmale: Konsumgewohnheiten Haushalte einer Stadt mit 4 Personen • Einkommen • Ausgaben für Steuern, Versicherungen, Reisen, Essen, usw. Definition Unter der Grundgesamtheit Ω bezüglich eines Untersuchungsziels versteht man die Menge der möglichen Untersuchungseinheiten. Beispiele 1.) Beschäftigte eines Betriebes 2.) Tagesproduktion einer Maschine 3.) Zeitpunkte eines Tages 4.) Träger einer bestimmten Krankheit 5.) Ziehungen von Lottozahlen Zur vollständigen Definition von Ω gehört eine eindeutige Vorschrift, welche für alle Beobachtungseinheiten festlegt, ob sie zu Ω gehören oder nicht. Die Anzahl Elemente von Ω kann endlich (1,2,4) oder unendlich (3,5) sein. Betrachtet man im Beispiel 5 sämtliche bisherigen Ziehungen, so ist die Grundgesamtheit endlich und konkret. Lässt man hingegen die zeitliche Limitierung fallen, so entwickelt sich Ω erst im Laufe der Zeit mit einer stets wachsenden Anzahl von Elementen (Ziehungen). Wir beschränken uns auf den einfachen Fall, dass nur ein einziges Merkmal bei den Elementen von Ω untersucht werden soll. Bei den Beschäftigten eines Betriebes interessiert man sich beispielsweise nur für die Anzahl Dienstjahre und nicht zusätzlich noch für deren Alter. Innerhalb von Ω besitzt dieses Merkmal eine Verteilung, welche in aller Regel aber nicht bekannt ist. Ordnet man den Merkmalsausprägungen reelle Zahlen 2 zu, so erzeugt man entsprechend eine Verteilung einer Zufallsvariablen. Man spricht daher kurz von der Verteilung der Grundgesamtheit bezüglich des Merkmals (Zufallsvariablen) X. Interessiert bei der Tagesproduktion einer Maschine nur, ob die produzierten Elemente gut (1) oder defekt (0) sind, so betrachtet man die Bernoullivariable X mit den Ausprägungen 0 und 1. Analog spricht man auch von einer bernoulliverteilten Grundgesamtheit mit dem Parameter p. Bei der statistischen Analyse geht es regelmässig darum, Aussagen über die Verteilung von X zu machen. Können sämtliche Elemente von Ω beobachtet werden, so spricht man von einer Vollerhebung. Die Verteilung des interessierenden Merkmals ist in diesen Fällen bekannt. Man befindet sich im Zustand vollständiger Information. Die Wahrscheinlichkeiten über den Ausprägungen von X entsprechen ihren relativen Häufigkeiten in der Gesamtheit. Kennt man von einem Produktionslos die Qualität sämtlicher produzierter Elemente, so ist die Wahrscheinlichkeit, ein gutes Stück zu beobachten p= ng (1.1) n falls von insgesamt n Elementen ng von guter Qualität waren. In der Praxis sind Vollerhebungen sehr selten. Meistens sprechen zeitliche und finanzielle Überlegungen gegen eine Vollerhebung. Wenn etwa die Beobachtung selber mit der Zerstörung des Elementes verbunden ist (Qualität des Inhaltes von Konservendosen), würde eine Vollerhebung zwar vollständig informieren, man wäre aber in einem permanenten Auslieferungsnotstand! Es gibt aber auch Fälle, bei denen eine Vollerhebung aus theoretischen Gründen nicht möglich ist. Die zeitlich nicht limitierte Lottobetrachtung ist ein typisches Beispiel dafür. Ω wird im Zeitablauf erst aufgebaut und kann infolgedessen nie vollständig erfasst werden. Schliesslich ist man nur selten an absoluter Genauigkeit interessiert. Schätzungen sind oft ausreichend, womit eine Vollerhebung wiederum unnötig wird. Anstelle einer Vollerhebung beobachtet man in solchen Situationen eine Teilmenge von Ω. Anhand einer geeignet ausgewählten Teilmenge versucht man, möglichst allgemeingültige Aussagen auch über die unbekannte Grundgesamtheit zu machen. Mit der Zufallsauswahl sind auch die Informationen in der Stichprobe zufallsabhängig. Damit ist das typische Inferenzproblem der Statistik angesprochen, nämlich der Rückschluss 3 unter unvollständiger Information aus einer Stichprobe auf die dahinterliegende Grundgesamtheit. Zufallsauswahl X Grundgesamtheit Stichprobe fX Rückschluss Offensichtlich hängt die Qualität der angesprochenen Rückschlüsse wesentlich vom Auswahlverfahren ab. Je besser es gelingt, die wesentlichen Charakteristika von Ω in der Stichprobe zum Ausdruck zu bringen, desto zuverlässiger sind die daraus abgeleiteten Aussagen. In der Umgangssprache spricht man in diesem Zusammenhang von sogenannt repräsentativen Stichproben. Bei der Stichprobenerhebung werden n Objekte aus Ω nach einer bestimmten Vorschrift ausgewählt, um sie anschliessend einem Messmechanismus zu unterwerfen. Leider existiert kein Auswahlverfahren, welches in jedem Einzelfall eine Stichprobe liefert, die dieselben charakterisierenden Eigenschaften aufweist wie Ω selber. Die besten Voraussetzungen auf lange Frist garantieren zufällige Auswahlverfahren, welche nicht durch subjektive Einflüsse gestört werden. 1.1 Zufällige Auswahlverfahren Im Rahmen einer Untersuchung interessiere ein dichotomes Merkmal. Bei einem Produktionsprozess werden lediglich die Qualitätsstufen gut oder defekt festgestellt, oder bei einer Lotterie wird nur nach Gewinn oder Verlust gefragt. Will man den Erfolgsanteil in einer endlichen Gesamtheit aus einer Stichprobe feststellen, so gibt es im wesentlichen zwei Verfahren. Der Einfachheit halber unterstellen wir ein Urnenexperiment. Einer Urne mit unbekanntem Mischungsverhältnis wird eine Stichprobe vom Umfang n entnommen. Beim Verfahren 1 wird jede gezogene Kugel wieder zurückgelegt, nachdem das Resultat festgehalten wurde. Das Resultat ist ein n-Tupel der Zahlen 0 resp. 1. Unter Berücksich4 tigung der Reihenfolge gibt es insgesamt Nn verschiedene Stichproben. Beim Verfahren 2 wird die gezogene Kugel nicht mehr zurückgelegt, wobei aber die Auswahl aus der jeweiligen Resturne wie im Verfahren 1 jedesmal rein zufällig erfolgt. Wird die Reihenfolge bei der Auswahl der Kugeln berücksichtigt, gibt es unter dem Verfahren 2 insgesamt N ( N − 1) … ( N − n + 1) verschiedene Stichproben vom Umfang n # N. Die beiden Verfahren 1 und 2 weisen neben den erwähnten Unterschieden in der Zurücklegestrategie auch wichtige Gemeinsamkeiten auf. 1.) Beide Verfahren werden als zufällige Auswahlverfahren bezeichnet. Bei jedem Zug besitzt jedes Element aus der aktuell verfügbaren Resturne dieselbe Wahrscheinlichkeit, ausgewählt zu werden. Man spricht deshalb zweckmässigerweise nicht von zufälligen Stichproben, sondern von zufälligen Auswahlverfahren. Letztere sind nämlich dafür verantwortlich, ob und welche mathematische Theorie anwendbar ist zur formalen Beschreibung eines empirischen Tatbestandes. 2.) In beiden Verfahren besitzt jede der insgesamt möglichen Stichproben ( Nn beim Verfahren 1, respektive N ( N − 1) … ( N − n + 1) beim Verfahren 2) dieselbe Wahrscheinlichkeit realisiert zu werden (Berücksichtigung der Reihenfolge!). Jedes zur Auswahl stehende Element hat somit unabhängig vom Verfahren dieselbe Chance, in eine Stichprobe einbezogen zu werden. Der wichtigste Unterschied der beiden Verfahren beruht auf der Behandlung der ausgewählten und gemessenen Elemente. Durch das Zurücklegen im Verfahren 1 wird die Urne jeweils wieder in ihren ursprünglichen Zustand zurückversetzt. Ungeachtet der Vergangenheit wird somit bei jedem Zug im Prinzip aus ein und derselben Urne eine zufällige Auswahl getroffen. Die einzelnen Züge erfolgen somit unabhängig voneinander. Beim Verfahren 2 (ohne Zurücklegen) liegen die Verhältnisse ganz anders. Da die gezogene Kugel nicht mehr zurückgelegt wird, verändert sich die Zusammensetzung der Urne von Zug zu Zug. Das Resultat des i-ten Zugs ist somit abhängig von der bisherigen Geschichte. Die einzelnen Züge erfolgen somit nicht mehr unabhängig voneinander. Enthält eine Urne von N Elementen anfänglich K Erfolgskugeln und bezeichnet das Ereignis Ei Erfolg beim i-ten Zug, so gilt z.B. 5 P ( E2 ) = P ( E2 ∩ E1 ) + P ( E2 ∩ E1c ) = P ( E2 E1 ) P ( E1 ) + P ( E2 E1c ) P ( E1c ) K −1 K K N −K + N −1 N N −1 N K = N = (1.2) Damit gilt insbesondere P ( E2 E1 ) = K −1 K ≠ = P ( E2 ) N −1 N (1.3) falls K =/ N. Die bedingte Wahrscheinlichkeit für E2 ist verschieden von seiner unbedingten, womit E2 und E1 stochastisch abhängig sind. Eine Stichprobe, welche aus einer endlichen Gesamtheit nach dem Auswahlverfahren 1 (mit Zurücklegen) entstanden ist, lässt sich dadurch charakterisieren, dass die einzelnen Züge stets aus derselben Grundgesamtheit erfolgen, und dass die einzelnen Züge voneinander unabhängig sind. Enthält die Grundgesamtheit unendlich viele Elemente, so ist unerheblich, ob die Entnahme mit oder ohne Zurücklegen erfolgt. Künftig werden in der Regel Stichproben unterstellt, welche entweder aus unendlichen Gesamtheiten stammen, oder im Falle endlicher Gesamtheiten mit Zurücklegen erfolgen. Im Falle einer hinreichend grossen Grundgesamtheit sind die Unterschiede zwischen den Verfahren 1 und 2 vernachlässigbar. Notation Das in Ω interessierende Merkmal werde durch die Zufallsvariable X beschrieben. Die Stichprobe selber wird als n–Tupel von Zufallsvariablen X 1 , X 2 ,… , X n (1.4) bezeichnet. Xi beschreibt das Resultat bei der i-ten Beobachtung. Unter den oben beschriebenen, idealen Voraussetzungen besitzen die Zufallsvariablen Xi (i = 1,2,....,n) die Eigenschaften 6 1.) gemeinsam stochastischer Unabhängigkeit 2.) eines identischen Verteilungsgesetzes, nämlich jenes von X definiert in Ω. Stichproben dieser Art werden als reine Zufallsstichproben bezeichnet. Sie können insbesondere auf zwei verschiedene Arten interpretiert werden: • • eine Zufallsvariable X wird n-mal beobachtet. n identisch verteilte und stochastisch unabhängige Duplikate von X werden je einmal beobachtet. Im ersten Fall wird etwa ein und derselbe Würfel n-mal geworfen, und im zweiten Fall werden n identische Würfel je einmal geworfen. Eine konkrete Realisation einer Stichprobe wird entsprechend durch das Zahlentupel x1 , x2 ,… , xn dargestellt. Schon früher wurde darauf hingewiesen, dass die Qualität der Aussagen über Ω aufgrund von Stichprobenbefunden entscheidend von der Art und Weise der Auswahl der Elemente aus Ω abhängt. Es kann an dieser Stelle nicht darum gehen, eine dazugehörige Theorie darzustellen. Dies ist Aufgabe und Inhalt der statistischen Versuchsplanung. Exemplarisch soll lediglich auf das Problem einer zufälligen Auswahl hingewiesen werden, um eine Abgrenzung gegenüber einer unter Umständen subjektiv beeinflussten Auswahl aufs Geratewohl zu ermöglichen. Beispiel einer Stichprobe - Technik einer Zufallsauswahl Das zu untersuchende Merkmal X sei das momentane Einkommen in einer Gemeinde. Um Aufschlüsse über X zu erhalten, wird aus der Menge der Einkommensempfänger eine Stichprobe vom Umfang n = 100 gezogen. Festlegung von Ω: Wer ist heute Einkommensbezüger in der Gemeinde? Annahme: Natürliche Personen, welche der Steuerpflicht unterliegen. Es sei N = 10'000. Aus einer Kartei von 10'000 veranlagten, steuerpflichtigen Personen sind 100 zufällig auszuwählen. 1. Möglichkeit: Man entnimmt der Kartei jede 100. Karte und unterstellt, dass 7 zwischen der Reihenfolge der Karteikarte und dem Merkmal X keine Beziehung besteht. 2. Möglichkeit: Man wählt 100 4-ziffrige Zufallszahlen und entnimmt der Kartei die Adressen mit der Positionsnummer "Zufallszahl + 1". 3. Möglichkeit: Man unterteilt die Steuerdatei in 2 Gruppen. 1. Gruppe: Einkommen Fr. 50'000.- und weniger. 2. Gruppe: Einkommen über Fr. 50'000.-. Aus der 1. Gruppe werden nach Methode eins oder zwei 30 und aus der 2. Gruppe 70 Adressen ausgewählt. Stichproben dieser Art werden als geschichtete Stichproben bezeichnet. 4. Möglichkeit: Man partitioniert das Gemeindegebiet in Regionen. Aus den Regionen werden zufällig k ausgewählt. Innerhalb der gezogenen Regionen wird eine Vollerhebung vorgenommen. Diese Methode führt zu sogenannten Klumpenstichproben. 1.2 Stichprobenraum , Stichprobenfunktion Bezeichnet das Zahlentupel x1 , x2 ,… , xn eine konkrete Stichprobenrealisation (Stichprobenergebnis), so nennt man die Gesamtheit aller möglichen Ergebnisse eines zufälligen Auswahlverfahrens Stichprobenraum dieses Verfahrens. Beispiel Eine Münze wird 3-mal geworfen. Die Zufallsvariable Xi (i = 1,2,3) sei 1 Xi = 0 falls i -ter Wurf K sonst (1.5) mit der Wahrscheinlichkeitsfunktion f X ( x ) = p x (1 − p ) 1− x 8 x = 0,1 (1.6) Stichprobe: ( X1, X 2 , X 3 ) Stichprobenergebnis: Stichprobenraum: (1, 0, 1) (111, 110, 101, 011, 100, 010, 001, 000) Im Verlaufe der späteren Diskussion wird deutlich, dass im allgemeinen nicht die einzelnen Stichprobenvariablen Xi, sondern noch zu bestimmende, dem Untersuchungszweck angepasste Funktionen der Variablen Xi von Bedeutung sind. Eine Funktion g der Stichprobenvariablen X 1 , X 2 ,… , X n heisst Stichprobenfunktion Y = g ( X 1 , X 2 ,… , X n ) (1.7) Als Funktion von Zufallsvariablen ist Y ebenfalls eine Zufallsvariable. Wichtige Stichprobenfunktionen sind etwa 1.) X = 2.) 3.) S2 = Z= X −µ σ 1 n n ∑X i =1 (1.8) i 1 n ( X i − X )2 ∑ n − 1 i =1 mit µ = E ( X i ) , σ 2 = V ( Xi ) (1.9) (1.10) Eine Stichprobenfunktion, welche nur von den Stichprobenvariablen Xi abhängt und keine unbekannten Parameter enthält, wird als Statistik bezeichnet. Die Funktionen 1.) und 2.) sind Statistiken, die Funktion 3.) nur dann, wenn µ und σ bekannt sind. Von einer Statistik wird nur verlangt, dass die Abbildungsvorschrift keine unbekannten Parameter enthalten darf. Die Verteilung der Statistik selber kann sehr wohl unbekannte Parameter haben. 9 Beispiel Sind X 1 ,… , X n unabhängige, identisch verteilte Bernoullivariablen, so ist S = X 1 + … + X n ∼ B ( n, p ) (1.11) eine Statistik, obwohl die Binomialverteilung von S eine unbekannte Erfolgswahrscheinlichkeit enthält. 1.3 Verteilung von Stichprobenfunktionen Wir betrachten eine reine Zufallsstichprobe aus einer Grundgesamtheit mit der Verteilung fX. Die gemeinsame Verteilung kann aufgrund der Unabhängigkeit der involvierten Zufallsvariablen faktorisiert werden. f X1… X n ( x1 … xn ) = f X ( x1 ) ⋅ f X ( x2 ) ⋅ … ⋅ f X ( xn ) Es bezeichnen ferner µ = E(X ) (1.12) (1.13) σ 2 =V (X ) Erwartungswert und Varianz von X. Für bestimmte Stichprobenfunktionen – insbesondere jene mit additiven Verknüpfungen – lassen sich Aussagen über ihr Verteilungsgesetz machen. Die Summe von unabhängigen, identisch verteilten Zufallsvariablen ist z.B. nach dem zentralen Grenzwertsatz approximativ normalverteilt. In wichtigen Spezialfällen können präzisere Aussagen gemacht werden. Für den Fall identisch normalverteilter Zufallsvariablen X i ∼ N ( µ , σ ) , i = 1,… , n gelten insbesondere folgende Beziehungen 1.) n ∑X i =1 10 i ( ∼ N nµ , σ n ) (1.14) σ X ∼ N µ, n 2.) 3.) X −µ n ∼ N ( 0,1) (1.16) Xi − µ 2 ∑ ∼ χn σ i =1 (1.17) σ 4.) 5.) (1.15) 2 n 2 Xi − X 2 ∑ ∼ χ n −1 σ i =1 (1.18) 1 n S = ( X i − X )2 ∑ n − 1 i =1 (1.19) ( n − 1) S 2 ∼ χ 2 n −1 2 (1.20) n Für die Stichprobenvarianz 2 gilt mit 5.) 6.) σ Ist X ∼ N ( 0,1) Y ∼ χ k2 (1.21) und sind X und Y stochastisch unabhängig, so ist V= X ∼ Tk Y k (1.22) 11 eine t-verteilte Zufallsvariable mit k Freiheitsgraden. Angewendet auf 3.) und 6.) gilt somit X −µ 7.) V= σ n ( n − 1) S 2 σ 2 ( n − 1) = X −µ S n ∼ Tn −1 (1.23) Ist X in der Grundgesamtheit nicht a priori normalverteilt, so gelten – unter den üblichen Voraussetzungen – die obigen Sätze aufgrund des zentralen Grenzwertsatzes approximativ. 12 2. SCHÄTZTHEORIE Ein zentraler Problemkreis der induktiven Statistik ist die Schätzung unbekannter Parameter von Grundgesamtheiten. Von einer Zufallsvariablen sei das Verteilungsgesetz bekannt, es enthalte jedoch unbekannte Parameter – X sei beispielsweise normalverteilt; Mittelwert und Varianz hingegen seien unbekannt. Diese sollen aufgrund einer Stichprobe X 1 ,… , X n möglichst gut geschätzt werden. Wir werden ebenso den Fall betrachten müssen, wo auch das Verteilungsgesetz selber unbekannt ist. Bei der Schätzung unbekannter Parameter unterscheidet man grundsätzlich zwei Methoden. Bei der sogenannten Punktschätzung erhält man einen einzigen Wert aus der Stichprobe, welcher für die Schätzung herangezogen wird. Intervallschätzungen lassen Schlüsse über einen Bereich zu, welcher mit grosser Wahrscheinlichkeit den unbekannten Parameter enthält. Ausgangspunkt für beide Ansätze bilden sogenannte Schätzfunktionen, welche angeben, in welcher Art und Weise die Stichprobenvariablen im Hinblick auf optimale Schätzungen zu verarbeiten sind. 2.1 Punktschätzungen In der Realität steht man oft vor dem Problem, dass man von einer Zufallsvariablen zwar das Verteilungsgesetz kennt, letzteres hingegen unbekannte Parameter enthält. Eine Partei interessiert sich im Rahmen ihrer strategischen Planung für den Wähleranteil und befragt zu diesem Zweck n Personen bezüglich ihrer Parteizugehörigkeit. Bezeichnet die Zufallsvariable X die Anzahl befragter Personen, welche ihre Stimme besagter Partei geben, so gilt X ∼ B ( n, p ) n n− x P ( X = x ) = p x (1 − p ) x (2.1) p ist unbekannt und soll aus den Antworten der befragten Personen geschätzt werden. Es gibt gute Gründe davon auszugehen, dass das Gewicht von Personen einer bestimmten Grösse normalverteilt ist 13 X ∼ N ( µ ,σ ) 1 x−µ σ − 1 fX ( x) = e 2 σ 2π 2 (2.2) In aller Regel sind aber sowohl µ als auch σ unbekannt und sind aus einer Stichprobe zu schätzen. Dieses Beispiel motiviert folgende Konkretisierung der Frage nach Punktschätzungen. θ sei ein unbekannter Parameter einer Verteilung f ( ⋅ ) . Eine Zufallsvariable X mit der Verteilung fX werde n mal unabhängig voneinander beobachtet. Für die resultierende Stichprobe X 1 ,… , X n ist eine Schätzfunktion T gesucht, welche möglichst umfassend über θ informiert. Offen bleibt die Frage, auf welche Art und Weise die Stichprobenvariablen X 1 ,… , X n miteinander zu verknüpfen sind, um das vorhandene Informationspotential umfassend auszuschöpfen. 2.1.1 Intuitiv heuristische Ansätze für Schätzfunktionen Bezeichnet f X ( x ) die Wahrscheinlickkeitsfunktion (Dichte) einer Zufallsvariablen, so gilt für ihren Mittelwert µ = E ( X ) = ∑ xj fX ( xj ) (2.3) j µ soll über eine Stichprobe X 1 ,… , X n aus einer Grundgesamtheit mit der Wahrscheinlichkeitsfunktion fX geschätzt werden. Aus der Sicht des Bildungsgesetzes von µ scheint es vernünftig, anstelle der mit den Wahrscheinlichkeiten gewichteten Ausprägungen der Zufallsvariablen, die mit den relativen Häufigkeiten gewichteten Ausprägungen in der Stichprobe zu verwenden. Als Schätzfunktion für µ würde man demnach das arithmetische Mittel der Stichprobe X 1 ,… , X n verwenden. T = t ( X 1 ,… , X n ) = X = 14 1 n n ∑X i =1 i = µˆ (2.4) Würde man nach demselben Ansatz Schätzfunktionen für die Varianz σ 2 einer Zufallsvariablen oder für den Erfolgsanteil p in einem Binomialexperiment suchen, so wären folgende Schätzfunktionen angezeigt T = t ( X 1 ,… , X n ) = S 2 = 1 n ( X i − X ) 2 = σˆ 2 ∑ n − 1 i =1 (2.5) respektive 1 T = t ( X 1 ,… , X n ) = n n ∑X i =1 i = X = pˆ n (2.6) wobei es sich im letzten Ansatz bei den Stichprobenvariablen Xi um Bernoullivariablen je mit den Ausprägungen 0 und 1, bei X um deren Summe handelt. Die obigen Betrachtungen machen deutlich, dass es sich bei Schätzfunktionen ebenfalls um Zufallsvariablen handelt und diese somit auch einem Verteilungsgesetz unterliegen. Die spezielle Bedeutung als Schätzfunktion wird mit dem Symbol "^" zum Ausdruck gebracht. Schätzfunktionen sind somit Zufallsvariablen und unterliegen einem Verteilungsgesetz. Man beachte, dass die Schätzfunktionen T in Abhängigkeit der Zufallsvariablen X i , i = 1,… , n , zur Unterscheidung von den auf den Realisationen xi , i = 1,… , n , basierenden Werten um T durch fettgedruckte Symbole bezeichnet werden. Es gibt Situationen, welche direkt und exakte Aussagen über die Verteilung von Schätzfunktionen zulassen. Meistens muss man sich allerdings auf zwar hinreichend genaue, aber trotzdem approximative Aussagen beschränken, wobei regelmässig auf den zentralen Grenzwertsatz rekurriert wird. Mit E ( T ) = µ T wird der Erwartungswert der Schätzfunktion bezeichnet. Analog heisst V ( T ) = E ( T − µT ) = σ T2 2 (2.7) Varianz der Schätzfunktion T. Von spezieller Bedeutung ist die Standardabweichung σ T . Ihres speziellen Charakters wegen wird σ T kurz als Standardfehler der Schätzung 15 (standard error of T) bezeichnet. Für ein und denselben Parameter stehen oft mehrere Schätzfunktionen zur Verfügung. Ist X beispielsweise poissonverteilt mit dem Parameter λ, so gilt P ( X = x) = mit λx e−λ x! E(X ) =V (X ) = λ (2.8) Soll nun das arithmetische Mittel X oder die Stichprobenvarianz S2 zur Schätzung von λ herangezogen werden? Es stellt sich somit ein Bewertungsproblem für Schätzfunktionen. Ihre Qualität wird an wünschbaren Eigenschaften von Schätzfunktionen gemessen. 2.1.2 Erwartungstreue Schätzfunktionen Eine Schätzfunktion T = t ( X 1 ,… , X n ) heisst erwartungstreu für θ falls E ( T ) = µ T existiert und E (T ) = µ T = θ (2.9) ∑ t j fT ( t j ) falls T diskret j E ( T ) = +∞ t f ( t ) dt falls T stetig ∫ T −∞ (2.10) wobei Beispiele 1.) 1 T = t ( X 1 ,… , X n ) = X = n n ∑X i =1 ist eine erwartungstreue Schätzfunktion für µ = E ( X ) . 16 i (2.11) E ( Xi ) = µ i = 1, 2,… , n 1 E(X ) = E n 2.) 1 Xi = ∑ i =1 n n n ∑ E ( Xi ) = i =1 1 nµ = µ n 1 n T = t ( X 1 ,… , X n ) = S = ( X i − X )2 ∑ n − 1 i =1 2 (2.12) (2.13) ist eine erwartungstreue Schätzfunktion für σ 2 . E ( Xi ) = µ V ( Xi ) = σ i = 1, 2,… , n (2.14) 2 1 n ( X i − X )2 E (S ) = E ∑ n − 1 i =1 2 n 1 E ∑ ( Xi − µ ) − ( X − µ ) = n − 1 i =1 n 2 1 2 E ( Xi − µ ) − n E ( X − µ ) = ∑ n − 1 i =1 2 ( ( 1 nV ( X ) − nV ( X ) = n −1 σ2 1 2 = nσ − n n −1 n = σ2 n −1 ) ) (2.15) ( n − 1) =σ 2 Die Erwartungstreue der Schätzfunktion S2 für σ 2 ist in erster Linie für die bei der Definition von S2 auf den ersten Blick überraschend anmutende Division der Summe der Abweichungsquadrate durch (n-1) verantwortlich. 17 3.) Sind X 1 ,… , X n Bernoullivariablen mit f X ( x ) = p x (1 − p ) 1− x x = 0,1 (2.16) E(X ) = p V ( X ) = (1 − p ) p so gilt für die Schätzfunktion 1 T = t ( X 1 ,… , X n ) = n 1 E ( pˆ ) = n n ∑X i =1 i = pˆ n 1 E ( Xi ) = n p = p ∑ n i =1 (2.17) Der Erfolgsanteil in der Stichprobe schätzt die Erfolgswahrscheinlichkeit p eines Binomialexperimentes erwartungstreu. Wir haben damit eine Möglichkeit zur Schätzung von Wahrscheinlichkeiten gefunden. Letztere wurden im Rahmen der Wahrscheinlichkeitsrechnung stets als bekannt vorausgesetzt! Im Beispiel der Schätzung des Parameters λ einer poissonverteilten Zufallsvariablen stehen offenbar zwei, bezüglich der Eigenschaft "Erwartungstreue" äquivalente Schätzfunktionen zur Verfügung. Zur Abklärung der Frage, ob X oder S2 verwendet werden soll, bedarf es weiterer Kriterien, welche eine differenziertere Auswahl innerhalb der Klasse der erwartungstreuen Schätzfunktionen zulassen. 2.1.3 Effiziente Schätzfunktionen Bezeichnen T sowie U 1 ,… , U k erwartungstreue Schätzfunktionen für den unbekannten Parameter θ mit E (T ) = E (U 1 ) = … = E (U k ) = θ so heisst T effizient, falls 18 (2.18) V ( T ) ≤ V (U i ) i = 1,… , k (2.19) Existieren also mehrere erwartungstreue Schätzfunktionen, so wählt man jene mit der kleinsten Varianz. Diese Schätzfunktion T heisst effizient. Sie liefert Schätzwerte, welche im Mittel am wenigsten vom wahren Parameter θ abweichen. Beispiele 1.) Die beiden Schätzfunktionen 1 X= n n ∑X i =1 und i n 1 ′ 2 X = X X + ∑ i 1 n + 1 i =2 (2.20) sind je erwartungstreu für µ = E ( X ) . Nun gilt aber V (X ) = V ( X ′) = σ2 n ( n + 3) σ 2 ( n + 1) (2.21) 2 respektive n − 1) σ 2 ( V ( X ′) − V ( X ) = 2 n ( n + 1) >0 falls n > 1 (2.22) Damit besitzt X eine kleinere Varianz als X ′ und ist gegenüber X ′ effizient. Die doppelte Gewichtung der ersten Beobachtung vergrössert die Varianz der Schätzfunktion für µ . 2.) Schätzung für λ im Falle einer Poissonverteilung. Die Summe n unabhängiger und identisch poissonverteilter Zufallsvariablen (mit Parameter λ) 19 n Y = ∑ Xi (2.23) i =1 ist ebenfalls poissonverteilt (mit dem Parameter nλ ). P (Y = y ) mit ( nλ ) = y e − nλ y! (2.24) E ( Y ) = nλ Also ist Y 1 n X = = ∑ Xi n n i =1 (2.25) eine erwartungstreue Schätzfunktion für λ. 1 n 1 V ( X ) = V ∑ Xi = 2 n i =1 n λ 1 = 2 nλ = n n n ∑V ( X ) i =1 i (2.26) Die Varianz der Schätzfunktionen verhält sich umgekehrt proportional zu n und strebt mit wachsendem n gegen 0. Man kann zeigen, dass auf der Basis einer Stichprobe X 1 ,… , X n keine Schätzfunktion mit einer kleineren Varianz als jener von X existiert. X ist somit eine erwartungstreue und effiziente Schätzfunktion für λ. Der Effizienznachweis für Schätzfunktionen ist oft schwierig, da er gegenüber allen anderen, erwartungstreuen Alternativen sowie über den gesamten Parameterbereich zu erbringen ist. Zur Illustration betrachten wir die beiden Schätzfunktionen X und S2 für den Mittelwert λ einer Poissonverteilung. Im Hinblick auf Approximationsprobleme setzen wir einen grossen Wert von λ voraus (λ > 5). 20 1 X= n n ∑X i =1 i 1 n S = ( X i − X )2 ∑ n − 1 i =1 2 , E ( X ) = E (S2 ) = λ V (X ) = (2.27) V (X ) λ = n n Aus n − 1) S 2 ( n − 1) S 2 ( ∼ χ n2−1 U= = 2 (2.28) n −1 2 V (U ) = V ( S ) = 2 ( n − 1) λ (2.29) 2λ 2 V (S ) = n −1 (2.30) σ λ folgt 2 respektive 2 woraus sich das Varianzverhältnis V (X ) V (S2 ) 1 n −1 1 = ≈ n 2λ 2λ (2.31) ergibt. Unter den obigen Bedingungen für λ ist somit die Varianz von X strikte kleiner als jene von S2. Das Effizienzkriterium ermöglicht eine Klassifikation innerhalb einer Menge von erwartungstreuen Schätzfunktionen. Diese Limitierung offenbart Schwächen, wenn z.B. erwartungstreue und nicht erwartungstreue Schätzfunktionen einander gegenüberstehen. Wie ist z. B. eine nicht erwartungstreue Schätzfunktion zu bewerten, wenn ihr Erwar21 tungswert vom wahren Parameter θ nur unwesentlich abweicht, wenn sie hingegen eine deutlich kleinere Varianz aufweist als eine konkurrierende, erwartungstreue Alternative? θ θ 2.1.4 Suffizienz Die bisher behandelten Kriterien (Erwartungstreue und Effizienz) beziehen sich jeweils auf Eigenschaften einzelner Parameterschätzfunktionen T. Gegenstand der Suffizienz sind im Gegensatz dazu allgemeine reelle Funktionen einer Stichprobe X 1 , X 2 ,… , X n T = t ( X 1 , X 2 ,… , X n ) (2.32) Reelle Stichprobenfunktionen werden auch Statistiken genannt. Im Rahmen vieler Fragestellungen ist es hilfreich, die Information einer gegebenen Stichprobe X 1 , X 2 ,… , X n im Hinblick auf die Schätzung eines unbekannten Paramters θ mittels geeigneter Statistiken auf X 1 , X 2 ,… , X n zu kondensieren. Dabei wird im folgenden zunächst stets von einer Funktion ausgegangen, es zeigt sich jedoch, dass das Konzept in natürlicher Weise auf den Fall mehrerer Statistiken erweitert werden kann. Eine Statistik heisst suffizient bezüglich eines Schätzproblems, falls sie sämtliche Informationen der Stichprobe enthält, welche für die Schätzung des Parameters θ erforderlich sind. Dies bedeutet insbesondere, dass eine suffiziente Statistik – ohne Informationsverlust – anstelle der Stichprobe selbst für die Schätzung von θ herangezogen werden kann und somit eine Datenreduktion im Zusammenhang mit Schätzproblemen erlaubt. Definition Sei X 1 , X 2 ,… , X n eine Zufallsstichprobe aus einer Grundgesamtheit mit dem (bekannten) Verteilungsgesetz f X ( ⋅ , θ ) und dem unbekanntem Verteilungsparameter θ sowie T = t ( X 1 , X 2 ,… , X n ) eine reelle Stichprobenfunktion. T heisst genau dann suffizient 22 für f X ( ⋅ , θ ) , falls eine (von θ unabhängige) Funktion h existiert, so dass gilt f X1 , X 2 ,…, X n |T ( x1 , x2 , … , xn ;θ | T = t ) = h ( x1 , x2 ,… , xn ) (2.33) Dies bedeutet, dass die bedingte (gemeinsame) Verteilung der n-dimensionalen Zufallsvariablen Z = ( X 1 , X 2 ,… , X n ) bei gegebenem Wert der Statistik T unabhängig von dem zu schätzenden Parameter θ ist. Intuitiv kann Bedingung (2.33) so interpretiert werden, dass – nach Auswertung der (suffizienten) Statistik T – die zugrundeliegende Zufallsstichprobe keine weitere (noch nicht in T enthaltene) Information bezüglich des zu schätzenden Parameters θ mehr enthält. Dies wird offensichtlich, wenn man sich bewusst macht, dass die bedingte Dichtefunktion f Z ( ⋅ ;θ | T = t ) auch als die Verteilung der Beobachtungen ( x1 , x 2 , … , x n ) , welche den Wert T = t liefern, inter- pretiert werden kann. Gemäss Bedingung (2.33) ist die Verteilung f Z ( ⋅ ;θ | T = t ) aber unabhängig von θ , so dass eine spezielle Untersuchung der verschiedenen Beobachtungswerte ( x1 , x 2 , … , x n ) , welche alle denselben Wert T = t liefern, tatsächlich keine Zusatzinformation bezüglich θ enthält. Beispiel Sei Z = ( X 1 , X 2 ,… , X n ) eine Zufallsstichprobe aus einer Bernoulli–verteilten Grundgesamtheit. Die Zufallsvariable X i gibt an, ob der i-te Anruf einer TelefonmarketingKampagne erfolgreich war, d. h. zu einem Verkauf führte oder nicht. Damit ist die Verteilung von Z gegeben durch x n− x f Z ( x1 , x2 ,… , xn ; p ) = p ∑ i=1 i (1 − p ) ∑ i=1 i n n (2.34) wobei der Parameter p ∈ ( 0,1) die Wahrscheinlichkeit für einen erfolgreichen Verkauf symbolisiert. Ferner gilt xi ∈ {0,1} , wobei xi = 1 einen Erfolg (Verkauf), xi = 0 einen Misserfolg (kein Verkauf) beim i-ten Anruf bezeichnet. Eine suffiziente Statistik für die Schätzung von p ist durch die Summe der Erfolge 23 n S = ∑ Xi (2.35) i =1 gegeben. Um dies einzusehen, ist zu beachten, dass für die bedingte Dichtefunktion gilt f Z ( x1 , x2 ,… , xn ; p | S = s ) = Da S = P ( x1 , x2 ,… , xn , S = s ) P (S = s) (2.36) n ∑X i =1 i die Summe unabhängig identisch verteilter Bernoulli Variablen ist und einer Binomialverteilung genügt, folgt für die Wahrscheinlichkeit im Nenner von (2.36) sofort n n−s P ( S = s ) = p s (1 − p ) s (2.37) Für den Zähler in Formel (2.36) gilt f Z ( x1 , x2 ,… , xn ; p ) , falls P ( x1 , x2 ,… , xn , S = s ) = 0, sonst n ∑x i i =1 =s (2.38) also n ∑ xi xi p i=1 (1 − p ) n −∑ , falls i =1 P ( x1 , x2 ,… , xn , S = s ) = 0, sonst n n ∑x i =1 i =s (2.39) Damit lässt sich (2.36) darstellen als P ( x1 , x2 ,… , xn , S = s ) n −1 = , falls f Z ( x1 , x2 ,… , xn ; p | S = s ) = P (S = s) s 0, sonst 24 n ∑x i i=1 =s (2.40) Offensichtlich ist die bedingte Verteilung f Z ( x1 , x2 ,… , xn ; p | S = s ) unabhängig von p, und S damit eine suffiziente Statistik für p. Für einen festen Wert von S besitzen also alle Kombinationen ( x1 , x 2 , … , x n ) welche die Bedingung n ∑x i =1 i = s erfüllen, dieselbe −1 n Wahrscheinlichkeit . Dies ist konsistent mit der intuitiv naheliegenden Tatsache, s dass für die Schätzung der Trefferwahrscheinlichkeit p nur die Gesamtzahl an Erfolgen ausschlaggebend ist, nicht aber die spezielle Reihenfolge ( x1 , x 2 , … , x n ) , unter welcher diese realisiert wurde. Beispiel (Mood et al., S. 302) Betrachtet man konkret eine Stichprobe vom Umfang n = 3 einer Bernoulli-verteilten Zufallsvariablen sowie die Statistiken S = X 1 + X 2 + X 3 sowie T = X 1 X 2 + X 3 . Die bedingte Dichte unter S kann gemäss Formel (2.36) berechnet werden. Bezüglich der Statistik T ergibt sich beispielsweise für die Realisation ( x1 , x2 , x3 ) = ( 0,1, 0 ) der Wert T = 0 und für die bedingte Verteilung f X1 , X 2 , X 3 |T ( 0,1, 0|0 ) = P ( X 1 = 0, X 2 = 1, X 3 = 0, T = 0 ) P (T = 0 ) (1 − p ) p p = = 3 2 (1 − p ) + 2 (1 − p ) p 1 + p 2 (2.41) Diese ist offensichtlich abhängig von p, das heisst, T ist nicht suffizient. Folgende Tabelle fasst die bedingten Verteilungen unter S bzw. T zusammen. 25 ( x1 , x2 , x3 ) S T f X1 , X 2 , X 3 | S f X 1 , X 2 , X 3 |T (0, 0, 0) 0 0 1 1− p 1+ p (0, 0, 1) 1 1 1/3 1− p 1+ 2p (0, 1, 0) 1 0 1/3 p 1+ p (1, 0, 0) 1 0 1/3 p 1+ p (0, 1, 1) 2 1 1/3 p 1+ 2p (1, 0, 1) 2 1 1/3 p 1+ 2p (1, 1, 0) 2 1 1/3 p 1+ 2p (1, 1, 1) 3 2 1 1 Bemerkungen 1. Das hier für einen Skalar θ ∈ R eingeführte Konzept kann in natürlicher Weise auf den Fall vektorwertiger Parameter θ ∈ R n erweitert werden. 2. Der Suffizienzbegriff wurde hier für eine Stichprobenfunktion T eingeführt. Das Konzept kann auch auf den Fall mehrerer Funktionen T1 , T2 , … , Tr übertragen werden. Eine Familie von Statistiken T1 , T2 , … , Tr heisst gemeinsam suffizient, wenn die bedingte Verteilung von X 1 , X 2 ,… , X n unter gegebenen Werten von T1 , T2 ,… , Tr , also T1 = t1 ,… , Tr = tr , unabhängig ist von θ . 26 3. Insbesondere kann damit die Stichprobe selbst als Familie gemeinsam suffizienter Statistiken aufgefasst werden. Formal definiert man dazu T1 = x1 ,… , Tn = xn . Diese Feststellung ist allerdings wenig hilfreich, da der Suffizienzbegriff prinzipiell auf eine Datenreduktion abzielt. In vielen Fällen ist die konkrete Bestimmung suffizienter Statistiken sehr aufwendig. In diesem Zusammenhang erweist sich folgender Satz als nützlich. Satz (Faktorisierungssatz von Neyman, ohne Beweis) Sei f Z ( x1 , x2 ,… , xn ;θ ) die Dichtefunktion einer Zufallsstichprobe X 1 , X 2 ,… , X n vom Umfang n. Eine Familie von Statistiken T1 , T2 , … , Tr ist genau dann gemeinsam suffizient für f Z ( x1 , x2 ,… , xn ;θ ), wenn f Z ( x1 , x2 ,… , xn ;θ ) faktorisiert werden kann, so dass gilt (mit z = ( x1 , x2 ,… , xn ) ) f Z ( z ;θ ) = g (T1 ( z ) , T2 ( z ) ,… , Tr ( z ) ;θ ) ⋅ h ( z ) (2.42) Hierbei ist h nicht negativ und von θ unabhängig, die Funktion g ist ebenfalls nicht negativ und hängt nur von den Werten der Stichprobenfunktionen T1 , T2 , … , Tr sowie dem Parameter θ ab. Bemerkung Insbesondere ist g nicht direkt von der Stichprobe X 1 , X 2 ,… , X n selbst abhängig. Beispiel Sei X 1 , X 2 ,… , X n eine Zufallsstichprobe aus einer normalverteilten Grundgesamtheit mit Dichtefunktion f X ( x; µ ,σ ) . Der zu schätzende Parameter θ hat hier die Form θ = ( µ , σ ) ∈ R 2 . Die gemeinsame Dichtefunktion von X 1 , X 2 ,… , X n lautet 27 f Z ( x1 , x2 ,… , xn ; µ , σ ) n = ∏ f X ( xi ; µ , σ ) i =1 1 xi − µ 2 1 exp − 2 σ 2π σ n =∏ i =1 = = 1 ( 2π ) n2 σ −n n2 σ −n 1 ( 2π ) (2.43) n 1 xi − µ 2 exp ∑ − i =1 2 σ n 1 n 2 exp − 2 ∑ xi − 2µ ∑ xi + nµ 2 i =1 2σ i =1 Die gemeinsame Dichtefunktion hängt also von den Beobachtungen ( x1 , x 2 , … , x n ) nur indirekt ab, nämlich über die Statistiken S1 ( x1 , x2 ,… , xn ) = ∑ xi (2.44) sowie S 2 ( x1 , x2 ,… , xn ) = ∑ xi2 (2.45) Damit kann f X ( ⋅ ; µ , σ ) gemäss (2.42) faktorisiert werden, wobei h ( x1 , x2 ,… , xn ) = 1 . Folglich sind S1 und S 2 gemäss dem Faktorisierungssatz von Neyman gemeinsam suffizient. Man kann ferner zeigen, dass die Suffizienzeigenschaft durch bijektive Transformationen erhalten bleibt. Damit sind auch das arithmetische Mittel X und die Stichprobenvarianz S 2 = 28 2 1 X i − X ) gemeinsam suffiziente Statistiken. ( ∑ n −1 2.1.5 Konsistente Schätzfunktionen Die Kriterien der Erwartungstreue und Effizienz beziehen sich stets auf Schätzfunktionen bei gegebenem, endlichen Stichprobenumfang n. Mit der Eigenschaft der Konsistenz ziehen wir zusätzlich den Stichprobenumfang in die Betrachtung ein. Um diese Erweiterung zum Ausdruck zu bringen, bezeichnen wir die Schätzfunktion für θ mit Tn = t ( X 1 ,… , X n ) . Eine Schätzfunktion Tn = t ( X 1 ,… , X n ) für den unbekannten Parameter θ heisst konsistent, wenn die Folge {Tn} mit wachsendem Stichprobenumfang n stochastisch gegen θ konvergiert, d. h. P ( Tn − θ < ε ) → lim P ( Tn − θ < ε ) = 1 n →∞ für alle ε > 0 (2.46) Für jedes noch so kleine ε wird die Wahrscheinlichkeit, dass Tn von θ um höchstens ε abweicht, beliebig gross. Damit wird nicht ausgeschlossen, dass die Schätzwerte um mehr als ε vom wahren Parameter abweichen können. Die Wahrscheinlichkeit für solche Ereignisse wird nur beliebig klein, falls n genügend gross ist. Bei allgemeinen Konsistenzbetrachtungen wird regelmässig die Ungleichung von Tschebyscheff herangezogen (siehe Statistik II Wahrscheinlichkeit, 13. Aufl. 1999, Kapitel 5.5.3). Beispiel X 1 ,… , X n sei eine Stichprobe aus einer Gesamtheit mit dem Erwartungswert µ und der Standardabweichung σ . Mit Xn = 1 n n ∑X i =1 i (2.47) bezeichnen wir die Folge von Schätzfunktionen für θ = µ . Nun gilt 29 V ( Xn ) = σ2 (2.48) n womit aus der Tschebyscheff'schen Ungleichung folgt ( ) P Xn − µ ≥ ε ≤ 1 ε2 E (( X n −µ) 2 ) σ2 = 2 ε n (2.49) Für jedes noch so kleine ε strebt ( P Xn − µ ≥ ε ) (2.50) mit wachsendem Stichprobenumfang n gegen Null. Dieser Sachverhalt wird als schwaches Gesetz der grossen Zahlen bezeichnet. X n ist somit eine konsistente Schätzfunktion für µ . 2.1.6 Mean squared error (MSE) Der MSE ergänzt die bisherigen Kriterien (Erwartungstreue, Effizienz, Konsistenz) zur Beurteilung der Güte von Schätzfunktionen. Bezeichnet T = t ( X 1 ,… , X n ) die Schätzfunktion für den unbekannten Parameter θ , so heisst { E (T − θ ) 2 } = MSE (θ ) (2.51) mean squared error der Schätzfunktion. Die Bezeichnung als "mittlerer, quadratischer Fehler" ist insofern verständlich, als man die Abweichung eines Schätzwertes t vom wahren Parameter θ als Fehler bezeichnen kann, den man begeht, wenn aufgrund der Schätzfunktion T der unbekannte Parameter θ mit t geschätzt wird. Der MSE (θ ) misst analog zur Varianz einer Zufallsvariablen die Abweichungen der Schätzfunktion von θ . Mit E (T ) = µT 30 (2.52) gilt MSE (θ ) = E (T − θ ) = E (T − µT − (θ − µT ) ) 2 2 = E (T − µT ) − 2 (θ − µT ) E (T − µT ) + (θ − µT ) 2 2 (2.53) respektive MSE (θ ) = E (T − µT ) + (θ − µT ) 2 = V (T ) + (θ − µT ) 2 2 (2.54) Die Grösse θ − µ T wird als Verzerrung (Bias) der Schätzfunktion T bezeichnet. Für erwartungstreue Schätzfunktionen ( E (T ) = µ T = θ ) entspricht der mittlere Fehler MSE (θ ) der Schätzfunktion T ihrer Varianz V(T). Das MSE (θ ) –Konzept ermöglicht den Vergleich von nichterwartungstreuen Schätzfunktionen und erweitert in diesem Sinne die reinen Effizienzbetrachtungen. 2.1.7 Methoden zur Konstruktion von Schätzfunktionen Bisher beschränkten sich die Überlegungen auf die Diskussion der Qualität von Schätzfunktionen. Es wurde hingegen nicht darauf eingegangen, nach welchen Methoden und Prinzipien solche Schätzfunktionen überhaupt konstruiert werden können. Dieser Frage wollen wir jetzt nachgehen. Aus einer reichen Palette von möglichen Ansätzen, wovon die Beispiele • • • • • Momentenmethode Minimumquadratmethode Maximum–Likelihood–Methode Minimum–χ2–Methode Minimumdistanz–Methode nur eine Auswahl darstellen, wollen wir kurz auf die Momentenmethode und etwas ausführlicher auf die Maximum–Likelihood–Methode eintreten. Die Minimumquadratmethode wird im Rahmen der Regressionsrechnung eingeführt. 31 2.1.8 Die Momentenmethode Die auf K. Pearson zurückgehende Momentenmethode gehört zu den ältesten Verfahren für Punktschätzungen. Sie basiert auf der Vorstellung, dass der (die) zu schätzende(n) Parameter einer Verteilung mit den Momenten µ k′ einer Verteilung verknüpft sind. Für die Varianz einer Zufallsvariablen gilt z.B. σ 2 = V ( X ) = E ( X − µ ) = E ( X 2 ) − ( E ( X ) ) = µ 2′ − µ1′2 2 2 (2.55) Man erhält eine Schätzung nach der Momentenmethode, indem man zunächst den zu schätzenden Parameter θ durch die Momente zum Ausdruck bringt und letztere schliesslich durch die empirischen Momente ersetzt. Bezeichnet µˆ k′ das k–te empirische Moment (um den Wert a = 0 , vgl. Band II, S. 70), so gilt mit µˆ k′ = 1 n n ∑X i =1 k i (2.56) für die Varianz nach der Momentenmethode 1 σˆ = n 2 n ∑(X i =1 i − X )2 (2.57) Diese Schätzung ist nur asymptotisch erwartungstreu. 2.1.9 Die Maximum–Likelihood–Methode – "Methode der maximalen Mutmasslichkeit" Wir konzentrieren uns zunächst auf die Schätzung des Parameters θ aus einer diskreten Verteilung, wobei θ auch einen Vektor darstellen kann. Im Falle einer (stetigen) Normalverteilung ist θ bei unbekanntem µ und σ der Vektor θ = ( µ , σ ) . Die Informationsbasis ist wie bisher eine unabhängige Zufallsstichprobe aus einer Grundgesamtheit mit der Verteilung f X ( x;θ ) . Mit dieser Notation der Wahrscheinlichkeitsfunktion soll deren Abhängigkeit vom unbekannten Parameter θ zum Aus32 druck gebracht werden. Einführungsbeispiel Wir betrachten eine Urne mit 2 Sorten Kugeln (E, Ec) im Mischungsverhältnis 1:3. Der Anteil p der Erfolgskugeln nimmt dann entweder den Wert 0.25 oder 0.75 an. Der Entscheid für p soll aufgrund einer konkreten Stichprobe X 1 , X 2 , X 3 mit Zurücklegen vom Umfang n = 3 gefällt werden. Der Einfachheit halber nehmen wir an, dass nur die Anzahl Erfolge X mitgeteilt wird, so dass gilt X ∼ B ( n, p ) ; 3 3− x P ( X = x ) = p x (1 − p ) x x = 0,1, 2,3 (2.58) Das Problem besteht nun darin, aufgrund einer konkreten Beobachtung von X einen Entscheid bezüglich der unbekannten Erfolgswahrscheinlichkeit p (p 0 {0.25, 0.75}) zu fällen. Intuitiv scheint es vernünftig, die Wahrscheinlichkeiten für x Erfolge unter den beiden Hypothesen p = 0.25 resp. p = 0.75 zu betrachten. p X 0 1 2 3 0.25 f X ( x; 0.25 ) 27/64 27/64 9/64 1/64 0.75 f X ( x; 0.75 ) 1/64 9/64 27/64 27/64 f X ( x; p ) hängt im Falle einer konkreten Realisation von X nur noch von p ab. Man bezeichnet diese Funktion (in p) als Likelihoodfunktion L (p;x). Im diskreten Fall beschreibt die Likelihoodfunktion die Eintretenswahrscheinlichkeit für ein vorgegebenes Stichprobenresultat in Abhängigkeit des unbekannten, zu schätzenden Parameters. 33 Annahme: Die Stichprobe zeigt einen Erfolg (X = 1). Aufgrund dieser Beobachtung entscheidet man sich vernünftigerweise für p = 0.25, zumal dieses konkrete Ergebnis in der Stichprobe (X = 1) unter der Annahme p = 0.25 eine bedeutend grössere Wahrscheinlichkeit (27/64) besitzt, als unter der Annahme p = 0.75 (9/64). Allgemein entscheidet man sich unter den möglichen Alternativen von p bei einer gegebenen Realisation von X für jenen Wert, welcher die Likelihoodfunktion L(p;x) maximiert. Mit derselben Argumentation kann für jedes Stichprobenresultat ein Entscheid bezüglich p gefällt werden. X L(0.25;x) L(0.75;x) Entscheid 0 1 2 3 27/64 27/64 9/64 1/64 1/64 9/64 27/64 27/64 p = 1/4 p = 1/4 p = 3/4 p = 3/4 Wenn in einer ersten Verallgemeinerung für p nur noch die Bedingung 0 < p < 1 vorausgesetzt wird, so findet man aus analogen Überlegungen die Likelihoodfunktion n n− x L ( p; x ) = P ( X = x; p ) = p x (1 − p ) x (2.59) Wiederum schätzt man p durch p̂ so, dass die (in p stetige) Likelihoodfunktion maximal wird: dL n x −1 n − x −1 = p (1 − p ) ( x − np ) = 0 dp x x pˆ = ⇒ n Man beachte, dass wegen 0 < p < 1 die Faktoren p x −1 und (1 − p ) (2.60) n − x −1 stets positiv sind. Die obige Entscheidungsregel, wonach der unbekannte Parameter so zu schätzen 34 ist, dass die Likelihoodfunktion L (θ ; x ) maximiert wird, heisst Maximum–Likelihood– Prinzip. Im Falle einer diskreten Zufallsvariablen X liefert das Likelihoodprinzip jenen Schätzwert, welcher die Wahrscheinlichkeit für die konkrete Stichprobe maximiert. Notwendigerweise muss das Verteilungsgesetz f X bekannt sein, damit die Likelihoodfunktion bestimmt werden kann. Maximum–Likelihood–Prinzip X 1 ,… , X n sei eine unabhängige Zufallsstichprobe aus einer Grundgesamtheit mit bekannte Verteilungsgesetz f X und zu schätzendem Parameter θ . Dann ist f X1 ,…, X n ( x1 ,… , xn ;θ ) = f X ( x1 ;θ ) ⋅ f X ( x2 ;θ ) ⋅… ⋅ f X ( xn ;θ ) (2.61) die gemeinsame Wahrscheinlichkeits- oder Dichtefunktion der Stichprobe, welche sowohl von den Realisationen xi als auch vom unbekannten Parameter θ abhängig ist. Betrachtet man für eine Stichprobe X 1 ,… , X n die gemeinsame Verteilung als Funktion des unbekannten Parameters θ , so wird diese Funktion als Likelihoodfunktion L (θ ; ⋅ ) bezeichnet: L (θ ; x1 ,… , xn ) = f X (θ ; x1 ) ⋅ f X (θ ; x2 ) ⋅… ⋅ f X (θ ; xn ) (2.62) Nach dem Maximumlikelihood-Prinzip wird θ nun so bestimmt, dass L möglichst gross wird. Ist L (θ ; x1 ,… , xn ) die Likelihoodfunktion einer Stichprobe ( X 1 ,… , X n ) und bezeichnet θˆ = h ( X 1 ,… , X n ) jenen Wert von θ , welcher L maximiert, so heisst θˆ = h ( X 1 ,… , X n ) (2.63) Maximumlikelihood-Schätzfunktion für θ . . 35 Beispiel 1 n identische Münzen werden je solange geworfen, bis erstmals Kopf erscheint. Die Zufallsvariablen X 1 ,… , X n sind dann geometrisch verteilt mit P ( X = x ) = q x p = (1 − p ) p x (2.64) X bezeichnet die Anzahl Würfe vor dem ersten Erfolg, p die (unbekannte) Wahrscheinlichkeit für das Ergebnis „Kopf“. Für die Likelihoodfunktion folgt L ( p; x1 ,… , xn ) = (1 − p ) 1 p … (1 − p ) n p x x (2.65) n xi s p n = (1 − p ) p n = (1 − p )∑ i =1 mit s = n ∑x . i =1 i Notwendigerweise muss die erste Ableitung von L nach p beim Maximum verschwinden, womit für die Likelihoodschätzung folgt dL s −1 s = s (1 − p ) p n ( −1) + (1 − p ) np n −1 dp = (1 − p ) ⇒ s −1 p n −1 pˆ = ( n − p ( s + n )) = 0 n = s+n n n ∑x +n i =1 (2.67) i Der Schätzer p̂ ist wiederum der Erfolgsanteil über alle n + n ∑x i =1 36 (2.66) i Würfe bei n n Erfolgen sowie ∑x i =1 i Nichterfolgen. Beispiel 2 X 1 ,… , X n sei eine Zufallsstichprobe aus einer stetig gleichverteilten Grundgesamtheit. 1 f X ( x ) = α 0 0 ≤ x ≤α (2.68) sonst Der unbekannte Parameter α soll geschätzt werden. Für die Likelihoodfunktion gilt L (α) 1 L (α ; x1 , … , x n ) = α n α L ist streng monoton fallend in α , womit zur Maximierung von L der Parameter α möglichst klein zu wählen ist. Dabei sind allerdings diejenigen Restriktionen einzuhalten, welche sicherstellen, dass die Zufallsstichprobe X 1 ,… , X n unter α überhaupt realisiert werden kann. 37 α ≥ xi resp. i = 1,… , n α ≥ max ( x1 ,… , xn ) (2.69) Wählt man α unter den obigen Bedingungen möglichst klein, so folgt die Likelihood–Schätzfunktion αˆ = max ( X 1 ,… , X n ) (2.70) Beachte: 1. Das Maximum von L konnte nicht mit Hilfe der Differentialrechnung bestimmt werden. 2. 3. L kann nicht mehr als Wahrscheinlichkeit einer konkreten Stichprobe interpretiert werden (X stetig!) α̂ ist keine erwartungstreue Schätzfunktion. Im Falle einer stetig differenzierbaren Funktion L kann das Maximierungsproblem durch Logarithmierung von L oft vereinfacht werden. Es gilt nämlich L (θ ; x1 ,… , xn ) = f X ( x1 ;θ ) ⋅ f X ( x2 ;θ ) ⋅… ⋅ f X ( xn ;θ ) (2.71) log L = log f X ( x1 ;θ ) + … + log f X ( xn ;θ ) (2.72) respektive Da die Logarithmusfunktion eine streng monotone Abbildung ist , nehmen L und log L das Maximum an derselben Stelle θ an. Die Funktionswerte von L und log L sind allerdings verschieden. Während bei L ein Produkt abzuleiten ist, genügt es bei log L, eine Summe abzuleiten. 38 Beispiel 3 X 1 ,… , X n sei eine Zufallsstichprobe aus einer poissonverteilten Grundgesamtheit. f X ( x; λ ) = λx L ( λ ; x1 ,… , xn ) = λx x! 1 x1 ! e−λ x = 0,1,… ; −λ e … λx n xn ! e−λ λ >0 (2.73) = cλ s e − nλ mit c = ( x1 ! x2 !… xn !) −1 und (2.74) n s = ∑ xi i =1 Damit gilt ln L = ln c + s ln λ − nλ d s ln L = − n = 0 dλ λ (2.75) und der Maximum–Likelihood–Schätzwert für λ lautet s 1 λˆ = = n n n ∑x i =1 i =x (2.76) Multiparameterfall Ist θ ein Vektor θ = (θ1 ,… ,θ k ) , dessen k Komponenten zu schätzen sind, so ändert sich das Prinzip an sich nicht. Die Stichprobe X 1 ,… , X n stamme aus einer Grundgesamtheit mit der Dichte 39 f X ( x ;θ 1 , … , θ k ) = f X ( x ;θ ) (2.77) L (θ ; x1 , … , xn ) = f X ( x1 ;θ ) … f X ( xn ;θ ) (2.78) Die Likelihoodfunktion ist jetzt abhängig von den Komponenten des Vektors θ . Ist L in diesen Komponenten differenzierbar, so muss gelten ∂L =0 ∂θ i i = 1,… , k (2.79) Das somit entstehende Gleichungssystem in den k Unbekannten θ1 ,… ,θ k besitzt i.a. genau eine Lösung θˆ . Auch hier erweist es sich oft als vorteilhaft, das Maximum von log L zu bestimmen. Beispiel X 1 ,… , X n sei eine Zufallsstichprobe aus einer normalverteilten Grundgesamtheit X ∼ N ( µ , σ ) , µ und σ seien unbekannt, θ = ( µ , σ ) . Für die Likelihoodfunktion findet man L ( µ , σ ; x1 ,… , xn ) = ( 2π ) respektive 40 − n 2 σ −n −1 exp 2 2σ n ∑ (x − µ ) i =1 i 2 (2.80) n n 1 ln L = − ln ( 2π ) − ln σ 2 − 2 2 2σ 2 ∂ 1 ln L = 2 σ ∂µ n ∑ (x − µ ) i =1 2 i n ∑ (x − µ ) = 0 i =1 (2.81) i ∂ −n 1 = + ln L ∂σ 2 2σ 2 2σ 4 n ∑ (x − µ ) i =1 2 i =0 woraus die Likelihoodschätzfunktionen 1 n µˆ = ∑ X i = X n i =1 1 n σˆ 2 = ∑ ( X i − X ) 2 n i =1 (2.82) folgen. Eigenschaften von Likelihoodschätzfunktionen Das Likelihoodschätzverfahren gehört zu den wichtigsten Konstruktionsmethoden von Schätzfunktionen. Es setzt allerdings ein bekanntes Verteilungsgesetz voraus. Die dominante Bedeutung wird in erster Linie durch die vorteilhaften Eigenschaften des Likelihood-Prinzips begründet. Die wichtigsten sind: 1. Maximumlikelihood–Schätzfunktionen genügen dem Invarianzprinzip. Ist θˆ eine ML–Schätzung für θ und h eine eineindeutige Abbildung von θ , so ist ( ) h θˆ eine ML–Schätzung für h (θ ) . 2. Maximumlikelihood–Schätzfunktionen sind konsistent und asymptotisch normalverteilt. 3. Maximumlikelihood–Schätzfunktionen sind asymptotisch erwartungstreu. Das letzte Beispiel der Varianzschätzung normalverteilter Zufallsvariablen zeigt, dass ML–Schätzfunktionen nicht a priori erwartungstreue Schätzungen liefern. 41 2.2 Intervallschätzungen – Konfidenzintervalle Die Resultate der bis anhin besprochenen Punktschätzungen sind im Normalfall einzelne Zahlen. Wenn man bedenkt, dass diese Zahlen aus zufallsbedingten Stichproben stammen, wird klar, dass zusätzliche Informationen über deren Genauigkeit wünschbar sind. Dies umso mehr, als man davon ausgehen muss, dass die konkreten Schätzwerte in praktisch allen Fällen fehlerhaft sind und nicht mit den wahren Parametern übereinstimmen. Schätzfunktionen sind Zufallsvariablen, welchen ein bestimmtes Verteilungsgesetz zugrundeliegt. Konsequenterweise würde bei mehrmaliger Schätzung desselben Parameters jedesmal ein anderer Wert realisiert werden. Es ist deshalb verständlich, dass sich die Diskussion nicht auf eine einmalige "Punktinformation" beschränken darf, sondern durch die bereits oben angetönte Genauigkeitsinformation ergänzt werden muss. Im nächsten Kapitel über sogenannte Konfidenzintervalle wird es in erster Linie um eine inhaltliche und begriffliche Präzisierung des "Genauigkeitsbegriffes" gehen. Aus einer Stichprobe X 1 ,… , X n soll der unbekannte Parameter θ geschätzt werden. Dieses Problem werde durch die Schätzfunktion T = t ( X 1 ,… , X n ) gelöst. Als Beispiel betrachte man eine Stichprobe aus einer normalverteilten Grundgesamtheit mit bekannter Varianz, aus welcher der unbekannte Mittelwert µ zu schätzen ist. Als Schätzfunktion T kommt dann das arithmetische Mittel X in Frage. Zur Beurteilung der Abweichung des Schätzwertes θˆ vom wahren Parameter θ sucht man aus der Stichprobe neue Funktionen T1 = t1 ( X 1 ,… , X n ) und T2 = t2 ( X 1 ,… , X n ) mit folgenden Eigenschaften 1.) T1 < T2 2.) P (T1 ≤ θ ≤ T2 ) = γ 3.) T2 − T1 ⇒ min . (2.83) γ ist eine vorgegebene Wahrscheinlichkeit. Wenn Funktionen T1 und T2 unter den obigen Voraussetzungen existieren, so heisst [T1,T2] ein 100γ % Konfidenzintervall. γ wird speziell als Konfidenzkoeffizient (Konfidenzzahl) bezeichnet. Das Konfidenzintervall für θ wird wie folgt bezeichnet Konfθ [T1 , T2 ] = γ 42 (2.84) und besitzt folgende Interpretation. Das Zufallsintervall [T1,T2] überdeckt mit Wahrscheinlichkeit γ den unbekannten, aber festen Parameter θ . Die Länge des Konfidenzintervalls [T2 - T1] beinhaltet eine Genauigkeitsaussage und rekurriert auf die Sicherheit der Aussage. Stichprobe 1 Stichprobe i Stichprobe k 2.2.1 Konfidenzintervall für den Mittelwert µ einer normalverteilten Grundgesamtheit bei bekannter Varianz σ 2 X 1 ,… , X n bezeichne eine Zufallsstichprobe aus einer normalverteilten Grundgesamtheit. Der unbekannte Mittelwert µ wird durch das arithmetische Mittel geschätzt. X = Es gilt 1 n n ∑X i =1 i (2.85) X ∼ N ( µ ,σ ) σ X ∼ N µ, n X −µ Z= n ∼ N ( 0,1) (2.86) σ 43 Die Verteilung der standardisierten Variablen Z ist vollständig bekannt. Zu gegebener Konfidenzzahl γ existiert ein Wert d γ , so dass gilt P ( − dγ ≤ Z ≤ dγ ) = γ (2.87) fZ ( z) γ dγ 0.80 0.90 0.95 0.99 1.282 1.645 1.960 2.576 γ −d γ z 0 dγ Es gilt die Umformung X −µ P ( − dγ ≤ Z ≤ dγ ) = P − dγ ≤ n ≤ dγ σ σ σ = P X − dγ ≤ µ ≤ X + dγ =γ n n (2.88) Wir haben somit zwei Funktionen t1 und t2 gefunden, welche geeignet sind, ein Konfidenzintervall einzugrenzen. 44 T1 = t1 ( X 1 ,… , X n ) = X − dγ σ T2 = t2 ( X 1 ,… , X n ) = X + dγ σ n n (2.89) σ σ Konf µ X − dγ , X + dγ =γ n n Das Zufallsintervall σ σ , X + dγ X − dγ n n (2.90) überdeckt mit Wahrscheinlichkeit γ den wahren Parameter µ . Wenn sehr oft aus einer Stichprobe vom Umfang n ein derartiges Konfidenzintervall berechnet würde, so würden etwa 100γ % dieser Intervalle das wahre µ überdecken. Aus der obigen Graphik ist ersichtlich, dass auch andere Intervalle X − a, X + b (2.91) P ( X − a ≤ µ ≤ X + b) (2.92) existieren, welche der Bedingung genügen. Diese Intervalle sind aber stets länger als das obige, bezüglich X symmetrische Konfidenzintervall. Sicherheit und Genauigkeit verhalten sich bei gegebenem Stichprobenumfang gegenläufig. Eine höhere Sicherheit γ führt zwangsläufig zu ungenaueren, längeren Konfidenzintervallen. Die minimale Länge des Konfidenzintervalls beträgt für ein vorgegebenes γ 45 σ D = T2 − T1 = 2dγ (2.93) n Daraus lässt sich der für eine gewünschte Genauigkeit D und Sicherheit γ notwendige Stichprobenumfang n bestimmen. 2dγ σ n= D 2 (2.94) Beispiel Wie gross muss der Stichprobenumfang gewählt werden, damit bei einer Standardabweichung σ der wahre Mittelwert µ vom Konfidenzintervall der Länge σ 2 mit einer Wahrscheinlichkeit γ überdeckt wird. d 2 σ γ 2dγ σ n= = σ D 2 2 2 2 = 16dγ γ n 0.80 0.90 0.95 0.99 27 44 62 107 (2.95) Eine konkrete Stichprobe vom Umfang n = 4 habe ein arithmetisches Mittel x = 5 ergeben. Die Varianz σ 2 sei 9 und die Konfidenzzahl werde mit γ = 0.90 vorgegeben. Das Konfidenzintervall ist dann 46 3 3 Konf µ 5 − 1.645 ⋅ , 5 + 1.645 ⋅ 2 2 = Konf µ [ 2.533, 7.468] = 0.90 (2.96) Die Aussage, das konkrete Intervall [2.533, 7.468] überdecke den wahren Mittelwert µ mit einer Wahrscheinlichkeit vom 90%, ist falsch. Ein konkretes Intervall kann nur überdecken – dann ist die Überdeckungswahrscheinlichkeit 1– oder nicht überdecken – dann ist die Überdeckungswahrscheinlichkeit 0! Bei einer korrekten Argumentation wird zunächst positiv ausgesagt, dass das konkrete Intervall [2.533, 7.468] den wahren Parameter überdecke. Diese Aussage wird durch die Konfidenzzahl γ = 0.90 bewertet. Das Bewertungskriterium γ wird so motiviert, dass bei oftmaliger Wiederholung des obigen Experimentes jedesmal ein neues Konfidenzintervall resultiert und dass für jedes dieser verschiedenen Intervalle die positive Aussage der Überdeckung gemacht wird. In etwa 90% der Fälle ist die Aussage richtig. Vor der Stichprobenentnahme besteht eine Wahrscheinlichkeit γ , dass das zu konstruierende Intervall den unbekannten Parameter überdeckt. Nach der Stichprobenentnahme gibt es nur noch die Alternativen Überdeckung ja oder nein. 2.2.2 Konfidenzintervall für den Mittelwert µ einer normalverteilten Grundgesamtheit bei unbekannter Varianz σ 2 Das Informationspotential ist wiederum eine Stichprobe X 1 ,… , X n und als Schätzfunktion für µ dient ebenfalls X = 1 n n ∑X i =1 i (2.97) Im Gegensatz zum vorherigen Beispiel ist jedoch die Abbildung Z= X −µ σ n (2.98) nicht mehr definiert, zumal σ unbekannt ist. Z ist keine Statistik mehr. σ kann jedoch 47 aus der Stichprobe geschätzt werden durch S= 1 n ( X i − X )2 ∑ n − 1 i =1 (2.99) und es gilt V= X −µ S n ∼ Tn −1 (2.100) Die Statistik V genügt einer t-Verteilung mit n − 1 Freiheitsgraden (vgl. Statistik II, Kap. 7). Wie im Falle einer bekannten Varianz existiert bei gegebener Konfidenzahl γ und bekannter Anzahl an Freiheitsgraden ein Wert d γ (der t–Verteilung) so, dass gilt P ( −dγ ≤ V ≤ dγ ) = γ Tn−1 -dγ γ 0 +dγ Durch analoge Umformungen von X −µ P −dγ ≤ S n ≤ dγ = γ findet man das Konfidenzintervall bei unbekannter Varianz 48 (2.101) S S Konf µ X − dγ , X + dγ =γ n n (2.102) Die beiden Funktionen T1 und T2 sind jetzt 1 T1 = t1 ( X 1 ,… , X n ) = n T2 = t2 ( X 1 ,… , X n ) = 1 n n ∑X i =1 i n ∑X i =1 i − dγ + dγ n n 1 n ( X i − X )2 ∑ n − 1 i =1 (2.103) n 1 ( X i − X )2 ∑ n − 1 i =1 Beispiel Eine Stichprobe vom Umfang n = 25 aus einer normalverteilten Grundgesamtheit mit unbekanntem Mittelwert und Varianz liefert die Schätzwerte x = 75 und s = 8. Bei einer Konfidenzzahl γ = 0.95 gilt dann 8 8 Konf µ 75 − 2.064 ⋅ , 75 + 2.064 ⋅ 5 5 = Konf µ [ 71.7, 78.3] = 0.95 (2.104) Auch hier ist die Konfidenzzahl γ = 0.95 keine Wahrscheinlichkeit mehr sondern ein Vertrauensmass, resp. ein Bewertungsmass für die Aussage, dass das konkrete Intervall [71.7, 78.3] das wahre µ überdecke. Asymptotisch sind die Konfidenzintervalle für den Mittelwert µ einer normalverteilten Grundgesamtheit bei bekannter und unbekannter Varianz identisch. Die geschätzte Standardabweichung S ist eine effiziente Schätzung für σ und die t-Verteilung konvergiert mit wachsender Anzahl Freiheitsgraden gegen eine Standardnormalverteilung. Im Gegensatz zu Konfidenzintervallen für den Mittelwert normalverteilter Zufallsvariablen bei bekannter Varianz, ist die Länge der Konfidenzintervalle bei unbekannter Varianz eine Zufallsvariable 49 S n D = T2 − T1 = 2dγ (2.105) 2.2.3 Konfidenzintervall für den Mittelwert µ bei beliebig verteilten Zufallsvariablen Ist X 1 ,… , X n eine Zufallsstichprobe aus einer beliebig verteilten Grundgesamtheit, so ist Z= X −µ σ n (2.106) nach dem zentralen Grenzwertsatz asymptotisch standardnormalverteilt. Als Faustregel gilt n > 30. Bei grossen Stichprobenumfängen bestimmt sich das Konfidenzintervall für den Mittelwert analog zu den Verfahren im Falle einer Normalverteilung entweder bei bekannter (2.2.1) oder bei unbekannter (2.2.2) Varianz. 2.2.4 Konfidenzintervall für die Varianz einer normalverteilten Grundgesamtheit Gesucht ist zunächst wieder eine Statistik mit bekannter Verteilung. Es gilt 2 X −X 2 U = ∑ i ∼ χ n −1 σ i =1 n (2.107) U ist χ 2 –quadrat verteilt mit n − 1 Freiheitsgraden. Es existieren somit bei gegebenem γ zwei Grenzen u1 und u2 so, dass P ( u1 ≤ U ≤ u 2 ) = γ (2.108) Die Verteilung von U ist nicht symmetrisch. Approximativ wählt man u1 und u2 so, dass 50 1 (1 − γ ) 2 1 P (U ≥ u2 ) = (1 − γ ) 2 (2.109) 2 n Xi − X P u1 ≤ ∑ u ≤ 2 =γ σ i =1 (2.110) P (U ≤ u1 ) = Aus der Beziehung folgt nach einigen Umformungen das Konfidenzintervall für σ 2 Konfσ 2 n 2 ∑ (Xi − X ) i =1 , u2 n − X )2 =γ u1 ∑(X i =1 i (2.111) Dabei braucht µ nicht bekannt zu sein. Für grosse Stichprobenumfänge gilt die obige Theorie wiederum infolge des zentralen Grenzwertsatzes für beliebig verteilte Zufallsvariablen. 2.2.5 Konfidenzintervall für p der Binomialverteilung Exakte Lösung nach Clopper und Pearson. Hat ein Binomialexperiment vom Umfang n die Anzahl k an Erfolgen gezeigt, so bestimmen sich die exakten Grenzen eines 100γ % –Konfidenzintervalls für p aus den Gleichungen 51 n x 1 n− x p (1 − p ) = (1 − γ ) ∑ 2 x=k x k n 1 n− x p x (1 − p ) = (1 − γ ) ∑ 2 x =0 x n ( untere Grenze ) (2.112) ( obere Grenze ) Konf p [ p1 , p2 ] = γ (2.113) "Exakt" bedeutet, dass die Konfidenzzahl γ garantiert wird. Dabei resultiert aus der ersten Gleichung in (2.112) der Parameter p1 für die untere Grenze, aus der zweiten Gleichung der Parameter p2 für die obere Grenze des Konfidenzintervalls. Auf den ersten Blick würde man eher vermuten, dass p1 die obere und p2 die untere Grenze des Intervalls wären. Nun sind aber bei einer kleinen Erfolgswahrscheinlichkeit (untere Grenze p1) grosse Werte von X (viele Erfolge) und bei einer grossen Erfolgswahrscheinlichkeit (obere Grenze p2) kleine Werte von X (wenig Erfolge) unwahrscheinliche Ereignisse. Beispiel Ein Binomialexperiment vom Umfang n = 10 habe 3 Erfolge gezeigt. Für ein 90%Konfidenzintervall für p findet man 10 x 10 − x = 0.05 p (1 − p ) ∑ x x =3 3 10 10 − x = 0.05 p x (1 − p ) ∑ x x =0 10 und damit p1 = 0.09 (2.114) und damit p2 = 0.61 Konf p [ 0.09, 0.61] = 0.90 (2.115) Da dieses Verfahren für die Berechnung von Konfidenzintervallen wenig praktikabel ist, 52 wird im folgenden eine approximative Lösung für grosse Stichprobenumfänge behandelt. Für grosse Stichprobenumfänge ist die Zufallsvarialbe X der "Anzahl Erfolge" eines Binomialexperimentes approximativ normalverteilt. Für den Erfolgsanteil P∗ = X n (2.116) gilt X P = ∼ N p, n ∗ p (1 − p ) n (2.117) n ∼ N ( 0,1) (2.118) respektive Z= P∗ − p p (1 − p ) Zu gegebenem γ existiert wie im Falle der Normalverteilung eine Grenze d γ so, dass P ( − d γ ≤ Z ≤ d γ ) = P ( Z ≤ dγ ) = P P∗ − p n ≤ dγ p (1 − p ) =γ (2.119) Für ein 100γ % Konfidenzintervall sind jene Werte von p zu suchen, welche die Ungleichung ( p ∗ bezeichne den Anteil Treffer basierend auf der Realisation x von X) p∗ − p n ≤ dγ p (1 − p ) (2.120) respektive 53 (p ∗ − p) (p ∗ − p) 2 n ≤ dγ2 p (1 − p ) (2.121) n = dγ2 p (1 − p ) (2.122) gerade noch erfüllen. Aus 2 folgt durch Umformen eine quadratische Gleichung in p p 2 ( d γ2 + n ) − p ( 2 np ∗ + dγ2 ) + np ∗ = 0 2 (2.123) mit den Lösungen p1,2 = 2np ∗ + dγ2 ± dγ dγ2 + 4np ∗ (1 − p ∗ ) 2 ( dγ + n ) 2 (2.124) Beispiel Von insgesamt 91342 Geburten waren 47179 Knabengeburten. Für ein 99%-Konfidenzintervall für die Wahrscheinlichkeit p einer Knabengeburt erhält man mit einem Schätzwert p∗ = 47 '179 = 0.517 91'342 (2.125) Konf p [ 0.512, 0.521] = 0.99 Sind bei grossem Stichprobenumfang n gleichzeitig auch k und n − k gross, so gilt mit guter Näherung die Schätzung für die Varianz des Erfolgsanteils 54 σˆ P2 = ∗ 1 k n−k n n n (2.126) so, dass mit der Normalverteilungshypothese ein approximatives 100γ % Konfidenzintervall k k Konf p − c, + c = γ n n (2.127) mit c= dγ k (n − k ) n n (2.128) folgt. Für das Geburtenbeispiel findet man nach dieser Methode c= 2.576 91'342 47 '179 ⋅ 44 '163 = 0.0043 91'342 (2.129) k 47 '179 = = 0.5165 n 91'342 Konf p [ 0.512, 0.521] = 0.99 (2.130) 2.2.6 Konfidenzintervall für λ der Poissonverteilung Die Poissonverteilung kann als Grenzverteilung der Binomialverteilung betrachtet werden. Binomialverteilung X ∼ B ( n, p ) Poissonverteilung n gross → np = λ endlich X ∼ Po ( λ ) (2.131) 55 n x n− x P ( X = x ) = p (1 − p ) x P ( X = x) = λx x! e−λ (2.132) Man kann nun dieselbe Argumentation von Clopper und Pearson im Falle der Binomialverteilung übernehmen und findet exakte Konfidenzgrenzen für λ, falls eine poissonverteilte Zufallsvariable den Wert x realisiert hat. Die Grenzen λ1 und λ2 ergeben sich aus folgenden Bestimmungsgleichungen λ1k ∞ ∑ k! e− λ1 = k =x λ2k x ∑ k! e− λ2 = k =0 (1 − γ ) 2 (1 − γ ) 2 ( untere Grenze λ1 ) (2.133) ( obere Grenze λ2 ) (2.134) Konf λ [ λ1 , λ2 ] = γ (2.135) Beispiel Eine poissonverteilte Zufallsvariable liege in der Realisation 3 vor. Gesucht ist ein 95%Konfidenzintervall für λ. ∞ λk − λk − ∑ k ! e λ = 0.025 k =3 3 ∑ k ! e λ = 0.025 k =0 und damit λ1 = 0.62 (2.136) und damit λ2 = 8.76 (2.137) Konf λ [ 0.62, 8.76 ] = 0.95 (2.138) Die exakten Konfidenzgrenzen lassen sich relativ einfach mit Hilfe eines Computers bestimmen. Ansonsten wird die Berechnung sehr aufwendig. Approximativ kann jedoch oft auf die Normalverteilungsannahme ausgewichen werden. 56 3. TESTEN VON HYPOTHESEN Wie beim Schätzproblem werden auch beim Hypothesentest Schlüsse aus einer Stichprobe auf die dazugehörige Grundgesamtheit gezogen. Beim Schätzen werden aus einer Stichprobe zahlenmässige Werte über unbekannte Parameter einer Verteilung abgeleitet. Von diesem Ansatz unterscheidet sich das Testproblem insofern, als es jetzt darum geht, Aussagen über die Verteilung einer Zufallsvariablen zu überprüfen. Solche empirisch überprüfbaren Aussagen über die Verteilung einer Zufallsvariablen werden als statistische Hypothesen bezeichnet. Beispiele für statistische Hypothesen: • Der Mittelwert einer normalverteilten Zufallsvariablen beträgt 100. • Eine Zufallsvariable X ist poissonverteilt. • Die Zufallsvariablen X und Y sind stochastisch unabhängig resp. f XY = f X fY . Die zu überprüfende Aussage wird allgemein als Nullhypothese H0 bezeichnet. Der Nullhypothese werden Gegenhypothesen oder Alternativhypothesen H1 gegenübergestellt. Man spricht im Zusammenhang von H0 und H1 entsprechend vom relevanten Hypothesensystem. Praktische Beispiele derartiger Hypothesensysteme stammen etwa aus der Qualitätskontrolle. Ein Annahmekontrolleur steht vor einem Warenposten und muss einen Entscheid auf Annahme oder Rückweisung treffen. Er formuliert die Nullhypothese H0: Der Warenposten ist schlecht und stellt ihr die Alternative H1: Der Warenposten ist gut gegenüber. Aufgrund einer konkreten Stichprobe X 1 ,… , X n ist dann ein Entscheid entweder für H0 oder für H1 zu fällen. Hypothesen können auch das Resultat theoretischer Überlegungen sein. So hat Mendel eine Theorie über die Chromosomenrekombination aufgestellt, welche eine Aussage über die Verteilung der Nachkommen ermöglicht. Diese Annahme kann wiederum durch eine Stichprobe X 1 ,… , X n aus der Generation der Nachkommen überprüft werden. 57 Hypothesen werden anhand zufälliger Stichproben X 1 ,… , X n überprüft. Daraus folgt wiederum die Unmöglichkeit, Beweise in mathematischem Sinn zu führen. Wenn aufgrund eines konkreten empirischen Befundes eine Hypothese nicht abgelehnt werden kann, so ist letztere im Sinne eines Umkehrschlusses noch keineswegs bewiesen. Die Glaubwürdigkeit einer Hypothese wächst hingegen, je öfter sie einer empirischen Überprüfung ausgesetzt wird und nicht abgelehnt werden kann. 3.1 Einführungsbeispiel Es sei bekannt, dass eine Zufallsvariable X normalverteilt sei mit einer Varianz von 9. Der Mittelwert von X sei entweder 20 oder 23. Aus einer Zufallsstichprobe X 1 ,… , X n entscheide man sich für einen der beiden Werte. Im Sinne der einführenden Bemerkungen zur Testtheorie formulieren wir zunächst das Hypothesensystem H 0 : µ = µ 0 = 20 (3.1) H1 : µ = µ1 = 23 wobei für X gilt X ∼ N ( µ , 3) (3.2) f X ( x) 0.15 0.12 H1 H0 0.09 σ=3 σ=3 0.06 0.03 0.00 7 58 17 µ0=20 µ1=23 x 27 37 Ein Hypothesentest ist eine Entscheidungsregel E, welche aufgrund einer konkreten Stichprobe X 1 ,… , X n eine Aussage darüber ermöglicht, ob H0 abzulehnen ist oder nicht. In der ersten Phase zur Konstruktion der Entscheidungsregel wird eine Testgrösse T = t ( X 1 ,… , X n ) als Funktion der Stichprobenvariablen festgelegt. Zweckmässigerweise wählt man eine Testgrösse, welche sensibel auf Änderungen der der Hypothese zugrunde liegenden Annahmen reagiert. Im konkreten Beispiel entscheiden wir uns für die Testgrösse 1 n σ X = ∑ Xi ∼ N µ, n i =1 n (3.3) zumal die Verteilung von X die Grösse µ direkt als Funktionalparameter enthält. Wie bereits erwähnt, ist der Test einer statistischen Hypothese eine Entscheidungsregel E, welche für jede Realisation der Testgrösse X einen Entscheid über Ablehnung oder Nichtablehnung von H0 zulässt. Zur Konstruktion von E unterteilen wir den Raum der möglichen Realisationen der Testgrösse in die beiden Bereiche V und Vc. V heisst Verwerfungs- und Vc Nichtverwerfungsbereich. Für die Partition des Stichprobenraums unterstellen wir zunächst die Richtigkeit von H0. Dann ist 3 X ∼ N 20, n (3.4) Der Stichprobenumfang sei vorgegeben mit n = 16. Unter H0 werden sich Realisationen von X um µ 0 = 20 häufen. Unter H1 wäre ebenfalls eine Häufung zu erwarten, allerdings um den Mittelwert µ1 = 23 . Es erscheint daher vernünftig, H0 für grosse Werte von X abzulehnen, woraus für die Entscheidungsregel E vorerst folgt 59 X ≥ c E : falls X < c { ⇒ H 0 ablehnen (3.5) ⇒ H 0 nicht ablehnen } { } V : X X ≥c ; Vc : X X <c (3.6) Wie gross soll c gewählt werden? Zur Beantwortung dieser Frage geben wir eine Wahrscheinlichkeit α vor und bestimmen c so, dass gilt c − 20 P ( X ∈V H 0 ) = P ( X ≥ c H 0 ) = 1 − Φ ⋅ 4 = α 3 0.60 (3.7) fX ( x ) 0.45 H0 σ=0.75 0.30 0.15 α 0.00 17 19 x µ0=20 21 c1-α 23 Für verschiedene Werte von α erhält man auf diese Weise folgende Grenzen c1−α : α 0.10 0.05 0.01 c1−α 20 + 1.282 @ 3/4 = 20.962 20 + 1.645 @ 3/4 = 21.234 20 + 2.327 @ 3/4 = 21.745 α heisst Wahrscheinlichkeit eines Fehlers 1. Art. 60 Zur Konstruktion von E wurde die Richtigkeit von H0 vorausgesetzt. α ist somit die Wahrscheinlichkeit, H0 irrtümlich abzulehnen (Fehler 1. Art) und sollte im Hinblick auf eine Fehlerminimierung möglichst klein gewählt werden. Für α = 0.05, folgt die Entscheidungsregel X ≥ 21.234 E : falls X < 21.234 ⇒ H 0 ablehnen (3.8) ⇒ H 0 nicht ablehnen Mit Wahrscheinlichkeit 1 − α wird mit der obigen Entscheidungsregel eine richtige Nullhypothese nicht abgelehnt. Zur Beurteilung der Qualität der Entscheidungsregel lassen wir die Voraussetzung der Richtigkeit von H0 fallen. Unter der dichotomen Fragestellung ist dies gleichbedeutend mit der Annahme, dass H1 richtig sei. Unter H1 gilt für die Verteilung der Testgrösse 3 X ∼ N 23, n 0.60 0.45 (3.9) fX ( x ) H1 H0 σ=0.75 0.30 0.15 β 0.00 17 20 21.23 α 23 26 x Aus der obigen Grafik wird die zweite Fehlerwahrscheinlichkeit ersichtlich. Bei Richtigkeit von H1 wird nach der Entscheidungsregel Ε die Nullhypothese H0 mit 61 Wahrscheinlichkeit β irrtümlich nicht abgelehnt. Fehler dieser Art werden als Fehler 2. Art bezeichnet. Die Wahrscheinlichkeit eines Fehlers 2. Art beträgt β. Für obiges Beispiel gilt also β = P ( X ∈ V c H1 ) = P ( X < 21.234 µ = 23) 21.234 − 23 = Φ ⋅ 4 = Φ ( −2.35 ) = 0.0094 3 (3.10) Wäre also H1 richtig, so würde mit der Entscheidungsregel E die Nullhypothese H0 mit einer Wahrscheinlichkeit von weniger als 1% irrtümlich nicht abgelehnt. 1 − β ist unter H1 die Wahrscheinlichkeit, H0 richtigerweise abzulehnen und wird als Macht des Tests bezeichnet. Dieses einfache Beispiel zeigt das Zusammenspiel der beiden Fehlerwahrscheinlichkeiten deutlich. Man kann bei gegebenem Stichprobenumfang nicht beide Wahrscheinlichkeiten gleichzeitig minimieren, die eine kann nur auf Kosten der anderen verändert werden. Der Ablauf eines statistischen Hypothesentests kann wie folgt zusammengefasst werden: 1.) 2.) 3.) 4.) 5.) 6.) 7.) 8.) Formulierung des Hypothesensystems Bestimmung der Testgrösse Verteilung der Testgrösse unter H0 Wahl von α Konstruktion der Entscheidungsregel Macht des Tests Beobachtung der Stichprobe Entscheid Bei statistischen Tests wird die Wahrscheinlichkeit α eines Fehlers 1. Art gewöhnlich vorgegeben. Anschliessend wird der Stichprobenraum der Testgrösse in einen Verwerfungs- und einen Nichtverwerfungsbereich partitioniert. Erst dann ist die Wahrscheinlichkeit β eines Fehlers 2. Art berechenbar. Im Einführungsbeispiel haben wir uns intuitiv auf einen sogenannt (einseitig) rechtsseitigen Test festgelegt. Dies ist jedoch keineswegs die einzige Partition, welche ein vorgegebenes α garantiert. 62 Die Entscheidungsregel 21.17 ≤ X ≤ 21.763 E ∗ : falls X < 21.17 oder X > 21.763 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.11) garantiert wie E ebenfalls eine Wahrscheinlichkeit eines Fehlers 1. Art von 5%. Auf der Basis der Fehlerwahrscheinlichkeiten 1. Art müssten somit E und E ∗ als äquivalent bezeichnet werden. Trotzdem ist E vorzuziehen, denn die Wahrscheinlichkeit eines Fehlers 2. Art wird bei E ∗ bedeutend grösser, nämlich β ∗ = P ( X ≤ 21.17 H 1 ) + P ( X ≥ 21.763 H 1 ) = 0.9578 (3.12) im Gegensatz zu β = 0.0094 für Entscheidungsregel E. Dieses Beispiel motiviert die Eigenschaften eines guten Tests. Bei vorgegebener Wahrscheinlichkeit α eines Fehlers 1. Art ist der Verwerfungsbereich so zu konstruieren, dass die Macht des Tests möglichst gross wird. Gleichzeitig wird dann die Wahrscheinlichkeit eines Fehlers 2. Art minimal. Im Einführungsbeispiel sind durch das Hypothesensystem die Verteilungen der Testgrösse (unter H0 und unter H1) eindeutig bestimmt. Es wird eine einfache Null- gegen eine einfache Alternativhypothese getestet. Der optimale Test ist rechtsseitig. Die Entscheide beim Hypothesentest lassen sich tabellarisch zusammenfassen. unbekannte Wirklichkeit H0 richtig H0 ablehnen Fehler 1. Art α H0 falsch richtige Entscheidung 1− β Entscheid H0 nicht ablehnen richtige Entscheidung 1−α Fehler 2. Art β 63 3.2 Formulierung von Null- und Alternativhypothesen Es gibt keine allgemeingültigen Regeln, welche für jeden empirischen Sachverhalt festlegen, was als Null- und was als Alternativhypothese zu formulieren ist. Aus der Tatsache, dass einerseits mit jedem Entscheid die Chance von Fehlern verbunden ist und andererseits die Wahrscheinlichkeit α eines Fehlers 1. Art zu den Aktionsparametern des Statistikers gehört, lassen sich trotzdem Leitsätze ableiten. Sofern es möglich ist, die Konsequenzen von Fehlentscheiden zu bewerten, wird man in der Nullhypothese zweckmässigerweise jenen Teil der Behauptung umschreiben, der bei irrtümlicher Ablehnung (Fehler 1. Art) die gravierendsten Konsequenzen nach sich zieht. α ist unter diesem Gesichtspunkt möglichst klein zu wählen. Der Annahmekontrolleur macht bei kleinem α mit dem Hypothesensystem H0 : Warenposten ist schlecht H1 : Warenposten ist gut die Chance, einen schlechten Warenposten anzunehmen, klein. Der Richter sichert sich mit den Hypothesen H0 : Angeklagter ist unschuldig H1 : Angeklagter ist schuldig vor der Möglichkeit, einen Unschuldigen zu verurteilen. Nach allgemeiner Rechtsauffassung ist es weniger gravierend, einen Schuldigen nicht zu verurteilen (Fehler 2.Art), als einen Unschuldigen zu verurteilen (Fehler 1. Art). Der Arzt schützt sich unter dem Hypothesensystem H0 : Patient ist krank H1 : Patient ist gesund bei kleinem α vor der Möglichkeit, einen kranken Patienten nicht zu behandeln. In seiner Vorstellung ist es besser, einen Gesunden zu behandeln (Fehler 2. Art), als einen Kranken nicht zu behandeln (Fehler 1. Art). Überlegungen dieser Art helfen, die Hypothesen einzelnen Sachverhalten zuzuordnen, sie sagen hingegen nicht, wie gross α im konkreten Fall zu wählen ist. In der Literatur 64 findet man dazu sehr oft auch nur vage Hinweise. Meistens wird auf Usanzen verwiesen (α = 0.01, 0.05, 0.001) oder festgestellt, dass die ökonomischen Konsequenzen des Entscheides zu berücksichtigen sind. Tiefere Einsicht in diese Zusammenhänge erhält man erst, wenn der Hypothesentest als Spezialfall der allgemeinen Entscheidungstheorie interpretiert wird. Einen anderen Zugang zur Umschreibung von Null- und Alternativhypothesen erhält man aus der Tatsache, dass statistische Tests auf Ablehnung hin konstruiert werden. Eine positive Aussage ist nur bei Ablehnung von H0 möglich. Man formuliert deshalb in H0 das Gegenteil dessen, was man letztlich nachweisen möchte. 3.3 Der Einfluss des Stichprobenumfangs Wir gehen wieder vom Test der einfachen Null- gegen die einfache Alternativhypothese des Einführungsbeispieles aus. Über eine normalverteilte Grundgesamtheit mit bekannter Varianz wird ausgesagt H 0 : µ = µ 0 = 20 H1 : µ = µ1 = 23 (3.13) wobei X ∼ N ( µ , 3) (3.14) Mit der Testgrösse X haben wir die Entscheidungsregel E formuliert X ≥ c E : falls X < c ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.15) 65 0.8 0.6 fX ( x ) H0 H1 σ=0.64 0.4 0.2 α β 0.0 17 µ0=20 c=21.5 x µ1=23 26 Bezeichnet zp das p-Quantil einer Verteilung, so gilt für die Verteilungen unter H0 und H1 Φ ( z1−α ) = 1 − α ⇒ z1−α = Φ ( zβ ) = β c − µ0 c − µ1 ⇒ zβ = n σ σ (3.16) n Löst man beide Gleichungen nach c auf, so folgt µ 0 + z1−α σ n = µ1 + z β σ n (3.17) und damit z1−α − z β n = σ µ1 − µ 0 66 2 (3.18) Beispiel Welcher Stichprobenumfang garantiert im obigen Beispiel, dass die beiden Fehlerwahrscheinlichkeiten je 1% werden? α = β = 0.01 z1−α = z0.99 = 2.327 (3.19) z β = z0.01 = − 2.327 2.327 + 2.327 n = 3 ⋅ = 21.66 ≈ 22 23 − 20 2 (3.20) 3.4 Der allgemeine Test für den Mittelwert einer Normalverteilung bei bekannter Varianz Die Reissfestigkeit X eines Garnes sei normalverteilt mit unbekanntem Mittelwert µ und bekannter Varianz σ 2 = 25. Unter diesen Bedingungen garantiert der Hersteller eine mittlere Reissfestigkeit µ von mindestens 200 gr. Der Käufer möchte diese Garantie überprüfen. Er untersucht zu diesem Zweck n = 20 Garnproben, berechnet das arithmetische Mittel X und steht schliesslich vor der Alternative, den Warenposten zu akzeptieren oder ihn zurückzuweisen. Hypothesensystem Die vorliegende Annahmeprüfung ist ein typisches Beispiel einer Qualitätskontrolle. Zwei Risiken stehen dabei zur Diskussion. Eine gute Lieferung kann zufällig eine schlechte Stichprobe, und umgekehrt eine schlechte Lieferung eine gute Stichprobe hervorbringen. Bei einem Fehlentscheid wird im ersten Fall eine gute Lieferung irrtümlich zurückgewiesen (Produzentenrisiko) und im zweiten Fall eine schlechte Lieferung irrtümlich nicht zurückgewiesen (Konsumentenrisiko). Der Annahmekontrolleur möchte sein Konsumentenrisiko möglichst klein halten und 67 formuliert deshalb die Hypothesen H 0 : µ = µ 0 ≤ 200 (3.21) H1 : µ = µ1 > 200 Das Konsumentenrisiko entspricht einem Fehler 1. Art und das Produzentenrisiko einem Fehler 2. Art. Als Testgrösse dient das arithmetische Mittel 5 X ∼ N µ, n (3.22) Im Unterschied zum Einführungsbeispiel sind jetzt die Verteilungen der Testgrösse unter H0 und H1 nicht mehr eindeutig bestimmt. Die zur Nullhypothese gehörende Familie von Verteilungen besteht aus allen Normalverteilungen N µ , σ mit n σ µ ≤ 200 . Die Alternativhypothese wird durch die Verteilungsfamilie N µ , n mit µ > 200 beschrieben. Solche Hypothesen nennt man zusammengesetzt. H1 deckt grosse Werte von µ ab, d.h. der Test erfolgt rechtsseitig. H1 H0 200 68 Entscheidet sich der Konsument für eine maximale Wahrscheinlichkeit eines Fehlers 1. Art von α = 0.05, so bedeutet dies, dass diese Fehlerwahrscheinlichkeit bei allen Möglichkeiten unter H0 nicht überschritten werden darf. Zur Bestimmung der kritischen Grenze c, welche den Verwerfungs- vom Nichtverwerfungsbereich trennt, ist somit ein möglichst grosser Wert zu wählen. Aus dem unter H0 zulässigen Bereich ist entsprechend die Verteilung mit dem grösstmöglichen Mittelwert zu wählen. Bei einer Stichprobe vom Umfang n = 20 folgt für die Verteilung der Testgrösse unter H0 X ∼ N ( 200, 1.118 ) (3.23) H0 wird für grosse Werte von X abgelehnt. Für die kritische Grenze c1-α gilt c − 200 P ( X > c1−α H 0 ) = 1 − Φ 1−α = 0.05 1.118 (3.24) c1−α = c = 200 + 1.118 ⋅1.645 = 201.84 (3.25) und damit Die Entscheidungsregel E lautet X ≥ 201.84 E : falls X < 201.84 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.26) E garantiert über dem gesamten Bereich von H0 eine maximale Wahrscheinlichkeit von α = 0.05 201.84 − µ 1.118 α (µ ) = 1− Φ (3.27) Die Macht m ( µ ) des Tests beschreibt die Wahrscheinlichkeit für die Ablehnung von H0. Ein guter Test weist sich durch eine möglichst kleine Macht "über H0" und durch 69 eine möglichst grosse Macht "über H1" aus. Für das obige Beispiel gilt m ( µ ) = P ( X ∈ V ) = P ( X > 201.84 ) 201.84 − µ = 1− Φ 1.118 (3.28) β ( µ) , m( µ ) 1.0 0.8 m( µ) β ( µ) 0.6 0.4 0.2 µ 0.0 198 200 202 204 206 Für µ = 198 würde H0 nur mit einer Wahrscheinlichkeit von 0.0003 fälschlicherweise abgelehnt. Andererseits führt bei einem µ = 204 der Test mit einer Wahrscheinlichkeit von 0.9733 richtigerweise zur Ablehnung von H0. Die Wahrscheinlichkeit eines Fehlers 2. Art ist ebenfalls abhängig von µ . β ( µ ) = P ( X ∈ V c ) = P ( X ≤ 201.84 ) 201.84 − µ = Φ 1.118 = 1− m ( µ ) Die Funktion β ( µ ) wird als Operationscharakteristik bezeichnet. 70 (3.29) Der Einfluss des Stichprobenumfangs auf die Macht eines Tests Wenn der Stichprobenumfang erhöht wird, muss bei konstantem α die Entscheidungsregel angepasst werden. Wird im obigen Beispiel n = 30 gewählt, so gilt im Extremfall unter H 0 : µ = µ 0 = 200 : 5 X ∼ N 200, = N ( 200, 0.913) 30 (3.30) woraus die Entscheidungsregel X ≥ 201.50 E : falls X < 201.50 ⇒ H 0 ablehnen (3.31) ⇒ H 0 nicht ablehnen bei einer Wahrscheinlichkeit α für einen Fehler 1. Art von 0.05 folgt. Die Macht ist jetzt 201.50 − µ m (µ ) = 1− Φ 0.913 1.0 (3.32) m( µ) 0.8 n=20 n=30 0.6 0.4 0.2 0.0 198 µ 200 202 204 206 71 In der Graphik kommt die Vergrösserung des Stichprobenumfanges dadurch zum Ausdruck, dass der Graph der Machtfunktion m ( µ ) für µ > 200 wesentlich steiler verläuft als vorher. 3.5 Test für den Mittelwert einer Normalverteilung bei unbekannter Varianz σ 2 Von der Zufallsvariablen X seien lediglich das Normalverteilungsgesetz, nicht hingegen die Parameter µ und σ bekannt. Für µ formulieren wir das Hypothesensystem H 0 : µ = µ0 H1 : µ = µ1 ≠ µ 0 (3.33) X kann nicht direkt als Testgrösse verwendet werden, zumal das Verteilungsgesetz von X den unbekannten Parameter σ enthält. Hingegen ist die Verteilung von U= X − µ0 S n (3.34) bekannt, wobei S die Standardabweichung der Stichprobe bezeichnet. U genügt einer tVerteilung mit n − 1 Freiheitsgraden. Aufgrund des Hypothesensystems ist H0 für grosse und kleine Werte von X resp. U abzulehnen. Der Test verläuft zweiseitig. Für die Verteilung von U gilt unter H0 U= X − µ0 S n ∼ Tn −1 (3.35) Damit existiert bei gegebener Wahrscheinlichkeit α für einen Fehler 1. Art ein Quantil t1−α / 2 der t-Verteilung, so dass gilt P ( −t1−α / 2 ≤ U ≤ t1−α / 2 ) = 1 − α 72 (3.36) wobei −t1−α / 2 = + tα / 2 . Daraus folgt die Entscheidungsregel E U ≥ t1−α / 2 E : falls U < t1−α / 2 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen fU ( u ) (3.37) Tn −1 α α 2 2 −t1−α t1−α 0 2 u 2 Auf die Diskussion der Macht kann im Rahmen dieser Einführung nicht eingegangen werden. Die Testgrösse U= X −µ S n (3.38) besitzt nur für µ = µ 0 eine t–Verteilung mit n − 1 Freiheitsgraden. Falls µ ≠ µ 0 ist U nichtzentral t–verteilt. Beispiel Die Messwerte 2.4, 4.9, 3.2, 5, 3.6 bilden eine Stichprobe aus einer normalverteilten Grundgesamtheit mit unbekannter Varianz. Mit einer Fehlerwahrscheinlichkeit α = 0.05 teste man das Hypothesensystem 73 H 0 : µ = µ0 = 4 H 1 : µ = µ1 ≠ 4 (3.39) Damit gilt X − µ0 S = 2.777 U= t0.975 n ∼ T4 (3.40) Die Entscheidungsregel lautet U ≥ 2.777 E : falls U < 2.777 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.41) Entscheid: Aus der Stichprobe findet man X = 3.82 S = 1.119 3.82 − 4 U= 5 = − 0.360 1.119 (3.42) was zu folgender Entscheidung führt U < 2.777 ⇒ H 0 nicht ablehnen 74 (3.43) 3.6 Test für die Varianz σ 2 einer Normalverteilung Ist X eine normalverteilte Zufallsvariable und wird die Hypothese H 0 : σ 2 = σ 02 (3.44) gegen eine der Alternativen 1.) H1 : σ 2 > σ 02 2.) H1 : σ 2 < σ 02 (3.45) 3.) H1 : σ 2 ≠ σ 02 getestet, so verwendet man als Testgrösse unter H0 die Stichprobenfunktion n − 1) S 2 ( U= σ 02 mit 1 n S2 = ( X i − X )2 ∑ n − 1 i =1 (3.46) U ist bekanntlich χ 2 –verteilt mit n − 1 Freiheitsgraden U ∼ χ n2−1 (3.47) Bei bekanntem Verteilungsgesetz können wiederum für gegebene Wahrscheinlichkeiten eines Fehlers 1. Art Quantile c bestimmt werden. Die Entscheidungsregeln lauten 1.) für den rechtsseitigen Test U ≥ c1−α E1 : falls U < c1−α ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.48) 75 2.) für den linksseitigen Test U ≤ cα E2 : falls U > cα 3.) ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.49) für den zweiseitigen Test U ≤ cα / 2 oder U ≥ c1-α / 2 E3 : falls cα / 2 < U < c1−α / 2 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.50) Zu Illustrationszwecken betrachten wir das Beispiel aus Abschnitt 3.5 mit einer Stichprobe vom Umfang n = 5 und dem Hypothesensystem H 0 : σ 2 = σ 02 = 1.5 (3.51) H1 : σ 2 = σ 12 ≠ 1.5 Damit erhält man die Testgrösse 4S 2 ∼ χ 42 U= 1.5 (3.52) Für α = 0.10 folgen die kritischen Grenzen c0.05 = 0.711 (3.53) c0.95 = 9.488 und daraus die Entscheidungsregel U ≤ 0.711 oder U ≥ 9.488 E : falls 0.711 < U < 9.488 76 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.54) Der Wert der Testgrösse U= 4 ⋅ 1.252 = 3.339 1.5 (3.55) zeigt, dass H0 nicht abgelehnt werden kann. Bei zweiseitigen Tests ist zu beachten, dass infolge der Asymmetrie der χ 2 –Verteilung mit wenigen Freiheitsgraden der Nichtverwerfungsbereich kleiner gemacht werden kann, falls α nicht symmetrisch auf die beiden Ränder aufgeteilt wird. Die kritischen Grenzen c0.01 = 0.297 c0.91 = 8.043 (3.56) garantieren ebenfalls eine Fehlerwahrscheinlichkeit α = 0.10, jedoch bei einem kürzeren Nichtverwerfungsintervall Vc. 3.7 Vergleich der Mittelwerte zweier Normalverteilungen 3.7.1 Vergleich bei bekannter Varianz X und Y seien unabhängige, je normalverteilte Zufallsvariablen mit bekannter Varianz X ∼ N ( µ X ,σ X ) Y ∼ N ( µY , σ Y ) (3.57) Auf der Basis von zwei Stichproben des Umfanges nX und nY soll die Hypothese H 0 : µ X − µY = ∆ 0 (3.58) gegen die Alternativen 77 1.) H1 : µ X − µY > ∆ 0 2.) H1 : µ X − µY < ∆ 0 3.) H1 : µ X − µY ≠ ∆ 0 getestet werden. Die Zufallsvariable D = X −Y (3.60) eignet sich als Testgrösse, da ihre Verteilung direkt auf Änderungen in der Hypothese reagiert. σ X2 σ Y2 D = X − Y ∼ N µ X − µY , + n n X Y (3.61) Der Test kann also umformuliert werden in eine Aussage über den Mittelwert der normalverteilten Zufallsvariablen D bei bekannter Varianz H 0 : µ D = µ D0 = ∆0 (3.62) gegen die entsprechenden Alternativen, womit die Theorie von Abschnitt 3.4 angewendet werden kann. Beispiel Der Benzinverbrauch X pro 100 km zweier Autotypen A und B sei je normalverteilt mit X A ∼ N ( µ A , 1.2 ) X B ∼ N ( µ B , 1.8 ) (3.63) Wir testen die Hypothese, dass Typ B im Mittel mindestens 1.5 Liter mehr verbrauche als Typ A. 78 H 0 : µ B − µ A ≥ 1.5 H1 : µ B − µ A < 1.5 (3.64) Es stehen zwei Zufallsstichproben vom Umfang nA = 5 für A und vom Umfang nB = 8 für B zur Verfügung. Damit gilt 1.44 3.24 D = X B − X A ∼ N µ B − µ A , + 5 8 = N ( µ B − µ A , 0.832 ) (3.65) Unter H0 gilt für die Verteilung der Testgrösse D ∼ N (1.5, 0.832 ) (3.66) Für den linksseitigen Test gilt mit α = 0.10 die Entscheidungsregel D ≤ 0.433 E : falls D > 0.433 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.67) Die Stichproben XA: 7, 9, 10, 8, 10 XB: 9, 8, 12, 9, 9, 13, 9, 11 ergeben d = xB − x A = 10 − 8.8 = 1.2 (3.68) womit H0 nicht abgelehnt werden kann. 79 3.7.2 Vergleich bei unbekannter Varianz X und Y seien wieder unabhängige, je normalverteilte Zufallsvariablen mit unbekannter, jedoch übereinstimmender Varianz σ X2 = σ Y2 = σ 2 X ∼ N ( µ X ,σ ) Y ∼ N ( µY , σ ) (3.69) Auch hier geht es um den Test der Nullhypothese H 0 : µ X − µY = ∆ 0 (3.70) gegen die Alternativen 1.) H1 : µ X − µY > ∆ 0 2.) H1 : µ X − µY < ∆ 0 (3.71) 3.) H1 : µ X − µY ≠ ∆ 0 auf der Basis von zwei Stichproben der Grösse nX und nY. Die Wahrscheinlichkeit eines Fehlers 1. Art betrage α. Mit ZD = X − Y − ( µ X − µY ) σ2 nX + σ2 nY = X − Y − ( µ X − µY ) σ nX + nY nX nY n 1 ( X i − X )2 S = ∑ nX − 1 i =1 2 X n 1 (Yi − Y ) 2 S = ∑ nY − 1 i =1 2 Y S2 = 80 1 ( nX − 1) S X2 + ( nY − 1) SY2 nX + nY − 2 (3.72) gilt Z D ∼ N ( 0,1) n X + nY − 2 ) S 2 ( ∼ χ n2 + n − 2 W= 2 σ X (3.73) Y respektive U= X − Y − ( µ X − µY ) ZD Z = D = S S W σ n1 + n2 − 2 nX nY ∼ TnX + nY − 2 (3.74) nX + nY Als Testgrösse wählt man die unter H0 t–verteilte Variable U= X − Y − ∆0 S n X nY n X + nY (3.75) U reagiert direkt auf Variationen in der Hypothese und besitzt ein bekanntes Verteilungsgesetz, nämlich eine t-Verteilung mit ( n X + nY − 2 ) Freiheitsgraden. S2 ist eine aus beiden Stichproben gepoolte Schätzung für die unbekannte Varianz σ 2 . Aus der t-Verteilung können die relevanten Quantile und daraus die Entscheidungsregel nach bekanntem Muster gebildet werden. Beispiel XA : XB : 92, 84, 97, 105, 100, 91 107, 102, 102, 85, 103 seien Stichproben aus zwei je normalverteilten Grundgesamtheiten mit übereinstimmender, unbekannter Varianz. Zu testen sei das Hypothesensystem H 0 : µ B ≤ µ A resp. µ B − µ A ≤ 0 H1 : µ B > µ A resp. µ B − µ A > 0 (3.76) 81 Die Wahrscheinlichkeit α eines Fehlers 1. Art sei 0.05. Aus dem unter H0 zulässigen Bereich ist die Hypothese H0 : µB − µ A = 0 (3.77) relevant, da der Fehler 1. Art für µ B − µ A = ∆ 0 = 0 maximal wird. Dann gilt U= XB − XA S 30 ∼ T9 11 (3.78) Grosse Werte von U sprechen gegen H0 und motivieren den rechtsseitigen Test. Die Entscheidungsregel lautet (bei 9 Freiheitsgraden) U ≥ 1.834 E : falls U < 1.834 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.79) Aus den beiden Stichproben findet man x A = 94.83 s A2 = 54.97 xB = 99.80 sB2 = 72.20 1 ( 5 ⋅ 54.97 + 4 ⋅ 72.70 ) = 62.85 9 99.80 − 94.83 ⋅ 1.65 = 1.04 u= 7.93 s2 = (3.80) Der Stichprobenbefund vermag H0 nicht zu widerlegen, da u = 1.04 < 1.834 . Die Macht des Tests existiert, kann aber im Rahmen der verfügbaren Theorie nicht diskutiert werden. Der Grund liegt wieder in der Testgrösse 82 U= Z W n (3.81) welche dann (zentral) t–verteilt ist, wenn Z ∼ N ( 0,1) W ∼ χ n2 (3.82) Z ,W stochastisch unabhängig Die Zählervariable Z hat die Form Z= X − Y − ∆0 σ nX nY nX + nY (3.83) und ist nur unter H0 standardnormalverteilt. Ausserhalb von H0 gilt Z ∼ N ( µ1 − µ 2 − ∆ 0 ,1) (3.84) Damit ist, wie bereits früher erwähnt, die Testgrösse U ausserhalb von H0 nichtzentral t–verteilt. 3.8 Vergleich der Varianzen zweier Normalverteilungen Beim Vergleich der Mittelwerte zweier Normalverteilungen bei unbekannter Varianz musste vorausgesetzt werden, dass letztere in den beiden Fällen wenigstens übereinstimmt. Für die fraglichen Zufallsvariablen gilt dann X ∼ N ( µ X ,σ ) Y ∼ N ( µY , σ ) (3.85) 83 Es stellt sich daher in natürlicher Konsequenz die Frage nach einem Test, welcher die Varianzen zweier Zufallsvariablen miteinander vergleicht. Seien X ∼ N ( µ X ,σ X ) Y ∼ N ( µY , σ Y ) (3.86) Dann gilt 2 X −X 2 UX = ∑ i ∼ χ nX −1 σX i =1 nX (3.87) 2 Y −Y 2 UY = ∑ i ∼ χ nY −1 i =1 σ Y nY Zum Vergleich der Varianzen von X und Y erweist es sich als zweckmässig, den leicht modifizierten Quotienten von UX und UY zu betrachten, zumal das Verteilungsgesetz von UX nX − 1 nY − 1 U X = ∼ FnX −1, nY −1 UY nX − 1 U Y nY − 1 (3.88) bekannt ist und der sog. F-Verteilung mit den entsprechenden Freiheitsgraden entspricht. Damit gilt nX (X −1 ∑ n − 1 U X nY U= Y = nX − 1 U Y n X − 1 i =1 nY 84 − X )2 ∑ (Y − Y ) i =1 S X2 σ Y2 = 2 2 ∼ FnX −1, nY −1 SY σ X i i 2 σ Y2 σ X2 (3.89) Unter der Hypothese H 0 : σ X2 = σ Y2 resp. σ X2 =1 σ Y2 (3.90) gilt speziell S X2 U = 2 ∼ FnX −1, nY −1 SY (3.91) d.h. man betrachtet lediglich das Verhältnis der beiden Stichprobenvarianzen, von denen das Verteilungsgesetz bekannt ist. Beispiel Eine Stichprobe vom Umfang nX = 25 aus der X– und vom Umfang nY = 30 aus der Y–Grundgesamtheit ergab folgende Parameter: x = − 0.214 s X2 = 4.3176 y = − 0.260 sY2 = 5.4193 (3.92) Zum Test der Hypothese H 0 : σ X2 = σ Y2 resp. H1 : σ X2 ≠ σ Y2 σ X2 =1 σ Y2 σ X2 ≠1 resp. σ Y2 (3.93) betrachten wir die Testgrösse U= S X2 ∼ F24, 29 SY2 (3.94) 85 und erhalten für α = 0.05 die folgende Entscheidungsregel U ≤ 0.451 oder U ≥ 2.154 E : falls 0.451 < U < 2.154 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.95) Entscheid U= 4.3176 = 0.797 ⇒ H 0 nicht ablehnen 5.4193 (3.96) Tatsächlich wurden normalverteilte Zufallsvariablen simuliert mit σ X2 = 4 und σ Y2 = 4.41 . σ X2 Die Berechnung von Konfidenzintervallen für 2 erfolgt nach bekanntem Muster. σY 86 3.9 Querverbindung zur Theorie der Konfidenzintervalle Konfidenzintervalle und Hypothesentest weisen offensichtliche Gemeinsamkeiten auf, welche sich am Beispiel eines zweiseitigen Tests für den Mittelwert einer Normalverteilung bei bekannter Varianz σ 2 sehr einfach darstellen lassen. Für die Konfidenzzahl γ lautet das Konfidenzintervall σ σ Konf µ X − dγ , X + dγ =γ n n (3.97) Der Test der Hypothesen H 0 : µ = µ0 (3.98) H1 : µ ≠ µ 0 führt bei einer Wahrscheinlichkeit eines Fehlers 1. Art von α = 1 − γ zur Entscheidungsregel σ σ − ≤ ≤ + c X c µ µ 0 1 + γ 0 1 + γ n n 2 2 E : falls σ σ < − > + X c oder X c µ µ 0 1+γ 0 1+γ n n 2 2 ⇒ H 0 nicht ablehnen ⇒ H 0 ablehnen (3.99) Betrachtet man ferner c1+γ = dγ , so wird offensichtlich, dass die Länge des Konfidenz2 intervalls und jene des bezüglich µ 0 symmetrischen Nichtverwerfungsbereiches übereinstimmen. Für jede Realisation von X im Nichtverwerfungsbereich überdeckt das dazugehörige Konfidenzintervall das wahre µ 0 , während für jede Realisation im Verwerfungsbereich keine Überdeckung stattfindet. Das obige Hypothesensystem könnte somit mit einer äquivalenten Entscheidungsregel E' 87 Konfidenzintervall überdeckt µ 0 E′ : Konfidenzintervall überdeckt µ 0 nicht ⇒ H 0 nicht ablehnen ⇒ H 0 ablehnen (3.100) überprüft werden. 3.10 Chi–Quadrat Test ( χ 2 –Test) Unter der Bezeichnung χ 2 –Test werden jene Testverfahren zusammengefasst, deren Testgrösse einer χ 2 –Verteilung genügt. Sind Z1 ,… , Z n unabhängig standardnormaln verteilt, so ist die Zufallsvariable ∑Z i =1 2 i χ 2 –verteilt mit n Freiheitsgraden. Im wesent- lichen konzentrieren sich die hier dargestellten Verfahren ausschliesslich auf die Nullhypothese. Es wird also nur untersucht, ob H0 abgelehnt werden kann oder nicht. Die Alternative zu H0 ist regelmässig nur ihre Negation. Eine Diskussion des Fehlers 2. Art wird somit überflüssig. 3.10.1 Der χ 2 –Anpassungstest Während bis anhin ein bekanntes Verteilungsgesetz der Grundgesamtheit unterstellt wurde, geht es beim χ 2 –Anpassungstest darum, eine Aussage über das Verteilungsgesetz zu überprüfen. Beispiele • Das Verpackungsgewicht X ist normalverteilt mit dem Mittelwert µ und der • • Standardabweichung σ . Die Anzahl Unfälle eines Tages sind poissonverteilt mit unbekanntem λ. Ein Würfel ist symmetrisch. Das letzte Beispiel soll zur Einführung herangezogen werden. Zunächst ist die vorderhand verbale Aussage in eine solche über die Verteilung einer Zufallsvariablen umzuformulieren, damit sie die Voraussetzungen einer statistischen Hypothese erfüllt. Dazu definieren wir die Zufallsvariable 88 X: Augenzahl des Würfels und formulieren H0 : X ist diskret gleichverteilt Mit der Bezeichnung P ( X = i ) = pi (3.101) lautet die Nullhypothese H 0 : p10 = p20 = … = p60 = 1 6 (3.102) Die Alternative zu H0 ist ihre Negation, d.h. "keine diskrete Gleichverteilung." Zum Test von H0 betrachten wir n = 120 Würfe. Die einzelnen Ausprägungen seien jeweils mit N i , i = 1,… , 6 , Realisationen belegt, so dass gilt 6 ∑N i =1 i =n (3.103) Beachte: Bei gegebener Anzahl Würfe n können nur 5 Klassen frei belegt werden. Unter H0 müssten alle Ausprägungen etwa gleich oft vorkommen. Es erscheint daher vernünftig, die empirischen Häufigkeiten der einzelnen Ausprägungen mit den unter H0 theoretisch zu erwartenden (absoluten) Häufigkeiten zu vergleichen. Werden letztere mit ei , i = 1,… , 6 , bezeichnet, so gilt unter H0 ei = ei 0 = npi 0 (3.104) Für unser Beispiel gelte 89 xi 1 2 3 4 5 6 ni ei 11 20 21 20 29 20 30 20 19 20 10 20 Der Vergleich der empirischen mit den theoretischen Häufigkeiten unter H0 kann durch folgende Testgrösse Q erfolgen. 6 ( ni − ei ) i =1 ei Q=∑ 2 (11 − 20 ) = 20 2 (10 − 20 ) +…+ 20 2 = 18.2 (3.105) Für den Moment halten wir fest • • • Q ist ein relatives Mass für die Abweichungsquadrate. H0 ist für grosse Werte von Q abzulehnen. Eine kritische Grenze kann nur bei bekanntem Verteilungsgesetz von Q unter H0 bestimmt werden. Zudem ist eine Angabe über die Wahrscheinlichkeit α eines Fehlers 1. Art notwendig. Verallgemeinerung Die Nullhypothese spezifiziert das Verteilungsgesetz f X einer Zufallsvariablen X H0 : fX = fX 0 (3.106) welche gegen die Negation von H0 getestet wird. Zu diesem Zweck wird die Zufallsvariable X aufgrund der Stichprobe X 1 ,… , X n n–mal beobachtet. Bezeichnet S den Raum der möglichen Ausprägungen von X und S1 , S 2 ,… , S k eine Partition von S, so lassen sich unter H0 die Wahrscheinlichkeiten P ( X ∈ S i ) = pi 0 berechnen. 90 (3.107) f X ( x) p20 p30 p10 p40 x S1 S2 S3 S4 Sind ferner Ni die absoluten Häufigkeiten derjenigen Stichprobenwerte, welche in das i-te Element der Partition von S fallen, so genügt die gemeinsame Verteilung der N i , i = 1,… , k , einer Multinomialverteilung. n n1 nk P ( N1 = n1 ,… , N k = nk ) = p1 … pk n1 … nk (3.108) mit k ∑ Ni = n i =1 k und ∑p i =1 i =1 (3.109) Aus der Nullhypothese folgen somit für eine gegebene Partition Si , i = 1,… , k , Aussagen über die Erfolgswahrscheinlichkeiten einer Multinomialverteilung. H 0 : p1 = p10 ; p2 = p20 ;… ; pk = pk 0 (3.110) Die unter H0 zu erwartende Anzahl Belegungen in Si E ( N i 0 ) = npi 0 (3.111) 91 führt schliesslich zur Testgrösse k Q=∑ i =1 (N i − E ( Ni0 )) E ( Ni0 ) 2 k ( N i − npi 0 ) i =1 npi 0 =∑ 2 (3.112) welche (approximativ) einer χ 2 –Verteilung mit k − 1 Freiheitsgraden genügt. Bei einer Wahrscheinlichkeit α eines Fehlers 1. Art folgt daraus die Entscheidungsregel Q ≥ c1−α E : falls Q < c1− a ⇒ H 0 ablehnen (3.113) ⇒ H 0 nicht ablehnen Dabei bezeichnet c1−α das 1 − α –Quantil der dazugehörigen χ 2 –Verteilung mit k − 1 Freiheitsgraden. fQ ( q ) α 1−α c1−α q Beispiel Wir testen die Hypothese über die Verteilung einer Zufallsvariablen X. 2 x fX ( x) = 0 0 ≤ x ≤1 (3.114) sonst Das Intervall S = [0,1] werde wie folgt partitioniert 92 S1 = [0,0.25) S2 = [0.25, 0.5) S3 = [0.5,0.75) S4 = [0.75,1] fX ( x) 2 1 p40 p30 p20 p10 0 0.2 0.4 0.6 0.8 1 x Für die Wahrscheinlichkeiten pi 0 , i = 1,… , 4 , folgt dann H 0 : p10 = 1 3 5 7 ; p20 = ; p30 = ; p40 = 16 16 16 16 (3.115) Die Testgrösse 4 ( N i − npi 0 ) i =1 npi 0 Q=∑ 2 ∼ χ 32 (3.116) führt auf dem Signifikanzniveau α = 0.05 zur Entscheidungsregel Q ≥ 7.815 E : falls Q < 7.815 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.117) 93 Zum Test von H0 werden 80 Beobachtungen gemacht. S1 S2 S3 S4 Ni 7 18 19 36 npi 0 5 15 25 35 Damit erhält man ( 7 − 5) Q= 5 2 (18 − 15 ) + 2 15 (19 − 25 ) + 25 2 ( 36 − 35 ) + 35 2 = 2.87 (3.118) d.h. die konkrete Stichprobe vermag H0 auf dem Niveau α = 0.05 nicht zu widerlegen. Für den Spezialfall k = 2 ist die approximative Verteilung der Testgrösse Q einfach darzustellen. Dann gilt nämlich n = N1 + N 2 (3.119) N1 ∼ B ( n, p1 ) und ( N − np1 ) Q= 1 np1 2 (n − N + (1 − p1 )( N1 − np1 ) = np1 (1 − p1 ) 2 N1 − np1 ) ( = np1 (1 − p1 ) Nach dem zentralen Grenzwertsatz ist aber 94 1 − n (1 − p1 ) ) 2 n (1 − p1 ) 2 + p1 ( N1 − np1 ) np1 (1 − p1 ) 2 (3.120) N1 − np1 Z= np1 (1 − p1 ) (3.121) approximativ standardnormalverteilt, also Z 2 ∼ χ12 (3.122) Enthält die in H0 umschriebene Verteilung unbekannte Parameter, so läuft das Verfahren wie im Falle bekannter Parameter ab. Der einzige Unterschied besteht darin, dass bei der Verteilung der Testgrösse die Anzahl Freiheitsgrade k − 1 um die Anzahl der zu schätzenden Parameter zu reduzieren ist. Beispiele H 0 : X ∼ N ( µ ,σ ) 1. (3.123) Die beiden unbekannten Parameter µ und σ werden aus der Stichprobe X 1 ,… , X n geschätzt. Mit diesen Schätzwerten werden die pi 0 , i = 1,… , k , bestimmt. Die Anzahl Freiheitsgrade ist um 2 zu reduzieren. 2. Die Qualität eines Produktionsprozesses wird an der Zufallsvariablen X: Anzahl defekte Stücke pro Tag gemessen. Über X wird eine Poissonverteilung fX ( x) = λx x! e−λ x = 0,1… (3.124) vermutet. λ sei unbekannt. Aus einer Stichprobe 95 xj: Anzahl defekte Stücke pro Tag 0 1 2 3 4 5 6 oder mehr nj: Anzahl Tage mit xj defekten Stücken 6 20 20 27 15 7 5 schätzt man λ konservativ mit n = 6 ∑n j =1 1 x= 100 j = 100 6 ∑n x i =1 i i = 2.66 (3.125) Aus der Partition S1 = {0}, S2 = {1},..., S6 = {5}, S7 = {6,7, ...} folgen die Multinomialwahrscheinlichkeiten unter H0 2.660 −2.66 pˆ10 = P ( X ∈ S1 ) = P ( X = 0 ) = e 0! = 0.06995 2.661 −2.66 pˆ 20 = P ( X ∈ S2 ) = P ( X = 1) = e 1! = 0.18606 pˆ 30 = = 0.24746 pˆ 40 = = 0.21942 pˆ 50 = = 0.14591 pˆ 60 = = 0.07763 pˆ 70 = P ( X ∈ S7 ) = 1 − P ( X ≤ 5 ) = = 0.05357 (3.126) Die Testgrösse 7 ( N i − npˆ i 0 ) i =1 npˆ i 0 Q=∑ 96 2 (3.127) ist unter H0 χ 2 –verteilt mit 7 − 1 − 1 = 5 Freiheitsgraden und führt auf einem Signifikanzniveau von α = 0.10 zur Entscheidungsregel Q ≥ 9.236 E : falls Q < 9.236 ⇒ H 0 ablehnen (3.128) ⇒ H 0 nicht ablehnen Aus der Tabelle der empirischen und theoretischen Häufigkeiten xj 0 1 2 3 4 5 6 nj 6 20 20 27 15 7 5 npj0 7.00 18.61 24.75 21.94 14.59 7.76 5.36 folgt für die Testgrösse Q = 2.435 der Entscheid Q = 2.435 < 9.236 ⇒ H 0 nicht ablehnen (3.129) Aufgrund des empirischen Befundes haben wir keine Veranlassung, die Hypothese einer Poissonverteilung für die Zufallsvariable X:"Anzahl defekter Stücke pro Tag" abzulehnen. Die Approximation der Verteilung von Q durch eine entsprechende χ 2 –Verteilung wird umso besser, je stärker die Elemente der Partition von S belegt sind. Nach einer Faustregel ist die Partition so zu wählen, dass jedes Element davon theoretisch mit mindestens 5 Beobachtungen belegt sein sollte. Nötigenfalls wären Nachbarklassen zu vereinigen. Diese Faustregel führt aber in vielen Fällen zu unnötigen Informationsverlusten und beeinträchtigt die Wirksamkeit des Tests. Die Poissonverteilung als Beispiel ist typischerweise rechtsschief. Wenn zu grosse Bereiche über den Ausprägungen mit kleinen Wahrscheinlichkeiten zusammengefasst werden, so führt ein solches Vorgehen dazu, dass charakteristische Eigenschaften der Verteilung verlorengehen. Umfassende Simulationsversuche haben gezeigt, dass die Faustregel in den meisten Fällen zu restriktiv ist. In den relevanten Bereichen der Verteilung sind die Abweichungen zwischen der exakten und der approximativen Verteilung tolerierbar, selbst 97 wenn nur eine Minimalbelegung von 2 Werten gefordert wird. Ein zweiter Punkt hingegen sollte stets beachtet werden. Die Partition sollte immer so gewählt werden, dass die theoretisch zu erwartenden Belegungen in den verschiedenen Klassen unterschiedlich ausfallen. Damit wird erreicht, dass die Sprünge in der exakten (diskreten) Verteilung der Testgrösse klein ausfallen und die Approximation besser wird. 3.10.2 Der χ 2 –Unabhängigkeitstest in Kontingenztafeln Eine der wichtigsten Anwendungen der χ 2 –Methode ist der Test auf Unabhängigkeit von zwei Zufallsvariablen X und Y. Wir unterstellen für X und Y je eine diskrete Ausprägungsmannigfaltigkeit x1 ,… , xi ,… , xr resp. y1 ,… , y j ,… , yc . Getestet wird die Hypothese H 0 : P ( X = xi , Y = y j ) = f XY ( xi , y j ) = f X ( xi ) fY ( y j ) (3.130) wiederum gegen die Negation von H0 als Alternative. Als Prüfbasis dient eine Stichprobe ( X 1 , Y1 ) ,… , ( X n , Yn ) von n unabhängigen Be- obachtungspaaren. X kann beispielsweise die Grösse und Y das Gewicht einer Person bedeuten. Bezeichnet ferner N ij ( i = 1,… , r , j = 1,… , c ) die Anzahl Beobachtungen, bei denen X in der Ausprägung xi und Y in der Ausprägung yj vorliegt, so lässt sich der empirische Stichprobenbefund in einer zweidimensionalen Häufigkeitsverteilung darstellen. 98 Y y1 … y j … yc X x1 . xi . xr N11 … N1 j … N1c . . . . . N i1 … N ij … N ic . . . . . N r1 … N rj … N rc N1⋅ . Ni⋅ . Nr⋅ N ⋅1 … N ⋅ j … N ⋅ c Insbesondere gelten die Beziehungen r c ∑∑ N i =1 j =1 c ∑N j =1 i =1 =n ij = N i⋅ ij = N⋅ j r ∑N ij (3.131) Zweidimensionale Häufigkeitsverteilungen dieser Art werden auch als Kontingenztafeln bezeichnet. Jedes Beobachtungspaar der Stichprobe wird zufällig einer Zeile und ebenfalls zufällig einer Spalte zugeordnet. Zur einfacheren Notation setzen wir P ( X = xi , Y = y j ) = f XY ( xi , y j ) = pij P ( X = xi ) = f X ( xi ) = pi⋅ P (Y = y j ) = fY ( y j ) = p⋅ j (3.132) Dabei heissen die Werte pij ( i = 1,… , r , j = 1,… , c ) gemeinsame Wahrscheinlich99 keiten, pi⋅ , i = 1,… , r , resp. p⋅ j , j = 1,… , c , Randwahrscheinlichkeiten. Bei Unabhängigkeit von X und Y gilt pij = pi ⋅ p⋅ j ∀ i, j (3.133) Wir betrachten analog zum χ 2 –Anpassungstest einen Vergleich der unter H0 zu erwartenden Besetzung im Feld ( i, j ) mit der empirisch gefundenen Besetzung E0 ( N ij ) = npij = npi⋅ p⋅ j i = 1,… , r (3.134) j = 1,… , c Unter H0 genügt zur Bestimmung der theoretisch zu erwartenden Besetzung die Kennt nis der Randverteilungen von X und Y. Normalerweise sind diese Randverteilungen unbekannt; sie können jedoch aus der Stichprobe geschätzt werden. Es gilt pˆ i⋅ = ni⋅ n pˆ ⋅ j = n⋅ j n Eˆ 0 ( N ij ) = npˆ ij = npˆ i⋅ pˆ ⋅ j = (3.135) ni⋅ n⋅ j n Setzt man diese Schätzfunktionen in die Testgrösse Q ein, so erhält man 2 N i⋅ N ⋅ j − N ij r c r c N ij2 n Q = ∑∑ = n ∑∑ N i⋅ N ⋅ j i =1 j =1 i =1 j =1 N i⋅ N⋅ j n − 1 (3.136) Q genügt wiederum einer χ 2 –Verteilung. Die Partition umfasst rc Klassen und es sind r − 1 und c − 1 unbekannte Wahrscheinlichkeiten zu schätzen. Die Anzahl Freiheitsgrade ist somit df = rc − 1 − ( r − 1) − ( c − 1) = ( r − 1)( c − 1) 100 (3.137) Die Entscheidungsregel lautet Q ≥ c1−α : falls E Q < c1−α ⇒ H 0 (Unabhängigkeit) ablehnen ⇒ H 0 nicht ablehnen (3.138) Dabei bezeichnet c1− a das 1 − α –Quantile einer χ 2 –Verteilung mit r − 1 und c − 1 Freiheitsgraden. 3.10.3 Vergleich von r Stichproben in einer Kontingenztafel Gegeben seien r unabhängige Stichproben der Umfänge n1⋅ , n2⋅ ,…, nr ⋅ . Die Ausprägungsmannigfaltigkeit der beobachteten Variablen sei in allen Stichproben dieselbe, nämlich y1 , y2 ,… , yc . Beispielsweise werden Haushalte aus verschiedenen Regionen bezüglich ihrer Familiengrösse Y untersucht. Bezeichnet Nij die Belegung der Ausprägung yj in der i-ten Stichprobe, so können alle Häufigkeiten in einer Kontingenztafel zusammengefasst werden. Y y1 … y j … yc St St1 . Sti . Str N11 … N1 j … N1c . . . . . N i1 … N ij … N ic . . . . . N r1 … N rj … N rc n1⋅ . ni⋅ . nr⋅ N ⋅1 … N ⋅ j … N ⋅ c Im Unterschied zur Kontingenztafel beim Unabhängigkeitstest sind hier die Zeilensummen ni⋅ , i = 1,… , r , durch die Stichprobenumfänge fest vorgegeben. Der Zufall entscheidet nur noch innerhalb einer Zeile bezüglich der Spalte. 101 Die Hypothese lautet H0 : H0 : resp. In allen Zeilen herrscht dasselbe Verteilungsgesetz. p1 j = p2 j = … = prj j = 1,… , c Der Nullhypothese, dass alle Wahrscheinlichkeiten innerhalb einer Kolonne übereinstimmen, steht die Alternative, dass mindestens zwei voneinander verschieden sind, gegenüber. Man benützt wieder dieselbe Testphilosophie wie beim Unabhängigkeitstest und vergleicht die empirischen Belegungen N ij , i = 1, … , r , j = 1,… , c , mit den unter H0 zu erwartenden. Unter H0 gilt E0 ( N ij ) = ni⋅ p⋅ j wobei (3.139) p⋅ j , j = 1,… , c , die (unter H0 für alle Stichproben identische) (Rand)wahrscheinlichkeit der Ausprägung y j , j = 1, … , c , bezeichnet. Die normalerweise unbekannten Randwahrscheinlichkeiten p. j , j = 1, … , c , sind aus der Stichprobe zu schätzen. Nach der Maximum–Likelihood–Methode erhält man als Schätzfunktion r pˆ ⋅ j = ∑N i =1 n ij = N⋅ j n j = 1,… , c (3.140) pˆ ⋅ j ist eine Funktion in den Zufallsvariablen Nij, was durch Fettdruck zum Ausdruck gebracht wird. Bei der Schätzung der p⋅ j denkt man sich sämtliche Stichproben vereinigt, woraus der gemeinsame Erfolgsanteil umfassender geschätzt werden kann. 102 Für die Testgrösse folgt r c Q = ∑∑ i =1 j =1 (N ij − ni⋅ pˆ ⋅ j ) ni⋅ pˆ ⋅ j 2 r c = ∑∑ i =1 j =1 ni⋅ N ⋅ j N ij − n ni⋅ N⋅ j n 2 (3.141) welche unter H0 ebenfalls approximativ χ 2 –verteilt ist mit k Freiheitsgraden k = r ( c − 1) − ( c − 1) = ( r − 1)( c − 1) (3.142) In jeder Zeile sind c − 1 Felder frei belegbar. Ferner sind c − 1 Parameter zu schätzen. Man stellt fest, dass trotz des unterschiedlichen Modells die Testgrösse dieselbe Form aufweist wie beim Unabhängigkeitstest. Die Entscheidungsregel stimmt ebenfalls überein. Sie lautet bei gegebenem Signifikanzniveau α Q ≥ c1−α E : falls Q < c1−α ⇒ H 0 ablehnen (3.143) ⇒ H 0 nicht ablehnen Beispiel 93 Studenten mit dem Maturitätstypus E und 57 mit dem Maturitätstypus C erreichen bei einer Zwischenprüfung folgende Punktzahlen P. 0 < P < 16 16 # P < 24 24 # P < 36 36 # P # 48 ni@ E 32 30 19 12 93 C 7 16 20 14 57 N@ j 39 46 39 26 150 103 Man teste die Hypothese, dass die Verteilung der Punktzahlen in den beiden Gruppen übereinstimmt. H 0 : p11 = p21 ; p12 = p22 ; p13 = p23 ; p14 = p24 (3.144) Die Schätzwerte für die gemeinsamen Wahrscheinlichkeiten sind pˆ .1 = 39 150 pˆ ⋅2 = 46 150 pˆ ⋅3 = 39 150 pˆ ⋅4 = 26 150 (3.145) Auf dem Signifikanzniveau α = 0.10 folgt mit der Testgrösse 2 4 Q = ∑∑ (N i =1 j =1 ij − ni⋅ pˆ ⋅ j ) ni⋅ pˆ ⋅ j 2 ∼ χ 32 (3.146) die Entscheidungsregel Q ≥ 6.251 E : falls Q < 6.251 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.147) Damit führt die Realisation der Testgrösse Q = 12.55 auf dem Niveau α = 0.10 zur Ablehnung von H0. Die beiden besprochenen Verfahren gehören zu den wichtigsten Methoden zur Analyse von Kontingenztafeln. Die Palette möglicher Kontingenzmodelle ist allerdings mit diesen beiden Ansätzen noch keineswegs erschöpft. Waren im ersten Beispiel noch beide Randhäufigkeiten Zufallsresultate, so sind im zweiten Beispiel nur noch die Spaltensummen frei wählbar. In einem nächsten Schritt wären schliesslich beide Randverteilungen fest vorgegeben. Das Lady-Testing-Tea-Experiment ist ein typisches Beispiel dafür. Eine Dame, welche einen besonders feinen Geschmackssinn für sich in Anspruch nimmt, behauptet, sie vermöge zu unterscheiden, ob bei einem Tee die Milch vor oder nach dem Tee zu104 gegeben wurde. Zum Test werden der Dame n1 Tassen der Sequenz Tee/Milch (TM) und n2 Tassen der Sequenz Milch/Tee (MT)vorgesetzt. Sie soll bei bekannten n1 und n2 die Zuordnung vornehmen. Falls unsere Dame neben dem Teegeschmack noch über weitere Fähigkeiten verfügt, wird sie die Zuordnung so vornehmen, dass wenigstens die Randhäufigkeiten stimmen. Experiment TM MT Entscheid TM x n1 − x n1 Lady MT n1 − x n2 − n1 + x n2 n1 n2 n Wenn als Hypothese formuliert wird, dass die Dame nicht über die angeblichen Fähigkeiten verfügt und unter den Randbedingungen den Zufall über die Zuordnung entscheiden lässt, dann ist die einzig freie Variable X hypergeometrisch verteilt. Das Problem ist unter dem Begriff "Exakter Test von Fisher" bekannt. 105 3.11 Test auf Normalverteilung Eine Vielzahl von statistischen Verfahren setzt voraus, dass die zugrundeliegenden Variablen normalverteilt sind. Als typisches Beispiel sei etwa auf den in Abschnitt 3.7.2 beschriebenen t-Test verwiesen. Eine erste Möglichkeit für den Normalitätstest haben wir mit dem χ 2 –Anpassungstest bereits kennengelernt. Eine wichtige Alternative zum χ 2 –Anpassungstest ist der Test von Kolmogoroff–Smirnov, welcher allerdings nur dann unverzerrte Resultate liefert, wenn die Parameter der Verteilung bekannt sind. Lilliefors hat den Kolmogoroff–Smirnov–Test insofern erweitert, als er aufbauend auf dem Grundverfahren aus Simulationsstudien angepasste, kritische Grenzen für den Fall unbekannter Parameter µ und σ konstruiert hat. Die Lilliefors–Version des Kolmogoroff–Smirnov–Tests ist im Softwarepaket Systat verfügbar. Weitere Möglichkeiten zum Test der Normalverteilungshypothese sind der Shapiro–Wilk-Test sowie Tests, welche unter der Bezeichnung D'Agostino–Test bekannt sind. Neben diesen praktisch und theoretisch eher anspruchsvollen Verfahren existieren vor allem für grosse Stichprobenumfänge einfach praktikable Alternativen, welche primär auf der Form der Verteilung aufbauen. Die Normalverteilung ist symmetrisch und besitzt in der Umgebung des Erwartungswertes eine charakteristische Wölbung. Die Symmetrie wird anhand des empirischen dritten zentrierten Moments µˆ 3 = 1 n ( X i − X )3 ∑ n − 1 i =1 (3.148) bzw. deren standardisierter Form, der empirischen Schiefe 1 n ( X i − X )3 ∑ µˆ n − 1 i =1 m3 = 33 = S S3 beurteilt. Analog wird die Wölbung anhand des empirischen vierten Moments 106 (3.149) µˆ 4 = 1 n ( X i − X )4 ∑ n − 1 i =1 (3.150) bzw. dessen standardisierter Fom, der empirischen Kurtosis 1 n ( X i − X )4 ∑ µˆ n − 1 i =1 m4 = 44 = S S4 (3.151) beurteilt. Dabei bezeichnet S die empirische Standardabweichung. Allgemein gilt für normalverteilte Zufallsvariablen X i ∼ N ( µ , σ ) , i = 1,… , n E ( m3 ) = 0 6 n E ( m4 ) = 3 V ( m3 ) = V ( m4 ) = (3.152) 24 n Aus dem zentralen Grenzwertsatz folgt für grosse Werte von n Z m3 = Z m4 = m3 − E ( m3 ) σm 3 m4 − E ( m4 ) σm 4 = m3 6 n ∼ N ( 0,1) m −3 n ∼ N ( 0,1) = 4 24 (3.153) Über die Testgrössen Z m 3 und Z m4 lässt sich die Normalverteilungshypothese relativ einfach beurteilen. Weicht Z m 3 zu stark von Null ab, wird H0 verworfen. 107 Stark negative Werte von Z m 3 deuten auf eine linksschiefe und stark positive Werte auf eine rechtsschiefe Verteilung hin. Ein negativer Wert von Z m4 signalisiert eine im Vergleich zur Normalverteilung zu flache Verteilung. Umgekehrt bedeutet ein grosser positiver Wert von Z m4 , dass die Verteilung in der Umgebung des Mittelwertes zu hoch (spitz) ist. Idealerweise sollten beide Testgrössen in der Nähe von Null sein. Vorsicht ist im Falle von Ausreissern geboten, zumal höhere Momente sehr sensitive Reaktionen zeigen! 3.12 Likelihood–Quotiententest 3.12.1 Einfache Hypothesen Zur Einführung betrachten wir wieder den Spezialfall, dass zwei einfache Hypothesen einander gegenüberstehen. Die zugehörigen Dichten bezeichnen wir mit f X0 ( x ) resp. f X1 ( x ) . Der Entscheid über die beiden Hypothesen ist auf der Basis einer Zufallsstichprobe X 1 ,… , X n zu fällen. Der Test von H 0 : X ∼ f X0 ( x ) H1 : X ∼ f X1 ( x ) (3.154) ist intuitiv klar, falls die Stichprobe nur aus einer einzigen Beobachtung x besteht. Die Entscheidungsregel lautet dann f X0 ( x ) > f X1 ( x ) E : falls 1 0 f X ( x ) > f X ( x ) 108 ⇒ X ∼ f X0 ( x ) ⇒ X ∼ f X1 ( x ) (3.155) Wie beim Likelihood–Schätzprinzip entscheidet man sich im diskreten Fall für jenes Verteilungsgesetz, welches für die konkrete Beobachtung die höhere Eintretenswahrscheinlichkeit besitzt. Für stetige Verteilungen verläuft die Argumentation analog, indem man eine ε-Umgebung der konkreten Beobachtung betrachtet. Das obige Prinzip lässt sich für Stichproben, zunächst wiederum für den Spezialfall von zwei einfachen Hypothesen, verallgemeinern. Bezeichnet X 1 ,… , X n eine reine Zufallstichprobe aus einer der Verteilungen f X0 resp. f X1 , so wird zum Test von H 0 : X ∼ f X0 ( x ) H1 : X ∼ f X1 ( x ) (3.156) die Entscheidungsregel λ > k E : falls λ ≤ k ⇒ H 0 nicht ablehnen ⇒ H 0 ablehnen (3.157) mit Π f X0 ( xi ) L0 ( x1 ,… , xn ) λ = λ ( x1 ,… , xn ) = = Π f X1 ( xi ) L1 ( x1 ,… , xn ) (3.158) als einfacher Likelihood–Quotiententest bezeichnet. Der Test ist intuitiv einleuchtend, zumal für einen gegebenen Wert von k die Nullhypothese H0 abgelehnt wird, falls die Stichprobe tendenziell eher aus einer Verteilung unter f X1 ( x ) stammt, d.h. falls L1 ( x1 ,… , xn ) gross ist im Verhältnis zu L0 ( x1 ,… , xn ) . Neben der intuitiven Verständlichkeit besitzt der einfache Likelihood–Quotiententest weitere (optimale) Eigenschaften. 109 Definition: Sei E die Entscheidungsregel eines Tests, welche die Wahrscheinlichkeit α eines Fehlers 1. Art garantiere. Gibt es zu E alternative Entscheidungsregeln auf demselben Niveau α eines Fehlers 1. Art, so minimiert aus dieser Menge die mächtigste Entscheidungsregel die Wahrscheinlichkeit β eines Fehlers 2. Art resp. maximiert die Macht 1-β unter H1. Für den Test einer einfachen Null– gegen eine einfache Alternativhypothese liefert das Theorem von Neyman und Pearson einen systematischen Ansatz zur Bestimmung des besten kritischen (Verwerfungs–)Bereichs. 3.12.2 Theorem von Neyman und Pearson Sei X 1 ,… , X n eine Zufallsstichprobe aus einer Grundgesamtheit mit der Wahrscheinlichkeits– resp. Dichtefunktion f X ( x;θ ) . Der Parameter θ besitzt dabei einen der Werte θ 0 und θ1 . Die vorgegebene Wahrscheinlichkeit eines Fehlers 1. Art sei α. Ferner sei k eine positive Zahl und C eine Teilmenge des Stichprobenraumes mit den Eigenschaften 1.) λ= L (θ 0 ; x1 ,… , xn ) ≤k L (θ1 ; x1 ,… , xn ) für ( x1 ,… , xn ) ∈ C (3.159) 2.) λ= L (θ 0 ; x1 ,… , xn ) >k L (θ1 ; x1 ,… , xn ) für ( x1 ,… , xn ) ∈ C (3.160) 3.) P ( ( X 1 ,… , X n ) ∈ C H 0 ) = α (3.161) C ist unter den Bedingungen 1.), 2.) und 3.) der beste kritische Bereich für den Test der einfachen Null- gegen die einfache Alternativhypothese. Während jede Wahl von k einen speziellen Test erzeugt, so wird H0 für jeden festen Wert von k im Falle kleiner Likelihood–Quotienten abgelehnt. 110 Das Theorem von Neyman und Pearson gibt nicht explizit an, wie k und C zu bestimmen sind. Allerdings kann aus der Bedingung 1.) auf die Form des Tests geschlossen werden, zumal sie den kritischen Bereich festlegt. Beispiel Eine Zufallsstichprobe X 1 , X 2 ,… , X n stamme wie im Einführungsbeispiel (Abschnitt 3.1) aus einer normalverteilten Grundgesamtheit mit bekannter Standardabweichung σ = 3. X ∼ N ( µ , 3) (3.162) µ ist, wie im Einführungsbeispiel, entweder 20 oder 23 und führt zum Hypothesensystem H 0 : µ = µ 0 = 20 (3.163) H1 : µ = µ1 = 23 Die Funktion des Likelihood–Quotienten lautet λ= L ( µ 0 ; x1 ,… , xn ) L ( µ1 ; x1 ,… , xn ) 3 = 3 n 1 1 n 2 exp − 18 ∑ ( xi − 20) 2π i =1 n 1 1 n 2 exp − 18 ∑ ( xi − 23) 2π i =1 (3.164) 129 1 n = exp − ∑ xi + n 18 3 i =1 Nach dem Theorem von Neyman-Pearson erzeugt die Punktemenge ( x1 ,… , xn ) unter der Bedingung 129 1 n exp − ∑ xi + n ≤ k, 18 3 i =1 k >0 (3.165) 111 den besten kritischen (Ablehnungs-) Bereich. Aus der obigen Ungleichung folgt 1 n 129 − ∑ xi + n ≤ ln k 3 i =1 18 n 129 − 3 ln k = k ∗ xi ≥ n ∑ 6 i =1 (3.166) Daraus resultiert ein Verwerfungsbereich für H0 C = ( x1 ,… , xn ) n ∑x i =1 i ≥ k∗ (3.167) wobei k ∗ so zu bestimmen ist, dass die vorgegebene Wahrscheinlichkeit α eines Fehlers erster Art sichergestellt ist. Die Bedingung n ∑X i =1 i ≥ k∗ (3.168) respektive 1 n k∗ Xi = X ≥ = k′ ∑ n i =1 n (3.169) zeigt gleichzeitig, dass als Testgrösse das arithmetische Mittel zu verwenden ist. Unter H0 gilt schliesslich 3 X ∼ N 20, n woraus die Bestimmungsgleichung für k ′ bei gegebenem α herzuleiten ist 112 (3.170) k ′ − 20 P ( X ≥ k′ H0 ) = 1− Φ n =α 3 3 k ′ = 20 + Φ −1 (1 − α ) n (3.171) Für das Einführungsbeispiel folgt mit n = 16 und α = 0.05 k ′ = 20 + 3 −1 3 Φ ( 0.95 ) = 20 + ⋅ 1.645 = 21.23 4 4 (3.172) und damit die Entscheidungsregel X ≥ 21.23 E : falls X < 21.23 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.173) Der Likelihood–Quotiententest bestätigt somit den intuitiven Ansatz des Einführungsbeispiels . Die Macht des Tests beträgt k ′ − µ1 P ( X ≥ k ′ H1 ) = 1 − Φ σ n (3.174) respektive 21.23 − 23 ⋅ 4 P ( X ≥ 21.23 µ1 = 23) = 1 − Φ 3 = 1 − Φ ( −2.36 ) = 0.9909 (3.175) Es gibt keine alternative Entscheidungsregel E, welche die Macht an der Stelle µ1 = 23 vergrössern würde. 113 3.12.3 Zusammengesetzte Hypothesen Zur Herleitung des allgemeinen Likelihood–Quotiententests für zusammengesetzte Hypothesen gehen wir von folgendem Modell aus. X 1 ,… , X n sei eine Zufallsstichprobe aus einer Verteilung mit der Dichte f X ( x;θ ) , wobei der zugrundeliegende wahre Parameter θ in der Parametermenge Θ enthalten ist, θ ∈ Θ . Über θ werden folgende Hypothesen formuliert H 0 :θ ∈ Θ0 Θ0 ≤ Θ H1 : θ ∈ Θ1 Θ1 ≤ Θ Dabei bezeichnen Θ 0 und Θ1 zwei unvereinbare Teilmengen von Θ , (3.176) also Θ 0 ∩ Θ1 = ∅ . Beispiel Gegeben sei eine normalverteilte Zufallsvariable X ∼ N ( µ ,σ ) (3.177) sowie das Hypothesensystem H 0 : µ = µ0 ≤ c H1 : µ = µ1 > c (3.178) Damit ergibt sich folgende Partition des Parameterraums Θ 0 = {µ µ ≤ c} , Θ1 = {µ µ > c} , Θ = Θ 0 ∪ Θ1 (3.179) Bezeichnet L (θ ; x1 ,… , xn ) die Likelihoodfunktion einer Stichprobe X 1 ,… , X n mit der gemeinsamen Dichte f X1 ,…, X n ( x1 ,… , xn ;θ ) 114 (3.180) so heisst λ ( x1 ,… , xn ) = sup L (θ ; x1 ,… , xn ) θ ∈Θ0 sup L (θ ; x1 ,… , xn ) (3.181) θ ∈Θ allgemeiner Likelihood–Quotient. λ kann entweder als Funktion der Stichprobenwerte x1 ,… , xn oder als Funktion der Stichprobenvariablen X 1 ,… , X n betrachtet werden. Konsequenterweise bezeichnen wir die zweite Funktion ebenfalls als Zufallsvariable Λ . Aus der Tatsache, dass das nichtnegative Supremum über einen Teilraum Θ 0 nie grösser werden kann als jenes über dem Gesamtraum Θ , folgt 0 ≤ λ ≤ 1 . Der allgemeine Likelihood–Quotient entspricht nicht notwendigerweise den speziellen Likelihood–Quotienten für den Fall einfacher Null- und Alternativhypothesen, zumal das Nennersupremum über dem gesamten Hypothesenraum und nicht nur über dem Alternativraum bestimmt wird. Offensichtlich liefert der allgemeine Likelihood–Quotient eine gute Basis für den Test zusammengesetzter Hypothesen. Bei Richtigkeit von H0 wird der Zähler tendenziell gross. Umgekehrt wird der Zähler wiederum im Verhältnis zum Nenner klein, falls H0 nicht zutrifft. Somit erscheint es vernünftig, H0 für kleine Werte von λ abzulehnen. Wir definieren deshalb die Entscheidungsregel λ ≤ λ0 E : falls λ > λ0 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.182) λ0 wird normalerweise durch die Wahrscheinlichkeit α eines Fehlers 1. Art festgelegt. Die intuitive Verständlichkeit des allgemeinen Likelihoodquotiententests darf nicht über die konkreten Anwendungsprobleme hinwegtäuschen. Einerseits tauchen oft schon Probleme bei der Berechnung der Suprema auf, und anderseits ist die Verteilung von Λ regelmässig nicht einfach zu bestimmen. 115 Beispiel X 1 ,… , X n sei eine Zufallsstichprobe einer exponential–verteilten Grundgesamtheit mit der Dichte f X ( x ; α ) = α e −α x x≥0 (3.183) bei unbekanntem Parameter α. Die Likelihoodfunktion L (α ; x1 ,… , xn ) = ∏ f X ( xi ;α ) = ∏ α e −α xi = α n e i −α n ∑ xi i =1 (3.184) i respektive ln L (α ; x1 ,… , xn ) = n ln α − α n ∑x i =1 i (3.185) führt zur Likelihood–Schätzung für α αˆ = n n ∑x i =1 = 1 x (3.186) i Wir testen die Hypothesen H0 :α = α0 ≤ c H 1 : α = α1 > c Die Suprema findet man anschaulich im Graphen der Likelihoodfunktion 116 (3.187) L (α ) 0.0015 0.0010 0.0005 α 0.0000 0.0 0.2 0.4 0.6 0.8 1.0 3 αˆ = 10 Im nicht restringierten Fall (α > 0) gilt − n n n ∑ xi n n ∑ xi i=1 1 1 sup L (α ; x1 ,… , xn ) = e i=1 = e− n α >0 x x (3.188) und unter H0 1 n − n e x sup L (α ; x1 ,… , xn ) = n 0 <α ≤ c − c ∑ xi c n e i=1 falls 1 ≤c x (3.189) falls 1 >c x womit der allgemeine Likelihood–Quotient folgt 117 1 λ= n − n ( c x −1) c x e ( ) falls falls 1 ≤c x (3.190) 1 >c x welcher sich mit c x = k vereinfacht zu 1 λ= k n k −1 e falls k ≥ 1 falls k < c (3.191) Für k ≥ 1 und damit λ = 1 gilt wegen 0 ≤ λ ≤ 1 für 0 < λ0 < 1 stets λ > λ0 , was gemäss obiger Entscheidungsregel dazu führt, dass H0 in diesem Fall nicht abgelehnt werden kann. Für k < 1 und 0 < λ0 < 1 gilt somit die Entscheidungsregel n k λ = k −1 ≤ λ0 e E : falls n k λ = k −1 > λ0 e ⇒ H 0 ablehnen (3.192) ⇒ H 0 nicht ablehnen Schliesslich ist k g ( k ) = k −1 e n (3.193) im Intervall 0 < k < 1 eine monoton steigende Funktion in k, so dass die Entscheidungsregel weiter vereinfacht werden kann zu 118 k = c x ≤ k ∗ E : falls ∗ k = c x > k ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.194) k ∗ ist wiederum so zu bestimmen, dass die Wahrscheinlichkeit α eines Fehlers 1. Art garantiert bleibt, also k∗ P (c X ≤ k H0 ) = P X ≤ H0 = α c ∗ (3.195) Für den obigen Spezialfall könnte der kritische Bereich exakt bestimmt werden, da die Zufallsvariable ncX einer Gammaverteilung mit den Parametern λ = 1 und α = n genügt. Für moderat grosse Stichprobenumfänge verwendet man jedoch zweckmässigerweise Approximationsverfahren. Während im hier diskutierten Spezialfall die Zufallsvariable X über den zentralen Grenzwertsatz als approximativ normalverteilt betrachtet werden kann, existiert ein allgemein verwendbarer Satz über die approximative Verteilung des allgemeinen Likelihood-Quotienten. Satz Bezeichnet X 1 ,… , X n eine Zufallsstichprobe mit der gemeinsamen Dichte f X 1 ,…, X n ( x1 ,… , xn ;θ ) (3.196) und θ = (θ1 ,… ,θ r ,θ r +1 ,… ,θ k ) , einen k–dimensionalen Parameter, wobei θ1 , θ 2 … ,θ r bekannte und θ r +1 ,… ,θ k unbekannte Parameter darstellen, so gilt mit Λ= sup L (θ ; X 1 ,… , X n ) Θ0 sup L (θ ; X 1 ,… , X n ) (3.197) Θ folgende Verteilungsaussage im Sinne einer Approximation 119 −2 ln Λ ∼ χ r (3.198) Damit modifiziert sich die Entscheidungsregel zu −2 ln λ ≥ c1−α E : falls −2 ln λ < c1−α ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.199) wobei c1−α das 1 − α –Quantil einer χ 2 –Verteilung mit r Freiheitsgraden bezeichnet. 120 3.13 Verteilungsunabhängige Verfahren Bei den bisherigen Verfahren der induktiven Statistik wurde meist vorausgesetzt, dass entweder eine ganz bestimmte Verteilung – üblicherweise die Normalverteilung – vorliegt oder dass der Stichprobenumfang genügend gross ist, so dass aufgrund des zentralen Grenzwertsatzes eine Approximation durch eine Normalverteilung zulässig ist. Die sozialwissenschaftliche Wirklichkeit weist aber oft Merkmale auf, die schlecht in einen solchen Anforderungskatalog passen. Im Regelfall ist erstens die Verteilung der Grundgesamtheit unbekannt und zweitens der Stichprobenumfang so klein, dass auch geeignete Approximationen nicht mehr zulässig sind. Vielfach sind Merkmale auch nur nominal oder ordinal messbar und schränken damit sowohl den Bereich mathematisch zulässiger Operationen als auch den Spielraum statistischer Analysemethoden erheblich ein. Zur Bewältigung solcher Situationen, die man etwa als vage oder schlecht definiert bezeichnet, dienen die sog. verteilungsunabhängigen oder nichtparametrischen Methoden. Induktive Verfahren heissen verteilungsfrei, falls sie auf einer Statistik (Testgrösse) basieren, deren Verteilung unabhängig ist von der speziellen Gestalt der Grundgesamtheit, aus der die Stichprobe stammt (z.B. χ 2 –Test). Mit der Bezeichnung nichtparametrisch will man zum Ausdruck bringen, dass die Grundgesamtheit nicht durch eine endliche Anzahl von Parametern vollumfassend spezifiziert werden kann. Im Rahmen dieser Einführung kann es nur darum gehen, anhand ausgewählter Verfahren einige Grundideen nichtparametrischer Methoden darzustellen. Der Umfang eines einzigen Kapitels soll nicht über die Bedeutung nichtparametrischer Methoden im Bereich der sozialwissenschaftlichen Forschung hinwegtäuschen. Die umfangreiche Spezialliteratur zu diesem Gebiet sollte in jedem Einzelfall konsultiert werden. Eine bedeutende Gruppe innerhalb der nichtparametrischen Verfahren bilden die sog. Zeichentests. Sie gehören zu den ältesten Tests überhaupt und zeichnen sich vor allem durch eine breite Anpassungsfähigkeit an konkrete Problemstellungen aus. Der Name Zeichentest deutet darauf hin, dass beim Test nicht die quantitativen Messgrössen an sich, sondern nur Vorzeichen im Zusammenhang mit den Messwerten benützt werden. Daraus leitet sich die erste Voraussetzung an das Messniveau ab; die Daten müssen mindestens ordinal messbar sein. Als weitere Bedingung wird nur noch die Existenz einer stetigen Verteilung vorausgesetzt. 121 3.13.1 Mediantest für den 1–Stichprobenfall X sei eine stetig verteilte Zufallsvariable mit der Dichte f X ( x ) . Bezeichnet M deren Median, so gilt: fX ( x) P(X < M ) = P(X > M ) = P(X = M ) = 0 P ( X < M ) = 0.5 1 2 P ( X > M ) = 0.5 x M Es soll die Hypothese getestet werden, dass der Median einen bestimmten Wert M0 aufweise H0 : M = M 0 (3.200) Mit Hilfe der Definition des Medians lässt sich H0 umformulieren in H 0 : P ( X > M 0 ) = P ( X < M 0 ) = p0 = oder 1 2 1 H 0 : P ( X − M 0 > 0 ) = P ( X − M 0 < 0 ) = p0 = 2 (3.201) Die Nullhypothese H0 ist aufgrund einer Zufallsstichprobe X 1 , X 2 ,… , X n zu testen. Als Testgrösse wählen wir die Zufallsvariable K = Anzahl positive Differenzen X i − M 0 Unabhängig von der Verteilung von X und der Wahl von M0 ist K binomialverteilt. Unter H0 gilt speziell 122 H 0 : K ∼ B ( n, p0 ) = B ( n, 0.5 ) (3.202) woraus sich Verwerfungs– und Nichtverwerfungsbereich von H0 ableiten. Einseitige Alternativen Soll getestet werden, ob der wahre Median grösser ist als M0, so lautet die Alternativhypothese fX ( x) H1 : M = M 1 > M 0 oder H1 : P ( X > M 0 ) > P ( X < M 0 ) P ( X > M0 ) x M0 M1 Unter H1 wäre die Wahrscheinlichkeit einer positiven Differenz von X − M 0 grösser als jene einer negativen, und man wird tendenziell grosse Werte von K erwarten. Auf dem Signifikanzniveau α wählt man deshalb den Verwerfungsbereich V aus den grossen Werten von K. V = {k k ≥ k1−α } (3.203) k1−α ist dabei die kleinste ganze Zahl, welche die Bedingung n n ∑ 0.5 ≤ α i = k1−α i n (3.204) erfüllt. Daraus erhält man die Entscheidungsregel 123 K ≥ k1−α E : falls K < k1−α ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.205) K ist eine diskrete Zufallsvariable. Normalerweise ist deshalb eine exakte Wahrscheinlichkeit α eines Fehlers 1. Art nicht einzuhalten. Die effektive Wahrscheinlichkeit α* ist höchstens α und beträgt α = ∗ n n ∑ 0.5 i = k1−α i n (3.206) Für eine effektive Wahrscheinlichkeit eines Fehlers 1. Art von α ist die Entscheidungsregel so zu randomisieren, dass für K = k1−α − 1 ein weiterer Zufallsmechanismus darüber entscheidet, ob H0 abzulehnen ist oder nicht. Für die linksseitige Alternative H1 : M = M 1 < M 0 (3.207) gelten analoge Überlegungen. Zweiseitige Alternative Soll getestet werden, ob der wahre Median von M0 verschieden ist, so lautet die Alternativhypothese H1 : M = M 1 ≠ M 0 oder H1 : P ( X > M 0 ) ≠ P ( X < M 0 ) (3.208) H0 ist in diesem Fall sowohl für "zu kleine" als auch für "zu grosse" Werte von K abzulehnen. Unter H0 ist die Binomialverteilung von K symmetrisch. Bei gegebener Wahrscheinlichkeit α eines Fehlers 1. Art wird der Test genau dann am mächtigsten, wenn der Ver- 124 werfungsbereich symmetrisch auf die beiden Ränder verteilt wird. Die Entscheidungsregel lautet K ≤ kα / 2 oder K ≥ k1−α / 2 E : falls kα / 2 < K < k1−α / 2 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.209) Dabei bezeichnet kα / 2 bzw. k1−α / 2 die grösste respektive kleinste ganze Zahl, welche kα / 2 n ∑ i 0.5 i =0 n ≤α /2 (3.210) respektive n n 0.5 ≤ α / 2 i = k1−α / 2 i n ∑ (3.211) erfüllt. Die effektive Wahrscheinlichkeit α* eines Fehlers 1. Art ist wiederum höchstens α und beträgt kα / 2 n α ∗ = 2 ∑ 0.5n i i =0 (3.212) Eine exakte Wahrscheinlichkeit α erhält man wie im einseitigen Fall durch eine randomisierte Entscheidungsregel. Beispiel Mit einer Stichprobe vom Umfang n = 7 teste man die Hypothese H0 : M = M 0 = 5 (3.213) 125 gegen die einseitige Alternative H1 : M = M 1 > 5 (3.214) Unter H0 ist die Testgrösse K = Anzahl positiver Differenzen X i − 5 binomialverteilt mit K ∼ B ( 7, 0.5 ) (3.215) k 0 1 2 3 4 5 6 7 fK(k) 0.0078 0.0547 0.1641 0.2734 0.2734 0.1641 0.0547 0.0078 fK (k ) 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 k Für α = 0.1 erhält man damit den Verwerfungsbereich V = {k k ≥ k 0.9 } aus der Be126 stimmungsgleichung für k P (k ) = k P(k) 7 7 ∑ i 0.5 i = k0.9 7 ≤ 0.1 (3.216) 7 6 5 0.0078 0.0625 0.2266 Der Verwerfungsbereich V = {k k ≥ 6} garantiert eine maximale Fehlerwahrscheinlichkeit 1. Art von 0.1. Die Entscheidungsregel lautet K ≥ 6 E : falls K < 6 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.217) Die effektive Wahrscheinlichkeit α* eines Fehlers 1. Art beträgt 0.0625. Aus der Stichprobe 4, 5.3, 5.8, 4.9, 5.05, 6, 5.1 erhält man die Differenzen ( 4 − 5 ) , ( 5.3 − 5 ) ,… , ( 5.1 − 5 ) und daraus die Vorzeichenfolge − + + − + + + , d. h. K = 5. Der Entscheid lautet demnach: Das Stichprobenresultat vermag H 0 : M = M 0 = 5 auf dem Niveau α = 0.1 nicht zu widerlegen. Macht des Zeichentests Im Gegensatz zu den meisten nichtparametrischen Verfahren ist die Macht m des Zeichentests relativ einfach zu bestimmen. Unabhängig davon, ob H0 zutrifft oder nicht, ist nämlich die Zufallsvariable K binomialverteilt mit den Parametern n und p. Die Macht m ist eine Funktion von p gemäss m ( p ) = P ( K ∈V p ) (3.218) 127 Für das obige Beispiel gilt 7 7 7 −i m ( p ) = ∑ p i (1 − p ) = 7 p 6 (1 − p ) + p 7 = p 6 ( 7 − 6 p ) i =6 i (3.219) und für verschiedene Werte von p p m(p) 0.40 0.50 0.65 0.70 0.80 0.90 0.0188 0.0625 0.1586 0.3294 0.5767 0.8503 1 .0 m ( p) 0 .8 0 .6 0 .4 0 .2 0 .0 0 .4 0 p 0 .5 5 0 .7 0 0 .8 5 1 .0 0 Asymptotische Verteilung von K Bei grossen Werten von n lässt sich die Verteilung von K genügend genau durch eine Normalverteilung approximieren ( n gross K ∼ B ( n, p ) → N np, n ⋅ p (1 − p ) ) (3.220) Für die einseitige Alternative H1 : M > M 0 128 (3.221) mit dem Verwerfungsbereich V = {k k ≥ k1−α } (3.222) bestimmt man k1−α gemäss ⇔ ⇔ ⇔ k − 0.5 − n ⋅ 0.5 P ( K ≥ k1−α ) ≈ 1 − Φ 1−α = α n 0.5 0.5 ⋅ ⋅ 2k − 1 − n Φ 1−α = 1−α n 2k1−α − 1 − n = z1−α n 1 k1−α = n z1−α + n + 1 2 ( (3.223) ) Aus analogen Überlegungen erhält man für die zweiseitige Alternative H1 : M ≠ M 0 (3.224) V = {k k ≤ kα / 2 oder k ≥ k1−α / 2 } (3.225) mit dem Verwerfungsbereich die kritischen Grenzen ( kα / 2 = 1 2 k1−α / 2 1 = 2 ) n zα / 2 + n − 1 ( ) (3.226) n z1−α / 2 + n + 1 129 Beachte: An Stelle des Medians können nach demselben Verfahren beliebige Quantile getestet werden. 3.13.2 Mediantest für eine Differenzvariable im Zweistichprobenfall Ein Spezialfall des vorhergehenden Zeichentests liegt vor, falls die Stichprobe einer Grundgesamtheit von Differenzen entstammt und die zu testende Hypothese darin besteht, dass deren Median Null ist. Man unterstellt, dass eine stetig verteilte Zufallsvariable X mit gleicher Wahrscheinlichkeit grössere oder kleinere Werte annimmt als eine andere, ebenfalls stetig verteilte Zufallsvariable Y. Dies ist gleichbedeutend damit, dass bei zufälliger Paarung von 2 Beobachtungen die Differenz D = X − Y mit gleicher Wahrscheinlichkeit positiv oder negativ wird, d.h. dass die Differenzvariable D den Median Null besitzt. Damit lässt sich der oben besprochene Zeichentest für den Spezialfall M = 0 anwenden. Getestet wird die Hypothese H 0 : P ( X > Y ) = P ( X < Y ) = 0.5 oder oder H 0 : P ( X − Y > 0 ) = P ( X − Y < 0 ) = 0.5 (3.227) H 0 : P ( D > 0 ) = P ( D < 0 ) = 0.5 H0 trifft genau dann zu, wenn der Median von D = X − Y Null ist und wenn P ( X i = Yi ) = 0, i = 1, 2,… , n . Als Testgrösse verwenden wir die Zufallsvariable K = Anzahl positive Vorzeichen von Di die unter H0 genau dann binomialverteilt B(n,0.5) ist, wenn die Vorzeichen der Differenzvariablen Di = X i − Yi zufällig und unabhängig voneinander sind. Die Zufallsvariablen X und Y brauchen hingegen nicht unabhängig zu sein. Es kann sich also sowohl um zwei unabhängige als auch um zwei verbundene Stichproben handeln. 130 X =Y Y X <Y X >Y X Anschaulich gesprochen sind unter H0 die Volumina unter dem gemeinsamen "Dichtegebirge" oberhalb und unterhalb der eingezeichneten Winkelhalbierenden gleich gross. Es ist zu beachten, dass der obige Test ein Test für den Median einer Differenzvariablen D = X − Y ist und nicht für die Differenz der beiden Mediane MX und MY. Umgekehr impliziert MX = MY i. a. nicht, dass der Median der Differenzvariablen gleich Null ist. Dies trifft nur dann zu, wenn folgende Bedingungen erfüllt sind: • • • Die Verteilungen von X und Y sind symmetrisch. Die Mediane von X und Y stimmen überein. Die Verteilung der Differenzvariablen ist ebenfalls symmetrisch. Beispiel In einem Rat steht ein Gesetz zur Diskussion. Vor den Verhandlungen waren 35 für und 15 gegen das Gesetz. Nach Anhören der Experten änderten 35 ihre Meinung nicht. 5 ursprüngliche Gegner wurden zu Befürwortern und 10 ursprüngliche Befürworter wurden zu Gegnern des Gesetzes. nach Verhandlung vor Verhandlung für gegen für 25 10 35 gegen 5 10 15 30 20 50 131 Man teste die Hypothese, dass der Verhandlungsprozess keinen systematischen Einfluss auf die Meinungsbildung ausübe, d. h. dass von den Unentschlossenen etwa gleichviele ihre Meinung in eine der beiden Richtungen ändern. Betrachtet man die 50 Personen als zufällig ausgewählt, so kann die obige Hypothese mit dem Zeichentest für verbundene Stichproben durchgeführt werden. Die Zufallsvariablen X und Y beschreiben für jedes Ratsmitglied die Einstellung zum Gesetz vor bzw. nach den Verhandlungen, also 1 Xi = 0 1 Yi = 0 falls das i -te Ratsmitglied ursprünglich für das Gesetz (3.228) falls das i -te Ratsmitglied ursprünglich gegen das Gesetz falls das i -te Ratsmitglied nachher für das Gesetz (3.229) falls das i -te Ratsmitglied nachher gegen das Gesetz Die Änderungen können durch Vorzeichen zum Ausdruck gebracht werden. > 0 ( + ) X − Y = 0 < 0 ( − ) falls ursprünglich für und nachher gegen falls keine Änderung (3.230) falls ursprünglich gegen und nachher für Zum Test werden nur jene 15 Personen herangezogen, die ihre Meinung änderten. Die Übrigen werden als sog. Bindungen (ties) ausgeschieden; sie liefern ihres indifferenten Charakters wegen keinen Beitrag zum Entscheid für oder gegen H0. Die Wahrscheinlichkeit eines Fehlers 1. Art α sei 0.1. Als Testgrösse betrachten wir die Zufallsvariable K: Anzahl positive Differenzen X i − Yi Dann gilt K ∼ B (15, p ) 132 (3.231) Der Test wird zweiseitig durchgeführt. Systematische Effekte werden angenommen, wenn von den 15 Änderungen zuviele in eine der beiden Richtungen erfolgen. Unter H0 gilt K ~ B(15, 0.5), und man erhält die Entscheidungsregel K ≤ 4 oder K ≥ 11 E : falls 5 ≤ K ≤ 10 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (3.232) Im konkreten Beispiel wurde K = 10 festgestellt; H0 kann also nicht abgelehnt werden. Der effektive Fehler 1. Art α* beträgt 0.0834. 3.13.3 Der Vorzeichen-Rangtest von Wilcoxon für zwei verbundene Stichproben Gegeben sei das Problem, zwei verschiedene Verfahren, z. B. die Wirksamkeit der Sonnenschutzmittel A und B, miteinander zu vergleichen. Dazu könnte man Verfahren A an n1 zufällig ausgewählten Objekten und Verfahren B an n2 weiteren, zufällig ausgewählten Objekten miteinander vergleichen. Rein intuitiv kommt man zu besseren Resultaten, wenn man die beiden Verfahren jeweils an möglichst ähnlichen Objekten vergleicht. So wird man zum Vergleich der Sonnenschutzmittel zweckmässigerweise beide gleichzeitig an ein und derselben Person testen, indem man Mittel A am linken Arm und Mittel B am rechten Arm aufträgt. So gelingt es, die sogenannte externe, nicht durch die unterschiedlichen Verfahren, sondern durch die verschiedenen Untersuchungsobjekte verursachte Variation, zu verkleinern. Die Unterschiede in den Resultaten sind dann eher den verschiedenen Verfahren zuzuordnen. Weil beide Verfahren stets am selben Objekt angewendet werden, erhält man gepaarte Beobachtungen (xi, yi). Die beiden Verfahrensstichproben sind nicht mehr unabhängig; man spricht von sogenannten verbundenen Stichproben. Bezeichnung: X 1 , X 2 ,… , X n Stichprobe Verfahren 1 Y1 , Y2 ,… , Yn Stichprobe Verfahren 2 ( X i , Yi ) Messungen für Verfahren 1 und 2 am i-ten Objekt. 133 Der Vorzeichen-Rangsummentest von Wilcoxon gestattet es, solche verbundenen Stichproben zu analysieren und unter bestimmten Bedingungen Hypothesen z. B. der Form (µ H 0 : E ( X ) = E (Y ) x = µy ) (3.233) zu testen. Beispiel Es sollen die Kilometerleistungen von 2 Benzinsorten X und Y miteinander verglichen werden. Dazu werden in 4 verschiedene Testwagen je 20 Liter Benzin der beiden Sorten getankt und die Fahrleistung gemessen. Testwagen Benzin X Benzin Y 1 2 3 4 180 190 208 202 184 192 208 212 Zur Überprüfung, ob die beiden Benzinsorten unterschiedliche Fahrleistungen besitzen, bildet man eine Testgrösse W nach folgenden Vorschriften. 1.) Bestimme die Differenzen d i = xi − yi , i = 1,… , n . 2.) Rangiere in aufsteigender Reihenfolge die absoluten Differenzen *di*. 3.) Ordne dem j-ten Rang das Vorzeichen der entsprechenden Differenz di zu. Den mit dem Vorzeichen versehenen Rang bezeichnen wir mit Rj. 4.) Bilde W = R1 + R2 + … + Rn = Testwagen (±) #di# Rang Rj 134 n ∑R . i =1 i 1 2 3 4 (-)10 4 -4 (+) 6 2 2 (-) 8 3 -3 (-) 4 1 -1 Damit ergibt sich die Testgrösse W = − 4 + 2 − 3 − 1 = −6 . Wäre Sorte Y z. B. wesentlich besser, so würde das seinen Niederschlag in stark negativen Werten von W finden und umgekehrt. Um abzuklären, ob die beiden (abhängigen) Stichproben signifikante Unterschiede zeigen, ist es notwendig, die Verteilung von W unter H0 zu kennen. Durch die Einführung der Testgrösse W (als Funktion der Stichprobenwerte) muss die zu testende Nullhypothese H0 so formuliert werden, dass sie Aussagen über jene Variablen enthält, die in W eingehen. Primär ist dies die Differenzvariable Di = X i − Yi (3.234) über die wir noch folgende Annahmen treffen: 1.) Die Differenzenvariablen Di = X i − Yi , i = 1,… , n , sind unabhängig voneinander und besitzen alle dieselbe Verteilungsfunktion, nämlich jene von D. 2.) Die Verteilung von D ist stetig und symmetrisch um ihren Median M. 3.) Für die Variablen Xi und Yi ist eine Differenz erklärt. Es handelt sich also mindestens um Intervalldaten. Daraus ergeben sich einige Folgerungen: 1.) Aus der Stetigkeit folgt P ( D = 0) = 0 P ( Di = D j ) = 0 und P ( Di = − D j ) = 0 für i ≠ j (3.235) d. h. es treten keine sogenannten Bindungen (Xi = Yi) auf und es existiert eine eindeutige Reihenfolge. 2.) Bei symmetrischen Verteilungen stimmen Median und Erwartungswert überein, E(D) = M, und es gilt P ( D > M ) = P ( D < M ) = 0.5 (3.236) 135 Wir diskutieren das Hypothesensystem H0 : M = M 0 = 0 H1 : M = M 1 ≠ 0 (3.237) Für die einseitigen Alternativen H0 : M = M0 ≤ 0 vs. H1 : M = M 1 > 0 resp. H 0 : M = M 0 ≥ 0 vs. H1 : M = M 1 < 0 (3.238) gelten analoge Überlegungen. Verteilung der Testgrösse W unter H0 In einer Stichprobe mit n Paaren (Xi, Yi) reichen die Ränge der Differenzvariablen Di von 1 bis n. Jeder Rang besitzt eines der beiden Vorzeichen + oder − . Insgesamt gibt es 2n verschiedene Zuordnungen der Vorzeichen zu den Rängen, wobei jede davon zu einer bestimmten Realisation von W führt. Für die Vorzeichen sind die Grössen Di verantwortlich. Unter H0 gilt aber P ( D > 0 ) = P ( D < 0 ) = 0.5 (3.239) Also ist die Anzahl positiver Vorzeichen unter den Rängen binomialverteilt mit den Parametern n und p = 0.5. Für das Beispiel mit den 4 Testautos erhält man folgende Möglichkeiten der Vorzeichenkombinationen zu den Rängen: 136 Vorzeichenkombinationen der Ränge 1 2 3 4 W + + + + + + + + - + + + + + + + + - + + + + + + + + - + + + + + + + + - 10 2 4 6 8 -4 -2 0 0 2 4 -8 -6 -4 -2 -10 Unter H0 besitzen alle Vorzeichenkombinationen dieselbe Wahrscheinlichkeit, nämlich 1/2n. Für W folgt daraus die Wahrscheinlichkeitsfunktion W fW ( w ) -10 -8 -6 -4 -2 0 2 4 6 8 10 1 16 1 16 1 16 2 16 2 16 2 16 2 16 2 16 1 16 1 16 1 16 Unter der Alternative H1 : M =/ 0 lehnen wir H0 auf dem Signifikanzniveau α für grosse und kleine Werte von W ab. Sind wα / 2 w1−α / 2 der grösste Wert von W mit P (W ≤ wα / 2 ) ≤ α 2 der kleinste Wert von W mit P (W ≥ w1−α / 2 ) ≤ α (3.240) 2 137 so lautet die Entscheidungsregel wα / 2 < W < w1−α / 2 E : falls W ≤ wα / 2 oder W ≥ w1−α / 2 ⇒ H 0 nicht ablehnen ⇒ H 0 ablehnen (3.241) Für α = 0.20 erhält man im obigen Benzinbeispiel w0.1 = − 10 und w0.9 = 10 (3.242) und es gilt die Entscheidungsregel H 0 ablehnen, falls W = − 10 oder W = + 10 (3.243) Mit W = −6 können wir die Hypothese H0: M = 0 (die Fahrleistungen sind identisch) also nicht ablehnen. Eigenschaften der Verteilung von W Unter H0 gilt: 1.) Erwartungswert und Varianz von W lauten wie folgt E (W ) = µW = 0 V (W ) = σ W2 = n ( n + 1)( 2n + 1) 6 2.) Die Verteilung von W ist symmetrisch um 0. 3.) Für grosse Werte von n (n > 20) ist die Zufallsvariable Z= 138 W − µW σW (3.244) (3.245) approximativ standardnormalverteilt. Da W eine diskrete Zufallsvariable ist, sind bei der Approximation die Korrekturterme zu berücksichtigen. Bindungen Paare (xi, yi) mit d i = xi − yi = 0 werden aus der Stichprobe entfernt, und der Test wird mit den verbleibenden Wertepaaren durchgeführt. Paare mit gleichen Ausprägungen tragen nichts zur Differenzierung der beiden Verfahren bei. Sind einige der absoluten Differenzen *di* identisch, verwendet man die sogenannte Durchschnittsrangbildung. Dazu wird das arithmetische Mittel der für die gebundenen Ränge insgesamt verfügbaren Rangzahlen gebildet und den entsprechenden Rängen zugeordnet. Beispiel (±) #di# (+)2 (-) 3 (+) 5 (+) 3 (-) 3 (+) 2 Rang 1.5 4 6 4 4 1.5 + 1.5 -4 6 4 -4 + 1.5 Ri Damit erhält man als Wert der Testgrösse W = 5. Diskussion • Es ist zu beachten, dass die Hypothese H0 : M = 0 (3.246) nicht äquivalent ist zu den Hypothesen H0 : M X = MY oder H 0 : µ X = µY (3.247) Die Äquivalenz gilt hingegen, falls die Verteilungen von X, Y und X − Y symmetrisch sind. 139 • 140 Die Wahrscheinlichkeit für einen Fehler 1. Art ist ohne randomisierte Entscheidungsregel i. a. kleiner als α. 4. REGRESSIONSANALYSE Der Regressionsanalyse liegt die praktisch bedeutsame Frage der Abhängigkeit zwischen einer quantitativen Zielgrösse und ihren ebenfalls quantitativen Erklärungsgrössen zugrunde. Die Nachfrage D nach einem Gut wird in Abhängigkeit seines Preises untersucht, die Stückkosten eines Produktionsprozesses werden als Funktion der produzierten Menge betrachtet. Konsumausgaben werden beeinflusst durch Einkommen und Steuern. Unsere Aufgabe ist es, diese Zusammenhänge statistisch zu untersuchen. 4.1 Das lineare Modell der Einfachregression Im allgemeinen Ansatz, dass eine zu erklärende Variable Y von p erklärenden Variablen X 1 ,… , X p abhänge, beschränken wir uns zunächst auf eine einzige erklärende Variable (p = 1). Ferner unterstellen wir zwischen X und Y eine lineare Beziehung y = f ( x ) = β 0 + β1 x (4.1) In der Praxis besteht in den seltensten Fällen ein exakt funktionaler Zusammenhang. So sind die Konsumausgaben ebensowenig für alle Haushalte mit einem festen Einkommen konstant, wie alle Personen einer bestimmten Grösse dasselbe Gewicht aufweisen. Es ist jedoch vernünftig anzunehmen, dass mit wachsendem Einkommen die Konsumausgaben tendenziell zunehmen. Ebenso ist die Annahme begründet, dass mit zunehmender Grösse das Gewicht zunimmt. Diese systematische Entwicklung wird im funktionalen Ansatz zum Ausdruck gebracht. Das Modell ist jedoch so zu erweitern, dass im Einzelfall zufällige Abweichungen berücksichtigt werden können. Zu diesem Zweck wird eine Störvariable eingeführt, welche den Zufall auffangen soll. Die nunmehr stochastische Beziehung lautet in der erweiterten Form y = f ( x ) + U = β 0 + β1 x + U (4.2) Y wird demnach additiv durch einen funktionalen Teil, welcher sämtliche systematisch wirkenden Einflüsse enthält sowie einen zufälligen Teil erklärt. Als Funktion einer zufälligen Variablen U ist Y ebenfalls eine Zufallsvariable. Für eine feste Beobachtung xi schreibt man 141 Yi = β 0 + β1 xi + U i i = 1, 2,… , n (4.3) Ui beschreibt somit die zufälligen (beidseitigen) Abweichungen vom funktional unterstellten und zu xi gehörenden systematischen Wert. fU ( u ) y 0 x1 y = β0 + β1x x2 xn x Für die Störvariable U treffen wir folgende Annahmen 1.) E (U i ) = 0 i = 1, 2,… , n (4.4) 2.) V (U i ) = σ U2 i = 1, 2,… , n (4.5) 3.) Cov (U i , U j ) = 0 i ≠ j ; i , j = 1,… , n (4.6) Mit der Annahme 1 wird die Richtigkeit des Modells unterstellt. Ui nimmt nur noch die zufälligen Abweichungen vom systematischen Teil auf. Wäre E(Ui) verschieden von Null, so müsste Ui konsequenterweise systematische Komponenten enthalten, welche nach den Modellvoraussetzungen in den funktionalen Teil einzubauen sind. Annahme 2 verlangt von x unabhängige konstante Varianzen der Störvariablen. Annahme 3 impliziert unkorrelierte Störvariablen. 142 Zusammenfassend gilt somit E ( Y ) = E ( β 0 + β1 x + U ) = β 0 + β 1 x (4.7) V (Y ) = V ( β 0 + β1 x + U ) = V (U ) = σ U2 Die Gerade y = β 0 + β1 x (4.8) heisst Regressionsgerade von y bezüglich x. Dabei gelten folgende Bezeichnungen: β0: β1: Achsenabschnitt Regressionskoeffizient (Steigung der Regressionsgeraden) Bezeichnet (xi,yi) eine konkrete Beobachtung, so gilt yi = β 0 + β 1 x + u i y ( xi , yi ) (4.9) y = β0 + β1 x yi ui yi − ui = β 0 + β1 xi xi x und damit 143 ui = yi − ( β 0 + β1 xi ) (4.10) Dabei ist ui eine Realisation der Zufallsvariablen Ui. X braucht dabei keine Zufallsvariable zu sein. Wenn beispielsweise Y dem mit der Benzinmenge X zurückgelegten Weg entspricht, so kann ein beliebiger Wert von X vorgegeben werden. Zum selben linearen Modell passen jedoch auch Situationen, bei denen X als Realisation einer Zufallsvariablen betrachtet werden kann. Beim eingangs zitierten Zusammenhang zwischen Gewicht Y und Körpergrösse X sind bei einer zufällig ausgewählten Person sowohl X als auch Y als Zufallsvariablen zu betrachten. Zwischen X und Y besteht kein (funktionaler) linearer Zusammenhang. Man weiss aber, dass im Mittel kleine Leute leicht und grosse Leute schwer sind. Hier erscheint dann der Ansatz in Form eines bedingten Erwartungswertes E ( Y X = x ) = β 0 + β1 x (4.11) vernünftig. Wir postulieren einen linearen Zusammenhang zwischen der Körpergrösse X und dem mittleren Gewicht Y (bei dieser Körpergrösse). Mit diesem Ansatz können wir wieder schreiben Yx = β 0 + β1 x + U (4.12) d. h. das Gewicht einer Person der Grösse x hängt von letzterer gemäss der obigen Regressionsbeziehung ab. Das primäre Problem der Regressionsrechnung besteht darin, aus einer Stichprobe ( x1 , y1 ) , ( x2 , y2 ) ,… , ( xn , yn ) die unbekannten Parameter β0, β1 und σ U2 zu schätzen. 144 (4.13) 4.2 Minimumquadratschätzungen von β0 und β1 Die n Wertepaare ( xi , yi ) , i = 1,… , n , können als Koordination von n Punkten in einer x– y–Ebene aufgefasst werden. y ŷ = b0 + b1 x ( xi , yi ) yi ei yˆi = b0 + b1xi x xi Wenn zwischen x und y eine funktionale Beziehung f unterstellt wird, y = f(x), so besagt das Minimum–Quadrat–Prinzip (MQP), dass die in f zu schätzenden Parameter so zu wählen sind, dass die Summe der quadrierten Abweichungen von yi und f(xi) minimal wird, also n ∑( y i =1 → min i − f ( xi ) ) 2 (4.14) Analog zur Notation bei der Schätztheorie versehen wir die Schätzgrösse mit dem Symbol "^". Die Schätzwerte für die Parameter β0 und β1 der Regressionsfunktion bezeichnen wir mit b0 und b1. Damit lautet für ŷ = f ( x ) bzw. yˆ i = f ( xi ) das MQ–Prinzip: 145 Wähle b0 und b1 so, dass n ∑(y i =1 i n n − yˆ i ) = ∑ e = ∑ ( yi − b0 − b1 xi ) = f ( b0 , b1 ) 2 2 i i =1 2 (4.15) i =1 minimal wird. Die Werte ei = yi − yˆ i = yi − f ( xi ) werden als Residuen bezeichnet. An der Stelle des gemeinsamen Minimums müssen die partiellen Ableitungen nach b0 und b1 notwendigerweise verschwinden. n ∂f = − 2 ∑ ( yi − b0 − b1 xi ) = 0 ∂b0 i =1 n ∂f = − 2 ∑ xi ( yi − b0 − b1 xi ) = 0 ∂b1 i =1 (4.16) Die beiden daraus folgenden Gleichungen in den beiden Unbekannten b0 und b1 werden als Normalgleichungen bezeichnet. Sie lauten n n i =1 i =1 ∑ ( yi − b0 − b1 xi ) = ∑ ei = 0 n ∑ x (y −b i =1 i 0 i n − b1 xi ) = ∑ xi ei = 0 (4.17) i =1 respektive y = b0 + b1 x n ∑x y i =1 mit den Lösungen 146 i i = b0 (4.18) n n ∑x +b ∑x i =1 i 1 i =1 2 i (4.19) n b1 = n ∑ x y − n x y ∑ ( x − x )( y − y ) i i =1 n i ∑ xi2 − n x 2 = i =1 i i n ∑(x − x ) i =1 = 2 s XY s XX (4.20) i i =1 b0 = y − b1 x Beispiel Aus der nachfolgenden Stichprobe bestimme man eine lineare Regressionsfunktion zwischen x und y. x 10 14 14 17 20 22 25 27 29 30 y 2 2.5 4 5 4.5 7 8 9.5 8 10 Aus der Arbeitstabelle xi yi xi yi xi2 10 14 14 17 20 22 25 27 29 30 2.0 2.5 4.0 5.0 4.5 7.0 8.0 9.5 8.0 10.0 20.0 35.0 56.0 85.0 90.0 154.0 200.0 256.5 232.0 300.0 100 196 196 289 400 484 625 729 841 900 n ∑x i =1 i n n = 208 x = 20.8 ∑y i =1 i = 60.5 ∑x y i =1 i i n = 1428.5 ∑x i =1 2 i = 4760 y = 6.05 147 folgt b1 = 1428.5 − 10 ⋅ 20.8 ⋅ 6.05 = 0.392 4760 − 10 ⋅ 20.8 ⋅ 20.8 (4.21) b0 = 6.05 − 0.392 ⋅ 20.8 = − 2.11 15 y yˆ = − 2.1 + 0.39 ⋅ x 10 5 x 0 0 10 20 30 40 Für die weitere Diskussion erweist sich die folgende Notation als zweckmässig. Mit n n ∑ ( x − x )( y − y ) = ∑ x y − n x y i =1 i i i =1 n i i = ∑ xi yi − x i =1 n n ∑y i =1 = ∑ ( xi − x ) yi i =1 folgt für b1 148 i (4.22) n b1 = ∑ ( x − x )( y − y ) i i =1 i n ∑ (x − x ) 2 i i =1 n = ∑ (x − x ) y i i =1 (4.23) i s XX n = ∑ ci yi i =1 mit ci = xi − x s XX (4.24) und für b0 b0 = y − b1 x = 1 n n n i =1 i =1 ∑ yi − ∑ ci yi x 1 = ∑ − ci i =1 n n (4.25) x yi und daraus yˆ = b0 + b1 x n 1 = ∑ − ci x yi + x ∑ ci yi i =1 n i =1 n 1 = ∑ + ci ( x − x ) yi i =1 n n (4.26) 149 ŷ ist somit eine Linearkombination der Beobachtungen von Y. Die Gewichte ci = xi − x s XX (4.27) sind nur von den x–Werten abhängig und genügen den Eigenschaften n 1.) ∑c i =1 i =0 n 2.) ∑c x i =1 i i n 3.) ∑c i =1 2 i (4.28) =1 = (4.29) 1 (4.30) s XX 4.3 Eigenschaften der Schätzfunktionen Die Schätzwerte b0 und b1 aus dem Minimumquadratansatz sind Realisationen der Schätzfunktionen (Zufallsvariablen) n B1 = ∑ ciYi i =1 n = ∑ ci ( β 0 + β1 xi + U i ) i =1 n = β1 + ∑ ciU i i =1 150 (4.31) 1 B0 = ∑ − ci x Yi i =1 n n 1 = ∑ − ci x ( β 0 + β1 xi + U i ) i =1 n n 1 = β 0 + ∑ − xci U i i =1 n n (4.32) Die Erwartungswerte von B0 und B1 sind n 1 E ( B0 ) = β 0 + ∑ − xci E (U i ) = β 0 i =1 n n E ( B1 ) = β1 + ∑ ci E (U i ) = β1 (4.33) i =1 womit B0 und B1 erwartungstreue Schätzfunktionen für β0 und β1 darstellen. Zur Bestimmung der Varianzen der Schätzfunktionen B0 und B1 gilt zunächst ( B0 − β 0 ) 2 n 1 = β 0 + ∑ − xci U i − β 0 i =1 n n 1 = ∑ − xci U i i =1 n 2 2 (4.34) 2 1 1 1 = ∑ − xci U i2 + ∑∑ − xci − xc j U iU j n i n i j n i≠ j sowie 151 ( B1 − β1 ) 2 n = β1 + ∑ ciU i − β1 i =1 2 2 n = ∑ ciU i i =1 2 2 = ∑ ci U i + ∑∑ ci c jU iU j i (4.35) i j i≠ j Mit E (U i2 ) = V (U i ) = σ U2 E (U iU j ) = Cov (U i ,U j ) + E (U i ) E (U j ) = 0 i≠ j (4.36) wird Voraussetzung 3) bezüglich der Störvariablen erstmals aktiv! Für die Varianzen von B0 und B1 folgt aus (4.35) V ( B0 ) = E ( B0 − β 0 ) 2 2 1 = ∑ − xci E (U i2 ) i =1 n 1 2x n = n 2 − ci + x 2 ∑ n i =1 n n n ∑c i =1 2 i 1 x2 =σ + n s XX 2 2 s XX + nx = σU n s XX 2 U = = 152 σ U2 n s XX σ U2 n s XX 2 2 ∑ ( xi − x ) + n x i =1 n n ∑x i =1 2 i 2 σU (4.37) V ( B1 ) = E ( B1 − β1 ) 2 = ∑ ci2 E (U i2 ) n i =1 = (4.38) σ U2 s XX Naturgemäss gilt das Hauptinteresse bei der einfachen Regressionsanalyse der Schätzfunktion B1, zumal B1 die Reaktion von Y auf Änderungen in x zum Ausdruck bringt. Unter Genauigkeitsaspekten ist man an möglichst kleinen Varianzen interessiert. Diesem Anliegen kann Rechnung getragen werden, indem man durch einen möglichst grossen Stützbereich die Summe der Abweichungsquadrate n s XX = ∑ ( xi − x ) 2 (4.39) i =1 gross macht. Für die Kovarianz zwischen B0 und B1 gilt Cov ( B0 , B1 ) = E {( B0 − β 0 )( B1 − β1 )} B0 − β 0 B1 − β1 1 = β 0 + ∑ − xci U i − β 0 i =1 n n 1 = ∑ − xci U i i =1 n n (4.40) n = β1 + ∑ ciU i − β1 i =1 n = ∑ ciU i i =1 und damit 153 1 ( B0 − β 0 )( B1 − β1 ) = ∑ − xci U i i =1 n n n ∑c U j =1 j j 1 1 = ∑ − xci ciU i2 + ∑∑ − xci U i c jU j i n i j n (4.41) i≠ j Bildet man auf beiden Seiten den Erwartungswert, so folgt Cov ( B0 , B1 ) = σ =− 1 2 ∑ ci − xci + 0 i =1 n σ U2 x n 2 U n ∑ (x − x) i =1 =− 2 (4.42) i σ U2 x s XX Die (negative) Kovarianz strebt mit breiter werdendem Stützbereich gegen Null. Für x = 0 verschwindet die Kovarianz zwischen B0 und B1. Für praktische Belange sind konkrete zahlenmässige Aussagen über die Varianz der Schätzfunktionen B0 und B1 notwendig. Da beide Schätzfunktionen die unbekannte Varianz σ U2 des Störterms U enthalten, stellt sich ein neues Schätzproblem. 4.4 Schätzfunktion für σ U2 Der Ausdruck 2 1 n S = Ui −U ) ( ∑ n − 1 i =1 2 U wäre eine erwartungstreue Schätzfunktion für σ U2 . Die Zufallsvariablen 154 (4.43) U i = Yi − β 0 − β1 xi i = 1, 2,… , n (4.44) können jedoch nicht beobachtet werden, zumal die Parameter β0 und β1 unbekannt sind. Aus dem Modell und der Schätzfunktion der Regression folgt Yi = β 0 + β1 xi + U i Y = β 0 + β1 x + U bzw. bzw. Yi = B0 + B1 xi + Ei (4.45) Y = B0 + B1 x und somit Yi − Y = β1 ( xi − x ) + (U i − U ) bzw. Yi − Y = B1 ( xi − x ) + Ei (4.46) Die Residuen Ei = (U i − U ) − ( B1 − β1 )( xi − x ) (4.47) führen zu einer erwartungstreuen Schätzfunktion für σ U2 . Bildet man im Ausdruck n n n ∑ Ei2 = ∑ (U i − U )2 − 2 ( B1 − β1 ) ∑ (U i − U ) ( xi − x ) + ( B1 − β1 ) i =1 i =1 i =1 2 n ∑ (x i =1 i − x )2 (4.48) auf beiden Seiten die Erwartungswerte, so findet man nach einigen algebraischen Umformungen n 2 E ∑ Ei = σ U2 ( n − 1) − 2σ U2 + σ U2 i =1 = σ U2 ( n − 2 ) (4.49) woraus folgt 155 n 2 Ei E∑ = σ U2 i =1 n−2 (4.50) d. h. n σˆ U2 = ∑E 2 i i =1 (4.51) n−2 ist eine erwartungstreue Schätzfunktion für σ U2 . Dabei wird die Schätzfunktion σˆ U2 auf den Zufallsvariablen durch Fettdruck gekennzeichnet, zur Abgrenzung von der entsprechenden Funktion basierend auf den Realisationen n σˆU2 = ∑e i =1 2 i (4.52) n−2 Die bisherigen Ausführungen beziehen sich auf das Modell Yi = β 0 + β1 xi + U i (4.53) und gelten unter den Bedingungen 1.) E (U i ) = 0 2.) V (U i ) = σ U2 3.) Cov (U i , U j ) = 0 i = 1,… , n (4.54) i = 1,… , n i, j = 1,… , n; (4.55) i≠ j (4.56) Über die Verteilung der Störvariablen U wurden keine weiteren Bedingungen formuliert. Das System erfährt eine wesentliche Ergänzung, wenn unterstellt wird, dass die 156 Störvariable U normalverteilt ist. U i ∼ N ( 0, σ U ) 4.) i = 1,… , n (4.57) Dann gilt für die Verteilung von Y Yi ∼ N ( β 0 + β1 xi , σ U ) (4.58) 4.5 Maximum–Likelihood–Schätzungen Nachdem das Verteilungsgesetz der Zufallsvariablen Y bekannt ist, kann die gemeinsame Dichte einer Stichprobe Y1 ,… , Yn und daraus die Likelihoodfunktion L bestimmt werden. 1/ 2 1 L ( β 0 , β1 , σ ; y1 ,… , yn ) = ∏ 2 i =1 2π σ U n 2 U ln L ( β 0 , β1 ,σ U2 ; y1 ,… , yn ) = − 1 yi − β 0 − β1 xi 2 exp − (4.59) σ 2 U n n 1 ln ( 2π ) − ln σ U2 − 2 2 2σ U2 n ∑( y i =1 i − β 0 − β1 xi ) 2 (4.60) Die partiellen Ableitungen von ln L nach β0, β1 und σ U2 führen zu folgenden Gleichungen ∂ ln L 1 = 2 ∂β 0 σU ∂ ln L 1 = 2 ∂β1 σU n ∑( y − β i i =1 0 − β1 xi ) = 0 n ∑x (y −β i =1 i ∂ ln L −n 1 = + 2 2 ∂σ U 2σ U 2σ U4 i 0 − β1 xi ) = 0 n ∑( y − β i =1 i (4.61) − β1 xi ) = 0 2 0 157 Die Schätzfunktionen von β0 β1 und Minimum–Quadrat–Methode überein. Für σ 2 U stimmen mit jenen der erhält man ein abweichendes Resultat, nämlich σˆU2 = 1 n n ∑ ( yi − b0 − b1 xi )2 = i =1 1 n 2 ∑ ei n i =1 (4.62) Diese Schätzfunktion ist nur asymptotisch erwartungstreu. 4.6 Verteilung der Schätzfunktionen B0 und B1 Die Schätzfunktionen n B1 = ∑ ci (Yi − Y ) (4.63) i =1 B0 = Y − B1 x sind Linearkombinationen der Zufallsvariablen Yi. Wenn für Yi eine Normalverteilung unterstellt wird, sind Linearkombinationen davon ebenfalls normalverteilt. Damit erhält man mit den Gleichungen (4.38) bzw. (4.39) σ U2 B1 ∼ N β1 , s XX n 2 σ U ∑ xi2 i =1 B0 ∼ N β 0 , n s XX Für die standardisierten Variablen gilt 158 (4.64) Z1 = ( B1 − β1 ) s XX ∼ N ( 0,1) σU (4.65) ( B − β0 ) = 0 Z0 n s XX σU ∼ N ( 0,1) n ∑x 2 i i =1 Schliesslich ist n V= ∑E 2 i i =1 σ 2 U n = ∑ (Y − B i =1 0 i σ − B1 xi ) 2 U 2 ∼ χ n2− 2 (4.66) respektive ( n − 2 ) σˆ U2 ∼ χ n2− 2 2 σU (4.67) 2 Ersetzt man die unbekannten Varianzen σ U in Z1 und Z2 durch die entsprechenden Schätzfunktionen, so sind die neuen Variablen t-verteilt mit n − 2 Freiheitsgraden. W1 = W0 = B1 − β1 σˆU B0 − β 0 σˆU s XX ∼ Tn − 2 (4.68) n s XX n ∑x i =1 ∼ Tn − 2 2 i Damit wird es möglich, Hypothesen zu testen und Konfidenzintervalle zu berechnen, selbst wenn die Varianz σ U2 unbekannt ist. 159 4.7 Hypothesentest und Konfidenzintervalle für β0 und β1 4.7.1 Konfidenzintervalle für β0 und β1 Konfidenzintervalle für β0 und β1 sind solche für den Mittelwert normalverteilter Zufallsvariablen bei unbekannter Varianz. Die dazugehörige Theorie wurde in Kapitel 2.2.2 dargestellt. Danach gilt Konf β1 [ B1 − C ; B1 + C ] = γ (4.69) mit n C = dγ σˆ U = dγ S XX ∑E i =1 2 i (4.70) ( n − 2 ) S XX wobei n S XX = ∑ ( X i − X ) 2 (4.71) Konf β 0 [ B0 − C ; B0 + C ] = γ (4.72) i =1 und mit n C = dγ σˆ U ∑X i =1 n 2 i n S XX = dγ n ∑E ∑X i =1 2 i i =1 2 i n ( n − 2 ) S XX Für das Beispiel von Seite 147 resultieren folgende Werte, (wobei d0.95 für n − 2 = 10 − 2 = 8 Freiheitsgrade zu bestimmen ist). 160 (4.73) n = 10 d 0.95 = 2.307 n ∑e 2 i i =1 = 5.9953 (4.74) σˆ U2 = 0.7494 n s XX = ∑ ( xi − x ) 2 = 433.6 i =1 und damit das Konfidenzintervall für β1 σˆU c = dγ s XX = 2.307 0.7494 = 0.0959 433.6 (4.75) Konf β1 [ 0.392 − 0.0959, 0.392 + 0.0959] Konf β1 [ 0.296, 0.488] = 0.95 respektive das Konfidenzintervall für β0 n c = dγ σˆU ∑x i =1 2 i n s XX = 2.307 0.7494 4760 = 2.09 10 ⋅ 433.6 (4.76) Konf β0 [ −2.10 − 2.09, − 2.10 + 2.09] Konf β0 [ −4.19, − 0.01] = 0.95 4.7.2 Hypothesentest für β1 Im linearen Modell Y = β 0 + β1 x + U (4.77) wird ein Hypothesensystem über β1 formuliert, z. B. 161 H 0 : β1 = β10 = k H1 : β1 = β11 ≠ k (4.78) Als Testgrösse wählen wir die Zufallsvariable W1 aus Abschnitt 4.6, zumal diese Variable sensitiv auf Änderungen in β1 reagiert und überdies ein bekanntes Verteilungsgesetz besitzt. W1 = B1 − β1 σˆU s XX ∼ Tn − 2 (4.79) Beim obigen Test handelt es sich im Prinzip um den Test einer Hypothese über den Mittelwert einer normalverteilten Grundgesamtheit bei unbekannter Varianz. Wir können wiederum auf die entsprechende Theorie zurückgreifen. Von praktischer Bedeutung ist der folgende Spezialfall des Hypothesentests H 0 : β1 = β10 = 0 H1 : β1 = β11 ≠ 0 (4.80) Aus geometrischer Sicht überprüft man die Annahme einer horizontalen Regressionsgeraden. In der statistischen Praxis spricht man oft von Unabhängigkeit zwischen den beiden untersuchten Variablen, zumal im Falle einer horizontalen Regressionsgeraden die abhängige Variable nicht auf Änderungen in der unabhängigen Variablen reagiert. Unter H0 ist die Testgrösse W1 = B1 σˆU s XX (4.81) t-verteilt mit n − 2 Freiheitsgraden. Auf dem Signifikanzniveau α folgt daraus die Entscheidungsregel W1 ≥ t1−α / 2 E : falls W1 < t1−α / 2 162 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (4.82) Der folgende SYSTAT-Ausdruck ist ein typisches Beispiel einer Regressionsanalyse mit Hilfe von Softwarepaketen. Das Datenmaterial entspricht jenem des Einführungsbeispiels. DEP VAR: Y N: 10 MULTIPLE R: .958 SQUARED MULTIPLE R: .918 ADJ. SQUARED MULTIPLE R: .907 STANDARD ERROR OF EST.: 0.866 VARIABLE COEFFICIENT STD ERROR CONSTANT X -2.110 0.392 0.907 0.042 STD COEF TOLERANCE 0.000 0.958 . 1.000 T -2.326 9.436 P(2TAIL) 0.048 0.000 ANALYSIS OF VARIANCE SOURCE REGRESSION RESIDUAL SUM-OF-SQUARES DF MEAN-SQUARE F-RATIO 66.730 5.995 1 8 66.730 0.749 89.043 P 0.000 Der Ausdruck enthält folgende im Moment relevanten Informationen: STANDARD ERROR OF ESTIMATE: geschätzte Standardabweichung des Stör• terms U σˆU = • 1 n−2 n ∑e i =1 2 i = 5.995 = 0.866 8 (4.83) COEFFICIENT : Schätzwerte der Regressionskoeffizienten CONSTANT : b0 = y − b1 x = 6.05 − 0.392 ⋅ 20.8 = − 2.11 n X : b1 = ∑ (x − x ) ( y − y ) i =1 i n ∑ (x − x ) i =1 • i 2 = s XY 170.10 = = 0.392 s XX 433.60 (4.84) i STD ERROR: geschätzte Standardabweichungen der Schätzfunktionen B0 und B1 163 CONSTANT : σˆ B0 = σˆU2 n ∑x i =1 n s XX 2 i = 0.749 4760 = 0.907 10 433.6 (4.85) σˆU2 0.749 X : σˆ B = = = 0.042 433.6 s XX 1 • T: Realisation der Testgrössen W1 bzw. W0 zum Test der Hypothesen β0 = 0 bzw. β1 = 0 CONSTANT : w0 = b0 −2.110 = − 2.326 σˆ B0 0.907 b 0.392 X : w1 = 1 = 9.436 σˆ B1 0.042 • (4.86) P(2TAIL) : Wahrscheinlichkeit, dass die Testgrösse unter H0 die gegebene oder eine noch grössere Abweichung annimmt CONSTANT : P ( W0 ≥ 2.326 H 0 ) = 0.048 X : P ( W1 ≥ 9.436 H 0 ) = 0 164 (4.87) 4.8 Bedingtes Konfidenzintervall für Y bei gegebenem x0 Wenn man bei vorgegebenem x0 auf die zu erklärende Grösse Y schliessen möchte, ist man aus Gründen der Genauigkeit und Zuverlässigkeit an Konfindenzintervallen interessiert, welche den erwarteten Wert von Y an dieser Stelle x0 überdecken. Zur Bestimmung solcher Konfidenzintervalle halten wir zunächst fest: 1.) E (Y x ) = µ ( x ) = β 0 + β 1 x (4.88) 2.) µˆ ( x ) = B0 + B1 x (4.89) 3.) E ( µˆ ( x ) ) = β 0 + β1 x (4.90) 4.) V ( µˆ ( x ) ) = V ( B0 + B1 x ) = V ( B0 ) + x 2V ( B1 ) + 2 x Cov ( B0 , B1 ) σ = n 2 U ∑x 2 i i =1 n s XX n + x2 σ U2 ∑ xi2 = i =1 σ U2 s XX − 2 x σ U2 x s XX 2 + x − 2x x (4.91) s XX n n σ U2 ∑ xi2 σ U2 s XX 2 = + ( x − x )2 nx = 2 i =1 s XX n + (x − x ) − s XX n n 1 ( x − x )2 =σ + s XX n 2 U 5.) µˆ ( x ) − E ( µˆ ( x ) ) V ( µˆ ( x ) ) ∼ N ( 0,1) (4.92) 165 6.) µˆ ( x ) − E ( µˆ ( x ) ) Vˆ ( µˆ ( x ) ) ∼ Tn − 2 (4.93) Durch Einsetzen findet man W= B0 + B1 x − ( β 0 + β1 x ) 1 ( ) σˆU2 + x − x 2 n s XX ∼ Tn − 2 (4.94) Zu vorgegebener Konfidenzzahl γ kann d γ (gemäss 2.2.2) so bestimmt werden, dass P ( −dγ ≤ W ≤ dγ ) = γ (4.95) Setzt man für W den obigen Ausdruck ein und formt man solange um, dass in der Mitte der doppelten Ungleichung nur noch β0 + β1x steht, so erhält man die Grenzen des 100γ % –Konfidenzintervalls. Konf β 0 + β1 x [ B0 + B1 x − C , B0 + B1 x + C ] = γ (4.96) mit C = dγ σˆU Beachte: 1 (X − X ) + n S XX 2 (4.97) Die Länge des Konfidenzintervalls ist insbesondere abhängig von x und wird an der Stelle x = x minimal. Im Einführungsbeispiel erhält man an der Stelle x = 15 für das 90%–Konfidenzintervall 1 (15 − 20.8 )2 c = 1.86 ⋅ 0.866 + = 0.679 10 433.6 166 (4.98) und damit Konf β 0 + β1 ⋅15 [ −2.11 + 15 ⋅ 0.39 − c, − 2.11 + 15 ⋅ 0.39 + c ] = Konf β 0 + β1 ⋅15 [3.061, 4.419 ] = 0.90 (4.99) Die nachfolgende SYGRAPH-Darstellung zeigt die Konfidenztrompete über den gesamten Bereich für γ = 0.90 15 y yˆ = −2.1 + 0.39 ⋅ x 10 5 x 0 0 10 20 30 40 4.9 Verletzung der Voraussetzungen 4.9.1 Varianzinhomogenität Eine wesentliche Voraussetzung im linearen Modell ist eine konstante Varianz der Störterme U. In vielen praktischen Anwendungen ist diese Bedingung verletzt. Im Falle steigender Regressionsgeraden stellt man oft eine wachsende Varianz mit grösser werdenden y–Werten fest. Wir betrachten zwei Fälle von Varianzinhomogenität. Fall 1 Die Standardabweichung der Störvariablen U (und damit von Y) ist gegeben durch 167 σ U ( x ) = g ( x )σ U (4.100) wobei g(x) bekannt und σ 0 unbekannt ist. In diesen Fällen betrachtet man nicht eine Regression zwischen x und Y, sondern zwischen x und Y ′ mit Yi ′ = Yi g ( x) (4.101) Dann gilt nämlich V (Yi ′) = 1 1 V (Yi ) = 2 g 2 ( x ) σ 02 = σ 02 g ( x) g ( x) 2 (4.102) womit die ursprünglichen Voraussetzungen zwischen x und Y ′ erfüllt sind und das normale Prozedere angewendet werden kann. Fall 2 Verfügt man für die einzelnen x–Werte xi , i = 1,… , r , je über nj Beobachtungen Yij , j = 1,… , n j und bezeichnen Yi und S i2 , i = 1, … , r , Mittelwert bzw. Varianz für jeden x–Wert, so kann als Approximation wie folgt vorgegangen werden. Man betrachte die Regression nicht zwischen x und Yij, sondern zwischen x und Yij′ , wobei Yij′ = Yi + Yij + Yi Si (4.103) Zwischen x und Yij′ ist dann die Varianzhomogenität zumindest annähernd erfüllt, und es kann ebenfalls mit den bekannten Methoden gearbeitet werden. 168 4.9.2 Autokorrelation Bis jetzt wurden unkorrelierte Störvariablen vorausgesetzt. In der praktischen Zeitreihenanalyse steht man oft vor dem Problem, dass diese Voraussetzung verletzt ist. Insbesondere treten Fälle auf, bei denen aufeinanderfolgende Störterme gewisse Abhängigkeiten zeigen. Die Autokorrelation ist ein Spezialfall dazu. Anstelle der bisherigen Bedingungen 1.) E (U i ) = 0 i = 1,… , n (4.104) 2.) V (U i ) = σ U2 i = 1,… , n (4.105) 3.) Cov (U i , U j ) = 0 i ≠ j ; i , j = 1,… , n (4.106) setzen wir U t = ρ U t −1 + ε t (4.107) mit ρ <1 Autokorrelationskoeffizient E (ε t ) = 0 für alle Werte t V ( ε t ) = σ ε2 für alle Werte t Cov ( ε s , ε t ) = 0 für alle Werte s, t mit s ≠ t (4.108) Diese neuen Bedingungen charakterisieren die einfachste Form eines autoregressiven Prozesses. Der Störterm zum Zeitpunkt t setzt sich additiv aus dem abgeschwächten Störterm der Vorperiode und einem Zufallsterm zusammen. Ein Störterm zum Zeitpunkt t entwickelt (in allerdings abgeschwächter Form) Wirkungen in alle Zukunft. 169 U t = ρ U t −1 + ε t = ρ ( ρ U t − 2 + ε t −1 ) + ε t = ρ 2 U t − 2 + ρ ε t −1 + ε t (4.109) = ε t + ρ ε t −1 + ρ 2ε t − 2 +… Welche Konsequenzen verursacht Autokorrelation im linearen Modell? 1.) Die Schätzfunktionen für β0 und β1 bleiben zwar erwartungstreu, verlieren jedoch die Minimumvarianzeigenschaft. 2.) Die wahre Varianz des Störterms kann deutlich unterschätzt werden. 3.) Die theoretischen Voraussetzungen zur Konstruktion von Konfidenzintervallen sowie zum Testen von Hypothesen sind nicht mehr erfüllt. Unter den oben genannten Bedingungen an die Störterme ε t gilt für die Momente von Ut E (U t ) = E ( ε t + ρ ε t −1 + ρ 2 ε t − 2 + …) =0 (4.110) V (U t ) = E (U t2 ) = E ( ε t2 ) + ρ 2 E ( ε t2−1 ) + ρ 4 E ( ε t2− 2 ) + … = σ ε2 + ρ 2σ ε2 + ρ 4σ ε4 + … = σ ε (1 + ρ + ρ + …) 2 2 (4.111) 4 σ ε2 = 1− ρ 2 Die Varianz von U ist damit unabhängig von t und wird umso grösser, je näher ρ gegen 1 strebt! Ferner gilt 170 Cov (U t , U t −1 ) = E {( ρ U t −1 + ε t ) U t −1} = ρ E (U t2−1 ) + E {ε t U t −1} (4.112) = ρ V (U t ) Allgemein gilt Cov (U t , U t − s ) = ρ s V (U t ) (4.113) Welche Massnahmen lassen sich im Falle von autokorrelierten Störvariablen ergreifen? Ein relativ einfaches Verfahren zur Behebung des Problems existiert, falls der Wert des Autokorrelationskoeffizienten ρ bekannt ist. Es gilt nämlich für alle Werte von t Yt −1 = β 0 + β1 X t −1 + U t −1 ρ Yt −1 = ρ β 0 + ρ β1 X t −1 + ρ U t −1 (4.114) Aus der Subtraktion der zweiten Gleichung von Yt = β 0 + β1 X t + U t (4.115) Yt − ρ Yt −1 = β 0 (1 − ρ ) + β1 ( X t − ρ X t −1 ) + U t − ρ U t −1 (4.116) Yt ∗ = β 0∗ + β1 X t∗ + ε t (4.117) folgt direkt respektive Zwischen den Variablen Yt ∗ und X t∗ sind die ursprünglichen Bedingungen – insbesondere jene von unkorrelierten Störvariablen – wieder erfüllt, womit das normale Analyseinstrumentarium eingesetzt werden kann. Normalerweise ist ρ unbekannt. Es existieren jedoch Verfahren, ρ aus den Daten zu 171 schätzen.1 4.9.3 Test auf Autokorrelation Im linearen Modell Y = β 0 + β1 X + U (4.118) werde eine autoregressive Beziehung erster Ordnung im Störterm der Form U t = ρ U t −1 + ε t (4.119) vermutet. Zum Test der Hypothese einer positiven Autokorrelation formuliert man das System H 0 : ρ = ρ0 ≤ 0 (4.120) H1 : ρ = ρ1 > 0 Hypothesen dieser Form können mit dem Test von Durbin–Watson überprüft werden. Basierend auf den Residuen et = yt − b0 − b1 xt (4.121) lautet die Testgrösse n DW = ∑ (e − e t =2 n ∑e t =1 1 t −1 t )2 (4.122) 2 t Vgl. D. Cochrane and G. H. Orcutt: Application of Least Squares Regressions to Relationships containing Autocorrelated Error Terms. Journal of the American Statistical Association. Vol. 44, 1949, S. 32-61. 172 für welche folgende Entscheidungsregel gilt DW < d e E : falls DW > d u d e ≤ DW ≤ d u ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (4.123) ⇒ kein Entscheid Für die kritischen Grenzen de und du existieren Tabellen in Abhängigkeit vom Stichprobenumfang. Die nachfolgende Tabelle enthält einen Ausschnitt. α = 0.05 n 10 15 20 40 60 100 200 α = 0.01 de du de du 0.88 1.08 1.20 1.44 1.55 1.65 1.76 1.32 1.36 1.41 1.54 1.62 1.69 1.78 0.60 0.81 0.95 1.25 1.38 1.52 1.66 1.00 1.07 1.15 1.34 1.45 1.56 1.68 Die Testgrösse sowie die Entscheidungsregel von Durbin–Watson können folgendermassen motiviert werden. Für grosse Werte von n gilt approximativ n DW = ∑ (et − et −1 )2 t =2 n ∑e t =1 ≈ 2−2 2 t ∑e e ∑e = n n t =2 t =2 n ∑ et2 + ∑ et2−1 − 2 ∑ et et −1 t =2 n ∑e t =1 2 t (4.124) t t −1 2 t = 2 (1 − ρˆ ) Die Schätzfunktion für ρ kann aus der regressiven Beziehung zwischen Ut und U t −1 173 motiviert werden. Ferner folgt die Abschätzung 0 < DW < 4 (4.125) Im Falle positiver Autokorrelation der Störvariablen sind aufeinanderfolgende Realisationen der Residuen ungefähr von derselben Grössenordnung. Der Zähler der Testgrösse wird tendenziell klein. Sind Störvariablen nicht oder negativ korreliert, so liegen aufeinanderfolgende Realisationen tendenziell weit auseinander; der Zähler von DW wird entsprechend gross. Kleine Werte von DW deuten auf H1 und grosse Werte auf H0 . Die Entscheidungsregel für das Hypothesensystem (Test auf negative Autokorrelation) H0 : ρ ≥ 0 (4.126) H1 : ρ < 0 lautet ( 4 − DW ) < d e E : falls ( 4 − DW ) > d u d e ≤ ( 4 − DW ) ≤ d u ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (4.127) ⇒ kein Entscheid Der Nachteil des Tests von Durbin–Watson ist seine relativ kleine Macht. Beispiel Aus der konstruierten Zeitreihe t 1 2 3 4 5 6 7 8 9 10 11 12 y 35 40 56 88 125 123 83 64 50 47 58 60.5 findet man die Regressionsbeziehung yˆ = 69.89 − 0.117 ⋅ t 174 (4.128) Die Schätzwerte und die daraus abgeleiteten Residuen et, ergänzt um die Rechengrösse für die DW–Statistik, sind in der nachfolgenden Tabelle zusammengestellt. t 1 2 3 4 5 6 7 8 9 10 11 12 y ŷ 35 40 56 88 125 123 83 64 50 47 58 60.5 et2 et 69.77 69.65 69.53 69.42 69.30 69.18 69.07 68.95 68.83 68.72 68.60 68.48 -34.77 -29.65 -13.53 18.58 55.70 53.82 13.93 -4.95 -18.83 -21.72 -10.60 -7.98 ( et − et −1 ) 2 1208.90 879.25 183.20 345.30 3102.41 2896.21 194.14 24.50 354.65 471.54 112.32 63.69 26.19 259.76 1031.51 1377.68 3.55 1590.64 356.56 192.73 8.31 123.59 6.85 9836.10 DW–Statistik 4977.37 0.51 Die Vorzeichen sowie die Absolutbeträge der Residuen deuten auf (positive) Autokorrelation hin. Die entsprechende Teststatistik ergibt n DW = ∑ (e − e t =2 t −1 t n ∑e t =1 2 t )2 = 4977.37 = 0.51 9836.10 (4.129) Das Hypothesensystem H 0 : ρ = ρ0 ≤ 0 H1 : ρ = ρ1 > 0 (4.130) führt auf dem Niveau α = 0.05 zur Entscheidungsregel 175 DW < 0.971 E : falls DW > 1.331 0.971 ≤ DW ≤ 1.331 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (4.131) ⇒ kein Entscheid Die konkrete Beobachtung DW = 0.51 veranlasst uns, H0 (negative Autokorrelation) abzulehnen. Der Autokorrelationskoeffizient wird geschätzt durch ρˆ = ∑ et et −1 ∑e 2 t = 6711.12 = 0.68 9836.10 (4.132) 4.9.4 Statistische Eigenschaften der Residuen Aus Ei = U i − U − ( B1 − β1 )( xi − x ) (4.133) folgt für den Erwartungswert E ( Ei ) = E (U i − U − ( B1 − β1 )( xi − x ) ) =0 und die Varianz 176 (4.134) V ( Ei ) = E ( Ei2 ) { = E (U i − U ) − 2 (U i − U ) ( B1 − β1 )( xi − x ) + ( B1 − β1 ) ( xi − x ) 2 2 σ U2 2 1 2 = σ 1 − − 2σ U ci ( xi − x ) + ( xi − x ) s XX n 2 } (4.135) 2 U 1 ( xi − x )2 = σ 1 − − n s XX 2 U Für die Kovarianz zwischen Ei und Ej gilt Cov ( Ei , E j ) = E ( Ei ⋅ E j ) { = E (U i − U ) (U j − U ) − (U i − U ) ( B1 − β1 ) ( x j − x ) } − (U j − U ) ( B1 − β1 )( xì − x ) + ( B1 − β1 ) ( xi − x ) ( x j − x ) 2 =− σ U2 n − σ ci ( x j − x ) − σ c j ( xi − x ) + 2 U 2 U 1 ( xi − x ) ( x j − x ) = − σ U2 + n s XX Beachte: σ U2 s XX (4.136) ( xi − x ) ( x j − x ) Während im Modell unkorrelierte Störterme Ui mit konstanter Varianz σ U2 vorausgesetzt wurden, so überträgt sich keine der beiden Eigenschaften auf die Residuen Ei. Insbesondere fällt die Abhängigkeit von den x–Werten in beiden Fällen auf! 4.9.5 Graphische Darstellung der Residuen Erste Anhaltspunkte über die Regularität der Residuen liefert ein einfaches Streudiagramm, welches insbesondere Informationen über Häufungspunkte und Ausreisser liefert. Box–Plots ergänzen Streudiagramme vor allem im Hinblick auf die Form der Verteilung. Bei umfangreichen Stichproben erstellt man zweckmässigerweise Histogramme. 177 Zumal sich in den Residuen bei korrekter Modellspezifikation im wesentlichen die Eigenschaften des Störterms U manifestieren, sollte aus dem Histogramm die Glockenform der über U vorausgesetzten Normalverteilung ersichtlich werden. In einem zweiten Schritt stellt man die Punktewolke (xi, ei) dar. Aus Darstellungen dieser Art erkennt man sofort allfällige Muster in den Residuen, ebenso wie Abweichungen von der als konstant vorausgesetzten Varianz der Störterme U. e x Eine dritte Möglichkeit besteht in der Darstellung eines Plots der Punktewolke ( yˆ i , ei ) . Bei richtiger Modellspezifikation verteilen sich die Residuen in einem zur Abszisse symmetrischen Band. e ŷ Auch in dieser Darstellung erkennt man sehr einfach Phänomene wie Varianzinhomogenität und Fehlspezifikation im Modell. 178 y x e e x ŷ Normalerweise verzichtet man auf einen Plot der Punktewolke (ei, yi). Im Gegensatz zur Beziehung ( ei , yˆ i ) besteht gewöhnlich ein korrelativer Zusammenhang zwischen den Residuen ei und den Beobachtungen yi. 4.9.6 Leverage Die Minimum–Quadratschätzfunktionen für β0 und insbesondere für β1 sind lineare Kombinationen der y–Werte. Im folgenden interessiert neben dem Beitrag von yi auch die Sensitivität der Schätzfunktionen auf Variationen in yi etwa im Zusammenhang mit Messfehlern. b1 = ∑ ( x − x )y i i i ∑(x j j − x) 2 (4.137) b0 = y − b1 x Eine Änderung von yi um den Betrag ∆yi löst eine Änderung von b1 um ∆b1 aus. 179 b1 + ∆b1 = ∑(x j ≠i j − x ) y j + ( xi − x )( yi + ∆yi ) ∑(x k − x) (4.138) 2 k Damit erhält man für ∆b1 ∆b1 = ( xi − x ) 2 ∑ ( xk − x ) ∆yi = ci ∆yi (4.139) k ∆yi löst also eine umso grössere Änderung von b1 aus, je weiter xi von x entfernt ist und je kleiner die Variation sXX der x–Werte ist. Die Wirkungen auf b0 sind 1 ∆yi − ∆b1 x n xi − x ) ( 1 = − x ∆yi 2 n ∑ ( xk − x ) k 1 = − ci x ∆yi n ∆b0 = (4.140) An der Stelle xi = x verursacht ∆yi keine Änderung in b1. b0 ändert sich allerdings um den Betrag ∆ yi n (4.141) Indirekt (über die Schätzwerte b0 und b1) beeinflusst ∆yi aber auch die Schätzwerte yˆ i . 180 yˆi = b0 + b1 xi = y + ( xi − x ) b1 1 = n ∑ y +(x − x) j ∑(x j i j − x ) yj s XX j 1 ( xi − x ) ( x j − x ) yj = ∑ + n s XX j = ∑ λij y j (4.142) j Der Faktor λij gewichtet die Beiträge von y j , j = 1, 2,… , n , zum Schätzwert yˆ i . Am einfachsten sind die eigenen Beiträge λii von yi zu yˆ i interpretierbar. 1 (x − x) λii = + i n s XX 2 (4.143) λii hängt offensichtlich nur von x ab und wird umso grösser, je weiter xi von x entfernt ist. Eine Änderung von yi um ∆yi induziert eine Änderung von yˆ i um λii ∆yi ∆yˆ i = λii ∆yi (4.144) Der Ausdruck λii wird als Leverage des Punktes (xi, yi) bezeichnet und erfüllt die Bedingungen 1.) 1 ≤ λii ≤ 1 n 2.) ∑λ ii =2 (4.145) (4.146) i Das Leverage–Mass liefert nützliche Hinweise auf jene Punkte, welche einen grossen Einfluss auf die Schätzwerte ausüben. 181 4.9.7 Studentized Residuals Betrachtet man die Residuen Ei als Zufallsvariablen, so gilt gemäss Abschnitt 4.9.4 Ei = Yi − Yˆi (4.147) mit E ( Ei ) = 0 1 ( x − x )2 V ( Ei ) = σ 1 − + i n s XX = σ U2 (1 − λii ) 2 U (4.148) Die letzte Beziehung zeigt das inverse Verhalten von Varianz und Leverage. Die Varianz wird umso kleiner, je grösser der Leverage wird. Letzterer wird tendenziell grösser, je weiter die x–Werte vom Mittel x entfernt sind. Konsequenterweise muss der "Fit" in den Randbereichen grösser werden. Die "Gleichbehandlung" aller Residuen über den ganzen x–Bereich wird durch folgende Standardisierung erreicht Ei∗ = σU Ei 1 − λii (4.149) Anstelle der unbekannten Standardabweichung σ U verwendet man in der Praxis ihren Schätzwert σˆ U . Der Ausdruck Ei∗ = σˆU Ei 1 − λii (4.150) heisst standardisiertes Residuum. Bei stark variierenden Varianzen der Residuen verwendet man anstelle standardisierter die sogenannten "studentized" Residuen 182 E(∗i ) = Ei σˆU (i ) 1 − λii (4.151) Dabei ist σˆU ( i ) der Schätzwert für σ U , den man erhält, falls man aus der ursprünglichen Menge von Wertepaaren die Beobachtung (xi, yi) eliminiert. Standardisierte und studentized Residuen liefern Informationen über Ausreisser, welche bekanntlich den "wahren" Zusammenhang empfindlich stören können. Die meisten Software–Pakete liefern diese Zusatzinformationen standardmässig mit den Regressionsparametern. Das Angebot von SYSTAT sieht für das Einführungsbeispiel wie folgt aus ESTIMATE RESIDUAL LEVERAGE COOK STUDENT SEPRED 1.8132 0.1868 0.3690 0.0216 0.2553 0.5259 3.3824 (0.8824) 0.2066 0.1705 (1.1705) 0.3935 3.3824 0.6176 0.2066 0.0836 0.7812 0.3935 4.5593 0.4407 0.1333 0.0230 0.5214 0.3161 5.7362 (1.2362) 0.1015 0.1281 (1.6649) 0.2758 6.5208 0.4792 0.1033 0.0197 0.5589 0.2783 7.6976 0.3024 0.1407 0.0116 0.3556 0.3247 8.4822 1.0178 0.1887 0.1981 1.3762 0.3760 9.2668 (1.2668) 0.2551 0.4922 (1.9815) 0.4372 9.6591 0.3409 0.2952 0.0461 0.4449 0.4703 SEPRED bedeutet Standardfehler der Schätzung ŷ ( x ) . Das Cook–Mass ist eine Kombination von Leverage und studentized Residuen und misst den Einfluss der einzelnen Beobachtungen auf die Regressionsschätzungen. 4.9.8 Test auf Unkorreliertheit der Residuen Für die Störterme wurde insbesondere auch Unkorreliertheit vorausgesetzt. Bei zutreffender Modellspezifikation sollten sich dann auch die Residuen E zufällig um die 183 Regressionsgerade verteilen. Zur Überprüfung dieser Zufälligkeit kann der sogenannte Run–Test herangezogen werden. Dabei werden lediglich die Vorzeichen der nach ihren x–Werten geordneten Residuen untersucht + + − + − − +… − Ein Run besteht dabei aus einer Folge identischer Vorzeichen. Die Zufälligkeitshypothese wird abgelehnt, falls die Anzahl Runs zu klein oder zu gross wird. Eine detaillierte Beschreibung des Run–Test befindet sich etwa bei Conover W.J., Practical nonparametric statistics, New York. 184 4.10 Nichtlineare Regressionsansätze Im Verlaufe der bisherigen Untersuchungen haben wir uns stets auf die lineare Einfachregression beschränkt. Anhand ausgewählter Beispiele werden im folgenden einige Aspekte nichtlinearer Beziehungen dargestellt. Im Bereich der Ökonomie bestehen nichtlineare Zusammenhänge etwa in folgenden Situationen: 1.) Fixkosten pro Stück y =α + 2.) β x Exponentielles Wachstum y =α ⋅β x 3.) α >0 (4.154) Engelfunktion mit dem Sättigungswert α β y =α ex 5.) (4.153) Nachfrage nach einem Konsumgut in Abhängigkeit vom persönlichen Einkommen bei konstanter Elastizität β y = α xβ 4.) (4.152) α >0 (4.155) Parabolischer Ansatz für Nutzenfunktionen y = α x2 + β x + γ (4.156) Die Parameter der obigen Ansätze können direkt unter Anwendung der Minimumquadratmethode geschätzt werden. Für den parabolischen Ansatz von Beispiel 5.) stellt sich dabei beispielsweise das folgende Problem. 185 y ( xi , yi ) yi ei = yi − axi2 − bxi − c = yi − yˆ i ei 2 yˆ i = axi + bxi + c x xi Zu bestimmen sind die Parameter a, b und c so, dass ∑ e = ∑ ( yi − axi2 − bxi − c ) = F ( a, b, c ) → min n i =1 n 2 i 2 (4.157) i =1 Am Minimum von F müssen die partiellen Ableitungen nach a, b und c notwendigerweise verschwinden. n ∂F = − 2 ∑ xi2 ( yi − axi2 − bxi − c ) = 0 ⇔ ∂a i =1 n ∑x e i =1 2 i i =0 n ∂F 2 = − 2 ∑ xi ( yi − axi − bxi − c ) = 0 ⇔ ∑ xi ei = 0 ∂b i =1 i =1 n n ∂F = − 2 ∑ ( yi − axi2 − bxi − c ) = 0 ⇔ ∑ ei = 0 ∂c i =1 i =1 n Das umformulierte System 186 (4.158) n n n n a ∑ x + b ∑ x + c ∑ x = ∑ xi2 yi i =1 4 i i =1 3 i i =1 2 i i =1 n n n n i =1 i =1 i =1 i =1 n n n i =1 i =1 i =1 a ∑ xi3 + b ∑ xi2 + c ∑ x = ∑ xi yi (4.159) a ∑ xi2 + b ∑ xi + nc = ∑ yi in den 3 Unbekannten a, b und c heisst wiederum Normalgleichungssystem. Wir verzichten auf die Angabe einer allgemeinen Lösung. Im konkreten Einzelfall findet man die Lösungen etwa mit Hilfe des Gauss'schen Algorithmus. Die Minimumquadrat–Methode ist für beliebige nichtlineare Ansätze oft kompliziert. Häufig führt jedoch eine geschickt gewählte Transformation zu einer linearen Beziehung zwischen den transformierten Variablen. Für die oben zitierten Beispiele gilt beispielsweise β 1 x 1.) y =α + 2.) y = αβ x log y = log α + x log β z = α ∗ + β ∗x (4.161) 3.) y = α xβ log y = log α + β log x z =α∗ + βv (4.162) β 4.) y = αe x x z= y =α + β z ln y = ln α + β x (4.160) z =α∗ + βv (4.163) Exponentielle Regression Beispiel: Sei y die Anzahl Bakterien pro Volumeneinheit. Betrachtet man y in Abhängigkeit von der Zeit x, so entwickle sich die Kolonie gemäss folgendem Schema: 187 xi 0 1 2 3 4 5 6 yi 32 47 65 93 132 190 275 1 2 Graphische Darstellung y 300 250 200 150 100 50 0 0 3 4 5 6 x Theoretische Überlegungen sowie der konkrete Einzelfall motivieren einen exponentiellen Zusammenhang y = α ⋅ β x . Durch Logarithmieren findet man log y = log α + x log β (4.164) bzw. mit den Substitutionen α ∗ = log α , β ∗ = log β und der Transformation z = log y z = α ∗ + β ∗x (4.165) In einem einfach logarithmischen Massstab dargestellt scharen sich die Punkte relativ eng um eine Gerade. 188 xi 0 1 2 3 4 5 6 yi 32 47 65 93 132 190 275 zi = log yi 1.51 1.67 1.81 1.97 2.12 2.28 2.44 z 2.5 2.25 2 1.75 1.5 1.25 0 1 2 3 4 5 6 x Das resultierende lineare Einfachregressionsmodell führt zu den Parametern b = 0.1543 a = 1.5086 Dabei ist a ein Schätzwert für log α und somit 10a ein Schätzwert für α. Analoges gilt für die Beziehung zwischen b und β. Man erhält schliesslich y = 101.5086 ⋅ (100.1543 ) = 32.26 ⋅ 1.43 x (4.166) x Beispiel: Potenzansatz Gegeben seien folgende Daten 189 xi 1 3 5 10 15 20 25 30 35 40 yi 0.48 0.68 0.71 0.86 1 1.06 1.08 1.21 1.22 1.26 Graphische Darstellung y 1.25 1 0.75 0.5 0.25 0 0 10 20 30 40 x Man vermutet einen Potenzansatz y = α ⋅ x β und trägt die Daten in einen doppelt logarithmischen Massstab ein. Die Vermutung wird insbesondere dann bestätigt, wenn sich die Punkte relativ eng um eine Gerade scharen. Durch Logarithmieren erhält man log y = log α + β log x und mit den Substitutionen 190 (4.167) α ∗ = log α z = log y v = log x (4.168) z =α∗ + βv (4.169) den linearen Ansatz z = log y 0.1 v = log x 0 0 0.25 xi 1 yi 0.5 0.75 3 5 10 0.48 0.68 0.71 vi = log xi 0.00 0.48 zi = log yi -0.32 -0.17 1 1.25 1.5 1.75 15 20 25 30 35 40 0.86 1.00 1.06 1.08 1.21 1.22 1.26 0.70 1.00 1.18 1.30 1.40 1.48 1.54 1.60 -0.15 -0.07 0.00 0.03 0.03 0.08 0.09 0.10 -0.1 -0.2 -0.3 -0.4 Nach der Methode der kleinsten Quadrate erhält man für den linearen Ansatz bezüglich der logarithmierten Werte z und v 191 a = − 0.317 b = 0.261 (4.170) wobei a ein Schätzwert für α ∗ = log α , b ein Schätzwert für β ist. Damit ergibt sich z = a + b log x = a + bv = − 0.317 + 0.261v (4.171) Durch Delogarithmierung gelangt man zur ursprünglichen Beziehung y = 10 −0.317 ⋅ x 0.261 = 0.482 ⋅ x 0.261 (4.172) Bemerkungen zum Problem der Linearisierung In den obigen Beispielen führte die Transformation stets auf eine lineare Beziehung. Mit den transformierten Daten wurde dann auch der ganze Kalkül durchgeführt. Die Eigenschaften der Schätzfunktionen sind deshalb beschränkt auf die Parameter aus den transformierten Werten, falls diese die notwendigen Bedingungen der linearen Einfachregression ebenfalls erfüllen. 192 5. KORRELATIONSRECHNUNG 5.1 Der Korrelationskoeffizient nach Bravais–Pearson Die Korrelationsanalyse beschäftigt sich damit, den stochastischen Zusammenhang zwischen Zufallsvariablen zu quantifizieren. Während im Rahmen der Regressionsrechnung die Zusammmenhänge zwischen Merkmalen spezifiziert werden, versucht die Korrelationsrechnung Masse für die Richtung und die Stärke des Zusammenhanges herzuleiten. Im Einklang mit der Regressionsrechnung unterstellen wir zwischen den beiden Zufallsvariablen X und Y zunächst einen linearen Zusammenhang. Rein intuitiv ist man geneigt, von einem umso strengeren Zusammenhang zwischen den Variablen X und Y zu sprechen, je enger sich die Punkte (xi, yi) um die aus ihnen berechnete Regressionsgerade scharen. y y x x Das obige Kriterium lässt sich formal wie folgt zum Ausdruck bringen: Ist ( X 1 , Y1 ) ,… , ( X n , Yn ) die Stichprobe, auf welcher die Schätzfunktionen B0 und B1 für das lineare Modell Y = β 0 + β1 X + U (5.1) Ei = Yi − Yˆi = Yi − B0 − B1 X i (5.2) basieren, so gilt mit 193 ∑ E = ∑( n i =1 n 2 i i =1 Yi − Yˆi ) = ∑ (Y − B − B X ) 2 n 0 i i =1 ( = ∑ Yi − Y − B1 ( X i − X ) n i =1 ) 1 2 i 2 = ∑ (Yi − Y ) − 2 B1 ∑ (Yi − Y )( X i − X ) + B n n 2 i =1 2 1 i =1 S S = SYY − 2 XY S XY + S XX S = S XY 2 S XY − S XX = SYY 2 S XY 1 − S XX SYY 2 XY 2 XX ∑( X n i =1 i −X) 2 (5.3) S XX Definition Der Ausdruck 2 2 S XY S XX SYY n ∑ ( X i − X )(Yi − Y ) = R2 = n i =1 n 2 2 ∑ ( X i − X ) ∑ (Yi − Y ) i =1 (5.4) i =1 heisst Determinationskoeffizient der Stichprobe. Dessen Quadratwurzel R= S XY S XX SYY heisst Korrelationskoeffizient nach Bravais–Pearson. 194 (5.5) Eigenschaften von R 1.) R ist ein Mass für die lineare Abhängigkeit zwischen zwei Zufallsvariablen X und Y. 2.) Ferner gilt n ∑E 2 i i =1 ⇔ = SYY (1 − R 2 ) ≥ 0 (5.6) 0 ≤ R2 ≤ 1 ⇔ −1 ≤ R ≤ 1 3.) Falls alle Punkte exakt auf der Regressionsgeraden liegen und somit ein streng funktionaler Zusammenhang zwischen X und Y besteht, gilt n ∑E i =1 resp. 4.) 2 i = SYY (1 − R 2 ) = 0 (5.7) R2 = 1 Das Vorzeichen von R stimmt mit jenem der Kovarianz zwischen X und Y überein. y II I III IV y x x 195 Die Summanden ( xi − x )( yi − y ) innerhalb der Kovarianz sind für Punkte (xi, yi) in den Bereichen I und III positiv und in den Bereichen II und IV negativ. Die Regressionsgerade geht stets durch den Punkt ( X , Y ) . Im Falle einer steigenden Regressionsgeraden mit Punkten vornehmlich in den Bereichen I und III wird der Korrelationskoeffizient positiv, für fallende Geraden negativ. Dieser Zusammenhang folgt auch aus der folgenden Beziehung zwischen R und B1. R= 5.) S XY S XX SYY = S XY S XX S XX = B1 SYY S XX SYY (5.8) Im Gegensatz zu B1 ist R "symmetrisch" bezüglich X und Y. Wenn X und Y vertauscht werden, ändert zwar der Regressionskoeffizient B1, hingegen der Korrelationskoeffizient R nicht. Bezeichnet B1 X = S XY S XX (5.9) den Regressionskoeffizienten, falls Y aus X erklärt wird, und B1Y = S XY SYY (5.10) jenen, falls X aus Y erklärt wird, so gilt 2 S XY B1 X B1Y = = R2 S XX SYY 6.) 196 (5.11) R wird genau dann Null, wenn die Kovarianz zwischen X und Y verschwindet. Unkorrelierte Zufallsvariablen führen bei Stichprobenbeobachtungen tendenziell zu Kovarianzen in der Umgebung von Null. Man stellt fest, dass die quantitative Interpretation des Korrelationskoeffizienten Schwierigkeiten bereitet. In einer relativ komfortablen Situation befindet man sich im Falle von R2 = 0 sowie im Falle von R2 = 1. Falls R2 = 0, deutet dies auf unkorrelierte Zufallsvariablen hin, falls R2 = 1 folgert man einen "fast"–funktionalen, linearen Zusammenhang zwischen X und Y. Falls es sich bei X und Y um stochastisch unabhängige Zufallsvariablen handelt, wird sich R2 tendenziell in der Nähe von Null bewegen. Nur der Zufall ist für die Abweichungen von Null verantwortlich. 7.) Der Korrelationskoeffizient nach Bravais–Pearson n R= ∑(X i =1 n ∑(X i =1 i i − X )(Yi − Y ) − X) (5.12) n 2 ∑ (Y − Y ) 2 i i =1 ist nur im Falle eines linearen Zusammenhanges zwischen X und Y sinnvoll. Für nichtlineare Zusammenhänge existiert ein ähnliches Konzept. Danach wird analog zum Determinationskoeffizienten R2 das folgende Abhängigkeitsmass definiert n R2 = ∑ (Yˆ − Y ) 2 ∑ (Y − Y ) 2 i =1 n i =1 i (5.13) i wobei Yˆi den Schätzwert für Yi nach einer beliebigen Abbildungsvorschrift f bedeutet. Im allgemeinen Fall eignet sich dieses Mass für enge Beziehungen zwischen X und Y gemäss der Abbildungsvorschrift f. Liegen insbesondere sämtliche Punkte auf der Regressionskurve, so gilt analog zum Bravais–Pearson–Konzept R2 = 1. Nach dieser allgemeinen Definition besitzt R2 die Interpretation als Anteil des durch den Regressionsansatz erklärten Teils der Varianz an der gesamten Varianz. Setzt man für Y eine lineare Beziehung ein, so folgt 197 n R2 = ∑ (Yˆi − Y )2 i =1 n ∑ (Y − Y ) i =1 n = ∑ (B 0 i =1 SYY 2 i n = + B1 X i − Y ) 2 ∑ (Y − B X + B X 1 i =1 1 i (5.14) − Y )2 SYY = 2 1 B S XX SYY 2 S XY = S XX SYY Im Falle einer linearen Beziehung führt der allgemeine Ansatz also zum Konzept nach Bravais–Pearson. Daraus lässt sich eine weitere Interpretationsmöglichkeit für R2 ableiten. R2 ist demnach der durch die Regression erklärte Teil der Varianz (der Y–Werte) an der gesamten Varianz. y ( xi , yi ) yi yi − yˆi yi − y ŷ = b0 + b1 x yˆi − y y x xi x Für das Einführungsbeispiel der Regressionsrechnung erhält man folgende Resultate 198 n r= ∑ ( x − x )( y − y ) i i =1 i n = n ∑ (x − x ) ∑ ( y − y ) 2 i i =1 i =1 2 170.1 = 0.9579 433.6 ⋅ 72.725 i n r2 = ∑ ( yˆ − y ) 2 ∑ ( y − y) 2 i =1 n i =1 i (5.15) = 66.737 = 0.9176 72.725 i r 2 = b1 X b1Y = 0.3923 ⋅ 2.3389 = 0.9176 Durch die lineare Regression werden also 91.8% der Varianz der y–Werte erklärt. 5.2 Der Korrelationskoeffizient in der Grundgesamtheit Die Zufallsvariable R schätzt den wahren Korrelationskoeffizienten ρ der Grundgesamtheit, für welchen gilt ρ= Cov ( X , Y ) (5.16) σ Xσ Y Aus dieser Darstellung erkennt man den Korrelationskoeffizienten als Kovarianz der standardisierten Zufallsvariablen X und Y. ρ= E ( X − µ X )(Y − µY ) σ Xσ Y X − µ X Y − µY = E σ X σ Y (5.17) Es gilt (i) ρ XY = 0 ⇔ X und Y sind unkorreliert (ii) X , Y stochastisch unabhängig ⇒ ρ XY = 0 (5.18) 199 Beachte: Aus ρ XY = 0 folgt nicht zwingend die stochastische Unabhängigkeit von X und Y. Eine wichtige Ausnahme liegt vor, wenn X und Y gemeinsam normalverteilt sind. Dann impliziert das Verschwinden des Korrelationskoeffizienten stochastische Unabhängigkeit. ρ erscheint implizit als Funktionalparameter in der gemeinsamen Dichte. f XY ( x, y ) = 1 2π σ X σ Y 1− ρ 2 exp {− c} (5.19) mit 1 c= 2 (1 − ρ 2 ) x − µ 2 x − µ X y − µY X − 2 ρ σ X σ X σY 2 y − µY + (5.20) σ Y Für ρ = 0 kann die Dichte faktorisiert werden, woraus die stochastische Unabhängigkeit folgt. ρ ist ein Abhängigkeitsmass für lineare Zusammenhänge. Gilt für den Determinationskoeffizienten ρ 2 für 2 Zufallsvariablen X und Y, (welche jeweils eine positive Varianz besitzen), ρ2 =1 (5.21) so besteht zwischen ihnen eine linear funktionale Beziehung. Die umgekehrte Behauptung gilt ebenfalls. Mit Y = β 0 + β1 X + U ist 200 (5.22) E ( Y ) = β 0 + β1µ X = µY V (Y ) = β12σ X2 = σ Y2 Y − µ y = β 0 + β1 X − β 0 − β1 µ X = β1 ( X − µ X ) ( X − µ x ) ( Y − µ y ) = β1 ( X − µ X ) (5.23) 2 und damit Cov ( X , Y ) = β1 E ( X − µ X ) = β1σ X2 2 (5.24) sowie ρ XY = Cov ( X , Y ) σ XσY β1σ X2 = =1 σ X β1σ X (5.25) 5.3 Verteilung von R Die Verteilung der Schätzfunktion R für ρ in Abhängigkeit von n und ρ ist ausführlich tabelliert. Für grosse Werte von n (n $ 25) gilt die Approximation V= 1 1+ R ln ∼ N ( µV , σ V ) 2 1− R (5.26) mit 1 1+ ρ ln 2 1− ρ 1 σ V2 = V (V ) = n−3 µV = E (V ) = (5.27) V ist eine in ρ sensitive Zufallsvariable (Testgrösse) mit bekanntem Verteilungsgesetz. Damit kann das bekannte Instrumentarium zum Testen von Hypothesen (über ρ ) sowie 201 zur Konstruktion von Konfidenzintervallen eingesetzt werden. 5.3.1 Konfidenzintervall für ρ Mit Hilfe der standardisierten Variablen Z= V − E (V ) σV = 1 1+ R 1+ ρ − ln ln n − 3 ∼ N ( 0,1) 2 +−R 1− ρ (5.28) lässt sich infolge des bekannten Verteilungsgesetzes ein 100γ % –Konfidenzintervall für ρ berechnen. Zu gegebenem γ existiert ein Wert d γ so, dass P ( − dγ ≤ Z ≤ dγ ) = γ (5.29) Aus 1 1+ R 1+ ρ − ln P − dγ ≤ ln n − 3 ≤ dγ 2 1 1 ρ − − R 2 dγ 1+ R 1+ ρ 1+ R − ≤ ln ≤ ln + P ln 1− ρ 1− R n−3 1− R =γ 2 dγ =γ n−3 (5.30) bestimmt man zunächst für ln ein Konfidenzintervall der Form 202 1+ ρ 1− ρ (5.31) Konf = Konf = Konf 1+ ρ ln 1− ρ ln 1+ ρ 1− ρ 1+ ρ ln 1− ρ 2dγ 2 dγ 1+ R 1+ R , ln + ln 1 − R − =γ R 1 − n n 3 3 − − 2dγ 2 dγ ∗ ∗ R R , − + n−3 n−3 (5.32) R1∗ , R2∗ Die Konfidenzgrenzen für ρ folgen aus der Beziehung 1+ ρ P R1∗ ≤ ≤ R2∗ = γ 1− ρ e R1 − 1 e R2 − 1 ⇔ P R∗ ≤ ρ ≤ R∗ = γ e 1 +1 2 1 e + ∗ ∗ (5.33) und damit e R1 − 1 e R2 − 1 Konf ρ R∗ , R∗ =γ e 1 + 1 e 2 + 1 ∗ ∗ (5.34) Im Einführungsbeispiel gilt r = 0.9579, woraus für r1∗ bzw. r2∗ mit γ = 0.90 folgt 2 dγ 1+ r − = 3.8396 − 1.2435 = 2.5961 1− r n−3 2 dγ 1+ r r2∗ = ln + = 3.8396 + 1.2435 = 5.0831 1− r n−3 r1∗ = ln (5.35) e 2.5961 − 1 e5.0831 − 1 Konf ρ 2.5961 , 5.0831 +1 e + 1 e = Konf ρ [ 0.8612, 0.9877 ] = 0.90 203 5.3.2 Hypothesentest über ρ Für nicht zu kleine Werte von n (n $ 25) kann der Hypothesentest für ρ über die approximativ normalverteilte Zufallsvariable V aus Abschnitt 5.3.1 geführt werden. Von praktischer Bedeutung sind Fälle, bei denen im Hinblick auf Unkorreliertheit oder Unabhängigkeit getestet wird, ob der Korrelationskoeffizient zwischen X und Y wesentlich von Null abweicht. Wir betrachten speziell das Hypothesensystem H 0 : ρ = ρ0 = 0 H1 : ρ = ρ1 ≠ 0 (5.36) Unter H0 können einfachere Testgrössen betrachtet werden. Es gilt nämlich 1.) R2 ist betaverteilt mit den Parametern α = 1/2 und β = n / 2 − 1 . 2.) Die Testgrösse U= R 1 − R2 n − 2 ∼ Tn − 2 (5.37) ist eine t–verteilte Zufallsvariable mit n − 2 Freiheitsgraden. Diese zweite Beziehung gestattet eine sehr einfache Entscheidungsregel auf dem Signifikanzniveau α U ≥ t1−α / 2 E : falls U < t1−α / 2 ⇒ H 0 ablehnen ⇒ H 0 nicht ablehnen (5.38) Die Macht des Tests kann auf dieser Einführungsstufe nicht diskutiert werden. Wird der Test einseitig geführt, ist die Entscheidungsregel entsprechend anzupassen. Die obige Aussage über die Verteilung von R2 resp. von U setzt eine zweidimensionale Normalverteilung von (X,Y) voraus. Mit dem obigen Test wird somit gleichzeitig die Unabhängigkeit von X und Y überprüft! 204 5.4 Rangkorrelation 5.4.1 Rangkorrelationskoeffizient der Stichprobe Das bekannteste Mass, um den Grad der linearen Abhängigkeit von 2 Zufallsvariablen zu messen, ist der Korrelationskoeffizient R von Bravais–Pearson. Für eine Stichprobe ( X 1 , Y1 )( X 2 , Y2 ) ,… , ( X n , Yn ) gilt bekanntlich n R= ∑(X i =1 n ∑(X i =1 i i − X )(Yi − Y ) − X) (5.39) n 2 ∑ (Y − Y ) i =1 2 i Dieses Mass R enthält im wesentlichen die Kovarianz der (standardisierten) Zufallsvariablen X und Y. Es hat jedoch einige entscheidende Nachteile: • Beide Variablen müssen mindestens auf dem Intervallniveau messbar sein. • R ist nicht invariant gegenüber beliebigen, monotonen Transformationen (z. B. x, log x, x , x2, ex etc.). Ein einfaches Abhängigkeitsmass, das nur Ordinaldaten voraussetzt und invariant ist unter ordnungserhaltenden Transformationen, ist der sog. Rangkorrelationskoeffizient. Beispiel Bei einem Konsumentenreport wird das zu testende Produkt 5 Qualitätsstufen zugeteilt. Für jede Qualitätsstufe wird ein mittlerer Preis bestimmt. Es wurden folgende Daten festgestellt: Qualitätsstufe X mittlerer Preis Y 1 2 3 4 5 300 250 180 200 210 205 Man stellt eine positive 'Korrelation' zwischen X und Y fest. Obschon die Übereinstimmung nicht perfekt ist, so ist doch mit hohen Preisen tendenziell gute Qualität verbunden, genauso umgekehrt. Rangiert man die mittleren Preise ebenfalls, so erhält man Qualitätsstufe Durchschnittspreis 1 2 3 4 5 1 2 5 4 3 Mit den Bezeichnungen Ri : Si : Rang von Xi (unter allen X) Rang von Yi (unter allen Y) erscheint es vernünftig, als Basis zur Beurteilung des Zusammenhanges die Grössen Di = Ri − S i (5.40) einzuführen. Bei perfekter Übereinstimmung beider Rangfolgen gilt n ∑D i =1 2 i =0 (5.41) Das andere Extrem, nämlich exakte Umkehrung der Reihenfolge ergibt dann im obigen Beispiel 206 ri si d i2 1 2 3 4 5 5 4 3 2 1 16 4 0 4 16 n ∑d i =1 2 i 40 Zwischen diesen beiden Extrema (0 und 40) liegen alle möglichen quadrierten summierten Rangdifferenzen. Basierend auf der Quadratsumme n ∑d i =1 2 i (5.42) wollen wir nun ein Abhängigkeitsmass rs so definieren, dass folgende Bedingungen erfüllt sind: n 1.) rs ist eine abnehmende Funktion von ∑d i =1 2 i . 2.) rs = 1 bei exakter Übereinstimmung der Rangfolgen 3.) rs = −1 für exakt gegenläufige Rangfolgen Für rs erweist sich der Ansatz n rs = A + B ∑ d i2 (5.43) i =1 als zweckmässig, wobei A und B so zu bestimmen sind, dass die obigen Bedingungen eingehalten werden. 207 Gemäss Bedingung 2 gilt bei perfekter Übereinstimmung rs = 1 n ⇒ A =1 2 di = 0 ∑ i =1 (5.44) Gemäss Bedingung 3 gilt bei exakt gegenläufigen Rangfolgen rs = − 1 −2 n ⇒ B= M d i2 = M ∑ i =1 (5.45) wobei n M = max ∑ d i2 (5.46) i =1 Der Wert von M ergibt sich aus folgender Überlegung ri 1 2 ... i ... n si n n −1 ... n − i +1 ... 1 di 1− n 2 − n +1 n n M = ∑ d = ∑ ( i − ( n − i + 1) ) i =1 2 i Durch Einsetzen von 208 i =1 i − ( n − i + 1) 2 n −1 2 n ( n 2 − 1) n +1 = 4∑i − = 2 3 i =1 n (5.47) B= −2 −6 = M n ( n 2 − 1) (5.48) folgt schliesslich das gesuchte Mass n rs = 1 − 6 ∑ d i2 (5.49) i =1 2 n ( n − 1) Im Einführungsbeispiel ist rs = 1 − 6 ⋅8 = 0.6 5 ⋅ 24 (5.50) Die Beziehung zwischen dem gewöhnlichen Korrelationskoeffizienten nach Bravais–Pearson und dem Rangkorrelationskoeffizienten zeigt der folgende Satz. Satz: Der Rangkorrelationskoeffizient rs stimmt mit den Korrelationskoeffizienten nach Bravais–Pearson zwischen den Rängen überein n rs = ∑ ( R − R )( S i i =1 n i −S) (5.51) n ∑ ( R − R ) ∑ (S 2 i =1 i i =1 i − S )2 5.4.2 Verteilung von Rs bei Unabhängigkeit Es sind 2 Fälle zu unterscheiden, nämlich 1.) Die Stichprobenwerte selber sind Ränge (Ri, Si). 209 2.) Die Stichprobenwerte sind Realisationen einer zweidimensionalen Zufallsvariablen (X,Y), welchen erst im nachhinein die Ränge (Ri, Si) zugeordnet werden. Fall 1 Bei Unabhängigkeit besitzen alle y–Ränge für jeden x–Rang dieselbe Wahrscheinlichkeit und umgekehrt. Fall 2 Den Elementen der zweidimensionalen Zufallsvariablen (X,Y) mit der gemeinsamen Wahrscheinlichkeits– bzw. Dichtefunktion fXY werden erst nach erfolgter Stichprobenziehung Ränge zugeordnet. Sind X und Y unabhängig, d.h. f XY ( x, y ) = f X ( x ) fY ( y ) , so kann man zeigen, dass die Ränge von (Xi,Yi) auch die für Fall 1 dargestellte Gleichwahrscheinlichkeit besitzen. Werden die ( X i , Yi ) , i = 1,… , n , auf die Ränge abgebildet, so sind alle Rangfolgen von X und auch von Y gleichwahrscheinlich. Aus der Tatsache, dass bei Unabhängigkeit alle n! unterscheidbaren Rangpaarmöglichkeiten dieselbe Wahrscheinlichkeit 1/n! besitzen, ist die Verteilung von Rs bekannt. Bezeichnet u rs die Gesamtheit der möglichen Rangordnungen mit Rs = rs, so erhält man f Rs ( rs ) = urs (5.52) n! Die Verteilung von Rs ist unter H0 (Unabhängigkeit von X und Y) symmetrisch um den Wert 0. Rs nimmt den Wert 0 nur bei geradzahligem Stichprobenumfang an. Die enumerative Bestimmung von f Rs ist praktisch aber schon bei kleinen Werten von n sehr mühsam, obschon wegen der Symmetrie nur die Hälfte aller n! Permutationen benötigt werden. 210 Beispiel n=3 x–Rang y–Ränge 1 2 3 1 2 3 1 3 2 2 1 3 2 3 1 3 1 2 3 2 1 0 2 2 6 6 8 n ∑d i =1 2 i n ∑d 2 i 8 6 2 0 rs -1 -0.5 0.5 1 f Rs 1/6 2/6 2/6 1/6 i =1 5.4.3 Erwartungswert und Varianz von Rs bei Unabhängigkeit Bei Unabhängigkeit der beiden Rangfolgen gilt der Satz E ( Rs ) = 0 V ( Rs ) = 1 n −1 (5.53) 211 Beweis n 2 − 6 ( R S ) ∑ i i E ( Rs ) = E 1 − i =1 2 − n n 1 ( ) n 2 2 6 ∑ ( Ri − 2 Ri Si + Si ) = E 1 − i =1 2 n ( n − 1) n n ( n + 1)( 2n + 1) − 2 ∑ Ri Si 6 2 6 i =1 = E 1 − 2 n ( n − 1) (5.54) n = 1− 2n ( n + 1)( 2n + 1) − 12 ∑ E ( Ri ) E ( Si ) i =1 n ( n + 1)( n − 1) 2 ( ) + n 1 2n ( n + 1) ( 2n + 1) − 12n 4 = 1− n ( n + 1)( n − 1) 2 ( 2n + 1) − 3 ( n + 1) = 1− n −1 =0 Auf den Beweis der Varianz von Rs wird verzichtet. Die algebraischen Umformungen sind noch umfangreicher als beim Erwartungswert von Rs. 5.4.4 Asymptotische Verteilung von Rs Ohne Beschränkung der Allgemeinheit darf man annehmen, dass die Ränge von X in aufsteigender Reihenfolge vorliegen. Für Rs erhält man dann die Darstellung n 12 3 ( n + 1) Rs = i S − ∑ i n −1 n ( n 2 − 1) i =1 (5.55) Die Verteilung von Rs hängt im wesentlichen nur noch von der Linearkombination 212 n ∑i S i =1 i ab. Von dieser Linearkombination kann man zeigen, dass sie asymptotisch einer Normalverteilung genügt. Für grosse Werte von n (n > 10) gilt approximativ 1 Rs ∼ N 0, n −1 (5.56) 5.4.5 Test auf Unabhängigkeit Bei Unabhängigkeit gilt rs = 0. Als Verwerfungsbereich wählt man deshalb absolut grosse Werte von rs bei der allgemeinen Alternative „X, Y nicht unabhängig“ oder grosse (bzw. kleine) Werte von rs bei Alternativen von positiver (negativer) Abhängigkeit. Wird H0 nicht abgelehnt, so entscheiden wir uns für rs = 0. Andererseits garantiert aber Abhängigkeit nicht schlechthin rs =/ 0. rs ist ein Abhängigkeitsmass für die Ränge (und nicht für die ursprünglichen Daten). Die obigen Ausführungen über Erwartungswert und Varianz sowie über die Verteilung von Rs gelten nur bei Unabhängigkeit, d. h. unter H0. Man darf deshalb auch keine allgemeinen Konfidenzintervalle (z. B. für Rs oder E(Rs)) berechnen. 213 214 LITERATURVERZEICHNIS Bamberg G., Baur F. Statistik. Oldenbourg, 2002 Bohley P. Einführendes Lehrbuch für Wirtschafts- und Sozialwissenschaftler. 7. A., Oldenbourg, 2000 Bomsdorf E. Induktive Statistik: eine Einführung. 4. A., Oldenbourg, 1989 Büning H., Trenkler G. Nichtparametrische Statistische Methoden. Verlag de Gruyter, 2. A., 1994 Hartung J. Statistik, Lehr- und Handbuch der angewandten Statistik. Oldenbourg, 2002 Kreyszig E. Statistische Methoden und ihre Anwendungen. 7. A., Vandenhoeck & Ruprecht, 1991 (Nachdruck) Lehmann E.L. Testing Statistical Hypotheses. 2. A., Wiley, 1986 Mattei A. Inférence et Décision Statistiques. Théorie et Application à la Gestion des Affaires. 3. A., Peter Lang, 2000 Mood A.M., Graybill F.A., Boes D.C. Introduction to the Theory of Statistics. 3. A., Mc Graw-Hill, 1974 Neter J., Wasserman W., Whitmore G.A. Applied Statistics. Allyn and Bacon, 1992 Schaich E., Köhle D., Schweitzer W., Wegner F. Statistik II für Volkswirte, Betriebswirte und Soziologen. 3. A., Vahlen, 1990 Spiegel M. Schaum‘s Outline of Theory and Problems of Probability and Statistics. Mc Graw-Hill, 2000 Spiegel M. Schaum‘s Outline of Theory and Problems of Probability and Statistics. Statistik, Überblicke und Aufgaben, Mc Graw-Hill, 2000 215 INDEX Achsenabschnitt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141, 143, 160 Allgemeiner Likelihoodquotient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114, 115 Alternativhypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Analyse der Residuen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 Autokorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22, 26, 27, 30, 31 Bindungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135, 139 Bravais-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 χ 2 –Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 χ 2 –Unabhängigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 Determinationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 Effizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Entscheidungsregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Erwartungstreue Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Faktorisierungssatz von Neyman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Fehlentscheide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 Fehler 2. Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 Fehler 1. Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 Genauigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Grundgesamtheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Intervallschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Kolmogoroff-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Konfidenzintervall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165, 202 Konfidenzkoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 Konsistent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 Konsumentenrisiko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 Korrelationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 Leverage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 Likelihood-Quotienten Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 Likelihoodprinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Lilliefors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Macht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62, 69 Macht des Zeichentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 Mean squared error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 216 Minimum-Quadrat-Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Minimumquadratschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 Nichtlineare Regressionsansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 Nichtparametrische Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 Nullhypothese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Operationscharakteristik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 Produzentenrisiko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Punktschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Qualitätskontrolle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 Rangkorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141 Regressionskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 Repräsentativ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Sicherheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 Standard error of estimate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163 Standardfehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4, 6 Stichprobenfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 Stichprobenraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Stichprobenumfang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Suffizienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Test auf Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Theorem von Neyman und Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110, 121, 130 Varianzinhomogenität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167 Verbundene Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 Vergleich von r Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Verteilungsunabhängige Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 Vollerhebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Vorzeichen-Rangtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 Zusammengesetzte Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 217 Verlag Wilhelm Surbir Betten 10 · CH-9303 Wittenbach / SG Tel. und Fax +41 (0)71 298 36 16 E-Mail [email protected] · Internet www.surbir.ch Lieferbare Titel Allgoewer, Elisabeth, Dr. Ökonomische Theoriebildung und Zeit. Eine methodenkritische Analyse anhand ausgewählter Arbeiten J.R. Hicks', 1992 (St. Galler Dissertation), Fr. 42.00 Bartmann, Hermann, Prof. Dr. Allokationstheorie. Vorlesung, 2. Auflage 1993, Fr. 25.00 Bartmann, Hermann, Prof. Dr. und Borchers, Henning, Dr. Preistheorie. Vorlesung, 5. Auflage 1992 (unveränderter Nachdruck 1994), Fr. 30.00 Bartmann, Hermann, Prof. Dr. und John, Klaus-Dieter, Prof. Dr. Grundkonzeptionen der Konjunktur- und Wachstumsanalyse. Beiträge zur Wirtschaftstheorie Band 1, Klassik, Neoklassik, Keynes und Keynesianismus, 4. Auflage 1994, Fr. 20.00 Band 2, Monetaristisch-neoklassische Position und Supply-Side-Ökonomien, 4. Auflage 1994, Fr. 20.00 Band 3, Postkeynesianismus, 4. Auflage 1994, Fr. 20.00 Bartmann, Hermann, Prof. Dr., Busch, Andreas A., Diplom-Volkswirt und Schwaab, Jan A., Diplom-Volkswirt, Preis- und Wettbewerbstheorie. Vorlesung, 6. Auflage 1999, Fr. 45.00 Beljean, Tobias, Dr. u.a. Mikroökonomik II. Übung zur Mikroökonomik, 10. Auflage 2001, Fr. 20.00 [aktualisierte Online-Version unter http://www.surbir.ch/index.html] Borchers, Henning, Dr. Regulierte Strommärkte. Ein Beitrag zur (De-)Regulierungsdebatte in der Elektrizitätswirtschaft, 1994 (Mainzer Dissertation), Fr. 39.00 2 Lieferbare Titel, Stand: 25. Oktober 2004 Brauchlin, Emil, Prof. Dr., Schips, Bernd, Prof. Dr., Stier, Winfried, Prof. Dr. und Studer, HansPeter, Dr. Statistische Methoden. Ihr sachgerechter Einsatz in der empirischen Wirtschafts- und Sozialforschung. Ein Kompendium, 3. Auflage 1987, Fr. 33.00 Einführung in die Wissenschaftstheorie für Nationalökonomen. Verfaßt von der Volkswirtschaftlichen Abteilung des Doktorandenseminars für Wissenschaftstheorie an der Hochschule St. Gallen Band 1, hrsg. v. Prof. Dr. Walter Adolf Jöhr in Zusammenarbeit mit Dr. Gerhard Schwarz, 1979, Fr. 33.00 Band 2, hrsg. v. Prof. Dr. Walter Adolf Jöhr und Prof. Dr. Bernd Schips in Zusammenarbeit mit Dr. Gerhard Schwarz, 1980, Fr. 16.00 Filitti, Constantin A., Dr. Portfolio Selection in Continuous Time, 2004 (St. Galler Dissertation), Fr. 40.00 Föller, Alex, Dr. Umwelthaftungsrecht und Schadensprävention. Eine ökonomische Analyse der Haftung für Umweltschäden unter Einbeziehung juristischer, ökologischer und versicherungstheoretischer Aspekte, 1994 (Mainzer Dissertation), Fr. 45.00 Frenkel, Michael, Prof. Dr. Einführung in die Makroökonomik offener Volkswirtschaften, 2. Auflage 1993 (unveränderter Nachdruck 1995), Fr. 39.50 Gauglhofer, Margrit, Prof. Dr. und Müller, Heinz, Prof. Dr. Mathematik für Oekonomen Band 1, 14. Auflage 2004, Fr. 36.00 Band 2, 13. Auflage 2004, Fr. 20.00 Guyer, Philipp, Dr. Der „Non-Market-Clearing“-Ansatz der Ungleichgewichtstheorie und seine Anwendung auf das keynesianische makroökonomische Standardmodell, 1981 (St. Galler Dissertation), Fr. 37.00 John, Klaus-Dieter, Prof. Dr. Verteilungskonflikte, Inflation und Beschäftigung. Ungleichgewichtsökonomische Ansätze und sozialwissenschaftliche Erweiterungen, 1982 (Mainzer Dissertation), Fr. 44.00 KANTIge Worte und Sprueche aus berufenem Munde, von den Traegern eben derselben autorisiert und zurecht gerueckt. Zu Nutzen und Frommen nachfolgender Schuelergenerationen gesammelt an der hochwohlloeblichen und ehrbaren mathematischen Abteilung der Kantonsschule St. Gallen von deren ehemaligen Zoeglingen Carola und Matthias Reetz, 1986, Fr. 12.00 Lieferbare Titel, Stand: 25. Oktober 2004 3 Keel, Alex, Prof. Dr. Statistik Band 1, Beschreibende Statistik, 15. Auflage 2000, Fr. 21.00 Band 2, Wahrscheinlichkeit, 14. Auflage 2000, Fr. 23.00 Band 3, Induktive Statistik, 15. Auflage 2000, Fr. 23.00 Kippel-Chronik 1991-2001, hrsg. v. Christian Reetz und Christian Strehlau, 2001, Fr. 18.00 Knecht, René, Dr. Die Humankapitaltheorie als Ansatz zur Erklärung der personellen Arbeitseinkommensverteilung, 1988 (St. Galler Dissertation), Fr. 42.00 Koch, Christine, Dr. Wachstum und Einkommensverteilung in postkeynesianischen Ansätzen, 1999 (Mainzer Dissertation), Fr. 48.00 Matthes, Rainer, Dr. Zur ökonometrischen Spezifikation von Beschäftigungsfunktionen. Eine empirische Untersuchung für die BR Deutschland, 1991 (Mainzer Dissertation), Fr. 42.00 Von Musen, Müttern und der Mathematik: Frauen(an)sichten, hrsg. von Annabeth Naef-Hinderling und Johanna Schönenberger-Deuel, 1998, Fr. 20.00 Räth, Norbert, Dr. Die Zwangsanleihe als finanzpolitisches Instrument, 1980 (Mainzer Dissertation), Fr. 39.50 Reetz, Axel, Dr. Die Entwicklung der Parteiensysteme in den baltischen Staaten. Vom Beginn des Mehrparteiensystems 1988 bis zu den dritten Wahlen, 2004 (Berliner Dissertation), Fr. 54.00 Reetz, Gesine, Sozialarbeiterin (grad.) Rückfallprognose in der Bewährungshilfe. Eine Untersuchung anhand von Erfahrungen mit Probanden der Reutlinger Bewährungshilfe 1960-1971, 1979, Fr. 10.00 Reetz, Norbert, Prof. Dr. Symbole. Das griechische Alphabet und mathematische Symbole für WordPerfect und einen grafikfähigen Drucker, Version 6, 1986 vergriffen [Online-Version unter http://www.surbir.ch/index.html] 4 Lieferbare Titel, Stand: 25. Oktober 2004 Konjunktur und Wachstum. Eine Einführung in die reale Theorie. Vorlesung, 5. Auflage 1987, Fr. 20.00 [aktualisierte Online-Version unter http://www.surbir.ch/index.html] Produktionstheorie. Vorlesung, 2. Auflage 1989, Fr. 20.00 [aktualisierte Online-Version unter http://www.surbir.ch/index.html] Grundzüge der makroökonomischen Theorie. Vorlesung, 5. Auflage 1990, Fr. 30.00 [aktualisierte Online-Version unter http://www.surbir.ch/index.html] Grundzüge der mikroökonomischen Theorie. Vorlesung, 5. Auflage 1991, Fr. 30.00 Einführung in die mikroökonomische Theorie. Vorlesung, 10. Auflage 2001, Fr. 28.00 [aktualisierte Online-Version unter http://www.surbir.ch/index.html] Anhang zu „Einführung in die mikroökonomische Theorie. Vorlesung (10. Auflage 2001)“. Klausuren. Aufgaben und Lösungen, 2. Auflage 2001, 20.00 Fr. [aktualisierte Online-Version unter http://www.surbir.ch/index.html] Grundlagen der mikroökonomischen Theorie. Vorlesungen. Online-Publikation Version 12, September 2004 [http://www.surbir.ch/index.html] Reine Theorie der Außenwirtschaft. Vorlesung, 1995, Fr. 40.00 [aktualisierte Online-Version unter http://www.surbir.ch/index.html] Schierjott, Alexander, Dr. Mengenrationierung und Arbeitsmarkt. Theoretische Untersuchungen und empirische Ergebnisse für die Bundesrepublik Deutschland, 1984 (Mainzer Dissertation), Fr. 29.00 Schilling, Günter, Dr. Rationale Erwartungen in makroökonomischen Modellen, 1987 (Mainzer Dissertation), Fr. 35.00 Schindler, Rosemarie, Dr. Die Marktpolitik des Roheisenverbandes während der Weimarer Republik, 1978 (Tübinger Dissertation), Fr. 39.20 Schlotjunker, Stefan, Dr. The Constructed Evolution of Technology. A Constructivist-Evolutionary Approach to Technological Change and its Empirical Evidence, 1994 (St. Galler Dissertation), Fr. 42.00 Lieferbare Titel, Stand: 25. Oktober 2004 5 Schmidt, Joachim, Dr. Regionales Konsumverhalten. Theoretische Überlegungen und empirische Ergebnisse für ausgewählte Bundesländer der Bundesrepublik Deutschland, 1987 (Mainzer Dissertation), Fr. 42.00 Schmidt, Norbert, Dr. Investorenverhalten und konjunkturelle Stabilität, 1987 (Mainzer Dissertation), Fr. 42.00