Keel, Alex, Statistik III. Induktive Statistik, 16. Auflage, Wittenbach/SG

STATISTIK III
INDUKTIVE STATISTIK
von
Alex Keel
16. Auflage
2004
Verlag Wilhelm Surbir Wittenbach/St. Gallen
Vorlesung an der Universität St. Gallen - Hochschule für Wirtschafts-, Rechts- und
Sozialwissenschaften (HSG)
Alle Rechte vorbehalten
©
2004
Prof. Dr. Alex Keel, Bodanstrasse 6, CH-9000 St. Gallen,
Tel. ++41 / 71 / 224 24 31, Fax. ++41 / 71 / 224 28 94
Verlag Wilhelm Surbir, Betten 10, CH-9303 Wittenbach,
Tel. und Fax. ++41 / 71 / 298 36 16
Vorwort
Der vorliegende Band Statistik III Induktive Statistik ist der dritte Teil der Vorlesungsunterlagen zur Einführung in die Statistik an der Universität St.Gallen. Der vorlesungsbegleitende Text soll den ersten anwendungsbezogenen Einstieg in die Grundlagen der
Statistik erleichtern. Er baut auf den beiden Bänden Statistik I Beschreibende Statistik
und Statistik II Wahrscheinlichkeitstheorie auf. Da sich der Text an Studierende der
Wirtschaftswissenschaften richtet, wurde bewusst der intuitiven Anschauung Vorrang
vor der formalen Strenge gewährt. Neben einem ersten Ziel, nämlich dem Umgang mit
zufälligen Phänomenen, wurde weiter versucht, notwendige Grundlagen für die quantitative Ökonomie und Finanzmarkttheorie bereitzustellen.
Die Theorie wurde soweit als möglich mittels praktischer Beispiele eingeführt und
dargestellt. Zur eigenen Beurteilung über den persönlichen Fortschritt verfügen die
Studierenden über eine ausführliche Beispielsammlung mit Kurzlösungen.
Gerne benutze ich die Gelegenheit zum Dank an alle, welche zur Herausgabe des
Skriptums beigetragen haben. Stefan Ott, Dipl.-Math.oec. und Reto Leibundgut, lic.oec.
waren mir wertvolle Diskussionspartner sowohl in inhaltlicher als auch in formaler
Hinsicht. Ohne ihre Hilfe wäre die vorliegende überarbeitete und ergänzte Auflage nicht
möglich geworden.
Ganz herzlich danke ich einmal mehr Marie-Claire Baumann. Sie hat die Tücken bei der
Gestaltung formaler Texte mit stets sich wandelnder Software meisterhaft bewältigt.
Ebenso weiss ich ihre Geduld und ihre Bereitschaft, auf immer neue Wünsche einzugehen, sehr zu schätzen.
i
INHALTSVERZEICHNIS
EINLEITUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1. GRUNDGESAMTHEIT - STICHPROBE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1 Zufällige Auswahlverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Stichprobenraum , Stichprobenfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Verteilung von Stichprobenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2. SCHÄTZTHEORIE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1 Punktschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.1.1 Intuitiv heuristische Ansätze für Schätzfunktionen . . . . . . . . . . 14
2.1.2 Erwartungstreue Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . 16
2.1.3 Effiziente Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.4 Suffizienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.5 Konsistente Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.6 Mean squared error (MSE) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.1.7 Methoden zur Konstruktion von Schätzfunktionen . . . . . . . . . . 31
2.1.8 Die Momentenmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.9 Die Maximum–Likelihood–Methode . . . . . . . . . . . . . . . . . . . . 32
2.2 Intervallschätzungen – Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . 42
2.2.1 Konfidenzintervall für den Mittelwert µ einer normalverteilten
Grundgesamtheit bei bekannter Varianz σ 2 . . . . . . . . . . . . . . 43
2.2.2 Konfidenzintervall für den Mittelwert µ einer normalverteilten
Grundgesamtheit bei unbekannter Varianz σ 2 . . . . . . . . . . . . 47
2.2.3 Konfidenzintervall für den Mittelwert µ bei beliebig verteilten
Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.2.4 Konfidenzintervall für die Varianz einer normalverteilten Grundgesamtheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
2.2.5 Konfidenzintervall für p der Binomialverteilung . . . . . . . . . . . 51
2.2.6 Konfidenzintervall für λ der Poissonverteilung . . . . . . . . . . . . . 55
3. TESTEN VON HYPOTHESEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.1 Einführungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.2 Formulierung von Null- und Alternativhypothesen . . . . . . . . . . . . . . . . 64
3.3 Der Einfluss des Stichprobenumfangs . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4 Der allgemeine Test für den Mittelwert einer Normalverteilung bei bekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
ii
3.5 Test für den Mittelwert einer Normalverteilung bei unbekannter Varianz σ 2
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
3.6 Test für die Varianz σ 2 einer Normalverteilung . . . . . . . . . . . . . . . . . .
3.7 Vergleich der Mittelwerte zweier Normalverteilungen . . . . . . . . . . . . .
3.7.1 Vergleich bei bekannter Varianz . . . . . . . . . . . . . . . . . . . . . . . .
3.7.2 Vergleich bei unbekannter Varianz . . . . . . . . . . . . . . . . . . . . . .
3.8 Vergleich der Varianzen zweier Normalverteilungen . . . . . . . . . . . . . . .
3.9 Querverbindung zur Theorie der Konfidenzintervalle . . . . . . . . . . . . . .
75
77
77
80
83
87
3.10 Chi–Quadrat Test ( χ 2 –Test) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.10.1 Der χ 2 –Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.10.2 Der χ 2 –Unabhängigkeitstest in Kontingenztafeln
98
3.10.3 Vergleich von r Stichproben in einer Kontingenztafel . . . . . 101
3.11 Test auf Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.12 Likelihood–Quotiententest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
3.12.1 Einfache Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
3.12.2 Theorem von Neyman und Pearson . . . . . . . . . . . . . . . . . . . . 110
3.12.3 Zusammengesetzte Hypothesen . . . . . . . . . . . . . . . . . . . . . . . 114
3.13 Verteilungsunabhängige Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 121
3.13.1 Mediantest für den 1–Stichprobenfall . . . . . . . . . . . . . . . . . . 122
3.13.2 Mediantest für eine Differenzvariable im Zweistichprobenfall
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
3.13.3 Der Vorzeichen-Rangtest von Wilcoxon für zwei verbundene
Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4. REGRESSIONSANALYSE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1 Das lineare Modell der Einfachregression . . . . . . . . . . . . . . . . . . . . . .
4.2 Minimumquadratschätzungen von β0 und β1 . . . . . . . . . . . . . . . . . . . . .
4.3 Eigenschaften der Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . .
141
141
145
150
4.4 Schätzfunktion für σ U2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154
4.5 Maximum–Likelihood–Schätzungen . . . . . . . . . . . . . . . . . . . . . . . . . .
4.6 Verteilung der Schätzfunktionen B0 und B1 . . . . . . . . . . . . . . . . . . . . .
4.7 Hypothesentest und Konfidenzintervalle für β0 und β1 . . . . . . . . . . . . .
4.7.1 Konfidenzintervalle für β0 und β1 . . . . . . . . . . . . . . . . . . . . . . .
4.7.2 Hypothesentest für β1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8 Bedingtes Konfidenzintervall für Y bei gegebenem x0 . . . . . . . . . . . . .
4.9 Verletzung der Voraussetzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9.1 Varianzinhomogenität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9.2 Autokorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9.3 Test auf Autokorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
157
158
160
160
161
165
167
167
169
172
iii
4.9.4 Statistische Eigenschaften der Residuen . . . . . . . . . . . . . . . . .
4.9.5 Graphische Darstellung der Residuen . . . . . . . . . . . . . . . . . . .
4.9.6 Leverage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9.7 Studentized Residuals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.9.8 Test auf Unkorreliertheit der Residuen . . . . . . . . . . . . . . . . . .
4.10 Nichtlineare Regressionsansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
176
177
179
182
183
185
5. KORRELATIONSRECHNUNG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.1 Der Korrelationskoeffizient nach Bravais–Pearson . . . . . . . . . . . . . . .
5.2 Der Korrelationskoeffizient in der Grundgesamtheit . . . . . . . . . . . . . .
5.3 Verteilung von R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.3.1 Konfidenzintervall für ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
193
193
199
201
202
5.3.2 Hypothesentest über ρ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204
5.4 Rangkorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5.4.1 Rangkorrelationskoeffizient der Stichprobe . . . . . . . . . . . . . .
5.4.2 Verteilung von Rs bei Unabhängigkeit . . . . . . . . . . . . . . . . . . .
5.4.3 Erwartungswert und Varianz von Rs bei Unabhängigkeit . . . .
5.4.4 Asymptotische Verteilung von Rs . . . . . . . . . . . . . . . . . . . . . .
5.4.5 Test auf Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
205
205
209
211
212
213
LITERATURVERZEICHNIS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
INDEX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
iv
3. TEIL - I N D U K T I V E S T A T I S T I K
EINLEITUNG
In der Einführungsvorlesung Statistik I wurden neben der Indexrechnung Probleme der
Erfassung, Aufbereitung, Darstellung und Auswertung von Daten diskutiert. Über eine
geeignete Konzentration des verfügbaren Urmaterials wurde versucht, die wesentlichen
Merkmale eines interessierenden Sachverhalts aus den Daten herauszuarbeiten. In erster
Linie benutzte man dazu Häufigkeitsverteilungen und daraus abgeleitete Parameter wie
Mittelwerte und Streuungsmasszahlen.
In der Vorlesung Statistik II stand die Wahrscheinlichkeitstheorie im Zentrum. Aufbauend auf einer primär intuitiven Vorstellung des Wahrscheinlichkeitsbegriffes wurden
Methoden zur formalen Beschreibung von Zufallsexperimenten dargestellt. Zu diesem
Zweck wurde das Konzept einer "zufälligen Variablen" entwickelt und formalisiert. Mit
einer Auswahl der wichtigsten diskreten und stetigen Verteilungen konnten jene Hilfsmittel bereitgestellt werden, welche den nun darzulegenden Schulterschluss zwischen
Theorie und Praxis erst ermöglichen.
Im Zentrum der Vorlesung Statistik III steht die induktive Statistik. Die Konzepte der
beschreibenden Statistik werden insofern ergänzt, als das Informationspotential einer
Stichprobe nicht nur dargestellt, sondern zur Bewältigung von Ungewissheitssituationen
einer darüberliegenden Grundgesamtheit verwendet wird.
In aller Regel verfügt man nicht über sämtliche Informationen einer Gesamtheit, über
die man eine Aussage machen möchte. Ein Annahmekontrolleur kann entweder aus
zeitlichen, sachlichen oder finanziellen Gründen nur einen Teil einer ganzen Lieferung
überprüfen. Trotzdem muss er sich entscheiden, ob er die ganze Lieferung annehmen
will oder nicht.
Im Rahmen der induktiven Statistik steht die Frage im Zentrum, inwiefern aus einer
zufällig ausgewählten Teilmenge Rückschlüsse auf die hinter dieser Teilmenge liegende
Gesamtheit gezogen werden können. Die Entscheide aus der Stichprobe auf die Grundgesamtheit sind unter unvollständiger Information zu fällen. Dieses Charakteristikum
der Unsicherheit kann mit noch so raffinierten, statistischen Methoden nicht beseitigt
werden. Die Statistik lehrt nur, wie die Unsicherheit quantifiziert werden kann. Mit
zufallsbedingten Teilinformationen können nie Beweise geführt werden. Wenn also der
Statistik nachgesagt wird, dass sie mit richtigen Zahlen Falsches und mit falschen
Zahlen Richtiges beweise, so wird ihr Unmögliches unterstellt.
1
1. GRUNDGESAMTHEIT - STICHPROBE
Statistische Analysen erfolgen mit dem Zweck, Aussagen über eine wohldefinierte
Menge von Untersuchungseinheiten zu machen. Bei der Formulierung des Untersuchungszieles ist neben den zu erhebenden Merkmalen insbesondere auch die Menge der
potentiellen Merkmalsträger festzulegen.
Beispiel
Untersuchungsziel:
Untersuchungseinheiten:
Untersuchungsmerkmale:
Konsumgewohnheiten
Haushalte einer Stadt mit 4 Personen
• Einkommen
• Ausgaben für Steuern, Versicherungen, Reisen,
Essen, usw.
Definition
Unter der Grundgesamtheit Ω bezüglich eines Untersuchungsziels versteht man die
Menge der möglichen Untersuchungseinheiten.
Beispiele
1.)
Beschäftigte eines Betriebes
2.)
Tagesproduktion einer Maschine
3.)
Zeitpunkte eines Tages
4.)
Träger einer bestimmten Krankheit
5.)
Ziehungen von Lottozahlen
Zur vollständigen Definition von Ω gehört eine eindeutige Vorschrift, welche für alle
Beobachtungseinheiten festlegt, ob sie zu Ω gehören oder nicht.
Die Anzahl Elemente von Ω kann endlich (1,2,4) oder unendlich (3,5) sein. Betrachtet
man im Beispiel 5 sämtliche bisherigen Ziehungen, so ist die Grundgesamtheit endlich
und konkret. Lässt man hingegen die zeitliche Limitierung fallen, so entwickelt sich Ω
erst im Laufe der Zeit mit einer stets wachsenden Anzahl von Elementen (Ziehungen).
Wir beschränken uns auf den einfachen Fall, dass nur ein einziges Merkmal bei den
Elementen von Ω untersucht werden soll. Bei den Beschäftigten eines Betriebes interessiert man sich beispielsweise nur für die Anzahl Dienstjahre und nicht zusätzlich noch
für deren Alter. Innerhalb von Ω besitzt dieses Merkmal eine Verteilung, welche in
aller Regel aber nicht bekannt ist. Ordnet man den Merkmalsausprägungen reelle Zahlen
2
zu, so erzeugt man entsprechend eine Verteilung einer Zufallsvariablen. Man spricht
daher kurz von der Verteilung der Grundgesamtheit bezüglich des Merkmals (Zufallsvariablen) X.
Interessiert bei der Tagesproduktion einer Maschine nur, ob die produzierten Elemente
gut (1) oder defekt (0) sind, so betrachtet man die Bernoullivariable X mit den Ausprägungen 0 und 1. Analog spricht man auch von einer bernoulliverteilten Grundgesamtheit mit dem Parameter p.
Bei der statistischen Analyse geht es regelmässig darum, Aussagen über die Verteilung
von X zu machen. Können sämtliche Elemente von Ω beobachtet werden, so spricht
man von einer Vollerhebung. Die Verteilung des interessierenden Merkmals ist in
diesen Fällen bekannt. Man befindet sich im Zustand vollständiger Information. Die
Wahrscheinlichkeiten über den Ausprägungen von X entsprechen ihren relativen Häufigkeiten in der Gesamtheit. Kennt man von einem Produktionslos die Qualität sämtlicher produzierter Elemente, so ist die Wahrscheinlichkeit, ein gutes Stück zu beobachten
p=
ng
(1.1)
n
falls von insgesamt n Elementen ng von guter Qualität waren.
In der Praxis sind Vollerhebungen sehr selten. Meistens sprechen zeitliche und finanzielle Überlegungen gegen eine Vollerhebung. Wenn etwa die Beobachtung selber mit
der Zerstörung des Elementes verbunden ist (Qualität des Inhaltes von Konservendosen), würde eine Vollerhebung zwar vollständig informieren, man wäre aber in einem
permanenten Auslieferungsnotstand! Es gibt aber auch Fälle, bei denen eine Vollerhebung aus theoretischen Gründen nicht möglich ist. Die zeitlich nicht limitierte
Lottobetrachtung ist ein typisches Beispiel dafür. Ω wird im Zeitablauf erst aufgebaut
und kann infolgedessen nie vollständig erfasst werden. Schliesslich ist man nur selten an
absoluter Genauigkeit interessiert. Schätzungen sind oft ausreichend, womit eine
Vollerhebung wiederum unnötig wird.
Anstelle einer Vollerhebung beobachtet man in solchen Situationen eine Teilmenge von
Ω. Anhand einer geeignet ausgewählten Teilmenge versucht man, möglichst allgemeingültige Aussagen auch über die unbekannte Grundgesamtheit zu machen. Mit der
Zufallsauswahl sind auch die Informationen in der Stichprobe zufallsabhängig. Damit
ist das typische Inferenzproblem der Statistik angesprochen, nämlich der Rückschluss
3
unter unvollständiger Information aus einer Stichprobe auf die dahinterliegende Grundgesamtheit.
Zufallsauswahl
X
Grundgesamtheit
Stichprobe
fX
Rückschluss
Offensichtlich hängt die Qualität der angesprochenen Rückschlüsse wesentlich vom
Auswahlverfahren ab. Je besser es gelingt, die wesentlichen Charakteristika von Ω in
der Stichprobe zum Ausdruck zu bringen, desto zuverlässiger sind die daraus abgeleiteten Aussagen. In der Umgangssprache spricht man in diesem Zusammenhang von
sogenannt repräsentativen Stichproben.
Bei der Stichprobenerhebung werden n Objekte aus Ω nach einer bestimmten Vorschrift
ausgewählt, um sie anschliessend einem Messmechanismus zu unterwerfen. Leider
existiert kein Auswahlverfahren, welches in jedem Einzelfall eine Stichprobe liefert, die
dieselben charakterisierenden Eigenschaften aufweist wie Ω selber. Die besten Voraussetzungen auf lange Frist garantieren zufällige Auswahlverfahren, welche nicht durch
subjektive Einflüsse gestört werden.
1.1 Zufällige Auswahlverfahren
Im Rahmen einer Untersuchung interessiere ein dichotomes Merkmal. Bei einem
Produktionsprozess werden lediglich die Qualitätsstufen gut oder defekt festgestellt,
oder bei einer Lotterie wird nur nach Gewinn oder Verlust gefragt. Will man den
Erfolgsanteil in einer endlichen Gesamtheit aus einer Stichprobe feststellen, so gibt es
im wesentlichen zwei Verfahren. Der Einfachheit halber unterstellen wir ein Urnenexperiment. Einer Urne mit unbekanntem Mischungsverhältnis wird eine Stichprobe vom
Umfang n entnommen.
Beim Verfahren 1 wird jede gezogene Kugel wieder zurückgelegt, nachdem das Resultat
festgehalten wurde. Das Resultat ist ein n-Tupel der Zahlen 0 resp. 1. Unter Berücksich4
tigung der Reihenfolge gibt es insgesamt Nn verschiedene Stichproben.
Beim Verfahren 2 wird die gezogene Kugel nicht mehr zurückgelegt, wobei aber die
Auswahl aus der jeweiligen Resturne wie im Verfahren 1 jedesmal rein zufällig erfolgt.
Wird die Reihenfolge bei der Auswahl der Kugeln berücksichtigt, gibt es unter dem
Verfahren 2 insgesamt N ( N − 1) … ( N − n + 1) verschiedene Stichproben vom
Umfang n # N.
Die beiden Verfahren 1 und 2 weisen neben den erwähnten Unterschieden in der
Zurücklegestrategie auch wichtige Gemeinsamkeiten auf.
1.)
Beide Verfahren werden als zufällige Auswahlverfahren bezeichnet. Bei jedem
Zug besitzt jedes Element aus der aktuell verfügbaren Resturne dieselbe
Wahrscheinlichkeit, ausgewählt zu werden. Man spricht deshalb zweckmässigerweise nicht von zufälligen Stichproben, sondern von zufälligen Auswahlverfahren. Letztere sind nämlich dafür verantwortlich, ob und welche mathematische
Theorie anwendbar ist zur formalen Beschreibung eines empirischen Tatbestandes.
2.)
In beiden Verfahren besitzt jede der insgesamt möglichen Stichproben ( Nn beim
Verfahren 1, respektive N ( N − 1) … ( N − n + 1) beim Verfahren 2) dieselbe
Wahrscheinlichkeit realisiert zu werden (Berücksichtigung der Reihenfolge!).
Jedes zur Auswahl stehende Element hat somit unabhängig vom Verfahren
dieselbe Chance, in eine Stichprobe einbezogen zu werden.
Der wichtigste Unterschied der beiden Verfahren beruht auf der Behandlung der ausgewählten und gemessenen Elemente. Durch das Zurücklegen im Verfahren 1 wird die
Urne jeweils wieder in ihren ursprünglichen Zustand zurückversetzt. Ungeachtet der
Vergangenheit wird somit bei jedem Zug im Prinzip aus ein und derselben Urne eine
zufällige Auswahl getroffen. Die einzelnen Züge erfolgen somit unabhängig voneinander.
Beim Verfahren 2 (ohne Zurücklegen) liegen die Verhältnisse ganz anders. Da die
gezogene Kugel nicht mehr zurückgelegt wird, verändert sich die Zusammensetzung der
Urne von Zug zu Zug. Das Resultat des i-ten Zugs ist somit abhängig von der bisherigen
Geschichte. Die einzelnen Züge erfolgen somit nicht mehr unabhängig voneinander.
Enthält eine Urne von N Elementen anfänglich K Erfolgskugeln und bezeichnet das
Ereignis Ei Erfolg beim i-ten Zug, so gilt z.B.
5
P ( E2 ) = P ( E2 ∩ E1 ) + P ( E2 ∩ E1c )
= P ( E2 E1 ) P ( E1 ) + P ( E2 E1c ) P ( E1c )
K −1 K
K N −K
+
N −1 N N −1 N
K
=
N
=
(1.2)
Damit gilt insbesondere
P ( E2 E1 ) =
K −1 K
≠
= P ( E2 )
N −1 N
(1.3)
falls K =/ N. Die bedingte Wahrscheinlichkeit für E2 ist verschieden von seiner unbedingten, womit E2 und E1 stochastisch abhängig sind.
Eine Stichprobe, welche aus einer endlichen Gesamtheit nach dem Auswahlverfahren 1
(mit Zurücklegen) entstanden ist, lässt sich dadurch charakterisieren, dass die einzelnen
Züge stets aus derselben Grundgesamtheit erfolgen, und dass die einzelnen Züge
voneinander unabhängig sind. Enthält die Grundgesamtheit unendlich viele Elemente,
so ist unerheblich, ob die Entnahme mit oder ohne Zurücklegen erfolgt.
Künftig werden in der Regel Stichproben unterstellt, welche entweder aus unendlichen
Gesamtheiten stammen, oder im Falle endlicher Gesamtheiten mit Zurücklegen erfolgen. Im Falle einer hinreichend grossen Grundgesamtheit sind die Unterschiede zwischen den Verfahren 1 und 2 vernachlässigbar.
Notation
Das in Ω interessierende Merkmal werde durch die Zufallsvariable X beschrieben. Die
Stichprobe selber wird als n–Tupel von Zufallsvariablen
X 1 , X 2 ,… , X n
(1.4)
bezeichnet. Xi beschreibt das Resultat bei der i-ten Beobachtung.
Unter den oben beschriebenen, idealen Voraussetzungen besitzen die Zufallsvariablen
Xi (i = 1,2,....,n) die Eigenschaften
6
1.)
gemeinsam stochastischer Unabhängigkeit
2.)
eines identischen Verteilungsgesetzes, nämlich jenes von X definiert in Ω.
Stichproben dieser Art werden als reine Zufallsstichproben bezeichnet. Sie können
insbesondere auf zwei verschiedene Arten interpretiert werden:
•
•
eine Zufallsvariable X wird n-mal beobachtet.
n identisch verteilte und stochastisch unabhängige Duplikate von X werden je
einmal beobachtet.
Im ersten Fall wird etwa ein und derselbe Würfel n-mal geworfen, und im zweiten Fall
werden n identische Würfel je einmal geworfen.
Eine konkrete Realisation einer Stichprobe wird entsprechend durch das Zahlentupel
x1 , x2 ,… , xn dargestellt.
Schon früher wurde darauf hingewiesen, dass die Qualität der Aussagen über Ω aufgrund von Stichprobenbefunden entscheidend von der Art und Weise der Auswahl der
Elemente aus Ω abhängt. Es kann an dieser Stelle nicht darum gehen, eine dazugehörige
Theorie darzustellen. Dies ist Aufgabe und Inhalt der statistischen Versuchsplanung.
Exemplarisch soll lediglich auf das Problem einer zufälligen Auswahl hingewiesen
werden, um eine Abgrenzung gegenüber einer unter Umständen subjektiv beeinflussten
Auswahl aufs Geratewohl zu ermöglichen.
Beispiel einer Stichprobe - Technik einer Zufallsauswahl
Das zu untersuchende Merkmal X sei das momentane Einkommen in einer Gemeinde.
Um Aufschlüsse über X zu erhalten, wird aus der Menge der Einkommensempfänger
eine Stichprobe vom Umfang n = 100 gezogen.
Festlegung von Ω: Wer ist heute Einkommensbezüger in der Gemeinde?
Annahme: Natürliche Personen, welche der Steuerpflicht unterliegen. Es sei N = 10'000.
Aus einer Kartei von 10'000 veranlagten, steuerpflichtigen Personen sind 100 zufällig
auszuwählen.
1. Möglichkeit:
Man entnimmt der Kartei jede 100. Karte und unterstellt, dass
7
zwischen der Reihenfolge der Karteikarte und dem Merkmal X
keine Beziehung besteht.
2. Möglichkeit:
Man wählt 100 4-ziffrige Zufallszahlen und entnimmt der Kartei
die Adressen mit der Positionsnummer "Zufallszahl + 1".
3. Möglichkeit:
Man unterteilt die Steuerdatei in 2 Gruppen.
1. Gruppe: Einkommen Fr. 50'000.- und weniger.
2. Gruppe: Einkommen über Fr. 50'000.-.
Aus der 1. Gruppe werden nach Methode eins oder zwei 30 und
aus der 2. Gruppe 70 Adressen ausgewählt.
Stichproben dieser Art werden als geschichtete Stichproben bezeichnet.
4. Möglichkeit:
Man partitioniert das Gemeindegebiet in Regionen. Aus den Regionen werden zufällig k ausgewählt. Innerhalb der gezogenen
Regionen wird eine Vollerhebung vorgenommen.
Diese Methode führt zu sogenannten Klumpenstichproben.
1.2 Stichprobenraum , Stichprobenfunktion
Bezeichnet das Zahlentupel x1 , x2 ,… , xn eine konkrete Stichprobenrealisation (Stichprobenergebnis), so nennt man die Gesamtheit aller möglichen Ergebnisse eines zufälligen Auswahlverfahrens Stichprobenraum dieses Verfahrens.
Beispiel
Eine Münze wird 3-mal geworfen. Die Zufallsvariable Xi (i = 1,2,3) sei
1
Xi = 
0
falls i -ter Wurf K
sonst
(1.5)
mit der Wahrscheinlichkeitsfunktion
f X ( x ) = p x (1 − p )
1− x
8
x = 0,1
(1.6)
Stichprobe:
( X1, X 2 , X 3 )
Stichprobenergebnis:
Stichprobenraum:
(1, 0, 1)
(111, 110, 101, 011, 100, 010, 001, 000)
Im Verlaufe der späteren Diskussion wird deutlich, dass im allgemeinen nicht die
einzelnen Stichprobenvariablen Xi, sondern noch zu bestimmende, dem Untersuchungszweck angepasste Funktionen der Variablen Xi von Bedeutung sind.
Eine Funktion g der Stichprobenvariablen X 1 , X 2 ,… , X n heisst Stichprobenfunktion
Y = g ( X 1 , X 2 ,… , X n )
(1.7)
Als Funktion von Zufallsvariablen ist Y ebenfalls eine Zufallsvariable.
Wichtige Stichprobenfunktionen sind etwa
1.)
X =
2.)
3.)
S2 =
Z=
X −µ
σ
1
n
n
∑X
i =1
(1.8)
i
1 n
( X i − X )2
∑
n − 1 i =1
mit µ = E ( X i ) ,
σ 2 = V ( Xi )
(1.9)
(1.10)
Eine Stichprobenfunktion, welche nur von den Stichprobenvariablen Xi abhängt und
keine unbekannten Parameter enthält, wird als Statistik bezeichnet.
Die Funktionen 1.) und 2.) sind Statistiken, die Funktion 3.) nur dann, wenn µ und σ
bekannt sind.
Von einer Statistik wird nur verlangt, dass die Abbildungsvorschrift keine unbekannten
Parameter enthalten darf. Die Verteilung der Statistik selber kann sehr wohl unbekannte
Parameter haben.
9
Beispiel
Sind X 1 ,… , X n unabhängige, identisch verteilte Bernoullivariablen, so ist
S = X 1 + … + X n ∼ B ( n, p )
(1.11)
eine Statistik, obwohl die Binomialverteilung von S eine unbekannte Erfolgswahrscheinlichkeit enthält.
1.3 Verteilung von Stichprobenfunktionen
Wir betrachten eine reine Zufallsstichprobe aus einer Grundgesamtheit mit der Verteilung fX. Die gemeinsame Verteilung kann aufgrund der Unabhängigkeit der involvierten Zufallsvariablen faktorisiert werden.
f X1… X n ( x1 … xn ) = f X ( x1 ) ⋅ f X ( x2 ) ⋅ … ⋅ f X ( xn )
Es bezeichnen ferner
µ = E(X )
(1.12)
(1.13)
σ 2 =V (X )
Erwartungswert und Varianz von X. Für bestimmte Stichprobenfunktionen – insbesondere jene mit additiven Verknüpfungen – lassen sich Aussagen über ihr Verteilungsgesetz machen. Die Summe von unabhängigen, identisch verteilten Zufallsvariablen ist
z.B. nach dem zentralen Grenzwertsatz approximativ normalverteilt.
In wichtigen Spezialfällen können präzisere Aussagen gemacht werden. Für den Fall
identisch normalverteilter Zufallsvariablen X i ∼ N ( µ , σ ) , i = 1,… , n gelten insbesondere folgende Beziehungen
1.)
n
∑X
i =1
10
i
(
∼ N nµ , σ n
)
(1.14)
σ 

X ∼ N  µ,

n

2.)
3.)
X −µ
n ∼ N ( 0,1)
(1.16)
 Xi − µ 
2
∑

 ∼ χn
σ 
i =1 
(1.17)
σ
4.)
5.)
(1.15)
2
n
2
 Xi − X 
2
∑

 ∼ χ n −1
σ 
i =1 
(1.18)
1 n
S =
( X i − X )2
∑
n − 1 i =1
(1.19)
( n − 1) S 2 ∼ χ 2
n −1
2
(1.20)
n
Für die Stichprobenvarianz
2
gilt mit 5.)
6.)
σ
Ist
X ∼ N ( 0,1)
Y ∼ χ k2
(1.21)
und sind X und Y stochastisch unabhängig, so ist
V=
X
∼ Tk
Y
k
(1.22)
11
eine t-verteilte Zufallsvariable mit k Freiheitsgraden.
Angewendet auf 3.) und 6.) gilt somit
X −µ
7.)
V=
σ
n
( n − 1) S 2
σ 2 ( n − 1)
=
X −µ
S
n ∼ Tn −1
(1.23)
Ist X in der Grundgesamtheit nicht a priori normalverteilt, so gelten – unter den üblichen
Voraussetzungen – die obigen Sätze aufgrund des zentralen Grenzwertsatzes approximativ.
12
2. SCHÄTZTHEORIE
Ein zentraler Problemkreis der induktiven Statistik ist die Schätzung unbekannter
Parameter von Grundgesamtheiten. Von einer Zufallsvariablen sei das Verteilungsgesetz
bekannt, es enthalte jedoch unbekannte Parameter – X sei beispielsweise normalverteilt;
Mittelwert und Varianz hingegen seien unbekannt. Diese sollen aufgrund einer
Stichprobe X 1 ,… , X n möglichst gut geschätzt werden. Wir werden ebenso den Fall
betrachten müssen, wo auch das Verteilungsgesetz selber unbekannt ist.
Bei der Schätzung unbekannter Parameter unterscheidet man grundsätzlich zwei Methoden. Bei der sogenannten Punktschätzung erhält man einen einzigen Wert aus der
Stichprobe, welcher für die Schätzung herangezogen wird. Intervallschätzungen lassen
Schlüsse über einen Bereich zu, welcher mit grosser Wahrscheinlichkeit den unbekannten Parameter enthält.
Ausgangspunkt für beide Ansätze bilden sogenannte Schätzfunktionen, welche angeben,
in welcher Art und Weise die Stichprobenvariablen im Hinblick auf optimale Schätzungen zu verarbeiten sind.
2.1 Punktschätzungen
In der Realität steht man oft vor dem Problem, dass man von einer Zufallsvariablen
zwar das Verteilungsgesetz kennt, letzteres hingegen unbekannte Parameter enthält.
Eine Partei interessiert sich im Rahmen ihrer strategischen Planung für den Wähleranteil
und befragt zu diesem Zweck n Personen bezüglich ihrer Parteizugehörigkeit. Bezeichnet die Zufallsvariable X die Anzahl befragter Personen, welche ihre Stimme besagter
Partei geben, so gilt
X ∼ B ( n, p )
n
n− x
P ( X = x ) =   p x (1 − p )
 x
(2.1)
p ist unbekannt und soll aus den Antworten der befragten Personen geschätzt werden.
Es gibt gute Gründe davon auszugehen, dass das Gewicht von Personen einer bestimmten Grösse normalverteilt ist
13
X ∼ N ( µ ,σ )
1  x−µ 
σ 
− 
1
fX ( x) =
e 2
σ 2π
2
(2.2)
In aller Regel sind aber sowohl µ als auch σ unbekannt und sind aus einer Stichprobe
zu schätzen. Dieses Beispiel motiviert folgende Konkretisierung der Frage nach Punktschätzungen.
θ sei ein unbekannter Parameter einer Verteilung f ( ⋅ ) . Eine Zufallsvariable X mit der
Verteilung fX werde n mal unabhängig voneinander beobachtet. Für die resultierende
Stichprobe X 1 ,… , X n ist eine Schätzfunktion T gesucht, welche möglichst umfassend
über θ informiert. Offen bleibt die Frage, auf welche Art und Weise die Stichprobenvariablen X 1 ,… , X n miteinander zu verknüpfen sind, um das vorhandene Informationspotential umfassend auszuschöpfen.
2.1.1 Intuitiv heuristische Ansätze für Schätzfunktionen
Bezeichnet f X ( x ) die Wahrscheinlickkeitsfunktion (Dichte) einer Zufallsvariablen, so
gilt für ihren Mittelwert
µ = E ( X ) = ∑ xj fX ( xj )
(2.3)
j
µ soll über eine Stichprobe X 1 ,… , X n aus einer Grundgesamtheit mit der Wahrscheinlichkeitsfunktion fX geschätzt werden.
Aus der Sicht des Bildungsgesetzes von µ scheint es vernünftig, anstelle der mit den
Wahrscheinlichkeiten gewichteten Ausprägungen der Zufallsvariablen, die mit den
relativen Häufigkeiten gewichteten Ausprägungen in der Stichprobe zu verwenden. Als
Schätzfunktion für µ würde man demnach das arithmetische Mittel der Stichprobe
X 1 ,… , X n verwenden.
T = t ( X 1 ,… , X n ) = X =
14
1
n
n
∑X
i =1
i
= µˆ
(2.4)
Würde man nach demselben Ansatz Schätzfunktionen für die Varianz σ 2 einer Zufallsvariablen oder für den Erfolgsanteil p in einem Binomialexperiment suchen, so wären
folgende Schätzfunktionen angezeigt
T = t ( X 1 ,… , X n ) = S 2 =
1 n
( X i − X ) 2 = σˆ 2
∑
n − 1 i =1
(2.5)
respektive
1
T = t ( X 1 ,… , X n ) =
n
n
∑X
i =1
i
=
X
= pˆ
n
(2.6)
wobei es sich im letzten Ansatz bei den Stichprobenvariablen Xi um Bernoullivariablen
je mit den Ausprägungen 0 und 1, bei X um deren Summe handelt.
Die obigen Betrachtungen machen deutlich, dass es sich bei Schätzfunktionen ebenfalls
um Zufallsvariablen handelt und diese somit auch einem Verteilungsgesetz unterliegen.
Die spezielle Bedeutung als Schätzfunktion wird mit dem Symbol "^" zum Ausdruck
gebracht. Schätzfunktionen sind somit Zufallsvariablen und unterliegen einem Verteilungsgesetz. Man beachte, dass die Schätzfunktionen T in Abhängigkeit der Zufallsvariablen X i , i = 1,… , n , zur Unterscheidung von den auf den Realisationen
xi , i = 1,… , n , basierenden Werten um T durch fettgedruckte Symbole bezeichnet
werden.
Es gibt Situationen, welche direkt und exakte Aussagen über die Verteilung von Schätzfunktionen zulassen. Meistens muss man sich allerdings auf zwar hinreichend genaue,
aber trotzdem approximative Aussagen beschränken, wobei regelmässig auf den zentralen Grenzwertsatz rekurriert wird.
Mit E ( T ) = µ T wird der Erwartungswert der Schätzfunktion bezeichnet. Analog heisst
V ( T ) = E ( T − µT ) = σ T2
2
(2.7)
Varianz der Schätzfunktion T. Von spezieller Bedeutung ist die Standardabweichung
σ T . Ihres speziellen Charakters wegen wird σ T kurz als Standardfehler der Schätzung
15
(standard error of T) bezeichnet.
Für ein und denselben Parameter stehen oft mehrere Schätzfunktionen zur Verfügung.
Ist X beispielsweise poissonverteilt mit dem Parameter λ, so gilt
P ( X = x) =
mit
λx
e−λ
x!
E(X ) =V (X ) = λ
(2.8)
Soll nun das arithmetische Mittel X oder die Stichprobenvarianz S2 zur Schätzung von
λ herangezogen werden?
Es stellt sich somit ein Bewertungsproblem für Schätzfunktionen. Ihre Qualität wird an
wünschbaren Eigenschaften von Schätzfunktionen gemessen.
2.1.2 Erwartungstreue Schätzfunktionen
Eine Schätzfunktion T = t ( X 1 ,… , X n ) heisst erwartungstreu für θ falls E ( T ) = µ T
existiert und
E (T ) = µ T = θ
(2.9)
∑ t j fT ( t j ) falls T diskret
 j

E ( T ) =  +∞
 t f ( t ) dt falls T stetig
∫ T
 −∞
(2.10)
wobei
Beispiele
1.)
1
T = t ( X 1 ,… , X n ) = X =
n
n
∑X
i =1
ist eine erwartungstreue Schätzfunktion für µ = E ( X ) .
16
i
(2.11)
E ( Xi ) = µ
i = 1, 2,… , n
1
E(X ) = E 
n
2.)
 1
Xi  =
∑
i =1
 n
n
n
∑ E ( Xi ) =
i =1
1
nµ = µ
n
1 n
T = t ( X 1 ,… , X n ) = S =
( X i − X )2
∑
n − 1 i =1
2
(2.12)
(2.13)
ist eine erwartungstreue Schätzfunktion für σ 2 .
E ( Xi ) = µ
V ( Xi ) = σ
i = 1, 2,… , n
(2.14)
2
 1 n

( X i − X )2 
E (S ) = E 
∑
 n − 1 i =1

2
 n

1
E  ∑ ( Xi − µ ) − ( X − µ ) 
=

n − 1  i =1

n
2
1 
2
E ( Xi − µ ) − n E ( X − µ ) 
=
∑

n − 1  i =1

2
(
(
1
nV ( X ) − nV ( X )
=
n −1
σ2
1 
2
=
 nσ − n

n −1 
n 
=
σ2
n −1
)
)
(2.15)
( n − 1)
=σ 2
Die Erwartungstreue der Schätzfunktion S2 für σ 2 ist in erster Linie für die bei der
Definition von S2 auf den ersten Blick überraschend anmutende Division der Summe der
Abweichungsquadrate durch (n-1) verantwortlich.
17
3.) Sind X 1 ,… , X n Bernoullivariablen mit
f X ( x ) = p x (1 − p )
1− x
x = 0,1
(2.16)
E(X ) = p
V ( X ) = (1 − p ) p
so gilt für die Schätzfunktion
1
T = t ( X 1 ,… , X n ) =
n
1
E ( pˆ ) =
n
n
∑X
i =1
i
= pˆ
n
1
E ( Xi ) = n p = p
∑
n
i =1
(2.17)
Der Erfolgsanteil in der Stichprobe schätzt die Erfolgswahrscheinlichkeit p eines
Binomialexperimentes erwartungstreu. Wir haben damit eine Möglichkeit zur Schätzung
von Wahrscheinlichkeiten gefunden. Letztere wurden im Rahmen der Wahrscheinlichkeitsrechnung stets als bekannt vorausgesetzt!
Im Beispiel der Schätzung des Parameters λ einer poissonverteilten Zufallsvariablen
stehen offenbar zwei, bezüglich der Eigenschaft "Erwartungstreue" äquivalente Schätzfunktionen zur Verfügung. Zur Abklärung der Frage, ob X oder S2 verwendet werden
soll, bedarf es weiterer Kriterien, welche eine differenziertere Auswahl innerhalb der
Klasse der erwartungstreuen Schätzfunktionen zulassen.
2.1.3 Effiziente Schätzfunktionen
Bezeichnen T sowie U 1 ,… , U k erwartungstreue Schätzfunktionen für den unbekannten
Parameter θ mit
E (T ) = E (U 1 ) = … = E (U k ) = θ
so heisst T effizient, falls
18
(2.18)
V ( T ) ≤ V (U i )
i = 1,… , k
(2.19)
Existieren also mehrere erwartungstreue Schätzfunktionen, so wählt man jene mit der
kleinsten Varianz. Diese Schätzfunktion T heisst effizient. Sie liefert Schätzwerte,
welche im Mittel am wenigsten vom wahren Parameter θ abweichen.
Beispiele
1.) Die beiden Schätzfunktionen
1
X=
n
n
∑X
i =1
und
i
n
1 

′
2
X =
X
X
+
∑
i
1
n + 1 
i =2

(2.20)
sind je erwartungstreu für µ = E ( X ) . Nun gilt aber
V (X ) =
V ( X ′) =
σ2
n
( n + 3) σ 2
( n + 1)
(2.21)
2
respektive
n − 1) σ 2
(
V ( X ′) − V ( X ) =
2
n ( n + 1)
>0
falls n > 1
(2.22)
Damit besitzt X eine kleinere Varianz als X ′ und ist gegenüber X ′ effizient. Die
doppelte Gewichtung der ersten Beobachtung vergrössert die Varianz der Schätzfunktion für µ .
2.) Schätzung für λ im Falle einer Poissonverteilung. Die Summe n unabhängiger und
identisch poissonverteilter Zufallsvariablen (mit Parameter λ)
19
n
Y = ∑ Xi
(2.23)
i =1
ist ebenfalls poissonverteilt (mit dem Parameter nλ ).
P (Y = y )
mit
( nλ )
=
y
e − nλ
y!
(2.24)
E ( Y ) = nλ
Also ist
Y 1 n
X = = ∑ Xi
n n i =1
(2.25)
eine erwartungstreue Schätzfunktion für λ.
1 n
 1
V ( X ) = V  ∑ Xi  = 2
 n i =1  n
λ
1
= 2 nλ =
n
n
n
∑V ( X )
i =1
i
(2.26)
Die Varianz der Schätzfunktionen verhält sich umgekehrt proportional zu n und strebt
mit wachsendem n gegen 0. Man kann zeigen, dass auf der Basis einer Stichprobe
X 1 ,… , X n keine Schätzfunktion mit einer kleineren Varianz als jener von X existiert. X
ist somit eine erwartungstreue und effiziente Schätzfunktion für λ.
Der Effizienznachweis für Schätzfunktionen ist oft schwierig, da er gegenüber allen
anderen, erwartungstreuen Alternativen sowie über den gesamten Parameterbereich zu
erbringen ist. Zur Illustration betrachten wir die beiden Schätzfunktionen X und S2 für
den Mittelwert λ einer Poissonverteilung. Im Hinblick auf Approximationsprobleme
setzen wir einen grossen Wert von λ voraus (λ > 5).
20
1
X=
n
n
∑X
i =1
i
1 n
S =
( X i − X )2
∑
n − 1 i =1
2
,
E ( X ) = E (S2 ) = λ
V (X ) =
(2.27)
V (X ) λ
=
n
n
Aus
n − 1) S 2 ( n − 1) S 2
(
∼ χ n2−1
U=
=
2
(2.28)
 n −1 
2
V (U ) = 
 V ( S ) = 2 ( n − 1)
 λ 
(2.29)
2λ 2
V (S ) =
n −1
(2.30)
σ
λ
folgt
2
respektive
2
woraus sich das Varianzverhältnis
V (X )
V (S2 )
1
 n −1  1
=
≈

 n  2λ 2λ
(2.31)
ergibt. Unter den obigen Bedingungen für λ ist somit die Varianz von X strikte kleiner
als jene von S2.
Das Effizienzkriterium ermöglicht eine Klassifikation innerhalb einer Menge von
erwartungstreuen Schätzfunktionen. Diese Limitierung offenbart Schwächen, wenn z.B.
erwartungstreue und nicht erwartungstreue Schätzfunktionen einander gegenüberstehen.
Wie ist z. B. eine nicht erwartungstreue Schätzfunktion zu bewerten, wenn ihr Erwar21
tungswert vom wahren Parameter θ nur unwesentlich abweicht, wenn sie hingegen eine
deutlich kleinere Varianz aufweist als eine konkurrierende, erwartungstreue Alternative?
θ
θ
2.1.4 Suffizienz
Die bisher behandelten Kriterien (Erwartungstreue und Effizienz) beziehen sich jeweils
auf Eigenschaften einzelner Parameterschätzfunktionen T. Gegenstand der Suffizienz
sind im Gegensatz dazu allgemeine reelle Funktionen einer Stichprobe X 1 , X 2 ,… , X n
T = t ( X 1 , X 2 ,… , X n )
(2.32)
Reelle Stichprobenfunktionen werden auch Statistiken genannt.
Im Rahmen vieler Fragestellungen ist es hilfreich, die Information einer gegebenen
Stichprobe X 1 , X 2 ,… , X n im Hinblick auf die Schätzung eines unbekannten Paramters
θ mittels geeigneter Statistiken auf X 1 , X 2 ,… , X n zu kondensieren. Dabei wird im
folgenden zunächst stets von einer Funktion ausgegangen, es zeigt sich jedoch, dass das
Konzept in natürlicher Weise auf den Fall mehrerer Statistiken erweitert werden kann.
Eine Statistik heisst suffizient bezüglich eines Schätzproblems, falls sie sämtliche
Informationen der Stichprobe enthält, welche für die Schätzung des Parameters θ
erforderlich sind. Dies bedeutet insbesondere, dass eine suffiziente Statistik – ohne
Informationsverlust – anstelle der Stichprobe selbst für die Schätzung von θ herangezogen werden kann und somit eine Datenreduktion im Zusammenhang mit Schätzproblemen erlaubt.
Definition
Sei X 1 , X 2 ,… , X n eine Zufallsstichprobe aus einer Grundgesamtheit mit dem (bekannten) Verteilungsgesetz f X ( ⋅ , θ ) und dem unbekanntem Verteilungsparameter θ sowie
T = t ( X 1 , X 2 ,… , X n ) eine reelle Stichprobenfunktion. T heisst genau dann suffizient
22
für f X ( ⋅ , θ ) , falls eine (von θ unabhängige) Funktion h existiert, so dass gilt
f X1 , X 2 ,…, X n |T ( x1 , x2 , … , xn ;θ | T = t ) = h ( x1 , x2 ,… , xn )
(2.33)
Dies bedeutet, dass die bedingte (gemeinsame) Verteilung der n-dimensionalen Zufallsvariablen Z = ( X 1 , X 2 ,… , X n ) bei gegebenem Wert der Statistik T unabhängig von
dem zu schätzenden Parameter θ ist. Intuitiv kann Bedingung (2.33) so interpretiert
werden, dass – nach Auswertung der (suffizienten) Statistik T – die zugrundeliegende
Zufallsstichprobe keine weitere (noch nicht in T enthaltene) Information bezüglich des
zu schätzenden Parameters θ mehr enthält. Dies wird offensichtlich, wenn man sich
bewusst macht, dass die bedingte Dichtefunktion f Z ( ⋅ ;θ | T = t ) auch als die Verteilung der Beobachtungen
( x1 , x 2 , … , x n ) ,
welche den Wert T = t liefern, inter-
pretiert werden kann. Gemäss Bedingung (2.33) ist die Verteilung f Z ( ⋅ ;θ | T = t ) aber
unabhängig von θ , so dass eine spezielle Untersuchung der verschiedenen Beobachtungswerte ( x1 , x 2 , … , x n ) , welche alle denselben Wert T = t liefern, tatsächlich keine
Zusatzinformation bezüglich θ enthält.
Beispiel
Sei Z = ( X 1 , X 2 ,… , X n ) eine Zufallsstichprobe aus einer Bernoulli–verteilten Grundgesamtheit. Die Zufallsvariable X i gibt an, ob der i-te Anruf einer TelefonmarketingKampagne erfolgreich war, d. h. zu einem Verkauf führte oder nicht. Damit ist die
Verteilung von Z gegeben durch
x
n−
x
f Z ( x1 , x2 ,… , xn ; p ) = p ∑ i=1 i (1 − p ) ∑ i=1 i
n
n
(2.34)
wobei der Parameter p ∈ ( 0,1) die Wahrscheinlichkeit für einen erfolgreichen Verkauf
symbolisiert. Ferner gilt xi ∈ {0,1} , wobei xi = 1 einen Erfolg (Verkauf), xi = 0 einen
Misserfolg (kein Verkauf) beim i-ten Anruf bezeichnet. Eine suffiziente Statistik für die
Schätzung von p ist durch die Summe der Erfolge
23
n
S = ∑ Xi
(2.35)
i =1
gegeben. Um dies einzusehen, ist zu beachten, dass für die bedingte Dichtefunktion gilt
f Z ( x1 , x2 ,… , xn ; p | S = s ) =
Da S =
P ( x1 , x2 ,… , xn , S = s )
P (S = s)
(2.36)
n
∑X
i =1
i
die Summe unabhängig identisch verteilter Bernoulli Variablen ist und
einer Binomialverteilung genügt, folgt für die Wahrscheinlichkeit im Nenner von (2.36)
sofort
n
n−s
P ( S = s ) =   p s (1 − p )
s
(2.37)
Für den Zähler in Formel (2.36) gilt

 f Z ( x1 , x2 ,… , xn ; p ) , falls
P ( x1 , x2 ,… , xn , S = s ) = 
0, sonst

n
∑x
i
i =1
=s
(2.38)
also
n
 ∑ xi
xi
 p i=1 (1 − p ) n −∑
, falls
i =1
P ( x1 , x2 ,… , xn , S = s ) = 

0, sonst
n
n
∑x
i =1
i
=s
(2.39)
Damit lässt sich (2.36) darstellen als
 P ( x1 , x2 ,… , xn , S = s )  n  −1
=   , falls

f Z ( x1 , x2 ,… , xn ; p | S = s ) = 
P (S = s)
s

0, sonst
24
n
∑x
i
i=1
=s
(2.40)
Offensichtlich ist die bedingte Verteilung f Z ( x1 , x2 ,… , xn ; p | S = s ) unabhängig von
p, und S damit eine suffiziente Statistik für p. Für einen festen Wert von S besitzen also
alle Kombinationen ( x1 , x 2 , … , x n ) welche die Bedingung
n
∑x
i =1
i
= s erfüllen, dieselbe
−1
n
Wahrscheinlichkeit   . Dies ist konsistent mit der intuitiv naheliegenden Tatsache,
s
dass für die Schätzung der Trefferwahrscheinlichkeit p nur die Gesamtzahl an Erfolgen
ausschlaggebend ist, nicht aber die spezielle Reihenfolge ( x1 , x 2 , … , x n ) , unter welcher
diese realisiert wurde.
Beispiel (Mood et al., S. 302)
Betrachtet man konkret eine Stichprobe vom Umfang n = 3 einer Bernoulli-verteilten
Zufallsvariablen sowie die Statistiken S = X 1 + X 2 + X 3 sowie T = X 1 X 2 + X 3 . Die
bedingte Dichte unter S kann gemäss Formel (2.36) berechnet werden. Bezüglich der
Statistik T ergibt sich beispielsweise für die Realisation ( x1 , x2 , x3 ) = ( 0,1, 0 ) der Wert T = 0
und für die bedingte Verteilung
f X1 , X 2 , X 3 |T ( 0,1, 0|0 ) =
P ( X 1 = 0, X 2 = 1, X 3 = 0, T = 0 )
P (T = 0 )
(1 − p ) p
p
=
=
3
2
(1 − p ) + 2 (1 − p ) p 1 + p
2
(2.41)
Diese ist offensichtlich abhängig von p, das heisst, T ist nicht suffizient. Folgende
Tabelle fasst die bedingten Verteilungen unter S bzw. T zusammen.
25
( x1 , x2 , x3 )
S
T
f X1 , X 2 , X 3 | S
f X 1 , X 2 , X 3 |T
(0, 0, 0)
0
0
1
1− p
1+ p
(0, 0, 1)
1
1
1/3
1− p
1+ 2p
(0, 1, 0)
1
0
1/3
p
1+ p
(1, 0, 0)
1
0
1/3
p
1+ p
(0, 1, 1)
2
1
1/3
p
1+ 2p
(1, 0, 1)
2
1
1/3
p
1+ 2p
(1, 1, 0)
2
1
1/3
p
1+ 2p
(1, 1, 1)
3
2
1
1
Bemerkungen
1.
Das hier für einen Skalar θ ∈ R eingeführte Konzept kann in natürlicher Weise
auf den Fall vektorwertiger Parameter θ ∈ R n erweitert werden.
2.
Der Suffizienzbegriff wurde hier für eine Stichprobenfunktion T eingeführt. Das
Konzept kann auch auf den Fall mehrerer Funktionen T1 , T2 , … , Tr übertragen
werden. Eine Familie von Statistiken T1 , T2 , … , Tr heisst gemeinsam suffizient,
wenn die bedingte Verteilung von X 1 , X 2 ,… , X n unter gegebenen Werten von
T1 , T2 ,… , Tr , also T1 = t1 ,… , Tr = tr , unabhängig ist von θ .
26
3.
Insbesondere kann damit die Stichprobe selbst als Familie gemeinsam suffizienter Statistiken aufgefasst werden. Formal definiert man dazu T1 = x1 ,… , Tn = xn .
Diese Feststellung ist allerdings wenig hilfreich, da der Suffizienzbegriff prinzipiell auf eine Datenreduktion abzielt.
In vielen Fällen ist die konkrete Bestimmung suffizienter Statistiken sehr aufwendig.
In diesem Zusammenhang erweist sich folgender Satz als nützlich.
Satz (Faktorisierungssatz von Neyman, ohne Beweis)
Sei f Z ( x1 , x2 ,… , xn ;θ
)
die Dichtefunktion einer Zufallsstichprobe X 1 , X 2 ,… , X n
vom Umfang n. Eine Familie von Statistiken T1 , T2 , … , Tr ist genau dann gemeinsam
suffizient für f Z ( x1 , x2 ,… , xn ;θ
),
wenn f Z ( x1 , x2 ,… , xn ;θ
)
faktorisiert werden
kann, so dass gilt (mit z = ( x1 , x2 ,… , xn ) )
f Z ( z ;θ
) = g (T1 ( z ) , T2 ( z ) ,… , Tr ( z ) ;θ ) ⋅ h ( z )
(2.42)
Hierbei ist h nicht negativ und von θ unabhängig, die Funktion g ist ebenfalls nicht
negativ und hängt nur von den Werten der Stichprobenfunktionen T1 , T2 , … , Tr sowie
dem Parameter θ ab.
Bemerkung
Insbesondere ist g nicht direkt von der Stichprobe X 1 , X 2 ,… , X n selbst abhängig.
Beispiel
Sei X 1 , X 2 ,… , X n eine Zufallsstichprobe aus einer normalverteilten Grundgesamtheit
mit Dichtefunktion f X ( x; µ ,σ ) . Der zu schätzende Parameter θ hat hier die Form
θ = ( µ , σ ) ∈ R 2 . Die gemeinsame Dichtefunktion von X 1 , X 2 ,… , X n lautet
27
f Z ( x1 , x2 ,… , xn ; µ , σ )
n
= ∏ f X ( xi ; µ , σ )
i =1
 1  xi − µ 2 
1
exp  − 
 2  σ  
2π σ


n
=∏
i =1
=
=
1
( 2π )
n2
σ
−n
n2
σ
−n
1
( 2π )
(2.43)
 n 1  xi − µ  2 
exp  ∑ − 
 i =1 2  σ  


n
 1  n 2

exp  − 2  ∑ xi − 2µ ∑ xi + nµ 2  
i =1

 2σ  i =1
Die gemeinsame Dichtefunktion hängt also von den Beobachtungen ( x1 , x 2 , … , x n ) nur
indirekt ab, nämlich über die Statistiken
S1 ( x1 , x2 ,… , xn ) = ∑ xi
(2.44)
sowie
S 2 ( x1 , x2 ,… , xn ) = ∑ xi2
(2.45)
Damit kann f X ( ⋅ ; µ , σ ) gemäss (2.42) faktorisiert werden, wobei h ( x1 , x2 ,… , xn ) = 1 .
Folglich sind S1 und S 2 gemäss dem Faktorisierungssatz von Neyman gemeinsam
suffizient.
Man kann ferner zeigen, dass die Suffizienzeigenschaft durch bijektive Transformationen erhalten bleibt. Damit sind auch das arithmetische Mittel X und die Stichprobenvarianz S 2 =
28
2
1
X i − X ) gemeinsam suffiziente Statistiken.
(
∑
n −1
2.1.5 Konsistente Schätzfunktionen
Die Kriterien der Erwartungstreue und Effizienz beziehen sich stets auf Schätzfunktionen bei gegebenem, endlichen Stichprobenumfang n. Mit der Eigenschaft der Konsistenz ziehen wir zusätzlich den Stichprobenumfang in die Betrachtung ein. Um diese
Erweiterung zum Ausdruck zu bringen, bezeichnen wir die Schätzfunktion für θ mit
Tn = t ( X 1 ,… , X n ) .
Eine Schätzfunktion Tn = t ( X 1 ,… , X n ) für den unbekannten Parameter θ heisst
konsistent, wenn die Folge {Tn} mit wachsendem Stichprobenumfang n stochastisch
gegen θ konvergiert, d. h.
P ( Tn − θ < ε ) → lim P ( Tn − θ < ε ) = 1
n →∞
für alle ε > 0
(2.46)
Für jedes noch so kleine ε wird die Wahrscheinlichkeit, dass Tn von θ um höchstens ε
abweicht, beliebig gross. Damit wird nicht ausgeschlossen, dass die Schätzwerte um
mehr als ε vom wahren Parameter abweichen können. Die Wahrscheinlichkeit für solche
Ereignisse wird nur beliebig klein, falls n genügend gross ist.
Bei allgemeinen Konsistenzbetrachtungen wird regelmässig die Ungleichung von
Tschebyscheff herangezogen (siehe Statistik II Wahrscheinlichkeit, 13. Aufl. 1999,
Kapitel 5.5.3).
Beispiel
X 1 ,… , X n sei eine Stichprobe aus einer Gesamtheit mit dem Erwartungswert µ und
der Standardabweichung σ .
Mit
Xn =
1
n
n
∑X
i =1
i
(2.47)
bezeichnen wir die Folge von Schätzfunktionen für θ = µ .
Nun gilt
29
V ( Xn ) =
σ2
(2.48)
n
womit aus der Tschebyscheff'schen Ungleichung folgt
(
)
P Xn − µ ≥ ε ≤
1
ε2
E
(( X
n
−µ)
2
)
σ2
= 2
ε n
(2.49)
Für jedes noch so kleine ε strebt
(
P Xn − µ ≥ ε
)
(2.50)
mit wachsendem Stichprobenumfang n gegen Null. Dieser Sachverhalt wird als schwaches Gesetz der grossen Zahlen bezeichnet. X n ist somit eine konsistente Schätzfunktion für µ .
2.1.6 Mean squared error (MSE)
Der MSE ergänzt die bisherigen Kriterien (Erwartungstreue, Effizienz, Konsistenz) zur
Beurteilung der Güte von Schätzfunktionen. Bezeichnet T = t ( X 1 ,… , X n ) die
Schätzfunktion für den unbekannten Parameter θ , so heisst
{
E (T − θ )
2
} = MSE (θ )
(2.51)
mean squared error der Schätzfunktion. Die Bezeichnung als "mittlerer, quadratischer
Fehler" ist insofern verständlich, als man die Abweichung eines Schätzwertes t vom
wahren Parameter θ als Fehler bezeichnen kann, den man begeht, wenn aufgrund der
Schätzfunktion T der unbekannte Parameter θ mit t geschätzt wird. Der MSE (θ )
misst analog zur Varianz einer Zufallsvariablen die Abweichungen der Schätzfunktion
von θ .
Mit
E (T ) = µT
30
(2.52)
gilt
MSE (θ ) = E (T − θ ) = E (T − µT − (θ − µT ) )
2
2
= E (T − µT ) − 2 (θ − µT ) E (T − µT ) + (θ − µT )
2
2
(2.53)
respektive
MSE (θ ) = E (T − µT ) + (θ − µT )
2
= V (T ) + (θ − µT )
2
2
(2.54)
Die Grösse θ − µ T wird als Verzerrung (Bias) der Schätzfunktion T bezeichnet. Für
erwartungstreue Schätzfunktionen
( E (T ) = µ
T
= θ ) entspricht der mittlere Fehler
MSE (θ ) der Schätzfunktion T ihrer Varianz V(T).
Das MSE (θ ) –Konzept ermöglicht den Vergleich von nichterwartungstreuen Schätzfunktionen und erweitert in diesem Sinne die reinen Effizienzbetrachtungen.
2.1.7 Methoden zur Konstruktion von Schätzfunktionen
Bisher beschränkten sich die Überlegungen auf die Diskussion der Qualität von Schätzfunktionen. Es wurde hingegen nicht darauf eingegangen, nach welchen Methoden und
Prinzipien solche Schätzfunktionen überhaupt konstruiert werden können. Dieser Frage
wollen wir jetzt nachgehen. Aus einer reichen Palette von möglichen Ansätzen, wovon
die Beispiele
•
•
•
•
•
Momentenmethode
Minimumquadratmethode
Maximum–Likelihood–Methode
Minimum–χ2–Methode
Minimumdistanz–Methode
nur eine Auswahl darstellen, wollen wir kurz auf die Momentenmethode und etwas
ausführlicher auf die Maximum–Likelihood–Methode eintreten. Die Minimumquadratmethode wird im Rahmen der Regressionsrechnung eingeführt.
31
2.1.8 Die Momentenmethode
Die auf K. Pearson zurückgehende Momentenmethode gehört zu den ältesten Verfahren
für Punktschätzungen. Sie basiert auf der Vorstellung, dass der (die) zu schätzende(n)
Parameter einer Verteilung mit den Momenten µ k′ einer Verteilung verknüpft sind. Für
die Varianz einer Zufallsvariablen gilt z.B.
σ 2 = V ( X ) = E ( X − µ ) = E ( X 2 ) − ( E ( X ) ) = µ 2′ − µ1′2
2
2
(2.55)
Man erhält eine Schätzung nach der Momentenmethode, indem man zunächst den zu
schätzenden Parameter θ durch die Momente zum Ausdruck bringt und letztere
schliesslich durch die empirischen Momente ersetzt. Bezeichnet µˆ k′ das k–te empirische
Moment (um den Wert a = 0 , vgl. Band II, S. 70), so gilt mit
µˆ k′ =
1
n
n
∑X
i =1
k
i
(2.56)
für die Varianz nach der Momentenmethode
1
σˆ =
n
2
n
∑(X
i =1
i
− X )2
(2.57)
Diese Schätzung ist nur asymptotisch erwartungstreu.
2.1.9
Die Maximum–Likelihood–Methode
–
"Methode der maximalen Mutmasslichkeit"
Wir konzentrieren uns zunächst auf die Schätzung des Parameters θ aus einer diskreten
Verteilung, wobei θ auch einen Vektor darstellen kann. Im Falle einer (stetigen)
Normalverteilung ist θ bei unbekanntem µ und σ der Vektor θ = ( µ , σ ) .
Die Informationsbasis ist wie bisher eine unabhängige Zufallsstichprobe aus einer
Grundgesamtheit mit der Verteilung f X ( x;θ ) . Mit dieser Notation der Wahrscheinlichkeitsfunktion soll deren Abhängigkeit vom unbekannten Parameter θ zum Aus32
druck gebracht werden.
Einführungsbeispiel
Wir betrachten eine Urne mit 2 Sorten Kugeln (E, Ec) im Mischungsverhältnis 1:3. Der
Anteil p der Erfolgskugeln nimmt dann entweder den Wert 0.25 oder 0.75 an.
Der Entscheid für p soll aufgrund einer konkreten Stichprobe X 1 , X 2 , X 3 mit Zurücklegen vom Umfang n = 3 gefällt werden. Der Einfachheit halber nehmen wir an, dass
nur die Anzahl Erfolge X mitgeteilt wird, so dass gilt
X ∼ B ( n, p ) ;
 3
3− x
P ( X = x ) =   p x (1 − p )
 x
x = 0,1, 2,3
(2.58)
Das Problem besteht nun darin, aufgrund einer konkreten Beobachtung von X einen
Entscheid bezüglich der unbekannten Erfolgswahrscheinlichkeit p (p 0 {0.25, 0.75}) zu
fällen.
Intuitiv scheint es vernünftig, die Wahrscheinlichkeiten für x Erfolge unter den beiden
Hypothesen p = 0.25 resp. p = 0.75 zu betrachten.
p
X
0
1
2
3
0.25
f X ( x; 0.25 )
27/64
27/64
9/64
1/64
0.75
f X ( x; 0.75 )
1/64
9/64
27/64
27/64
f X ( x; p ) hängt im Falle einer konkreten Realisation von X nur noch von p ab. Man
bezeichnet diese Funktion (in p) als Likelihoodfunktion L (p;x).
Im diskreten Fall beschreibt die Likelihoodfunktion die Eintretenswahrscheinlichkeit für
ein vorgegebenes Stichprobenresultat in Abhängigkeit des unbekannten, zu schätzenden
Parameters.
33
Annahme: Die Stichprobe zeigt einen Erfolg (X = 1).
Aufgrund dieser Beobachtung entscheidet man sich vernünftigerweise für p = 0.25,
zumal dieses konkrete Ergebnis in der Stichprobe (X = 1) unter der Annahme p = 0.25
eine bedeutend grössere Wahrscheinlichkeit (27/64) besitzt, als unter der Annahme
p = 0.75 (9/64). Allgemein entscheidet man sich unter den möglichen Alternativen von
p bei einer gegebenen Realisation von X für jenen Wert, welcher die Likelihoodfunktion
L(p;x) maximiert.
Mit derselben Argumentation kann für jedes Stichprobenresultat ein Entscheid bezüglich p gefällt werden.
X
L(0.25;x)
L(0.75;x)
Entscheid
0
1
2
3
27/64
27/64
9/64
1/64
1/64
9/64
27/64
27/64
p = 1/4
p = 1/4
p = 3/4
p = 3/4
Wenn in einer ersten Verallgemeinerung für p nur noch die Bedingung 0 < p < 1 vorausgesetzt wird, so findet man aus analogen Überlegungen die Likelihoodfunktion
n
n− x
L ( p; x ) = P ( X = x; p ) =   p x (1 − p )
 x
(2.59)
Wiederum schätzt man p durch p̂ so, dass die (in p stetige) Likelihoodfunktion maximal wird:
dL  n  x −1
n − x −1
=   p (1 − p )
( x − np ) = 0
dp  x 
x
pˆ =
⇒
n
Man beachte, dass wegen 0 < p < 1 die Faktoren p x −1 und (1 − p )
(2.60)
n − x −1
stets positiv
sind. Die obige Entscheidungsregel, wonach der unbekannte Parameter so zu schätzen
34
ist, dass die Likelihoodfunktion L (θ ; x ) maximiert wird, heisst Maximum–Likelihood–
Prinzip. Im Falle einer diskreten Zufallsvariablen X liefert das Likelihoodprinzip jenen
Schätzwert, welcher die Wahrscheinlichkeit für die konkrete Stichprobe maximiert.
Notwendigerweise muss das Verteilungsgesetz f X bekannt sein, damit die Likelihoodfunktion bestimmt werden kann.
Maximum–Likelihood–Prinzip
X 1 ,… , X n sei eine unabhängige Zufallsstichprobe aus einer Grundgesamtheit mit
bekannte Verteilungsgesetz f X und zu schätzendem Parameter θ . Dann ist
f X1 ,…, X n ( x1 ,… , xn ;θ ) = f X ( x1 ;θ ) ⋅ f X ( x2 ;θ ) ⋅… ⋅ f X ( xn ;θ )
(2.61)
die gemeinsame Wahrscheinlichkeits- oder Dichtefunktion der Stichprobe, welche
sowohl von den Realisationen xi als auch vom unbekannten Parameter θ abhängig ist.
Betrachtet man für eine Stichprobe X 1 ,… , X n die gemeinsame Verteilung als Funktion
des unbekannten Parameters θ , so wird diese Funktion als Likelihoodfunktion L (θ ; ⋅ )
bezeichnet:
L (θ ; x1 ,… , xn ) = f X (θ ; x1 ) ⋅ f X (θ ; x2 ) ⋅… ⋅ f X (θ ; xn )
(2.62)
Nach dem Maximumlikelihood-Prinzip wird θ nun so bestimmt, dass L möglichst gross
wird.
Ist L (θ ; x1 ,… , xn ) die Likelihoodfunktion einer Stichprobe ( X 1 ,… , X n ) und bezeichnet θˆ = h ( X 1 ,… , X n ) jenen Wert von θ , welcher L maximiert, so heisst
θˆ = h ( X 1 ,… , X n )
(2.63)
Maximumlikelihood-Schätzfunktion für θ .
.
35
Beispiel 1
n identische Münzen werden je solange geworfen, bis erstmals Kopf erscheint. Die
Zufallsvariablen X 1 ,… , X n sind dann geometrisch verteilt mit
P ( X = x ) = q x p = (1 − p ) p
x
(2.64)
X bezeichnet die Anzahl Würfe vor dem ersten Erfolg, p die (unbekannte) Wahrscheinlichkeit für das Ergebnis „Kopf“.
Für die Likelihoodfunktion folgt
L ( p; x1 ,… , xn ) = (1 − p ) 1 p … (1 − p ) n p
x
x
(2.65)
n
xi
s
p n = (1 − p ) p n
= (1 − p )∑
i =1
mit s =
n
∑x .
i =1
i
Notwendigerweise muss die erste Ableitung von L nach p beim Maximum verschwinden, womit für die Likelihoodschätzung folgt
dL
s −1
s
= s (1 − p ) p n ( −1) + (1 − p ) np n −1
dp
= (1 − p )
⇒
s −1
p
n −1
pˆ =
( n − p ( s + n )) = 0
n
=
s+n
n
n
∑x +n
i =1
(2.67)
i
Der Schätzer p̂ ist wiederum der Erfolgsanteil über alle n +
n
∑x
i =1
36
(2.66)
i
Würfe bei n
n
Erfolgen sowie
∑x
i =1
i
Nichterfolgen.
Beispiel 2
X 1 ,… , X n sei eine Zufallsstichprobe aus einer stetig gleichverteilten Grundgesamtheit.
1

f X ( x ) = α
0

0 ≤ x ≤α
(2.68)
sonst
Der unbekannte Parameter α soll geschätzt werden.
Für die Likelihoodfunktion gilt
L (α)
1
L (α ; x1 , … , x n ) =  
α 
n
α
L ist streng monoton fallend in α , womit zur Maximierung von L der Parameter α
möglichst klein zu wählen ist. Dabei sind allerdings diejenigen Restriktionen einzuhalten, welche sicherstellen, dass die Zufallsstichprobe X 1 ,… , X n unter α überhaupt
realisiert werden kann.
37
α ≥ xi
resp.
i = 1,… , n
α ≥ max ( x1 ,… , xn )
(2.69)
Wählt man α unter den obigen Bedingungen möglichst klein, so folgt die Likelihood–Schätzfunktion
αˆ = max ( X 1 ,… , X n )
(2.70)
Beachte:
1.
Das Maximum von L konnte nicht mit Hilfe der Differentialrechnung bestimmt
werden.
2.
3.
L kann nicht mehr als Wahrscheinlichkeit einer konkreten Stichprobe interpretiert
werden (X stetig!)
α̂ ist keine erwartungstreue Schätzfunktion.
Im Falle einer stetig differenzierbaren Funktion L kann das Maximierungsproblem durch
Logarithmierung von L oft vereinfacht werden. Es gilt nämlich
L (θ ; x1 ,… , xn ) = f X ( x1 ;θ ) ⋅ f X ( x2 ;θ ) ⋅… ⋅ f X ( xn ;θ )
(2.71)
log L = log f X ( x1 ;θ ) + … + log f X ( xn ;θ )
(2.72)
respektive
Da die Logarithmusfunktion eine streng monotone Abbildung ist , nehmen L und log L
das Maximum an derselben Stelle θ an. Die Funktionswerte von L und log L sind
allerdings verschieden. Während bei L ein Produkt abzuleiten ist, genügt es bei log L,
eine Summe abzuleiten.
38
Beispiel 3
X 1 ,… , X n sei eine Zufallsstichprobe aus einer poissonverteilten Grundgesamtheit.
f X ( x; λ ) =
λx
L ( λ ; x1 ,… , xn ) =
λx
x!
1
x1 !
e−λ
x = 0,1,… ;
−λ
e …
λx
n
xn !
e−λ
λ >0
(2.73)
= cλ s e − nλ
mit
c = ( x1 ! x2 !… xn !)
−1
und
(2.74)
n
s = ∑ xi
i =1
Damit gilt
ln L = ln c + s ln λ − nλ
d
s
ln L = − n = 0
dλ
λ
(2.75)
und der Maximum–Likelihood–Schätzwert für λ lautet
s 1
λˆ = =
n n
n
∑x
i =1
i
=x
(2.76)
Multiparameterfall
Ist θ ein Vektor θ = (θ1 ,… ,θ k ) , dessen k Komponenten zu schätzen sind, so ändert
sich das Prinzip an sich nicht. Die Stichprobe X 1 ,… , X n stamme aus einer
Grundgesamtheit mit der Dichte
39
f X ( x ;θ 1 , … , θ k ) = f X ( x ;θ )
(2.77)
L (θ ; x1 , … , xn ) = f X ( x1 ;θ ) … f X ( xn ;θ )
(2.78)
Die Likelihoodfunktion
ist jetzt abhängig von den Komponenten des Vektors θ . Ist L in diesen Komponenten
differenzierbar, so muss gelten
∂L
=0
∂θ i
i = 1,… , k
(2.79)
Das somit entstehende Gleichungssystem in den k Unbekannten θ1 ,… ,θ k besitzt i.a.
genau eine Lösung θˆ . Auch hier erweist es sich oft als vorteilhaft, das Maximum von
log L zu bestimmen.
Beispiel
X 1 ,… , X n sei eine Zufallsstichprobe aus einer normalverteilten Grundgesamtheit
X ∼ N ( µ , σ ) , µ und σ seien unbekannt, θ = ( µ , σ ) .
Für die Likelihoodfunktion findet man
L ( µ , σ ; x1 ,… , xn ) = ( 2π )
respektive
40
−
n
2
σ
−n
 −1
exp  2
 2σ
n
∑ (x − µ )
i =1
i
2



(2.80)
n
n
1
ln L = − ln ( 2π ) − ln σ 2 −
2
2
2σ 2
∂
1
ln L = 2
σ
∂µ
n
∑ (x − µ )
i =1
2
i
n
∑ (x − µ ) = 0
i =1
(2.81)
i
∂
−n
1
=
+
ln
L
∂σ 2
2σ 2 2σ 4
n
∑ (x − µ )
i =1
2
i
=0
woraus die Likelihoodschätzfunktionen
1 n
µˆ = ∑ X i = X
n i =1
1 n
σˆ 2 = ∑ ( X i − X ) 2
n i =1
(2.82)
folgen.
Eigenschaften von Likelihoodschätzfunktionen
Das Likelihoodschätzverfahren gehört zu den wichtigsten Konstruktionsmethoden von
Schätzfunktionen. Es setzt allerdings ein bekanntes Verteilungsgesetz voraus. Die
dominante Bedeutung wird in erster Linie durch die vorteilhaften Eigenschaften des
Likelihood-Prinzips begründet. Die wichtigsten sind:
1.
Maximumlikelihood–Schätzfunktionen genügen dem Invarianzprinzip. Ist θˆ
eine ML–Schätzung für θ und h eine eineindeutige Abbildung von θ , so ist
( )
h θˆ eine ML–Schätzung für h (θ ) .
2.
Maximumlikelihood–Schätzfunktionen sind konsistent und asymptotisch normalverteilt.
3.
Maximumlikelihood–Schätzfunktionen sind asymptotisch erwartungstreu. Das
letzte Beispiel der Varianzschätzung normalverteilter Zufallsvariablen zeigt, dass
ML–Schätzfunktionen nicht a priori erwartungstreue Schätzungen liefern.
41
2.2 Intervallschätzungen – Konfidenzintervalle
Die Resultate der bis anhin besprochenen Punktschätzungen sind im Normalfall einzelne
Zahlen. Wenn man bedenkt, dass diese Zahlen aus zufallsbedingten Stichproben stammen, wird klar, dass zusätzliche Informationen über deren Genauigkeit wünschbar sind.
Dies umso mehr, als man davon ausgehen muss, dass die konkreten Schätzwerte in
praktisch allen Fällen fehlerhaft sind und nicht mit den wahren Parametern übereinstimmen. Schätzfunktionen sind Zufallsvariablen, welchen ein bestimmtes Verteilungsgesetz zugrundeliegt. Konsequenterweise würde bei mehrmaliger Schätzung desselben
Parameters jedesmal ein anderer Wert realisiert werden. Es ist deshalb verständlich, dass
sich die Diskussion nicht auf eine einmalige "Punktinformation" beschränken darf,
sondern durch die bereits oben angetönte Genauigkeitsinformation ergänzt werden
muss. Im nächsten Kapitel über sogenannte Konfidenzintervalle wird es in erster Linie
um eine inhaltliche und begriffliche Präzisierung des "Genauigkeitsbegriffes" gehen.
Aus einer Stichprobe X 1 ,… , X n soll der unbekannte Parameter θ geschätzt werden.
Dieses Problem werde durch die Schätzfunktion T = t ( X 1 ,… , X n ) gelöst. Als Beispiel
betrachte man eine Stichprobe aus einer normalverteilten Grundgesamtheit mit bekannter Varianz, aus welcher der unbekannte Mittelwert µ zu schätzen ist. Als Schätzfunktion T kommt dann das arithmetische Mittel X in Frage. Zur Beurteilung der
Abweichung des Schätzwertes θˆ vom wahren Parameter θ sucht man aus der Stichprobe neue Funktionen T1 = t1 ( X 1 ,… , X n ) und T2 = t2 ( X 1 ,… , X n ) mit folgenden
Eigenschaften
1.)
T1 < T2
2.)
P (T1 ≤ θ ≤ T2 ) = γ
3.)
T2 − T1 ⇒ min .
(2.83)
γ ist eine vorgegebene Wahrscheinlichkeit. Wenn Funktionen T1 und T2 unter den
obigen Voraussetzungen existieren, so heisst [T1,T2] ein 100γ % Konfidenzintervall. γ
wird speziell als Konfidenzkoeffizient (Konfidenzzahl) bezeichnet. Das Konfidenzintervall für θ wird wie folgt bezeichnet
Konfθ [T1 , T2 ] = γ
42
(2.84)
und besitzt folgende Interpretation. Das Zufallsintervall [T1,T2] überdeckt mit Wahrscheinlichkeit γ den unbekannten, aber festen Parameter θ . Die Länge des Konfidenzintervalls [T2 - T1] beinhaltet eine Genauigkeitsaussage und rekurriert auf die Sicherheit
der Aussage.
Stichprobe 1
Stichprobe i
Stichprobe k
2.2.1 Konfidenzintervall für den Mittelwert µ einer normalverteilten Grundgesamtheit bei bekannter Varianz σ 2
X 1 ,… , X n bezeichne eine Zufallsstichprobe aus einer normalverteilten Grundgesamtheit. Der unbekannte Mittelwert µ wird durch das arithmetische Mittel geschätzt.
X =
Es gilt
1
n
n
∑X
i =1
i
(2.85)
X ∼ N ( µ ,σ )
 σ 
X ∼ N  µ,

n

X −µ
Z=
n ∼ N ( 0,1)
(2.86)
σ
43
Die Verteilung der standardisierten Variablen Z ist vollständig bekannt. Zu gegebener
Konfidenzzahl γ existiert ein Wert d γ , so dass gilt
P ( − dγ ≤ Z ≤ dγ ) = γ
(2.87)
fZ ( z)
γ
dγ
0.80
0.90
0.95
0.99
1.282
1.645
1.960
2.576
γ
−d γ
z
0
dγ
Es gilt die Umformung


X −µ
P ( − dγ ≤ Z ≤ dγ ) = P  − dγ ≤
n ≤ dγ 
σ


σ
σ 

= P  X − dγ
≤ µ ≤ X + dγ
 =γ
n
n

(2.88)
Wir haben somit zwei Funktionen t1 und t2 gefunden, welche geeignet sind, ein Konfidenzintervall einzugrenzen.
44
T1 = t1 ( X 1 ,… , X n ) = X − dγ
σ
T2 = t2 ( X 1 ,… , X n ) = X + dγ
σ
n
n
(2.89)
σ
σ 

Konf µ  X − dγ
, X + dγ
 =γ
n
n


Das Zufallsintervall
σ
σ 

, X + dγ
 X − dγ

n
n

(2.90)
überdeckt mit Wahrscheinlichkeit γ den wahren Parameter µ . Wenn sehr oft aus einer
Stichprobe vom Umfang n ein derartiges Konfidenzintervall berechnet würde, so
würden etwa 100γ % dieser Intervalle das wahre µ überdecken.
Aus der obigen Graphik ist ersichtlich, dass auch andere Intervalle
 X − a, X + b 
(2.91)
P ( X − a ≤ µ ≤ X + b)
(2.92)
existieren, welche der Bedingung
genügen. Diese Intervalle sind aber stets länger als das obige, bezüglich X symmetrische Konfidenzintervall.
Sicherheit und Genauigkeit verhalten sich bei gegebenem Stichprobenumfang gegenläufig. Eine höhere Sicherheit γ führt zwangsläufig zu ungenaueren, längeren Konfidenzintervallen.
Die minimale Länge des Konfidenzintervalls beträgt für ein vorgegebenes γ
45
σ
D = T2 − T1 = 2dγ
(2.93)
n
Daraus lässt sich der für eine gewünschte Genauigkeit D und Sicherheit γ notwendige
Stichprobenumfang n bestimmen.
 2dγ σ 
n=

 D 
2
(2.94)
Beispiel
Wie gross muss der Stichprobenumfang gewählt werden, damit bei einer Standardabweichung σ der wahre Mittelwert µ vom Konfidenzintervall der Länge
σ
2
mit einer
Wahrscheinlichkeit γ überdeckt wird.

d
2
σ
 γ   2dγ σ
n=
 = σ
D

 
 2
2
2


2
 = 16dγ


γ
n
0.80
0.90
0.95
0.99
27
44
62
107
(2.95)
Eine konkrete Stichprobe vom Umfang n = 4 habe ein arithmetisches Mittel x = 5
ergeben. Die Varianz σ 2 sei 9 und die Konfidenzzahl werde mit γ = 0.90 vorgegeben.
Das Konfidenzintervall ist dann
46
3
3

Konf µ 5 − 1.645 ⋅ , 5 + 1.645 ⋅ 
2
2

= Konf µ [ 2.533, 7.468] = 0.90
(2.96)
Die Aussage, das konkrete Intervall [2.533, 7.468] überdecke den wahren Mittelwert µ
mit einer Wahrscheinlichkeit vom 90%, ist falsch. Ein konkretes Intervall kann nur
überdecken – dann ist die Überdeckungswahrscheinlichkeit 1– oder nicht überdecken –
dann ist die Überdeckungswahrscheinlichkeit 0!
Bei einer korrekten Argumentation wird zunächst positiv ausgesagt, dass das konkrete
Intervall [2.533, 7.468] den wahren Parameter überdecke. Diese Aussage wird durch die
Konfidenzzahl γ = 0.90 bewertet. Das Bewertungskriterium γ wird so motiviert, dass
bei oftmaliger Wiederholung des obigen Experimentes jedesmal ein neues Konfidenzintervall resultiert und dass für jedes dieser verschiedenen Intervalle die positive Aussage der Überdeckung gemacht wird. In etwa 90% der Fälle ist die Aussage richtig.
Vor der Stichprobenentnahme besteht eine Wahrscheinlichkeit γ , dass das zu konstruierende Intervall den unbekannten Parameter überdeckt. Nach der Stichprobenentnahme gibt es nur noch die Alternativen Überdeckung ja oder nein.
2.2.2 Konfidenzintervall für den Mittelwert µ einer normalverteilten Grundgesamtheit bei unbekannter Varianz σ 2
Das Informationspotential ist wiederum eine Stichprobe X 1 ,… , X n und als Schätzfunktion für µ dient ebenfalls
X =
1
n
n
∑X
i =1
i
(2.97)
Im Gegensatz zum vorherigen Beispiel ist jedoch die Abbildung
Z=
X −µ
σ
n
(2.98)
nicht mehr definiert, zumal σ unbekannt ist. Z ist keine Statistik mehr. σ kann jedoch
47
aus der Stichprobe geschätzt werden durch
S=
1 n
( X i − X )2
∑
n − 1 i =1
(2.99)
und es gilt
V=
X −µ
S
n ∼ Tn −1
(2.100)
Die Statistik V genügt einer t-Verteilung mit n − 1 Freiheitsgraden (vgl. Statistik II,
Kap. 7).
Wie im Falle einer bekannten Varianz existiert bei gegebener Konfidenzahl γ und
bekannter Anzahl an Freiheitsgraden ein Wert d γ (der t–Verteilung) so, dass gilt
P ( −dγ ≤ V ≤ dγ ) = γ
Tn−1
-dγ
γ
0
+dγ
Durch analoge Umformungen von

X −µ
P  −dγ ≤
S


n ≤ dγ  = γ

findet man das Konfidenzintervall bei unbekannter Varianz
48
(2.101)
S
S 

Konf µ  X − dγ
, X + dγ
 =γ
n
n

(2.102)
Die beiden Funktionen T1 und T2 sind jetzt
1
T1 = t1 ( X 1 ,… , X n ) =
n
T2 = t2 ( X 1 ,… , X n ) =
1
n
n
∑X
i =1
i
n
∑X
i =1
i
−
dγ
+
dγ
n
n
1 n
( X i − X )2
∑
n − 1 i =1
(2.103)
n
1
( X i − X )2
∑
n − 1 i =1
Beispiel
Eine Stichprobe vom Umfang n = 25 aus einer normalverteilten Grundgesamtheit mit
unbekanntem Mittelwert und Varianz liefert die Schätzwerte x = 75 und s = 8.
Bei einer Konfidenzzahl γ = 0.95 gilt dann
8
8

Konf µ  75 − 2.064 ⋅ , 75 + 2.064 ⋅ 
5
5

= Konf µ [ 71.7, 78.3] = 0.95
(2.104)
Auch hier ist die Konfidenzzahl γ = 0.95 keine Wahrscheinlichkeit mehr sondern ein
Vertrauensmass, resp. ein Bewertungsmass für die Aussage, dass das konkrete Intervall
[71.7, 78.3] das wahre µ überdecke.
Asymptotisch sind die Konfidenzintervalle für den Mittelwert µ einer normalverteilten
Grundgesamtheit bei bekannter und unbekannter Varianz identisch. Die geschätzte
Standardabweichung S ist eine effiziente Schätzung für σ und die t-Verteilung konvergiert mit wachsender Anzahl Freiheitsgraden gegen eine Standardnormalverteilung.
Im Gegensatz zu Konfidenzintervallen für den Mittelwert normalverteilter Zufallsvariablen bei bekannter Varianz, ist die Länge der Konfidenzintervalle bei unbekannter
Varianz eine Zufallsvariable
49
S
n
D = T2 − T1 = 2dγ
(2.105)
2.2.3 Konfidenzintervall für den Mittelwert µ bei beliebig verteilten Zufallsvariablen
Ist X 1 ,… , X n eine Zufallsstichprobe aus einer beliebig verteilten Grundgesamtheit, so
ist
Z=
X −µ
σ
n
(2.106)
nach dem zentralen Grenzwertsatz asymptotisch standardnormalverteilt. Als Faustregel
gilt n > 30. Bei grossen Stichprobenumfängen bestimmt sich das Konfidenzintervall für
den Mittelwert analog zu den Verfahren im Falle einer Normalverteilung entweder bei
bekannter (2.2.1) oder bei unbekannter (2.2.2) Varianz.
2.2.4 Konfidenzintervall für die Varianz einer normalverteilten Grundgesamtheit
Gesucht ist zunächst wieder eine Statistik mit bekannter Verteilung. Es gilt
2
X −X 
2
U = ∑ i
 ∼ χ n −1
σ 
i =1 
n
(2.107)
U ist χ 2 –quadrat verteilt mit n − 1 Freiheitsgraden. Es existieren somit bei gegebenem
γ zwei Grenzen u1 und u2 so, dass
P ( u1 ≤ U ≤ u 2 ) = γ
(2.108)
Die Verteilung von U ist nicht symmetrisch. Approximativ wählt man u1 und u2 so, dass
50
1
(1 − γ )
2
1
P (U ≥ u2 ) = (1 − γ )
2
(2.109)
2
n


 Xi − X 
P  u1 ≤ ∑ 
u
≤
2 =γ



σ
i =1 



(2.110)
P (U ≤ u1 ) =
Aus der Beziehung
folgt nach einigen Umformungen das Konfidenzintervall für σ 2
Konfσ 2
 n
2
 ∑ (Xi − X )
 i =1
,
u2

n

− X )2 
=γ

u1

∑(X
i =1
i
(2.111)
Dabei braucht µ nicht bekannt zu sein.
Für grosse Stichprobenumfänge gilt die obige Theorie wiederum infolge des zentralen
Grenzwertsatzes für beliebig verteilte Zufallsvariablen.
2.2.5 Konfidenzintervall für p der Binomialverteilung
Exakte Lösung nach Clopper und Pearson.
Hat ein Binomialexperiment vom Umfang n die Anzahl k an Erfolgen gezeigt, so
bestimmen sich die exakten Grenzen eines 100γ % –Konfidenzintervalls für p aus den
Gleichungen
51
n x
1
n− x
  p (1 − p ) = (1 − γ )
∑
 
2
x=k x
 
k n
1
n− x
  p x (1 − p ) = (1 − γ )
∑
 
2
x =0 x
 
n
( untere Grenze )
(2.112)
( obere Grenze )
Konf p [ p1 , p2 ] = γ
(2.113)
"Exakt" bedeutet, dass die Konfidenzzahl γ garantiert wird.
Dabei resultiert aus der ersten Gleichung in (2.112) der Parameter p1 für die untere
Grenze, aus der zweiten Gleichung der Parameter p2 für die obere Grenze des Konfidenzintervalls.
Auf den ersten Blick würde man eher vermuten, dass p1 die obere und p2 die untere
Grenze des Intervalls wären. Nun sind aber bei einer kleinen Erfolgswahrscheinlichkeit
(untere Grenze p1) grosse Werte von X (viele Erfolge) und bei einer grossen
Erfolgswahrscheinlichkeit (obere Grenze p2) kleine Werte von X (wenig Erfolge)
unwahrscheinliche Ereignisse.
Beispiel
Ein Binomialexperiment vom Umfang n = 10 habe 3 Erfolge gezeigt. Für ein 90%Konfidenzintervall für p findet man
 10  x
10 − x
= 0.05
  p (1 − p )
∑
x
x =3
 
3  10 
10 − x
= 0.05
  p x (1 − p )
∑
x
x =0
 
10
und damit p1 = 0.09
(2.114)
und damit p2 = 0.61
Konf p [ 0.09, 0.61] = 0.90
(2.115)
Da dieses Verfahren für die Berechnung von Konfidenzintervallen wenig praktikabel ist,
52
wird im folgenden eine approximative Lösung für grosse Stichprobenumfänge behandelt.
Für grosse Stichprobenumfänge ist die Zufallsvarialbe X der "Anzahl Erfolge" eines
Binomialexperimentes approximativ normalverteilt. Für den Erfolgsanteil
P∗ =
X
n
(2.116)
gilt

X
P = ∼ N  p,

n

∗
p (1 − p ) 


n

(2.117)
n ∼ N ( 0,1)
(2.118)
respektive
Z=
P∗ − p
p (1 − p )
Zu gegebenem γ existiert wie im Falle der Normalverteilung eine Grenze d γ so, dass
P ( − d γ ≤ Z ≤ d γ ) = P ( Z ≤ dγ )

= P  P∗ − p


n
≤ dγ
p (1 − p )

 =γ


(2.119)
Für ein 100γ % Konfidenzintervall sind jene Werte von p zu suchen, welche die Ungleichung ( p ∗ bezeichne den Anteil Treffer basierend auf der Realisation x von X)
p∗ − p
n
≤ dγ
p (1 − p )
(2.120)
respektive
53
(p
∗
− p)
(p
∗
− p)
2
n
≤ dγ2
p (1 − p )
(2.121)
n
= dγ2
p (1 − p )
(2.122)
gerade noch erfüllen. Aus
2
folgt durch Umformen eine quadratische Gleichung in p
p 2 ( d γ2 + n ) − p ( 2 np ∗ + dγ2 ) + np ∗ = 0
2
(2.123)
mit den Lösungen
p1,2 =
2np ∗ + dγ2 ± dγ
dγ2 + 4np ∗ (1 − p ∗ )
2 ( dγ + n )
2
(2.124)
Beispiel
Von insgesamt 91342 Geburten waren 47179 Knabengeburten. Für ein 99%-Konfidenzintervall für die Wahrscheinlichkeit p einer Knabengeburt erhält man mit einem Schätzwert
p∗ =
47 '179
= 0.517
91'342
(2.125)
Konf p [ 0.512, 0.521] = 0.99
Sind bei grossem Stichprobenumfang n gleichzeitig auch k und n − k gross, so gilt mit
guter Näherung die Schätzung für die Varianz des Erfolgsanteils
54
σˆ P2 =
∗
1 k n−k
n n n
(2.126)
so, dass mit der Normalverteilungshypothese ein approximatives 100γ % Konfidenzintervall
k
k

Konf p  − c, + c  = γ
n
n

(2.127)
mit
c=
dγ
k (n − k )
n
n
(2.128)
folgt. Für das Geburtenbeispiel findet man nach dieser Methode
c=
2.576
91'342
47 '179 ⋅ 44 '163
= 0.0043
91'342
(2.129)
k 47 '179
=
= 0.5165
n 91'342
Konf p [ 0.512, 0.521] = 0.99
(2.130)
2.2.6 Konfidenzintervall für λ der Poissonverteilung
Die Poissonverteilung kann als Grenzverteilung der Binomialverteilung betrachtet
werden.
Binomialverteilung
X ∼ B ( n, p )
Poissonverteilung
n gross

→
np = λ endlich
X ∼ Po ( λ )
(2.131)
55
 n x
n− x
P ( X = x ) =   p (1 − p )
 x
 
P ( X = x) =
λx
x!
e−λ
(2.132)
Man kann nun dieselbe Argumentation von Clopper und Pearson im Falle der Binomialverteilung übernehmen und findet exakte Konfidenzgrenzen für λ, falls eine poissonverteilte Zufallsvariable den Wert x realisiert hat.
Die Grenzen λ1 und λ2 ergeben sich aus folgenden Bestimmungsgleichungen
λ1k
∞
∑ k!
e− λ1 =
k =x
λ2k
x
∑ k!
e− λ2 =
k =0
(1 − γ )
2
(1 − γ )
2
( untere Grenze λ1 )
(2.133)
( obere Grenze λ2 )
(2.134)
Konf λ [ λ1 , λ2 ] = γ
(2.135)
Beispiel
Eine poissonverteilte Zufallsvariable liege in der Realisation 3 vor. Gesucht ist ein 95%Konfidenzintervall für λ.
∞
λk
−
λk
−
∑ k ! e λ = 0.025
k =3
3
∑ k ! e λ = 0.025
k =0
und damit λ1 = 0.62
(2.136)
und damit λ2 = 8.76
(2.137)
Konf λ [ 0.62, 8.76 ] = 0.95
(2.138)
Die exakten Konfidenzgrenzen lassen sich relativ einfach mit Hilfe eines Computers
bestimmen. Ansonsten wird die Berechnung sehr aufwendig. Approximativ kann jedoch
oft auf die Normalverteilungsannahme ausgewichen werden.
56
3. TESTEN VON HYPOTHESEN
Wie beim Schätzproblem werden auch beim Hypothesentest Schlüsse aus einer Stichprobe auf die dazugehörige Grundgesamtheit gezogen. Beim Schätzen werden aus einer
Stichprobe zahlenmässige Werte über unbekannte Parameter einer Verteilung abgeleitet.
Von diesem Ansatz unterscheidet sich das Testproblem insofern, als es jetzt darum geht,
Aussagen über die Verteilung einer Zufallsvariablen zu überprüfen. Solche empirisch
überprüfbaren Aussagen über die Verteilung einer Zufallsvariablen werden als statistische Hypothesen bezeichnet.
Beispiele für statistische Hypothesen:
•
Der Mittelwert einer normalverteilten Zufallsvariablen beträgt 100.
•
Eine Zufallsvariable X ist poissonverteilt.
•
Die Zufallsvariablen X und Y sind stochastisch unabhängig resp. f XY = f X fY .
Die zu überprüfende Aussage wird allgemein als Nullhypothese H0 bezeichnet. Der
Nullhypothese werden Gegenhypothesen oder Alternativhypothesen H1 gegenübergestellt. Man spricht im Zusammenhang von H0 und H1 entsprechend vom relevanten
Hypothesensystem.
Praktische Beispiele derartiger Hypothesensysteme stammen etwa aus der Qualitätskontrolle. Ein Annahmekontrolleur steht vor einem Warenposten und muss einen
Entscheid auf Annahme oder Rückweisung treffen. Er formuliert die Nullhypothese
H0: Der Warenposten ist schlecht
und stellt ihr die Alternative
H1: Der Warenposten ist gut
gegenüber. Aufgrund einer konkreten Stichprobe X 1 ,… , X n ist dann ein Entscheid
entweder für H0 oder für H1 zu fällen.
Hypothesen können auch das Resultat theoretischer Überlegungen sein. So hat Mendel
eine Theorie über die Chromosomenrekombination aufgestellt, welche eine Aussage
über die Verteilung der Nachkommen ermöglicht. Diese Annahme kann wiederum
durch eine Stichprobe X 1 ,… , X n aus der Generation der Nachkommen überprüft
werden.
57
Hypothesen werden anhand zufälliger Stichproben X 1 ,… , X n überprüft. Daraus folgt
wiederum die Unmöglichkeit, Beweise in mathematischem Sinn zu führen. Wenn
aufgrund eines konkreten empirischen Befundes eine Hypothese nicht abgelehnt werden
kann, so ist letztere im Sinne eines Umkehrschlusses noch keineswegs bewiesen. Die
Glaubwürdigkeit einer Hypothese wächst hingegen, je öfter sie einer empirischen
Überprüfung ausgesetzt wird und nicht abgelehnt werden kann.
3.1 Einführungsbeispiel
Es sei bekannt, dass eine Zufallsvariable X normalverteilt sei mit einer Varianz von 9.
Der Mittelwert von X sei entweder 20 oder 23. Aus einer Zufallsstichprobe X 1 ,… , X n
entscheide man sich für einen der beiden Werte.
Im Sinne der einführenden Bemerkungen zur Testtheorie formulieren wir zunächst das
Hypothesensystem
H 0 : µ = µ 0 = 20
(3.1)
H1 : µ = µ1 = 23
wobei für X gilt
X ∼ N ( µ , 3)
(3.2)
f X ( x)
0.15
0.12
H1
H0
0.09
σ=3
σ=3
0.06
0.03
0.00
7
58
17
µ0=20 µ1=23
x
27
37
Ein Hypothesentest ist eine Entscheidungsregel E, welche aufgrund einer konkreten
Stichprobe X 1 ,… , X n eine Aussage darüber ermöglicht, ob H0 abzulehnen ist oder
nicht.
In der ersten Phase zur Konstruktion der Entscheidungsregel wird eine Testgrösse
T = t ( X 1 ,… , X n ) als Funktion der Stichprobenvariablen festgelegt. Zweckmässigerweise wählt man eine Testgrösse, welche sensibel auf Änderungen der der Hypothese
zugrunde liegenden Annahmen reagiert. Im konkreten Beispiel entscheiden wir uns für
die Testgrösse
1 n
σ 

X = ∑ Xi ∼ N  µ,

n i =1
n

(3.3)
zumal die Verteilung von X die Grösse µ direkt als Funktionalparameter enthält. Wie
bereits erwähnt, ist der Test einer statistischen Hypothese eine Entscheidungsregel E,
welche für jede Realisation der Testgrösse X einen Entscheid über Ablehnung oder
Nichtablehnung von H0 zulässt.
Zur Konstruktion von E unterteilen wir den Raum der möglichen Realisationen der
Testgrösse in die beiden Bereiche V und Vc. V heisst Verwerfungs- und Vc Nichtverwerfungsbereich. Für die Partition des Stichprobenraums unterstellen wir zunächst die
Richtigkeit von H0. Dann ist
3 

X ∼ N  20,

n

(3.4)
Der Stichprobenumfang sei vorgegeben mit n = 16.
Unter H0 werden sich Realisationen von X um µ 0 = 20 häufen. Unter H1 wäre ebenfalls eine Häufung zu erwarten, allerdings um den Mittelwert µ1 = 23 . Es erscheint
daher vernünftig, H0 für grosse Werte von X abzulehnen, woraus für die Entscheidungsregel E vorerst folgt
59
 X ≥ c
E : falls 
 X < c
{
⇒ H 0 ablehnen
(3.5)
⇒ H 0 nicht ablehnen
}
{
}
V : X X ≥c ; Vc : X X <c
(3.6)
Wie gross soll c gewählt werden? Zur Beantwortung dieser Frage geben wir eine
Wahrscheinlichkeit α vor und bestimmen c so, dass gilt
 c − 20 
P ( X ∈V H 0 ) = P ( X ≥ c H 0 ) = 1 − Φ 
⋅ 4 = α
 3

0.60
(3.7)
fX ( x )
0.45
H0
σ=0.75
0.30
0.15
α
0.00
17
19
x
µ0=20
21
c1-α
23
Für verschiedene Werte von α erhält man auf diese Weise folgende Grenzen c1−α :
α
0.10
0.05
0.01
c1−α
20 + 1.282 @ 3/4 = 20.962
20 + 1.645 @ 3/4 = 21.234
20 + 2.327 @ 3/4 = 21.745
α heisst Wahrscheinlichkeit eines Fehlers 1. Art.
60
Zur Konstruktion von E wurde die Richtigkeit von H0 vorausgesetzt. α ist somit die
Wahrscheinlichkeit, H0 irrtümlich abzulehnen (Fehler 1. Art) und sollte im Hinblick auf
eine Fehlerminimierung möglichst klein gewählt werden.
Für α = 0.05, folgt die Entscheidungsregel
 X ≥ 21.234
E : falls 
 X < 21.234
⇒ H 0 ablehnen
(3.8)
⇒ H 0 nicht ablehnen
Mit Wahrscheinlichkeit 1 − α wird mit der obigen Entscheidungsregel eine richtige
Nullhypothese nicht abgelehnt.
Zur Beurteilung der Qualität der Entscheidungsregel lassen wir die Voraussetzung der
Richtigkeit von H0 fallen. Unter der dichotomen Fragestellung ist dies gleichbedeutend
mit der Annahme, dass H1 richtig sei. Unter H1 gilt für die Verteilung der Testgrösse
3 

X ∼ N  23,

n

0.60
0.45
(3.9)
fX ( x )
H1
H0
σ=0.75
0.30
0.15
β
0.00
17
20
21.23
α
23
26
x
Aus der obigen Grafik wird die zweite Fehlerwahrscheinlichkeit ersichtlich. Bei Richtigkeit von H1 wird nach der Entscheidungsregel Ε die Nullhypothese H0 mit
61
Wahrscheinlichkeit β irrtümlich nicht abgelehnt. Fehler dieser Art werden als Fehler 2.
Art bezeichnet. Die Wahrscheinlichkeit eines Fehlers 2. Art beträgt β. Für obiges
Beispiel gilt also
β = P ( X ∈ V c H1 ) = P ( X < 21.234 µ = 23)
 21.234 − 23 
= Φ
⋅ 4  = Φ ( −2.35 ) = 0.0094
3


(3.10)
Wäre also H1 richtig, so würde mit der Entscheidungsregel E die Nullhypothese H0 mit
einer Wahrscheinlichkeit von weniger als 1% irrtümlich nicht abgelehnt.
1 − β ist unter H1 die Wahrscheinlichkeit, H0 richtigerweise abzulehnen und wird als
Macht des Tests bezeichnet.
Dieses einfache Beispiel zeigt das Zusammenspiel der beiden Fehlerwahrscheinlichkeiten deutlich. Man kann bei gegebenem Stichprobenumfang nicht beide Wahrscheinlichkeiten gleichzeitig minimieren, die eine kann nur auf Kosten der anderen verändert
werden.
Der Ablauf eines statistischen Hypothesentests kann wie folgt zusammengefasst werden:
1.)
2.)
3.)
4.)
5.)
6.)
7.)
8.)
Formulierung des Hypothesensystems
Bestimmung der Testgrösse
Verteilung der Testgrösse unter H0
Wahl von α
Konstruktion der Entscheidungsregel
Macht des Tests
Beobachtung der Stichprobe
Entscheid
Bei statistischen Tests wird die Wahrscheinlichkeit α eines Fehlers 1. Art gewöhnlich
vorgegeben. Anschliessend wird der Stichprobenraum der Testgrösse in einen
Verwerfungs- und einen Nichtverwerfungsbereich partitioniert. Erst dann ist die Wahrscheinlichkeit β eines Fehlers 2. Art berechenbar. Im Einführungsbeispiel haben wir uns
intuitiv auf einen sogenannt (einseitig) rechtsseitigen Test festgelegt. Dies ist jedoch
keineswegs die einzige Partition, welche ein vorgegebenes α garantiert.
62
Die Entscheidungsregel
 21.17 ≤ X ≤ 21.763
E ∗ : falls 
 X < 21.17 oder X > 21.763
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.11)
garantiert wie E ebenfalls eine Wahrscheinlichkeit eines Fehlers 1. Art von 5%. Auf der
Basis der Fehlerwahrscheinlichkeiten 1. Art müssten somit E und E ∗ als äquivalent
bezeichnet werden. Trotzdem ist E vorzuziehen, denn die Wahrscheinlichkeit eines
Fehlers 2. Art wird bei E ∗ bedeutend grösser, nämlich
β ∗ = P ( X ≤ 21.17 H 1 ) + P ( X ≥ 21.763 H 1 ) = 0.9578
(3.12)
im Gegensatz zu β = 0.0094 für Entscheidungsregel E.
Dieses Beispiel motiviert die Eigenschaften eines guten Tests. Bei vorgegebener Wahrscheinlichkeit α eines Fehlers 1. Art ist der Verwerfungsbereich so zu konstruieren, dass
die Macht des Tests möglichst gross wird. Gleichzeitig wird dann die Wahrscheinlichkeit eines Fehlers 2. Art minimal.
Im Einführungsbeispiel sind durch das Hypothesensystem die Verteilungen der Testgrösse (unter H0 und unter H1) eindeutig bestimmt. Es wird eine einfache Null- gegen
eine einfache Alternativhypothese getestet. Der optimale Test ist rechtsseitig. Die
Entscheide beim Hypothesentest lassen sich tabellarisch zusammenfassen.
unbekannte Wirklichkeit
H0 richtig
H0 ablehnen
Fehler 1. Art
α
H0 falsch
richtige Entscheidung
1− β
Entscheid
H0 nicht ablehnen
richtige Entscheidung
1−α
Fehler 2. Art
β
63
3.2 Formulierung von Null- und Alternativhypothesen
Es gibt keine allgemeingültigen Regeln, welche für jeden empirischen Sachverhalt
festlegen, was als Null- und was als Alternativhypothese zu formulieren ist. Aus der
Tatsache, dass einerseits mit jedem Entscheid die Chance von Fehlern verbunden ist und
andererseits die Wahrscheinlichkeit α eines Fehlers 1. Art zu den Aktionsparametern des
Statistikers gehört, lassen sich trotzdem Leitsätze ableiten. Sofern es möglich ist, die
Konsequenzen von Fehlentscheiden zu bewerten, wird man in der Nullhypothese
zweckmässigerweise jenen Teil der Behauptung umschreiben, der bei irrtümlicher
Ablehnung (Fehler 1. Art) die gravierendsten Konsequenzen nach sich zieht. α ist unter
diesem Gesichtspunkt möglichst klein zu wählen.
Der Annahmekontrolleur macht bei kleinem α mit dem Hypothesensystem
H0 : Warenposten ist schlecht
H1 : Warenposten ist gut
die Chance, einen schlechten Warenposten anzunehmen, klein.
Der Richter sichert sich mit den Hypothesen
H0 : Angeklagter ist unschuldig
H1 : Angeklagter ist schuldig
vor der Möglichkeit, einen Unschuldigen zu verurteilen. Nach allgemeiner Rechtsauffassung ist es weniger gravierend, einen Schuldigen nicht zu verurteilen (Fehler 2.Art),
als einen Unschuldigen zu verurteilen (Fehler 1. Art).
Der Arzt schützt sich unter dem Hypothesensystem
H0 : Patient ist krank
H1 : Patient ist gesund
bei kleinem α vor der Möglichkeit, einen kranken Patienten nicht zu behandeln. In
seiner Vorstellung ist es besser, einen Gesunden zu behandeln (Fehler 2. Art), als einen
Kranken nicht zu behandeln (Fehler 1. Art).
Überlegungen dieser Art helfen, die Hypothesen einzelnen Sachverhalten zuzuordnen,
sie sagen hingegen nicht, wie gross α im konkreten Fall zu wählen ist. In der Literatur
64
findet man dazu sehr oft auch nur vage Hinweise. Meistens wird auf Usanzen verwiesen
(α = 0.01, 0.05, 0.001) oder festgestellt, dass die ökonomischen Konsequenzen des
Entscheides zu berücksichtigen sind. Tiefere Einsicht in diese Zusammenhänge erhält
man erst, wenn der Hypothesentest als Spezialfall der allgemeinen Entscheidungstheorie
interpretiert wird.
Einen anderen Zugang zur Umschreibung von Null- und Alternativhypothesen erhält
man aus der Tatsache, dass statistische Tests auf Ablehnung hin konstruiert werden.
Eine positive Aussage ist nur bei Ablehnung von H0 möglich. Man formuliert deshalb
in H0 das Gegenteil dessen, was man letztlich nachweisen möchte.
3.3 Der Einfluss des Stichprobenumfangs
Wir gehen wieder vom Test der einfachen Null- gegen die einfache Alternativhypothese
des Einführungsbeispieles aus. Über eine normalverteilte Grundgesamtheit mit bekannter Varianz wird ausgesagt
H 0 : µ = µ 0 = 20
H1 : µ = µ1 = 23
(3.13)
wobei
X ∼ N ( µ , 3)
(3.14)
Mit der Testgrösse X haben wir die Entscheidungsregel E formuliert
 X ≥ c
E : falls 
 X < c
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.15)
65
0.8
0.6
fX ( x )
H0
H1
σ=0.64
0.4
0.2
α
β
0.0
17
µ0=20
c=21.5
x
µ1=23
26
Bezeichnet zp das p-Quantil einer Verteilung, so gilt für die Verteilungen unter H0 und
H1
Φ ( z1−α ) = 1 − α
⇒ z1−α =
Φ ( zβ ) = β
c − µ0
c − µ1
⇒ zβ =
n
σ
σ
(3.16)
n
Löst man beide Gleichungen nach c auf, so folgt
µ 0 + z1−α
σ
n
= µ1 + z β
σ
n
(3.17)
und damit
 z1−α − z β 
n = σ

 µ1 − µ 0 
66
2
(3.18)
Beispiel
Welcher Stichprobenumfang garantiert im obigen Beispiel, dass die beiden Fehlerwahrscheinlichkeiten je 1% werden?
α = β = 0.01
z1−α = z0.99 = 2.327
(3.19)
z β = z0.01 = − 2.327
 2.327 + 2.327 
n = 3 ⋅
 = 21.66 ≈ 22
23 − 20


2
(3.20)
3.4 Der allgemeine Test für den Mittelwert einer Normalverteilung bei
bekannter Varianz
Die Reissfestigkeit X eines Garnes sei normalverteilt mit unbekanntem Mittelwert µ
und bekannter Varianz σ 2 = 25. Unter diesen Bedingungen garantiert der Hersteller
eine mittlere Reissfestigkeit µ von mindestens 200 gr.
Der Käufer möchte diese Garantie überprüfen. Er untersucht zu diesem Zweck
n = 20 Garnproben, berechnet das arithmetische Mittel X und steht schliesslich vor der
Alternative, den Warenposten zu akzeptieren oder ihn zurückzuweisen.
Hypothesensystem
Die vorliegende Annahmeprüfung ist ein typisches Beispiel einer Qualitätskontrolle.
Zwei Risiken stehen dabei zur Diskussion. Eine gute Lieferung kann zufällig eine
schlechte Stichprobe, und umgekehrt eine schlechte Lieferung eine gute Stichprobe
hervorbringen. Bei einem Fehlentscheid wird im ersten Fall eine gute Lieferung irrtümlich zurückgewiesen (Produzentenrisiko) und im zweiten Fall eine schlechte Lieferung irrtümlich nicht zurückgewiesen (Konsumentenrisiko).
Der Annahmekontrolleur möchte sein Konsumentenrisiko möglichst klein halten und
67
formuliert deshalb die Hypothesen
H 0 : µ = µ 0 ≤ 200
(3.21)
H1 : µ = µ1 > 200
Das Konsumentenrisiko entspricht einem Fehler 1. Art und das Produzentenrisiko einem
Fehler 2. Art.
Als Testgrösse dient das arithmetische Mittel
5 

X ∼ N  µ,

n

(3.22)
Im Unterschied zum Einführungsbeispiel sind jetzt die Verteilungen der Testgrösse
unter H0 und H1 nicht mehr eindeutig bestimmt. Die zur Nullhypothese gehörende

Familie von Verteilungen besteht aus allen Normalverteilungen N  µ ,

σ 
 mit
n
σ 

µ ≤ 200 . Die Alternativhypothese wird durch die Verteilungsfamilie N  µ ,

n

mit µ > 200 beschrieben. Solche Hypothesen nennt man zusammengesetzt. H1 deckt
grosse Werte von µ ab, d.h. der Test erfolgt rechtsseitig.
H1
H0
200
68
Entscheidet sich der Konsument für eine maximale Wahrscheinlichkeit eines Fehlers 1.
Art von α = 0.05, so bedeutet dies, dass diese Fehlerwahrscheinlichkeit bei allen Möglichkeiten unter H0 nicht überschritten werden darf. Zur Bestimmung der kritischen
Grenze c, welche den Verwerfungs- vom Nichtverwerfungsbereich trennt, ist somit ein
möglichst grosser Wert zu wählen. Aus dem unter H0 zulässigen Bereich ist entsprechend die Verteilung mit dem grösstmöglichen Mittelwert zu wählen.
Bei einer Stichprobe vom Umfang n = 20 folgt für die Verteilung der Testgrösse unter
H0
X ∼ N ( 200, 1.118 )
(3.23)
H0 wird für grosse Werte von X abgelehnt. Für die kritische Grenze c1-α gilt
 c − 200 
P ( X > c1−α H 0 ) = 1 − Φ  1−α
 = 0.05
 1.118 
(3.24)
c1−α = c = 200 + 1.118 ⋅1.645 = 201.84
(3.25)
und damit
Die Entscheidungsregel E lautet
 X ≥ 201.84
E : falls 
 X < 201.84
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.26)
E garantiert über dem gesamten Bereich von H0 eine maximale Wahrscheinlichkeit von
α = 0.05
 201.84 − µ 

 1.118 
α (µ ) = 1− Φ 
(3.27)
Die Macht m ( µ ) des Tests beschreibt die Wahrscheinlichkeit für die Ablehnung von
H0. Ein guter Test weist sich durch eine möglichst kleine Macht "über H0" und durch
69
eine möglichst grosse Macht "über H1" aus. Für das obige Beispiel gilt
m ( µ ) = P ( X ∈ V ) = P ( X > 201.84 )
 201.84 − µ 
= 1− Φ 

 1.118 
(3.28)
β ( µ) , m( µ )
1.0
0.8
m( µ)
β ( µ)
0.6
0.4
0.2
µ
0.0
198
200
202
204
206
Für µ = 198 würde H0 nur mit einer Wahrscheinlichkeit von 0.0003 fälschlicherweise
abgelehnt. Andererseits führt bei einem µ = 204 der Test mit einer Wahrscheinlichkeit
von 0.9733 richtigerweise zur Ablehnung von H0.
Die Wahrscheinlichkeit eines Fehlers 2. Art ist ebenfalls abhängig von µ .
β ( µ ) = P ( X ∈ V c ) = P ( X ≤ 201.84 )
 201.84 − µ 
= Φ

 1.118 
= 1− m ( µ )
Die Funktion β ( µ ) wird als Operationscharakteristik bezeichnet.
70
(3.29)
Der Einfluss des Stichprobenumfangs auf die Macht eines Tests
Wenn der Stichprobenumfang erhöht wird, muss bei konstantem α die Entscheidungsregel angepasst werden. Wird im obigen Beispiel n = 30 gewählt, so gilt im Extremfall
unter H 0 : µ = µ 0 = 200 :
5 

X ∼ N  200,
 = N ( 200, 0.913)
30 

(3.30)
woraus die Entscheidungsregel
 X ≥ 201.50
E : falls 
 X < 201.50
⇒ H 0 ablehnen
(3.31)
⇒ H 0 nicht ablehnen
bei einer Wahrscheinlichkeit α für einen Fehler 1. Art von 0.05 folgt. Die Macht ist jetzt
 201.50 − µ 
m (µ ) = 1− Φ 

 0.913 
1.0
(3.32)
m( µ)
0.8
n=20
n=30
0.6
0.4
0.2
0.0
198
µ
200
202
204
206
71
In der Graphik kommt die Vergrösserung des Stichprobenumfanges dadurch zum
Ausdruck, dass der Graph der Machtfunktion m ( µ ) für µ > 200 wesentlich steiler
verläuft als vorher.
3.5 Test für den Mittelwert einer Normalverteilung bei unbekannter Varianz σ 2
Von der Zufallsvariablen X seien lediglich das Normalverteilungsgesetz, nicht hingegen
die Parameter µ und σ bekannt. Für µ formulieren wir das Hypothesensystem
H 0 : µ = µ0
H1 : µ = µ1 ≠ µ 0
(3.33)
X kann nicht direkt als Testgrösse verwendet werden, zumal das Verteilungsgesetz von
X den unbekannten Parameter σ enthält. Hingegen ist die Verteilung von
U=
X − µ0
S
n
(3.34)
bekannt, wobei S die Standardabweichung der Stichprobe bezeichnet. U genügt einer tVerteilung mit n − 1 Freiheitsgraden. Aufgrund des Hypothesensystems ist H0 für
grosse und kleine Werte von X resp. U abzulehnen. Der Test verläuft zweiseitig.
Für die Verteilung von U gilt unter H0
U=
X − µ0
S
n ∼ Tn −1
(3.35)
Damit existiert bei gegebener Wahrscheinlichkeit α für einen Fehler 1. Art ein Quantil t1−α / 2
der t-Verteilung, so dass gilt
P ( −t1−α / 2 ≤ U ≤ t1−α / 2 ) = 1 − α
72
(3.36)
wobei −t1−α / 2 = + tα / 2 .
Daraus folgt die Entscheidungsregel E
 U ≥ t1−α / 2
E : falls 
 U < t1−α / 2
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
fU ( u )
(3.37)
Tn −1
α
α
2
2
−t1−α
t1−α
0
2
u
2
Auf die Diskussion der Macht kann im Rahmen dieser Einführung nicht eingegangen
werden. Die Testgrösse
U=
X −µ
S
n
(3.38)
besitzt nur für µ = µ 0 eine t–Verteilung mit n − 1 Freiheitsgraden. Falls µ ≠ µ 0 ist U
nichtzentral t–verteilt.
Beispiel
Die Messwerte 2.4, 4.9, 3.2, 5, 3.6 bilden eine Stichprobe aus einer normalverteilten
Grundgesamtheit mit unbekannter Varianz. Mit einer Fehlerwahrscheinlichkeit α = 0.05
teste man das Hypothesensystem
73
H 0 : µ = µ0 = 4
H 1 : µ = µ1 ≠ 4
(3.39)
Damit gilt
X − µ0
S
= 2.777
U=
t0.975
n ∼ T4
(3.40)
Die Entscheidungsregel lautet
 U ≥ 2.777
E : falls 
 U < 2.777
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.41)
Entscheid:
Aus der Stichprobe findet man
X = 3.82
S = 1.119
3.82 − 4
U=
5 = − 0.360
1.119
(3.42)
was zu folgender Entscheidung führt
U < 2.777 ⇒ H 0 nicht ablehnen
74
(3.43)
3.6 Test für die Varianz σ 2 einer Normalverteilung
Ist X eine normalverteilte Zufallsvariable und wird die Hypothese
H 0 : σ 2 = σ 02
(3.44)
gegen eine der Alternativen
1.) H1 : σ 2 > σ 02
2.) H1 : σ 2 < σ 02
(3.45)
3.) H1 : σ 2 ≠ σ 02
getestet, so verwendet man als Testgrösse unter H0 die Stichprobenfunktion
n − 1) S 2
(
U=
σ 02
mit
1 n
S2 =
( X i − X )2
∑
n − 1 i =1
(3.46)
U ist bekanntlich χ 2 –verteilt mit n − 1 Freiheitsgraden
U ∼ χ n2−1
(3.47)
Bei bekanntem Verteilungsgesetz können wiederum für gegebene Wahrscheinlichkeiten
eines Fehlers 1. Art Quantile c bestimmt werden.
Die Entscheidungsregeln lauten
1.)
für den rechtsseitigen Test
U ≥ c1−α
E1 : falls 
U < c1−α
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.48)
75
2.)
für den linksseitigen Test
U ≤ cα
E2 : falls 
U > cα
3.)
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.49)
für den zweiseitigen Test
U ≤ cα / 2 oder U ≥ c1-α / 2
E3 : falls 
cα / 2 < U < c1−α / 2
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.50)
Zu Illustrationszwecken betrachten wir das Beispiel aus Abschnitt 3.5 mit einer Stichprobe vom Umfang n = 5 und dem Hypothesensystem
H 0 : σ 2 = σ 02 = 1.5
(3.51)
H1 : σ 2 = σ 12 ≠ 1.5
Damit erhält man die Testgrösse
4S 2
∼ χ 42
U=
1.5
(3.52)
Für α = 0.10 folgen die kritischen Grenzen
c0.05 = 0.711
(3.53)
c0.95 = 9.488
und daraus die Entscheidungsregel
U ≤ 0.711 oder U ≥ 9.488
E : falls 
0.711 < U < 9.488
76
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.54)
Der Wert der Testgrösse
U=
4 ⋅ 1.252
= 3.339
1.5
(3.55)
zeigt, dass H0 nicht abgelehnt werden kann.
Bei zweiseitigen Tests ist zu beachten, dass infolge der Asymmetrie der χ 2 –Verteilung
mit wenigen Freiheitsgraden der Nichtverwerfungsbereich kleiner gemacht werden
kann, falls α nicht symmetrisch auf die beiden Ränder aufgeteilt wird. Die kritischen
Grenzen
c0.01 = 0.297
c0.91 = 8.043
(3.56)
garantieren ebenfalls eine Fehlerwahrscheinlichkeit α = 0.10, jedoch bei einem kürzeren
Nichtverwerfungsintervall Vc.
3.7 Vergleich der Mittelwerte zweier Normalverteilungen
3.7.1 Vergleich bei bekannter Varianz
X und Y seien unabhängige, je normalverteilte Zufallsvariablen mit bekannter Varianz
X ∼ N ( µ X ,σ X )
Y ∼ N ( µY , σ Y )
(3.57)
Auf der Basis von zwei Stichproben des Umfanges nX und nY soll die Hypothese
H 0 : µ X − µY = ∆ 0
(3.58)
gegen die Alternativen
77
1.) H1 : µ X − µY > ∆ 0
2.) H1 : µ X − µY < ∆ 0
3.) H1 : µ X − µY ≠ ∆ 0
getestet werden.
Die Zufallsvariable
D = X −Y
(3.60)
eignet sich als Testgrösse, da ihre Verteilung direkt auf Änderungen in der Hypothese
reagiert.

σ X2 σ Y2 
D = X − Y ∼ N  µ X − µY ,
+



n
n
X
Y 

(3.61)
Der Test kann also umformuliert werden in eine Aussage über den Mittelwert der
normalverteilten Zufallsvariablen D bei bekannter Varianz
H 0 : µ D = µ D0 = ∆0
(3.62)
gegen die entsprechenden Alternativen, womit die Theorie von Abschnitt 3.4 angewendet werden kann.
Beispiel
Der Benzinverbrauch X pro 100 km zweier Autotypen A und B sei je normalverteilt mit
X A ∼ N ( µ A , 1.2 )
X B ∼ N ( µ B , 1.8 )
(3.63)
Wir testen die Hypothese, dass Typ B im Mittel mindestens 1.5 Liter mehr verbrauche
als Typ A.
78
H 0 : µ B − µ A ≥ 1.5
H1 : µ B − µ A < 1.5
(3.64)
Es stehen zwei Zufallsstichproben vom Umfang nA = 5 für A und vom Umfang nB = 8
für B zur Verfügung. Damit gilt

1.44 3.24 
D = X B − X A ∼ N  µ B − µ A ,
+

5
8 

= N ( µ B − µ A , 0.832 )
(3.65)
Unter H0 gilt für die Verteilung der Testgrösse
D ∼ N (1.5, 0.832 )
(3.66)
Für den linksseitigen Test gilt mit α = 0.10 die Entscheidungsregel
 D ≤ 0.433
E : falls 
 D > 0.433
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.67)
Die Stichproben
XA: 7, 9, 10, 8, 10
XB: 9, 8, 12, 9, 9, 13, 9, 11
ergeben
d = xB − x A = 10 − 8.8 = 1.2
(3.68)
womit H0 nicht abgelehnt werden kann.
79
3.7.2 Vergleich bei unbekannter Varianz
X und Y seien wieder unabhängige, je normalverteilte Zufallsvariablen mit unbekannter,
jedoch übereinstimmender Varianz σ X2 = σ Y2 = σ 2
X ∼ N ( µ X ,σ )
Y ∼ N ( µY , σ )
(3.69)
Auch hier geht es um den Test der Nullhypothese
H 0 : µ X − µY = ∆ 0
(3.70)
gegen die Alternativen
1.) H1 : µ X − µY > ∆ 0
2.) H1 : µ X − µY < ∆ 0
(3.71)
3.) H1 : µ X − µY ≠ ∆ 0
auf der Basis von zwei Stichproben der Grösse nX und nY. Die Wahrscheinlichkeit eines
Fehlers 1. Art betrage α.
Mit
ZD =
X − Y − ( µ X − µY )
σ2
nX
+
σ2
nY
=
X − Y − ( µ X − µY )
σ
nX + nY
nX nY
n
1
( X i − X )2
S =
∑
nX − 1 i =1
2
X
n
1
(Yi − Y ) 2
S =
∑
nY − 1 i =1
2
Y
S2 =
80
1
( nX − 1) S X2 + ( nY − 1) SY2 
nX + nY − 2
(3.72)
gilt
Z D ∼ N ( 0,1)
n X + nY − 2 ) S 2
(
∼ χ n2 + n − 2
W=
2
σ
X
(3.73)
Y
respektive
U=
X − Y − ( µ X − µY )
ZD
Z
= D =
S
S
W
σ
n1 + n2 − 2
nX nY
∼ TnX + nY − 2
(3.74)
nX + nY
Als Testgrösse wählt man die unter H0 t–verteilte Variable
U=
X − Y − ∆0
S
n X nY
n X + nY
(3.75)
U reagiert direkt auf Variationen in der Hypothese und besitzt ein bekanntes Verteilungsgesetz, nämlich eine t-Verteilung mit ( n X + nY − 2 ) Freiheitsgraden. S2 ist eine
aus beiden Stichproben gepoolte Schätzung für die unbekannte Varianz σ 2 .
Aus der t-Verteilung können die relevanten Quantile und daraus die Entscheidungsregel
nach bekanntem Muster gebildet werden.
Beispiel
XA :
XB :
92, 84, 97, 105, 100, 91
107, 102, 102, 85, 103
seien Stichproben aus zwei je normalverteilten Grundgesamtheiten mit übereinstimmender, unbekannter Varianz. Zu testen sei das Hypothesensystem
H 0 : µ B ≤ µ A resp. µ B − µ A ≤ 0
H1 : µ B > µ A resp. µ B − µ A > 0
(3.76)
81
Die Wahrscheinlichkeit α eines Fehlers 1. Art sei 0.05.
Aus dem unter H0 zulässigen Bereich ist die Hypothese
H0 : µB − µ A = 0
(3.77)
relevant, da der Fehler 1. Art für µ B − µ A = ∆ 0 = 0 maximal wird.
Dann gilt
U=
XB − XA
S
30
∼ T9
11
(3.78)
Grosse Werte von U sprechen gegen H0 und motivieren den rechtsseitigen Test.
Die Entscheidungsregel lautet (bei 9 Freiheitsgraden)
U ≥ 1.834
E : falls 
U < 1.834
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.79)
Aus den beiden Stichproben findet man
x A = 94.83
s A2 = 54.97
xB = 99.80
sB2 = 72.20
1
( 5 ⋅ 54.97 + 4 ⋅ 72.70 ) = 62.85
9
99.80 − 94.83
⋅ 1.65 = 1.04
u=
7.93
s2 =
(3.80)
Der Stichprobenbefund vermag H0 nicht zu widerlegen, da u = 1.04 < 1.834 .
Die Macht des Tests existiert, kann aber im Rahmen der verfügbaren Theorie nicht
diskutiert werden. Der Grund liegt wieder in der Testgrösse
82
U=
Z
W
n
(3.81)
welche dann (zentral) t–verteilt ist, wenn
Z ∼ N ( 0,1)
W ∼ χ n2
(3.82)
Z ,W stochastisch unabhängig
Die Zählervariable Z hat die Form
Z=
X − Y − ∆0
σ
nX nY
nX + nY
(3.83)
und ist nur unter H0 standardnormalverteilt.
Ausserhalb von H0 gilt
Z ∼ N ( µ1 − µ 2 − ∆ 0 ,1)
(3.84)
Damit ist, wie bereits früher erwähnt, die Testgrösse U ausserhalb von H0 nichtzentral
t–verteilt.
3.8 Vergleich der Varianzen zweier Normalverteilungen
Beim Vergleich der Mittelwerte zweier Normalverteilungen bei unbekannter Varianz
musste vorausgesetzt werden, dass letztere in den beiden Fällen wenigstens übereinstimmt. Für die fraglichen Zufallsvariablen gilt dann
X ∼ N ( µ X ,σ )
Y ∼ N ( µY , σ )
(3.85)
83
Es stellt sich daher in natürlicher Konsequenz die Frage nach einem Test, welcher die
Varianzen zweier Zufallsvariablen miteinander vergleicht.
Seien
X ∼ N ( µ X ,σ X )
Y ∼ N ( µY , σ Y )
(3.86)
Dann gilt
2
X −X
2
UX = ∑ i
 ∼ χ nX −1
σX 
i =1 
nX
(3.87)
2
Y −Y 
2
UY = ∑  i
 ∼ χ nY −1
i =1  σ Y

nY
Zum Vergleich der Varianzen von X und Y erweist es sich als zweckmässig, den leicht
modifizierten Quotienten von UX und UY zu betrachten, zumal das Verteilungsgesetz
von
UX
nX − 1 nY − 1 U X
=
∼ FnX −1, nY −1
UY
nX − 1 U Y
nY − 1
(3.88)
bekannt ist und der sog. F-Verteilung mit den entsprechenden Freiheitsgraden entspricht. Damit gilt
nX
(X
−1 ∑
n − 1 U X nY
U= Y
=
nX − 1 U Y n X − 1
i =1
nY
84
− X )2
∑ (Y − Y )
i =1
S X2 σ Y2
= 2 2 ∼ FnX −1, nY −1
SY σ X
i
i
2
σ Y2
σ X2
(3.89)
Unter der Hypothese
H 0 : σ X2 = σ Y2 resp.
σ X2
=1
σ Y2
(3.90)
gilt speziell
S X2
U = 2 ∼ FnX −1, nY −1
SY
(3.91)
d.h. man betrachtet lediglich das Verhältnis der beiden Stichprobenvarianzen, von denen
das Verteilungsgesetz bekannt ist.
Beispiel
Eine Stichprobe vom Umfang nX = 25 aus der X– und vom Umfang nY = 30 aus der
Y–Grundgesamtheit ergab folgende Parameter:
x = − 0.214
s X2 = 4.3176
y = − 0.260
sY2 = 5.4193
(3.92)
Zum Test der Hypothese
H 0 : σ X2 = σ Y2 resp.
H1 : σ X2 ≠ σ Y2
σ X2
=1
σ Y2
σ X2
≠1
resp.
σ Y2
(3.93)
betrachten wir die Testgrösse
U=
S X2
∼ F24, 29
SY2
(3.94)
85
und erhalten für α = 0.05 die folgende Entscheidungsregel
U ≤ 0.451 oder U ≥ 2.154
E : falls 
0.451 < U < 2.154
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.95)
Entscheid
U=
4.3176
= 0.797 ⇒ H 0 nicht ablehnen
5.4193
(3.96)
Tatsächlich wurden normalverteilte Zufallsvariablen simuliert mit σ X2 = 4 und
σ Y2 = 4.41 .
σ X2
Die Berechnung von Konfidenzintervallen für 2 erfolgt nach bekanntem Muster.
σY
86
3.9 Querverbindung zur Theorie der Konfidenzintervalle
Konfidenzintervalle und Hypothesentest weisen offensichtliche Gemeinsamkeiten auf,
welche sich am Beispiel eines zweiseitigen Tests für den Mittelwert einer Normalverteilung bei bekannter Varianz σ 2 sehr einfach darstellen lassen.
Für die Konfidenzzahl γ lautet das Konfidenzintervall
σ
σ 

Konf µ  X − dγ
, X + dγ
 =γ
n
n

(3.97)
Der Test der Hypothesen
H 0 : µ = µ0
(3.98)
H1 : µ ≠ µ 0
führt bei einer Wahrscheinlichkeit eines Fehlers 1. Art von α = 1 − γ zur Entscheidungsregel
σ
σ

−
≤
≤
+
c
X
c
µ
µ
0
1
+
γ
0
1
+
γ

n
n
2
2

E : falls 
σ
σ

<
−
>
+
X
c
oder
X
c
µ
µ
0
1+γ
0
1+γ

n
n

2
2
⇒ H 0 nicht ablehnen
⇒ H 0 ablehnen
(3.99)
Betrachtet man ferner c1+γ = dγ , so wird offensichtlich, dass die Länge des Konfidenz2
intervalls und jene des bezüglich µ 0 symmetrischen Nichtverwerfungsbereiches übereinstimmen. Für jede Realisation von X im Nichtverwerfungsbereich überdeckt das
dazugehörige Konfidenzintervall das wahre µ 0 , während für jede Realisation im
Verwerfungsbereich keine Überdeckung stattfindet. Das obige Hypothesensystem
könnte somit mit einer äquivalenten Entscheidungsregel E'
87
 Konfidenzintervall überdeckt µ 0
E′ : 
 Konfidenzintervall überdeckt µ 0 nicht
⇒ H 0 nicht ablehnen
⇒ H 0 ablehnen
(3.100)
überprüft werden.
3.10 Chi–Quadrat Test ( χ 2 –Test)
Unter der Bezeichnung χ 2 –Test werden jene Testverfahren zusammengefasst, deren
Testgrösse einer χ 2 –Verteilung genügt. Sind Z1 ,… , Z n unabhängig standardnormaln
verteilt, so ist die Zufallsvariable
∑Z
i =1
2
i
χ 2 –verteilt mit n Freiheitsgraden. Im wesent-
lichen konzentrieren sich die hier dargestellten Verfahren ausschliesslich auf die Nullhypothese. Es wird also nur untersucht, ob H0 abgelehnt werden kann oder nicht. Die
Alternative zu H0 ist regelmässig nur ihre Negation. Eine Diskussion des Fehlers 2. Art
wird somit überflüssig.
3.10.1 Der χ 2 –Anpassungstest
Während bis anhin ein bekanntes Verteilungsgesetz der Grundgesamtheit unterstellt
wurde, geht es beim χ 2 –Anpassungstest darum, eine Aussage über das Verteilungsgesetz zu überprüfen.
Beispiele
•
Das Verpackungsgewicht X ist normalverteilt mit dem Mittelwert µ und der
•
•
Standardabweichung σ .
Die Anzahl Unfälle eines Tages sind poissonverteilt mit unbekanntem λ.
Ein Würfel ist symmetrisch.
Das letzte Beispiel soll zur Einführung herangezogen werden. Zunächst ist die vorderhand verbale Aussage in eine solche über die Verteilung einer Zufallsvariablen
umzuformulieren, damit sie die Voraussetzungen einer statistischen Hypothese erfüllt.
Dazu definieren wir die Zufallsvariable
88
X:
Augenzahl des Würfels
und formulieren
H0 :
X ist diskret gleichverteilt
Mit der Bezeichnung
P ( X = i ) = pi
(3.101)
lautet die Nullhypothese
H 0 : p10 = p20 = … = p60 =
1
6
(3.102)
Die Alternative zu H0 ist ihre Negation, d.h. "keine diskrete Gleichverteilung."
Zum Test von H0 betrachten wir n = 120 Würfe. Die einzelnen Ausprägungen seien
jeweils mit N i , i = 1,… , 6 , Realisationen belegt, so dass gilt
6
∑N
i =1
i
=n
(3.103)
Beachte: Bei gegebener Anzahl Würfe n können nur 5 Klassen frei belegt werden.
Unter H0 müssten alle Ausprägungen etwa gleich oft vorkommen. Es erscheint daher
vernünftig, die empirischen Häufigkeiten der einzelnen Ausprägungen mit den unter H0
theoretisch zu erwartenden (absoluten) Häufigkeiten zu vergleichen. Werden letztere
mit ei , i = 1,… , 6 , bezeichnet, so gilt unter H0
ei = ei 0 = npi 0
(3.104)
Für unser Beispiel gelte
89
xi
1
2
3
4
5
6
ni
ei
11
20
21
20
29
20
30
20
19
20
10
20
Der Vergleich der empirischen mit den theoretischen Häufigkeiten unter H0 kann durch
folgende Testgrösse Q erfolgen.
6
( ni − ei )
i =1
ei
Q=∑
2
(11 − 20 )
=
20
2
(10 − 20 )
+…+
20
2
= 18.2
(3.105)
Für den Moment halten wir fest
•
•
•
Q ist ein relatives Mass für die Abweichungsquadrate.
H0 ist für grosse Werte von Q abzulehnen.
Eine kritische Grenze kann nur bei bekanntem Verteilungsgesetz von Q unter H0
bestimmt werden. Zudem ist eine Angabe über die Wahrscheinlichkeit α eines
Fehlers 1. Art notwendig.
Verallgemeinerung
Die Nullhypothese spezifiziert das Verteilungsgesetz f X einer Zufallsvariablen X
H0 : fX = fX 0
(3.106)
welche gegen die Negation von H0 getestet wird.
Zu diesem Zweck wird die Zufallsvariable X aufgrund der Stichprobe X 1 ,… , X n n–mal
beobachtet. Bezeichnet S den Raum der möglichen Ausprägungen von X und
S1 , S 2 ,… , S k eine Partition von S, so lassen sich unter H0 die Wahrscheinlichkeiten
P ( X ∈ S i ) = pi 0
berechnen.
90
(3.107)
f X ( x)
p20
p30
p10
p40
x
S1
S2
S3
S4
Sind ferner Ni die absoluten Häufigkeiten derjenigen Stichprobenwerte, welche in das
i-te Element der Partition von S fallen, so genügt die gemeinsame Verteilung der
N i , i = 1,… , k , einer Multinomialverteilung.
 n  n1
nk
P ( N1 = n1 ,… , N k = nk ) = 
 p1 … pk
 n1 … nk 
(3.108)
mit
k
∑ Ni = n
i =1
k
und
∑p
i =1
i
=1
(3.109)
Aus der Nullhypothese folgen somit für eine gegebene Partition Si , i = 1,… , k , Aussagen über die Erfolgswahrscheinlichkeiten einer Multinomialverteilung.
H 0 : p1 = p10 ; p2 = p20 ;… ; pk = pk 0
(3.110)
Die unter H0 zu erwartende Anzahl Belegungen in Si
E ( N i 0 ) = npi 0
(3.111)
91
führt schliesslich zur Testgrösse
k
Q=∑
i =1
(N
i
− E ( Ni0 ))
E ( Ni0 )
2
k
( N i − npi 0 )
i =1
npi 0
=∑
2
(3.112)
welche (approximativ) einer χ 2 –Verteilung mit k − 1 Freiheitsgraden genügt. Bei einer
Wahrscheinlichkeit α eines Fehlers 1. Art folgt daraus die Entscheidungsregel
Q ≥ c1−α
E : falls 
Q < c1− a
⇒ H 0 ablehnen
(3.113)
⇒ H 0 nicht ablehnen
Dabei bezeichnet c1−α das 1 − α –Quantil der dazugehörigen χ 2 –Verteilung mit k − 1
Freiheitsgraden.
fQ ( q )
α
1−α
c1−α
q
Beispiel
Wir testen die Hypothese über die Verteilung einer Zufallsvariablen X.
 2 x
fX ( x) = 
0
0 ≤ x ≤1
(3.114)
sonst
Das Intervall S = [0,1] werde wie folgt partitioniert
92
S1 = [0,0.25)
S2 = [0.25, 0.5)
S3 = [0.5,0.75)
S4 = [0.75,1]
fX ( x)
2
1
p40
p30
p20
p10
0
0.2
0.4
0.6
0.8
1
x
Für die Wahrscheinlichkeiten pi 0 , i = 1,… , 4 , folgt dann
H 0 : p10 =
1
3
5
7
; p20 = ; p30 = ; p40 =
16
16
16
16
(3.115)
Die Testgrösse
4
( N i − npi 0 )
i =1
npi 0
Q=∑
2
∼ χ 32
(3.116)
führt auf dem Signifikanzniveau α = 0.05 zur Entscheidungsregel
Q ≥ 7.815
E : falls 
Q < 7.815
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.117)
93
Zum Test von H0 werden 80 Beobachtungen gemacht.
S1
S2
S3
S4
Ni
7
18
19
36
npi 0
5
15
25
35
Damit erhält man
( 7 − 5)
Q=
5
2
(18 − 15 )
+
2
15
(19 − 25 )
+
25
2
( 36 − 35 )
+
35
2
= 2.87
(3.118)
d.h. die konkrete Stichprobe vermag H0 auf dem Niveau α = 0.05 nicht zu widerlegen.
Für den Spezialfall k = 2 ist die approximative Verteilung der Testgrösse Q einfach
darzustellen. Dann gilt nämlich
n = N1 + N 2
(3.119)
N1 ∼ B ( n, p1 )
und
( N − np1 )
Q= 1
np1
2
(n − N
+
(1 − p1 )( N1 − np1 )
=
np1 (1 − p1 )
2
N1 − np1 )
(
=
np1 (1 − p1 )
Nach dem zentralen Grenzwertsatz ist aber
94
1 − n (1 − p1 ) )
2
n (1 − p1 )
2
+
p1 ( N1 − np1 )
np1 (1 − p1 )
2
(3.120)
N1 − np1
Z=
np1 (1 − p1 )
(3.121)
approximativ standardnormalverteilt, also
Z 2 ∼ χ12
(3.122)
Enthält die in H0 umschriebene Verteilung unbekannte Parameter, so läuft das Verfahren wie im Falle bekannter Parameter ab. Der einzige Unterschied besteht darin, dass bei
der Verteilung der Testgrösse die Anzahl Freiheitsgrade k − 1 um die Anzahl der zu
schätzenden Parameter zu reduzieren ist.
Beispiele
H 0 : X ∼ N ( µ ,σ )
1.
(3.123)
Die beiden unbekannten Parameter µ und σ werden aus der Stichprobe
X 1 ,… , X n geschätzt. Mit diesen Schätzwerten werden die pi 0 , i = 1,… , k ,
bestimmt. Die Anzahl Freiheitsgrade ist um 2 zu reduzieren.
2.
Die Qualität eines Produktionsprozesses wird an der Zufallsvariablen
X: Anzahl defekte Stücke pro Tag
gemessen. Über X wird eine Poissonverteilung
fX ( x) =
λx
x!
e−λ
x = 0,1…
(3.124)
vermutet. λ sei unbekannt.
Aus einer Stichprobe
95
xj: Anzahl defekte Stücke pro Tag
0
1
2
3
4
5
6 oder
mehr
nj: Anzahl Tage mit xj defekten Stücken
6
20
20
27
15
7
5

schätzt man λ konservativ mit  n =

6
∑n
j =1
1
x=
100
j

= 100 

6
∑n x
i =1
i i
= 2.66
(3.125)
Aus der Partition
S1 = {0}, S2 = {1},..., S6 = {5}, S7 = {6,7, ...}
folgen die Multinomialwahrscheinlichkeiten unter H0
2.660 −2.66
pˆ10 = P ( X ∈ S1 ) = P ( X = 0 ) =
e
0!
= 0.06995
2.661 −2.66
pˆ 20 = P ( X ∈ S2 ) = P ( X = 1) =
e
1!
= 0.18606
pˆ 30 =
= 0.24746
pˆ 40 =
= 0.21942
pˆ 50 =
= 0.14591
pˆ 60 =
= 0.07763
pˆ 70 = P ( X ∈ S7 ) = 1 − P ( X ≤ 5 ) =
= 0.05357
(3.126)
Die Testgrösse
7
( N i − npˆ i 0 )
i =1
npˆ i 0
Q=∑
96
2
(3.127)
ist unter H0 χ 2 –verteilt mit 7 − 1 − 1 = 5 Freiheitsgraden und führt auf einem Signifikanzniveau von α = 0.10 zur Entscheidungsregel
Q ≥ 9.236
E : falls 
Q < 9.236
⇒ H 0 ablehnen
(3.128)
⇒ H 0 nicht ablehnen
Aus der Tabelle der empirischen und theoretischen Häufigkeiten
xj
0
1
2
3
4
5
6
nj
6
20
20
27
15
7
5
npj0
7.00
18.61
24.75
21.94
14.59
7.76
5.36
folgt für die Testgrösse Q = 2.435 der Entscheid
Q = 2.435 < 9.236 ⇒ H 0 nicht ablehnen
(3.129)
Aufgrund des empirischen Befundes haben wir keine Veranlassung, die Hypothese einer
Poissonverteilung für die Zufallsvariable X:"Anzahl defekter Stücke pro Tag" abzulehnen.
Die Approximation der Verteilung von Q durch eine entsprechende χ 2 –Verteilung
wird umso besser, je stärker die Elemente der Partition von S belegt sind. Nach einer
Faustregel ist die Partition so zu wählen, dass jedes Element davon theoretisch mit
mindestens 5 Beobachtungen belegt sein sollte. Nötigenfalls wären Nachbarklassen zu
vereinigen. Diese Faustregel führt aber in vielen Fällen zu unnötigen Informationsverlusten und beeinträchtigt die Wirksamkeit des Tests. Die Poissonverteilung als
Beispiel ist typischerweise rechtsschief. Wenn zu grosse Bereiche über den Ausprägungen mit kleinen Wahrscheinlichkeiten zusammengefasst werden, so führt ein solches
Vorgehen dazu, dass charakteristische Eigenschaften der Verteilung verlorengehen.
Umfassende Simulationsversuche haben gezeigt, dass die Faustregel in den meisten
Fällen zu restriktiv ist. In den relevanten Bereichen der Verteilung sind die Abweichungen zwischen der exakten und der approximativen Verteilung tolerierbar, selbst
97
wenn nur eine Minimalbelegung von 2 Werten gefordert wird. Ein zweiter Punkt
hingegen sollte stets beachtet werden. Die Partition sollte immer so gewählt werden,
dass die theoretisch zu erwartenden Belegungen in den verschiedenen Klassen
unterschiedlich ausfallen. Damit wird erreicht, dass die Sprünge in der exakten (diskreten) Verteilung der Testgrösse klein ausfallen und die Approximation besser wird.
3.10.2 Der χ 2 –Unabhängigkeitstest in Kontingenztafeln
Eine der wichtigsten Anwendungen der χ 2 –Methode ist der Test auf Unabhängigkeit
von zwei Zufallsvariablen X und Y. Wir unterstellen für X und Y je eine diskrete Ausprägungsmannigfaltigkeit x1 ,… , xi ,… , xr resp. y1 ,… , y j ,… , yc .
Getestet wird die Hypothese
H 0 : P ( X = xi , Y = y j ) = f XY ( xi , y j ) = f X ( xi ) fY ( y j )
(3.130)
wiederum gegen die Negation von H0 als Alternative.
Als Prüfbasis dient eine Stichprobe
( X 1 , Y1 ) ,… , ( X n , Yn )
von n unabhängigen Be-
obachtungspaaren. X kann beispielsweise die Grösse und Y das Gewicht einer Person
bedeuten.
Bezeichnet ferner N ij ( i = 1,… , r , j = 1,… , c ) die Anzahl Beobachtungen, bei denen
X in der Ausprägung xi und Y in der Ausprägung yj vorliegt, so lässt sich der empirische
Stichprobenbefund in einer zweidimensionalen Häufigkeitsverteilung darstellen.
98
Y
y1 … y j …
yc
X
x1
.
xi
.
xr
N11 … N1 j … N1c
. . . . .
N i1 … N ij … N ic
. . . . .
N r1 … N rj … N rc
N1⋅
.
Ni⋅
.
Nr⋅
N ⋅1 … N ⋅ j … N ⋅ c
Insbesondere gelten die Beziehungen
r
c
∑∑ N
i =1 j =1
c
∑N
j =1
i =1
=n
ij
= N i⋅
ij
= N⋅ j
r
∑N
ij
(3.131)
Zweidimensionale Häufigkeitsverteilungen dieser Art werden auch als Kontingenztafeln
bezeichnet. Jedes Beobachtungspaar der Stichprobe wird zufällig einer Zeile und
ebenfalls zufällig einer Spalte zugeordnet.
Zur einfacheren Notation setzen wir
P ( X = xi , Y = y j )
= f XY ( xi , y j )
= pij
P ( X = xi )
= f X ( xi )
= pi⋅
P (Y = y j )
= fY ( y j )
= p⋅ j
(3.132)
Dabei heissen die Werte pij ( i = 1,… , r , j = 1,… , c ) gemeinsame Wahrscheinlich99
keiten, pi⋅ , i = 1,… , r , resp. p⋅ j , j = 1,… , c , Randwahrscheinlichkeiten.
Bei Unabhängigkeit von X und Y gilt
pij = pi ⋅ p⋅ j
∀ i, j
(3.133)
Wir betrachten analog zum χ 2 –Anpassungstest einen Vergleich der unter H0 zu erwartenden Besetzung im Feld ( i, j ) mit der empirisch gefundenen Besetzung
E0 ( N ij ) = npij = npi⋅ p⋅ j
i = 1,… , r
(3.134)
j = 1,… , c
Unter H0 genügt zur Bestimmung der theoretisch zu erwartenden Besetzung die Kennt
nis der Randverteilungen von X und Y. Normalerweise sind diese Randverteilungen
unbekannt; sie können jedoch aus der Stichprobe geschätzt werden. Es gilt
pˆ i⋅ =
ni⋅
n
pˆ ⋅ j =
n⋅ j
n
Eˆ 0 ( N ij ) = npˆ ij = npˆ i⋅ pˆ ⋅ j =
(3.135)
ni⋅ n⋅ j
n
Setzt man diese Schätzfunktionen in die Testgrösse Q ein, so erhält man
2
N i⋅ N ⋅ j 

−
N
ij

r
c 
 r c  N ij2
n 

Q = ∑∑
= n  ∑∑ 
N i⋅ N ⋅ j
i =1 j =1
 i =1 j =1  N i⋅ N⋅ j
n
 
 − 1
 
(3.136)
Q genügt wiederum einer χ 2 –Verteilung. Die Partition umfasst rc Klassen und es sind
r − 1 und c − 1 unbekannte Wahrscheinlichkeiten zu schätzen. Die Anzahl Freiheitsgrade ist somit
df = rc − 1 − ( r − 1) − ( c − 1) = ( r − 1)( c − 1)
100
(3.137)
Die Entscheidungsregel lautet
Q ≥ c1−α
:
falls
E

Q < c1−α
⇒ H 0 (Unabhängigkeit) ablehnen
⇒ H 0 nicht ablehnen
(3.138)
Dabei bezeichnet c1− a das 1 − α –Quantile einer χ 2 –Verteilung mit r − 1 und c − 1
Freiheitsgraden.
3.10.3 Vergleich von r Stichproben in einer Kontingenztafel
Gegeben seien r unabhängige Stichproben der Umfänge n1⋅ , n2⋅ ,…, nr ⋅ . Die Ausprägungsmannigfaltigkeit der beobachteten Variablen sei in allen Stichproben dieselbe,
nämlich y1 , y2 ,… , yc . Beispielsweise werden Haushalte aus verschiedenen Regionen
bezüglich ihrer Familiengrösse Y untersucht. Bezeichnet Nij die Belegung der Ausprägung yj in der i-ten Stichprobe, so können alle Häufigkeiten in einer Kontingenztafel
zusammengefasst werden.
Y
y1 … y j …
yc
St
St1
.
Sti
.
Str
N11 … N1 j … N1c
.
.
.
.
.
N i1 … N ij … N ic
.
.
.
.
.
N r1 … N rj … N rc
n1⋅
.
ni⋅
.
nr⋅
N ⋅1 … N ⋅ j … N ⋅ c
Im Unterschied zur Kontingenztafel beim Unabhängigkeitstest sind hier die Zeilensummen ni⋅ , i = 1,… , r , durch die Stichprobenumfänge fest vorgegeben. Der Zufall entscheidet nur noch innerhalb einer Zeile bezüglich der Spalte.
101
Die Hypothese lautet
H0 :
H0 :
resp.
In allen Zeilen herrscht dasselbe Verteilungsgesetz.
p1 j = p2 j = … = prj
j = 1,… , c
Der Nullhypothese, dass alle Wahrscheinlichkeiten innerhalb einer Kolonne übereinstimmen, steht die Alternative, dass mindestens zwei voneinander verschieden sind,
gegenüber.
Man benützt wieder dieselbe Testphilosophie wie beim Unabhängigkeitstest und
vergleicht die empirischen Belegungen N ij , i = 1, … , r , j = 1,… , c , mit den unter H0 zu
erwartenden.
Unter H0 gilt
E0 ( N ij ) = ni⋅ p⋅ j
wobei
(3.139)
p⋅ j , j = 1,… , c , die (unter H0 für alle Stichproben identische)
(Rand)wahrscheinlichkeit der Ausprägung y j , j = 1, … , c , bezeichnet.
Die normalerweise unbekannten Randwahrscheinlichkeiten p. j , j = 1, … , c , sind aus
der Stichprobe zu schätzen. Nach der Maximum–Likelihood–Methode erhält man als
Schätzfunktion
r
pˆ ⋅ j =
∑N
i =1
n
ij
=
N⋅ j
n
j = 1,… , c
(3.140)
pˆ ⋅ j ist eine Funktion in den Zufallsvariablen Nij, was durch Fettdruck zum Ausdruck
gebracht wird.
Bei der Schätzung der p⋅ j denkt man sich sämtliche Stichproben vereinigt, woraus der
gemeinsame Erfolgsanteil umfassender geschätzt werden kann.
102
Für die Testgrösse folgt
r
c
Q = ∑∑
i =1 j =1
(N
ij
− ni⋅ pˆ ⋅ j )
ni⋅ pˆ ⋅ j
2
r
c
= ∑∑
i =1 j =1
ni⋅ N ⋅ j 

 N ij −

n 

ni⋅ N⋅ j
n
2
(3.141)
welche unter H0 ebenfalls approximativ χ 2 –verteilt ist mit k Freiheitsgraden
k = r ( c − 1) − ( c − 1) = ( r − 1)( c − 1)
(3.142)
In jeder Zeile sind c − 1 Felder frei belegbar. Ferner sind c − 1 Parameter zu schätzen.
Man stellt fest, dass trotz des unterschiedlichen Modells die Testgrösse dieselbe Form
aufweist wie beim Unabhängigkeitstest. Die Entscheidungsregel stimmt ebenfalls
überein. Sie lautet bei gegebenem Signifikanzniveau α
Q ≥ c1−α
E : falls 
Q < c1−α
⇒ H 0 ablehnen
(3.143)
⇒ H 0 nicht ablehnen
Beispiel
93 Studenten mit dem Maturitätstypus E und 57 mit dem Maturitätstypus C erreichen
bei einer Zwischenprüfung folgende Punktzahlen P.
0 < P < 16
16 # P < 24 24 # P < 36 36 # P # 48
ni@
E
32
30
19
12
93
C
7
16
20
14
57
N@ j
39
46
39
26
150
103
Man teste die Hypothese, dass die Verteilung der Punktzahlen in den beiden Gruppen
übereinstimmt.
H 0 : p11 = p21 ; p12 = p22 ; p13 = p23 ; p14 = p24
(3.144)
Die Schätzwerte für die gemeinsamen Wahrscheinlichkeiten sind
pˆ .1 =
39
150
pˆ ⋅2 =
46
150
pˆ ⋅3 =
39
150
pˆ ⋅4 =
26
150
(3.145)
Auf dem Signifikanzniveau α = 0.10 folgt mit der Testgrösse
2
4
Q = ∑∑
(N
i =1 j =1
ij
− ni⋅ pˆ ⋅ j )
ni⋅ pˆ ⋅ j
2
∼ χ 32
(3.146)
die Entscheidungsregel
Q ≥ 6.251
E : falls 
Q < 6.251
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.147)
Damit führt die Realisation der Testgrösse Q = 12.55 auf dem Niveau α = 0.10 zur
Ablehnung von H0.
Die beiden besprochenen Verfahren gehören zu den wichtigsten Methoden zur Analyse
von Kontingenztafeln. Die Palette möglicher Kontingenzmodelle ist allerdings mit
diesen beiden Ansätzen noch keineswegs erschöpft.
Waren im ersten Beispiel noch beide Randhäufigkeiten Zufallsresultate, so sind im
zweiten Beispiel nur noch die Spaltensummen frei wählbar. In einem nächsten Schritt
wären schliesslich beide Randverteilungen fest vorgegeben.
Das Lady-Testing-Tea-Experiment ist ein typisches Beispiel dafür. Eine Dame, welche
einen besonders feinen Geschmackssinn für sich in Anspruch nimmt, behauptet, sie
vermöge zu unterscheiden, ob bei einem Tee die Milch vor oder nach dem Tee zu104
gegeben wurde. Zum Test werden der Dame n1 Tassen der Sequenz Tee/Milch (TM)
und n2 Tassen der Sequenz Milch/Tee (MT)vorgesetzt. Sie soll bei bekannten n1 und n2
die Zuordnung vornehmen. Falls unsere Dame neben dem Teegeschmack noch über
weitere Fähigkeiten verfügt, wird sie die Zuordnung so vornehmen, dass wenigstens die
Randhäufigkeiten stimmen.
Experiment
TM
MT
Entscheid
TM
x
n1 − x
n1
Lady
MT
n1 − x
n2 − n1 + x
n2
n1
n2
n
Wenn als Hypothese formuliert wird, dass die Dame nicht über die angeblichen Fähigkeiten verfügt und unter den Randbedingungen den Zufall über die Zuordnung entscheiden lässt, dann ist die einzig freie Variable X hypergeometrisch verteilt.
Das Problem ist unter dem Begriff "Exakter Test von Fisher" bekannt.
105
3.11 Test auf Normalverteilung
Eine Vielzahl von statistischen Verfahren setzt voraus, dass die zugrundeliegenden
Variablen normalverteilt sind. Als typisches Beispiel sei etwa auf den in Abschnitt 3.7.2
beschriebenen t-Test verwiesen. Eine erste Möglichkeit für den Normalitätstest haben
wir mit dem χ 2 –Anpassungstest bereits kennengelernt. Eine wichtige Alternative zum
χ 2 –Anpassungstest ist der Test von Kolmogoroff–Smirnov, welcher allerdings nur
dann unverzerrte Resultate liefert, wenn die Parameter der Verteilung bekannt sind.
Lilliefors hat den Kolmogoroff–Smirnov–Test insofern erweitert, als er aufbauend auf
dem Grundverfahren aus Simulationsstudien angepasste, kritische Grenzen für den Fall
unbekannter Parameter µ und σ konstruiert hat. Die Lilliefors–Version des Kolmogoroff–Smirnov–Tests ist im Softwarepaket Systat verfügbar.
Weitere Möglichkeiten zum Test der Normalverteilungshypothese sind der
Shapiro–Wilk-Test sowie Tests, welche unter der Bezeichnung D'Agostino–Test bekannt
sind.
Neben diesen praktisch und theoretisch eher anspruchsvollen Verfahren existieren vor
allem für grosse Stichprobenumfänge einfach praktikable Alternativen, welche primär
auf der Form der Verteilung aufbauen. Die Normalverteilung ist symmetrisch und
besitzt in der Umgebung des Erwartungswertes eine charakteristische Wölbung. Die
Symmetrie wird anhand des empirischen dritten zentrierten Moments
µˆ 3 =
1 n
( X i − X )3
∑
n − 1 i =1
(3.148)
bzw. deren standardisierter Form, der empirischen Schiefe
1 n
( X i − X )3
∑
µˆ
n − 1 i =1
m3 = 33 =
S
S3
beurteilt.
Analog wird die Wölbung anhand des empirischen vierten Moments
106
(3.149)
µˆ 4 =
1 n
( X i − X )4
∑
n − 1 i =1
(3.150)
bzw. dessen standardisierter Fom, der empirischen Kurtosis
1 n
( X i − X )4
∑
µˆ
n − 1 i =1
m4 = 44 =
S
S4
(3.151)
beurteilt. Dabei bezeichnet S die empirische Standardabweichung.
Allgemein gilt für normalverteilte Zufallsvariablen X i ∼ N ( µ , σ ) , i = 1,… , n
E ( m3 ) = 0
6
n
E ( m4 ) = 3
V ( m3 ) =
V ( m4 ) =
(3.152)
24
n
Aus dem zentralen Grenzwertsatz folgt für grosse Werte von n
Z m3 =
Z m4 =
m3 − E ( m3 )
σm
3
m4 − E ( m4 )
σm
4
=
m3
6
n ∼ N ( 0,1)
m −3
n ∼ N ( 0,1)
= 4
24
(3.153)
Über die Testgrössen Z m 3 und Z m4 lässt sich die Normalverteilungshypothese relativ
einfach beurteilen.
Weicht Z m 3 zu stark von Null ab, wird H0 verworfen.
107
Stark negative Werte von Z m 3 deuten auf eine linksschiefe und stark positive Werte auf
eine rechtsschiefe Verteilung hin.
Ein negativer Wert von Z m4 signalisiert eine im Vergleich zur Normalverteilung zu
flache Verteilung. Umgekehrt bedeutet ein grosser positiver Wert von Z m4 , dass die
Verteilung in der Umgebung des Mittelwertes zu hoch (spitz) ist.
Idealerweise sollten beide Testgrössen in der Nähe von Null sein.
Vorsicht ist im Falle von Ausreissern geboten, zumal höhere Momente sehr sensitive
Reaktionen zeigen!
3.12 Likelihood–Quotiententest
3.12.1 Einfache Hypothesen
Zur Einführung betrachten wir wieder den Spezialfall, dass zwei einfache Hypothesen
einander gegenüberstehen. Die zugehörigen Dichten bezeichnen wir mit f X0 ( x ) resp.
f X1 ( x ) . Der Entscheid über die beiden Hypothesen ist auf der Basis einer Zufallsstichprobe X 1 ,… , X n zu fällen.
Der Test von
H 0 : X ∼ f X0 ( x )
H1 : X ∼ f X1 ( x )
(3.154)
ist intuitiv klar, falls die Stichprobe nur aus einer einzigen Beobachtung x besteht. Die
Entscheidungsregel lautet dann
 f X0 ( x ) > f X1 ( x )
E : falls 
1
0
 f X ( x ) > f X ( x )
108
⇒ X ∼ f X0 ( x )
⇒ X ∼ f X1 ( x )
(3.155)
Wie beim Likelihood–Schätzprinzip entscheidet man sich im diskreten Fall für jenes
Verteilungsgesetz, welches für die konkrete Beobachtung die höhere Eintretenswahrscheinlichkeit besitzt. Für stetige Verteilungen verläuft die Argumentation analog,
indem man eine ε-Umgebung der konkreten Beobachtung betrachtet.
Das obige Prinzip lässt sich für Stichproben, zunächst wiederum für den Spezialfall von
zwei einfachen Hypothesen, verallgemeinern.
Bezeichnet X 1 ,… , X n eine reine Zufallstichprobe aus einer der Verteilungen f X0 resp.
f X1 , so wird zum Test von
H 0 : X ∼ f X0 ( x )
H1 : X ∼ f X1 ( x )
(3.156)
die Entscheidungsregel
λ > k
E : falls 
λ ≤ k
⇒ H 0 nicht ablehnen
⇒ H 0 ablehnen
(3.157)
mit
Π f X0 ( xi ) L0 ( x1 ,… , xn )
λ = λ ( x1 ,… , xn ) =
=
Π f X1 ( xi ) L1 ( x1 ,… , xn )
(3.158)
als einfacher Likelihood–Quotiententest bezeichnet.
Der Test ist intuitiv einleuchtend, zumal für einen gegebenen Wert von k die Nullhypothese H0 abgelehnt wird, falls die Stichprobe tendenziell eher aus einer Verteilung unter f X1 ( x )
stammt, d.h. falls L1 ( x1 ,… , xn ) gross ist im Verhältnis zu L0 ( x1 ,… , xn ) .
Neben der intuitiven Verständlichkeit besitzt der einfache Likelihood–Quotiententest
weitere (optimale) Eigenschaften.
109
Definition:
Sei E die Entscheidungsregel eines Tests, welche die Wahrscheinlichkeit α eines Fehlers
1. Art garantiere. Gibt es zu E alternative Entscheidungsregeln auf demselben Niveau α
eines Fehlers 1. Art, so minimiert aus dieser Menge die mächtigste Entscheidungsregel
die Wahrscheinlichkeit β eines Fehlers 2. Art resp. maximiert die Macht 1-β unter H1.
Für den Test einer einfachen Null– gegen eine einfache Alternativhypothese liefert das
Theorem von Neyman und Pearson einen systematischen Ansatz zur Bestimmung des
besten kritischen (Verwerfungs–)Bereichs.
3.12.2 Theorem von Neyman und Pearson
Sei X 1 ,… , X n eine Zufallsstichprobe aus einer Grundgesamtheit mit der Wahrscheinlichkeits– resp. Dichtefunktion f X ( x;θ ) . Der Parameter θ besitzt dabei einen der
Werte θ 0 und θ1 . Die vorgegebene Wahrscheinlichkeit eines Fehlers 1. Art sei α.
Ferner sei k eine positive Zahl und C eine Teilmenge des Stichprobenraumes mit den
Eigenschaften
1.)
λ=
L (θ 0 ; x1 ,… , xn )
≤k
L (θ1 ; x1 ,… , xn )
für ( x1 ,… , xn ) ∈ C
(3.159)
2.)
λ=
L (θ 0 ; x1 ,… , xn )
>k
L (θ1 ; x1 ,… , xn )
für ( x1 ,… , xn ) ∈ C
(3.160)
3.)
P ( ( X 1 ,… , X n ) ∈ C H 0 ) = α
(3.161)
C ist unter den Bedingungen 1.), 2.) und 3.) der beste kritische Bereich für den Test der
einfachen Null- gegen die einfache Alternativhypothese.
Während jede Wahl von k einen speziellen Test erzeugt, so wird H0 für jeden festen
Wert von k im Falle kleiner Likelihood–Quotienten abgelehnt.
110
Das Theorem von Neyman und Pearson gibt nicht explizit an, wie k und C zu bestimmen sind. Allerdings kann aus der Bedingung 1.) auf die Form des Tests geschlossen
werden, zumal sie den kritischen Bereich festlegt.
Beispiel
Eine Zufallsstichprobe X 1 , X 2 ,… , X n stamme wie im Einführungsbeispiel (Abschnitt
3.1) aus einer normalverteilten Grundgesamtheit mit bekannter Standardabweichung
σ = 3.
X ∼ N ( µ , 3)
(3.162)
µ ist, wie im Einführungsbeispiel, entweder 20 oder 23 und führt zum Hypothesensystem
H 0 : µ = µ 0 = 20
(3.163)
H1 : µ = µ1 = 23
Die Funktion des Likelihood–Quotienten lautet
λ=
L ( µ 0 ; x1 ,… , xn )
L ( µ1 ; x1 ,… , xn )


3
=


3
n
1 
 1 n
2
 exp  − 18 ∑ ( xi − 20) 
2π 
i =1


n
1 
 1 n
2
 exp  − 18 ∑ ( xi − 23) 
2π 
i =1


(3.164)
129 
 1 n
= exp − ∑ xi + n

18 
 3 i =1
Nach dem Theorem von Neyman-Pearson erzeugt die Punktemenge ( x1 ,… , xn ) unter
der Bedingung
129 
 1 n
exp  − ∑ xi + n
 ≤ k,
18 
 3 i =1
k >0
(3.165)
111
den besten kritischen (Ablehnungs-) Bereich. Aus der obigen Ungleichung folgt
1 n
129
− ∑ xi + n
≤ ln k
3 i =1
18
n
129
− 3 ln k = k ∗
xi ≥ n
∑
6
i =1
(3.166)
Daraus resultiert ein Verwerfungsbereich für H0

C = ( x1 ,… , xn )

n
∑x
i =1
i

≥ k∗ 

(3.167)
wobei k ∗ so zu bestimmen ist, dass die vorgegebene Wahrscheinlichkeit α eines Fehlers
erster Art sichergestellt ist.
Die Bedingung
n
∑X
i =1
i
≥ k∗
(3.168)
respektive
1
n
k∗
Xi = X ≥
= k′
∑
n
i =1
n
(3.169)
zeigt gleichzeitig, dass als Testgrösse das arithmetische Mittel zu verwenden ist.
Unter H0 gilt schliesslich
3 

X ∼ N  20,

n

woraus die Bestimmungsgleichung für k ′ bei gegebenem α herzuleiten ist
112
(3.170)
 k ′ − 20

P ( X ≥ k′ H0 ) = 1− Φ 
n =α
 3

3
k ′ = 20 +
Φ −1 (1 − α )
n
(3.171)
Für das Einführungsbeispiel folgt mit n = 16 und α = 0.05
k ′ = 20 +
3 −1
3
Φ ( 0.95 ) = 20 + ⋅ 1.645 = 21.23
4
4
(3.172)
und damit die Entscheidungsregel
 X ≥ 21.23
E : falls 
 X < 21.23
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.173)
Der Likelihood–Quotiententest bestätigt somit den intuitiven Ansatz des Einführungsbeispiels .
Die Macht des Tests beträgt
 k ′ − µ1
P ( X ≥ k ′ H1 ) = 1 − Φ 
 σ

n

(3.174)
respektive
 21.23 − 23 
⋅ 4
P ( X ≥ 21.23 µ1 = 23) = 1 − Φ 
3


= 1 − Φ ( −2.36 ) = 0.9909
(3.175)
Es gibt keine alternative Entscheidungsregel E, welche die Macht an der Stelle µ1 = 23
vergrössern würde.
113
3.12.3 Zusammengesetzte Hypothesen
Zur Herleitung des allgemeinen Likelihood–Quotiententests für zusammengesetzte
Hypothesen gehen wir von folgendem Modell aus. X 1 ,… , X n sei eine Zufallsstichprobe aus einer Verteilung mit der Dichte f X ( x;θ ) , wobei der zugrundeliegende
wahre Parameter θ in der Parametermenge Θ enthalten ist, θ ∈ Θ . Über θ werden
folgende Hypothesen formuliert
H 0 :θ ∈ Θ0
Θ0 ≤ Θ
H1 : θ ∈ Θ1
Θ1 ≤ Θ
Dabei bezeichnen Θ 0 und Θ1 zwei unvereinbare Teilmengen von Θ ,
(3.176)
also
Θ 0 ∩ Θ1 = ∅ .
Beispiel
Gegeben sei eine normalverteilte Zufallsvariable
X ∼ N ( µ ,σ )
(3.177)
sowie das Hypothesensystem
H 0 : µ = µ0 ≤ c
H1 : µ = µ1 > c
(3.178)
Damit ergibt sich folgende Partition des Parameterraums
Θ 0 = {µ µ ≤ c} , Θ1 = {µ µ > c} , Θ = Θ 0 ∪ Θ1
(3.179)
Bezeichnet L (θ ; x1 ,… , xn ) die Likelihoodfunktion einer Stichprobe X 1 ,… , X n mit
der gemeinsamen Dichte
f X1 ,…, X n ( x1 ,… , xn ;θ )
114
(3.180)
so heisst
λ ( x1 ,… , xn ) =
sup L (θ ; x1 ,… , xn )
θ ∈Θ0
sup L (θ ; x1 ,… , xn )
(3.181)
θ ∈Θ
allgemeiner Likelihood–Quotient. λ kann entweder als Funktion der Stichprobenwerte x1 ,… , xn
oder als Funktion der Stichprobenvariablen X 1 ,… , X n betrachtet werden. Konsequenterweise bezeichnen wir die zweite Funktion ebenfalls als Zufallsvariable Λ .
Aus der Tatsache, dass das nichtnegative Supremum über einen Teilraum Θ 0 nie
grösser werden kann als jenes über dem Gesamtraum Θ , folgt 0 ≤ λ ≤ 1 .
Der allgemeine Likelihood–Quotient entspricht nicht notwendigerweise den speziellen
Likelihood–Quotienten für den Fall einfacher Null- und Alternativhypothesen, zumal
das Nennersupremum über dem gesamten Hypothesenraum und nicht nur über dem
Alternativraum bestimmt wird.
Offensichtlich liefert der allgemeine Likelihood–Quotient eine gute Basis für den Test
zusammengesetzter Hypothesen. Bei Richtigkeit von H0 wird der Zähler tendenziell
gross. Umgekehrt wird der Zähler wiederum im Verhältnis zum Nenner klein, falls H0
nicht zutrifft. Somit erscheint es vernünftig, H0 für kleine Werte von λ abzulehnen. Wir
definieren deshalb die Entscheidungsregel
λ ≤ λ0
E : falls 
λ > λ0
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.182)
λ0 wird normalerweise durch die Wahrscheinlichkeit α eines Fehlers 1. Art festgelegt.
Die intuitive Verständlichkeit des allgemeinen Likelihoodquotiententests darf nicht über
die konkreten Anwendungsprobleme hinwegtäuschen. Einerseits tauchen oft schon
Probleme bei der Berechnung der Suprema auf, und anderseits ist die Verteilung von Λ
regelmässig nicht einfach zu bestimmen.
115
Beispiel
X 1 ,… , X n sei eine Zufallsstichprobe einer exponential–verteilten Grundgesamtheit mit
der Dichte
f X ( x ; α ) = α e −α x
x≥0
(3.183)
bei unbekanntem Parameter α.
Die Likelihoodfunktion
L (α ; x1 ,… , xn ) = ∏ f X ( xi ;α ) = ∏ α e −α xi = α n e
i
−α
n
∑ xi
i =1
(3.184)
i
respektive
ln L (α ; x1 ,… , xn ) = n ln α − α
n
∑x
i =1
i
(3.185)
führt zur Likelihood–Schätzung für α
αˆ =
n
n
∑x
i =1
=
1
x
(3.186)
i
Wir testen die Hypothesen
H0 :α = α0 ≤ c
H 1 : α = α1 > c
Die Suprema findet man anschaulich im Graphen der Likelihoodfunktion
116
(3.187)
L (α )
0.0015
0.0010
0.0005
α
0.0000
0.0
0.2
0.4
0.6
0.8
1.0
3
αˆ =
10
Im nicht restringierten Fall (α > 0) gilt
−
n
n
n
∑ xi
n
n
∑ xi i=1
1
1


sup L (α ; x1 ,… , xn ) =   e i=1
=   e− n
α >0
x
x
(3.188)
und unter H0
 1  n − n
  e
 x 
sup L (α ; x1 ,… , xn ) = 
n
0 <α ≤ c

− c ∑ xi
c n e i=1

falls
1
≤c
x
(3.189)
falls
1
>c
x
womit der allgemeine Likelihood–Quotient folgt
117

1

λ=
n − n ( c x −1)

c
x
e
(
)

falls
falls
1
≤c
x
(3.190)
1
>c
x
welcher sich mit c x = k vereinfacht zu
1

λ= k n


 k −1 
 e 
falls k ≥ 1
falls k < c
(3.191)
Für k ≥ 1 und damit λ = 1 gilt wegen 0 ≤ λ ≤ 1 für 0 < λ0 < 1 stets λ > λ0 , was
gemäss obiger Entscheidungsregel dazu führt, dass H0 in diesem Fall nicht abgelehnt
werden kann.
Für k < 1 und 0 < λ0 < 1 gilt somit die Entscheidungsregel
n

 k 
λ =  k −1  ≤ λ0
e 

E : falls 
n

 k 
λ =  k −1  > λ0
e 

⇒ H 0 ablehnen
(3.192)
⇒ H 0 nicht ablehnen
Schliesslich ist
 k 
g ( k ) =  k −1 
e 
n
(3.193)
im Intervall 0 < k < 1 eine monoton steigende Funktion in k, so dass die Entscheidungsregel weiter vereinfacht werden kann zu
118
 k = c x ≤ k ∗
E : falls 
∗
 k = c x > k
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.194)
k ∗ ist wiederum so zu bestimmen, dass die Wahrscheinlichkeit α eines Fehlers 1. Art
garantiert bleibt, also


k∗
P (c X ≤ k H0 ) = P  X ≤
H0  = α
c


∗
(3.195)
Für den obigen Spezialfall könnte der kritische Bereich exakt bestimmt werden, da die
Zufallsvariable ncX einer Gammaverteilung mit den Parametern λ = 1 und α = n
genügt. Für moderat grosse Stichprobenumfänge verwendet man jedoch zweckmässigerweise Approximationsverfahren. Während im hier diskutierten Spezialfall die
Zufallsvariable X über den zentralen Grenzwertsatz als approximativ normalverteilt
betrachtet werden kann, existiert ein allgemein verwendbarer Satz über die approximative Verteilung des allgemeinen Likelihood-Quotienten.
Satz
Bezeichnet X 1 ,… , X n eine Zufallsstichprobe mit der gemeinsamen Dichte
f X 1 ,…, X n ( x1 ,… , xn ;θ )
(3.196)
und θ = (θ1 ,… ,θ r ,θ r +1 ,… ,θ k ) , einen k–dimensionalen Parameter, wobei θ1 , θ 2 … ,θ r
bekannte und θ r +1 ,… ,θ k unbekannte Parameter darstellen, so gilt mit
Λ=
sup L (θ ; X 1 ,… , X n )
Θ0
sup L (θ ; X 1 ,… , X n )
(3.197)
Θ
folgende Verteilungsaussage im Sinne einer Approximation
119
−2 ln Λ ∼ χ r
(3.198)
Damit modifiziert sich die Entscheidungsregel zu
 −2 ln λ ≥ c1−α
E : falls 
 −2 ln λ < c1−α
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.199)
wobei c1−α das 1 − α –Quantil einer χ 2 –Verteilung mit r Freiheitsgraden bezeichnet.
120
3.13 Verteilungsunabhängige Verfahren
Bei den bisherigen Verfahren der induktiven Statistik wurde meist vorausgesetzt, dass
entweder eine ganz bestimmte Verteilung – üblicherweise die Normalverteilung –
vorliegt oder dass der Stichprobenumfang genügend gross ist, so dass aufgrund des
zentralen Grenzwertsatzes eine Approximation durch eine Normalverteilung zulässig ist.
Die sozialwissenschaftliche Wirklichkeit weist aber oft Merkmale auf, die schlecht in
einen solchen Anforderungskatalog passen. Im Regelfall ist erstens die Verteilung der
Grundgesamtheit unbekannt und zweitens der Stichprobenumfang so klein, dass auch
geeignete Approximationen nicht mehr zulässig sind. Vielfach sind Merkmale auch nur
nominal oder ordinal messbar und schränken damit sowohl den Bereich mathematisch
zulässiger Operationen als auch den Spielraum statistischer Analysemethoden erheblich
ein.
Zur Bewältigung solcher Situationen, die man etwa als vage oder schlecht definiert
bezeichnet, dienen die sog. verteilungsunabhängigen oder nichtparametrischen Methoden. Induktive Verfahren heissen verteilungsfrei, falls sie auf einer Statistik (Testgrösse)
basieren, deren Verteilung unabhängig ist von der speziellen Gestalt der Grundgesamtheit, aus der die Stichprobe stammt (z.B. χ 2 –Test). Mit der Bezeichnung nichtparametrisch will man zum Ausdruck bringen, dass die Grundgesamtheit nicht durch eine
endliche Anzahl von Parametern vollumfassend spezifiziert werden kann.
Im Rahmen dieser Einführung kann es nur darum gehen, anhand ausgewählter Verfahren einige Grundideen nichtparametrischer Methoden darzustellen. Der Umfang eines
einzigen Kapitels soll nicht über die Bedeutung nichtparametrischer Methoden im
Bereich der sozialwissenschaftlichen Forschung hinwegtäuschen. Die umfangreiche
Spezialliteratur zu diesem Gebiet sollte in jedem Einzelfall konsultiert werden.
Eine bedeutende Gruppe innerhalb der nichtparametrischen Verfahren bilden die sog.
Zeichentests. Sie gehören zu den ältesten Tests überhaupt und zeichnen sich vor allem
durch eine breite Anpassungsfähigkeit an konkrete Problemstellungen aus. Der Name
Zeichentest deutet darauf hin, dass beim Test nicht die quantitativen Messgrössen an
sich, sondern nur Vorzeichen im Zusammenhang mit den Messwerten benützt werden.
Daraus leitet sich die erste Voraussetzung an das Messniveau ab; die Daten müssen
mindestens ordinal messbar sein. Als weitere Bedingung wird nur noch die Existenz
einer stetigen Verteilung vorausgesetzt.
121
3.13.1 Mediantest für den 1–Stichprobenfall
X sei eine stetig verteilte Zufallsvariable mit der Dichte f X ( x ) . Bezeichnet M deren
Median, so gilt:
fX ( x)
P(X < M ) = P(X > M ) =
P(X = M ) = 0
P ( X < M ) = 0.5
1
2
P ( X > M ) = 0.5
x
M
Es soll die Hypothese getestet werden, dass der Median einen bestimmten Wert M0
aufweise
H0 : M = M 0
(3.200)
Mit Hilfe der Definition des Medians lässt sich H0 umformulieren in
H 0 : P ( X > M 0 ) = P ( X < M 0 ) = p0 =
oder
1
2
1
H 0 : P ( X − M 0 > 0 ) = P ( X − M 0 < 0 ) = p0 =
2
(3.201)
Die Nullhypothese H0 ist aufgrund einer Zufallsstichprobe X 1 , X 2 ,… , X n zu testen.
Als Testgrösse wählen wir die Zufallsvariable
K = Anzahl positive Differenzen X i − M 0
Unabhängig von der Verteilung von X und der Wahl von M0 ist K binomialverteilt.
Unter H0 gilt speziell
122
H 0 : K ∼ B ( n, p0 ) = B ( n, 0.5 )
(3.202)
woraus sich Verwerfungs– und Nichtverwerfungsbereich von H0 ableiten.
Einseitige Alternativen
Soll getestet werden, ob der wahre Median grösser ist als M0, so lautet die Alternativhypothese
fX ( x)
H1 : M = M 1 > M 0
oder
H1 : P ( X > M 0 ) > P ( X < M 0 )
P ( X > M0 )
x
M0
M1
Unter H1 wäre die Wahrscheinlichkeit einer positiven Differenz von X − M 0 grösser
als jene einer negativen, und man wird tendenziell grosse Werte von K erwarten. Auf
dem Signifikanzniveau α wählt man deshalb den Verwerfungsbereich V aus den grossen
Werten von K.
V = {k k ≥ k1−α }
(3.203)
k1−α ist dabei die kleinste ganze Zahl, welche die Bedingung
 n
n
∑
  0.5 ≤ α
i = k1−α  i 
n
(3.204)
erfüllt. Daraus erhält man die Entscheidungsregel
123
 K ≥ k1−α
E : falls 
 K < k1−α
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.205)
K ist eine diskrete Zufallsvariable. Normalerweise ist deshalb eine exakte Wahrscheinlichkeit α eines Fehlers 1. Art nicht einzuhalten. Die effektive Wahrscheinlichkeit α* ist
höchstens α und beträgt
α =
∗
n n
∑   0.5
i = k1−α  i 
n
(3.206)
Für eine effektive Wahrscheinlichkeit eines Fehlers 1. Art von α ist die Entscheidungsregel so zu randomisieren, dass für K = k1−α − 1 ein weiterer Zufallsmechanismus
darüber entscheidet, ob H0 abzulehnen ist oder nicht.
Für die linksseitige Alternative
H1 : M = M 1 < M 0
(3.207)
gelten analoge Überlegungen.
Zweiseitige Alternative
Soll getestet werden, ob der wahre Median von M0 verschieden ist, so lautet die Alternativhypothese
H1 : M = M 1 ≠ M 0
oder
H1 : P ( X > M 0 ) ≠ P ( X < M 0 )
(3.208)
H0 ist in diesem Fall sowohl für "zu kleine" als auch für "zu grosse" Werte von K
abzulehnen.
Unter H0 ist die Binomialverteilung von K symmetrisch. Bei gegebener Wahrscheinlichkeit α eines Fehlers 1. Art wird der Test genau dann am mächtigsten, wenn der Ver-
124
werfungsbereich symmetrisch auf die beiden Ränder verteilt wird.
Die Entscheidungsregel lautet
 K ≤ kα / 2 oder K ≥ k1−α / 2
E : falls 
 kα / 2 < K < k1−α / 2
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.209)
Dabei bezeichnet kα / 2 bzw. k1−α / 2 die grösste respektive kleinste ganze Zahl, welche
kα / 2
n
∑  i  0.5
i =0
 
n
≤α /2
(3.210)
respektive
 n
n
  0.5 ≤ α / 2
i = k1−α / 2  i 
n
∑
(3.211)
erfüllt.
Die effektive Wahrscheinlichkeit α* eines Fehlers 1. Art ist wiederum höchstens α und
beträgt
kα / 2
 n
α ∗ = 2 ∑   0.5n
i
i =0
 
(3.212)
Eine exakte Wahrscheinlichkeit α erhält man wie im einseitigen Fall durch eine randomisierte Entscheidungsregel.
Beispiel
Mit einer Stichprobe vom Umfang n = 7 teste man die Hypothese
H0 : M = M 0 = 5
(3.213)
125
gegen die einseitige Alternative
H1 : M = M 1 > 5
(3.214)
Unter H0 ist die Testgrösse
K = Anzahl positiver Differenzen X i − 5
binomialverteilt mit
K ∼ B ( 7, 0.5 )
(3.215)
k
0
1
2
3
4
5
6
7
fK(k)
0.0078
0.0547
0.1641
0.2734
0.2734
0.1641
0.0547
0.0078
fK (k )
0.3
0.2
0.1
0
0
1
2
3
4
5
6
7
8
k
Für α = 0.1 erhält man damit den Verwerfungsbereich V = {k k ≥ k 0.9 } aus der Be126
stimmungsgleichung für k
P (k ) =
k
P(k)
7
7
∑  i  0.5
i = k0.9
7
 
≤ 0.1
(3.216)
7
6
5
0.0078
0.0625
0.2266
Der Verwerfungsbereich V = {k k ≥ 6} garantiert eine maximale Fehlerwahrscheinlichkeit 1. Art von 0.1. Die Entscheidungsregel lautet
 K ≥ 6
E : falls 
 K < 6
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.217)
Die effektive Wahrscheinlichkeit α* eines Fehlers 1. Art beträgt 0.0625.
Aus der Stichprobe 4, 5.3, 5.8, 4.9, 5.05, 6, 5.1 erhält man die Differenzen
( 4 − 5 ) , ( 5.3 − 5 ) ,… , ( 5.1 − 5 ) und daraus die Vorzeichenfolge − + + − + + + , d. h.
K = 5.
Der Entscheid lautet demnach: Das Stichprobenresultat vermag H 0 : M = M 0 = 5 auf
dem Niveau α = 0.1 nicht zu widerlegen.
Macht des Zeichentests
Im Gegensatz zu den meisten nichtparametrischen Verfahren ist die Macht m des
Zeichentests relativ einfach zu bestimmen. Unabhängig davon, ob H0 zutrifft oder nicht,
ist nämlich die Zufallsvariable K binomialverteilt mit den Parametern n und p. Die
Macht m ist eine Funktion von p gemäss
m ( p ) = P ( K ∈V p )
(3.218)
127
Für das obige Beispiel gilt
7
 7
7 −i
m ( p ) = ∑   p i (1 − p ) = 7 p 6 (1 − p ) + p 7 = p 6 ( 7 − 6 p )
i =6  i 
(3.219)
und für verschiedene Werte von p
p
m(p)
0.40
0.50
0.65
0.70
0.80
0.90
0.0188
0.0625
0.1586
0.3294
0.5767
0.8503
1 .0
m ( p)
0 .8
0 .6
0 .4
0 .2
0 .0
0 .4 0
p
0 .5 5
0 .7 0
0 .8 5
1 .0 0
Asymptotische Verteilung von K
Bei grossen Werten von n lässt sich die Verteilung von K genügend genau durch eine
Normalverteilung approximieren
(
n gross
K ∼ B ( n, p ) 
→ N np, n ⋅ p (1 − p )
)
(3.220)
Für die einseitige Alternative
H1 : M > M 0
128
(3.221)
mit dem Verwerfungsbereich
V = {k k ≥ k1−α }
(3.222)
bestimmt man k1−α gemäss
⇔
⇔
⇔
 k − 0.5 − n ⋅ 0.5 
P ( K ≥ k1−α ) ≈ 1 − Φ  1−α
 = α

n
0.5
0.5
⋅
⋅


 2k − 1 − n 
Φ  1−α
 = 1−α
n


2k1−α − 1 − n
= z1−α
n
1
k1−α =
n z1−α + n + 1
2
(
(3.223)
)
Aus analogen Überlegungen erhält man für die zweiseitige Alternative
H1 : M ≠ M 0
(3.224)
V = {k k ≤ kα / 2 oder k ≥ k1−α / 2 }
(3.225)
mit dem Verwerfungsbereich
die kritischen Grenzen
(
kα / 2 =
1
2
k1−α / 2
1
=
2
)
n zα / 2 + n − 1
(
)
(3.226)
n z1−α / 2 + n + 1
129
Beachte:
An Stelle des Medians können nach demselben Verfahren beliebige Quantile getestet
werden.
3.13.2 Mediantest für eine Differenzvariable im Zweistichprobenfall
Ein Spezialfall des vorhergehenden Zeichentests liegt vor, falls die Stichprobe einer
Grundgesamtheit von Differenzen entstammt und die zu testende Hypothese darin
besteht, dass deren Median Null ist. Man unterstellt, dass eine stetig verteilte Zufallsvariable X mit gleicher Wahrscheinlichkeit grössere oder kleinere Werte annimmt als
eine andere, ebenfalls stetig verteilte Zufallsvariable Y. Dies ist gleichbedeutend damit,
dass bei zufälliger Paarung von 2 Beobachtungen die Differenz D = X − Y mit gleicher Wahrscheinlichkeit positiv oder negativ wird, d.h. dass die Differenzvariable D den
Median Null besitzt. Damit lässt sich der oben besprochene Zeichentest für den Spezialfall M = 0 anwenden.
Getestet wird die Hypothese
H 0 : P ( X > Y ) = P ( X < Y ) = 0.5
oder
oder
H 0 : P ( X − Y > 0 ) = P ( X − Y < 0 ) = 0.5
(3.227)
H 0 : P ( D > 0 ) = P ( D < 0 ) = 0.5
H0 trifft genau dann zu, wenn der Median von D = X − Y Null ist und wenn
P ( X i = Yi ) = 0, i = 1, 2,… , n .
Als Testgrösse verwenden wir die Zufallsvariable
K = Anzahl positive Vorzeichen von Di
die unter H0 genau dann binomialverteilt B(n,0.5) ist, wenn die Vorzeichen der Differenzvariablen Di = X i − Yi zufällig und unabhängig voneinander sind. Die Zufallsvariablen X und Y brauchen hingegen nicht unabhängig zu sein. Es kann sich also
sowohl um zwei unabhängige als auch um zwei verbundene Stichproben handeln.
130
X =Y
Y
X <Y
X >Y
X
Anschaulich gesprochen sind unter H0 die Volumina unter dem gemeinsamen "Dichtegebirge" oberhalb und unterhalb der eingezeichneten Winkelhalbierenden gleich gross.
Es ist zu beachten, dass der obige Test ein Test für den Median einer Differenzvariablen
D = X − Y ist und nicht für die Differenz der beiden Mediane MX und MY.
Umgekehr impliziert MX = MY i. a. nicht, dass der Median der Differenzvariablen gleich
Null ist. Dies trifft nur dann zu, wenn folgende Bedingungen erfüllt sind:
•
•
•
Die Verteilungen von X und Y sind symmetrisch.
Die Mediane von X und Y stimmen überein.
Die Verteilung der Differenzvariablen ist ebenfalls symmetrisch.
Beispiel
In einem Rat steht ein Gesetz zur Diskussion. Vor den Verhandlungen waren 35 für und
15 gegen das Gesetz. Nach Anhören der Experten änderten 35 ihre Meinung nicht. 5
ursprüngliche Gegner wurden zu Befürwortern und 10 ursprüngliche Befürworter
wurden zu Gegnern des Gesetzes.
nach Verhandlung
vor Verhandlung
für
gegen
für
25
10
35
gegen
5
10
15
30
20
50
131
Man teste die Hypothese, dass der Verhandlungsprozess keinen systematischen Einfluss
auf die Meinungsbildung ausübe, d. h. dass von den Unentschlossenen etwa gleichviele
ihre Meinung in eine der beiden Richtungen ändern.
Betrachtet man die 50 Personen als zufällig ausgewählt, so kann die obige Hypothese
mit dem Zeichentest für verbundene Stichproben durchgeführt werden. Die Zufallsvariablen X und Y beschreiben für jedes Ratsmitglied die Einstellung zum Gesetz vor
bzw. nach den Verhandlungen, also
1
Xi = 
0
1
Yi = 
0
falls das i -te Ratsmitglied ursprünglich für das Gesetz
(3.228)
falls das i -te Ratsmitglied ursprünglich gegen das Gesetz
falls das i -te Ratsmitglied nachher für das Gesetz
(3.229)
falls das i -te Ratsmitglied nachher gegen das Gesetz
Die Änderungen können durch Vorzeichen zum Ausdruck gebracht werden.
> 0 ( + )

X − Y = 0

< 0 ( − )
falls ursprünglich für und nachher gegen
falls keine Änderung
(3.230)
falls ursprünglich gegen und nachher für
Zum Test werden nur jene 15 Personen herangezogen, die ihre Meinung änderten. Die
Übrigen werden als sog. Bindungen (ties) ausgeschieden; sie liefern ihres indifferenten
Charakters wegen keinen Beitrag zum Entscheid für oder gegen H0. Die Wahrscheinlichkeit eines Fehlers 1. Art α sei 0.1.
Als Testgrösse betrachten wir die Zufallsvariable
K: Anzahl positive Differenzen X i − Yi
Dann gilt
K ∼ B (15, p )
132
(3.231)
Der Test wird zweiseitig durchgeführt. Systematische Effekte werden angenommen,
wenn von den 15 Änderungen zuviele in eine der beiden Richtungen erfolgen.
Unter H0 gilt K ~ B(15, 0.5), und man erhält die Entscheidungsregel
 K ≤ 4 oder K ≥ 11
E : falls 
5 ≤ K ≤ 10
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(3.232)
Im konkreten Beispiel wurde K = 10 festgestellt; H0 kann also nicht abgelehnt werden.
Der effektive Fehler 1. Art α* beträgt 0.0834.
3.13.3 Der Vorzeichen-Rangtest von Wilcoxon für zwei verbundene Stichproben
Gegeben sei das Problem, zwei verschiedene Verfahren, z. B. die Wirksamkeit der
Sonnenschutzmittel A und B, miteinander zu vergleichen. Dazu könnte man Verfahren
A an n1 zufällig ausgewählten Objekten und Verfahren B an n2 weiteren, zufällig ausgewählten Objekten miteinander vergleichen.
Rein intuitiv kommt man zu besseren Resultaten, wenn man die beiden Verfahren
jeweils an möglichst ähnlichen Objekten vergleicht. So wird man zum Vergleich der
Sonnenschutzmittel zweckmässigerweise beide gleichzeitig an ein und derselben Person
testen, indem man Mittel A am linken Arm und Mittel B am rechten Arm aufträgt. So
gelingt es, die sogenannte externe, nicht durch die unterschiedlichen Verfahren, sondern
durch die verschiedenen Untersuchungsobjekte verursachte Variation, zu verkleinern.
Die Unterschiede in den Resultaten sind dann eher den verschiedenen Verfahren zuzuordnen.
Weil beide Verfahren stets am selben Objekt angewendet werden, erhält man gepaarte
Beobachtungen (xi, yi). Die beiden Verfahrensstichproben sind nicht mehr unabhängig;
man spricht von sogenannten verbundenen Stichproben.
Bezeichnung:
X 1 , X 2 ,… , X n
Stichprobe Verfahren 1
Y1 , Y2 ,… , Yn
Stichprobe Verfahren 2
( X i , Yi )
Messungen für Verfahren 1 und 2 am i-ten Objekt.
133
Der Vorzeichen-Rangsummentest von Wilcoxon gestattet es, solche verbundenen
Stichproben zu analysieren und unter bestimmten Bedingungen Hypothesen z. B. der
Form
(µ
H 0 : E ( X ) = E (Y )
x
= µy )
(3.233)
zu testen.
Beispiel
Es sollen die Kilometerleistungen von 2 Benzinsorten X und Y miteinander verglichen
werden. Dazu werden in 4 verschiedene Testwagen je 20 Liter Benzin der beiden Sorten
getankt und die Fahrleistung gemessen.
Testwagen
Benzin X
Benzin Y
1
2
3
4
180
190
208
202
184
192
208
212
Zur Überprüfung, ob die beiden Benzinsorten unterschiedliche Fahrleistungen besitzen,
bildet man eine Testgrösse W nach folgenden Vorschriften.
1.)
Bestimme die Differenzen d i = xi − yi , i = 1,… , n .
2.)
Rangiere in aufsteigender Reihenfolge die absoluten Differenzen *di*.
3.)
Ordne dem j-ten Rang das Vorzeichen der entsprechenden Differenz di zu. Den
mit dem Vorzeichen versehenen Rang bezeichnen wir mit Rj.
4.)
Bilde W = R1 + R2 + … + Rn =
Testwagen
(±) #di#
Rang
Rj
134
n
∑R .
i =1
i
1
2
3
4
(-)10
4
-4
(+) 6
2
2
(-) 8
3
-3
(-) 4
1
-1
Damit ergibt sich die Testgrösse W = − 4 + 2 − 3 − 1 = −6 .
Wäre Sorte Y z. B. wesentlich besser, so würde das seinen Niederschlag in stark negativen Werten von W finden und umgekehrt. Um abzuklären, ob die beiden (abhängigen)
Stichproben signifikante Unterschiede zeigen, ist es notwendig, die Verteilung von W
unter H0 zu kennen.
Durch die Einführung der Testgrösse W (als Funktion der Stichprobenwerte) muss die
zu testende Nullhypothese H0 so formuliert werden, dass sie Aussagen über jene Variablen enthält, die in W eingehen. Primär ist dies die Differenzvariable
Di = X i − Yi
(3.234)
über die wir noch folgende Annahmen treffen:
1.)
Die Differenzenvariablen Di = X i − Yi , i = 1,… , n , sind unabhängig voneinander und besitzen alle dieselbe Verteilungsfunktion, nämlich jene von D.
2.)
Die Verteilung von D ist stetig und symmetrisch um ihren Median M.
3.)
Für die Variablen Xi und Yi ist eine Differenz erklärt. Es handelt sich also mindestens um Intervalldaten.
Daraus ergeben sich einige Folgerungen:
1.)
Aus der Stetigkeit folgt
P ( D = 0) = 0
P ( Di = D j ) = 0 und P ( Di = − D j ) = 0 für i ≠ j
(3.235)
d. h. es treten keine sogenannten Bindungen (Xi = Yi) auf und es existiert eine
eindeutige Reihenfolge.
2.)
Bei symmetrischen Verteilungen stimmen Median und Erwartungswert überein,
E(D) = M, und es gilt
P ( D > M ) = P ( D < M ) = 0.5
(3.236)
135
Wir diskutieren das Hypothesensystem
H0 : M = M 0 = 0
H1 : M = M 1 ≠ 0
(3.237)
Für die einseitigen Alternativen
H0 : M = M0 ≤ 0
vs.
H1 : M = M 1 > 0
resp. H 0 : M = M 0 ≥ 0
vs.
H1 : M = M 1 < 0
(3.238)
gelten analoge Überlegungen.
Verteilung der Testgrösse W unter H0
In einer Stichprobe mit n Paaren (Xi, Yi) reichen die Ränge der Differenzvariablen Di
von 1 bis n. Jeder Rang besitzt eines der beiden Vorzeichen + oder − . Insgesamt gibt es
2n verschiedene Zuordnungen der Vorzeichen zu den Rängen, wobei jede davon zu
einer bestimmten Realisation von W führt. Für die Vorzeichen sind die Grössen Di
verantwortlich. Unter H0 gilt aber
P ( D > 0 ) = P ( D < 0 ) = 0.5
(3.239)
Also ist die Anzahl positiver Vorzeichen unter den Rängen binomialverteilt mit den
Parametern n und p = 0.5.
Für das Beispiel mit den 4 Testautos erhält man folgende Möglichkeiten der Vorzeichenkombinationen zu den Rängen:
136
Vorzeichenkombinationen
der Ränge
1
2
3
4
W
+
+
+
+
+
+
+
+
-
+
+
+
+
+
+
+
+
-
+
+
+
+
+
+
+
+
-
+
+
+
+
+
+
+
+
-
10
2
4
6
8
-4
-2
0
0
2
4
-8
-6
-4
-2
-10
Unter H0 besitzen alle Vorzeichenkombinationen dieselbe Wahrscheinlichkeit, nämlich
1/2n. Für W folgt daraus die Wahrscheinlichkeitsfunktion
W
fW ( w )
-10
-8
-6
-4
-2
0
2
4
6
8
10
1
16
1
16
1
16
2
16
2
16
2
16
2
16
2
16
1
16
1
16
1
16
Unter der Alternative H1 : M =/ 0 lehnen wir H0 auf dem Signifikanzniveau α für grosse
und kleine Werte von W ab. Sind
wα / 2
w1−α / 2
der grösste Wert von W mit P (W ≤ wα / 2 ) ≤
α
2
der kleinste Wert von W mit P (W ≥ w1−α / 2 ) ≤
α
(3.240)
2
137
so lautet die Entscheidungsregel
 wα / 2 < W < w1−α / 2
E : falls 
W ≤ wα / 2 oder W ≥ w1−α / 2
⇒ H 0 nicht ablehnen
⇒ H 0 ablehnen
(3.241)
Für α = 0.20 erhält man im obigen Benzinbeispiel
w0.1 = − 10 und w0.9 = 10
(3.242)
und es gilt die Entscheidungsregel
H 0 ablehnen, falls W = − 10 oder W = + 10
(3.243)
Mit W = −6 können wir die Hypothese H0: M = 0 (die Fahrleistungen sind identisch)
also nicht ablehnen.
Eigenschaften der Verteilung von W
Unter H0 gilt:
1.)
Erwartungswert und Varianz von W lauten wie folgt
E (W ) = µW = 0
V (W ) = σ W2 =
n ( n + 1)( 2n + 1)
6
2.)
Die Verteilung von W ist symmetrisch um 0.
3.)
Für grosse Werte von n (n > 20) ist die Zufallsvariable
Z=
138
W − µW
σW
(3.244)
(3.245)
approximativ standardnormalverteilt. Da W eine diskrete Zufallsvariable ist, sind
bei der Approximation die Korrekturterme zu berücksichtigen.
Bindungen
Paare (xi, yi) mit d i = xi − yi = 0 werden aus der Stichprobe entfernt, und der Test wird
mit den verbleibenden Wertepaaren durchgeführt. Paare mit gleichen Ausprägungen
tragen nichts zur Differenzierung der beiden Verfahren bei.
Sind einige der absoluten Differenzen *di* identisch, verwendet man die sogenannte
Durchschnittsrangbildung. Dazu wird das arithmetische Mittel der für die gebundenen
Ränge insgesamt verfügbaren Rangzahlen gebildet und den entsprechenden Rängen
zugeordnet.
Beispiel
(±) #di#
(+)2
(-) 3
(+) 5
(+) 3
(-) 3
(+) 2
Rang
1.5
4
6
4
4
1.5
+ 1.5
-4
6
4
-4
+ 1.5
Ri
Damit erhält man als Wert der Testgrösse W = 5.
Diskussion
•
Es ist zu beachten, dass die Hypothese
H0 : M = 0
(3.246)
nicht äquivalent ist zu den Hypothesen
H0 : M X = MY
oder H 0 : µ X = µY
(3.247)
Die Äquivalenz gilt hingegen, falls die Verteilungen von X, Y und X − Y symmetrisch sind.
139
•
140
Die Wahrscheinlichkeit für einen Fehler 1. Art ist ohne randomisierte Entscheidungsregel i. a. kleiner als α.
4. REGRESSIONSANALYSE
Der Regressionsanalyse liegt die praktisch bedeutsame Frage der Abhängigkeit zwischen einer quantitativen Zielgrösse und ihren ebenfalls quantitativen Erklärungsgrössen zugrunde. Die Nachfrage D nach einem Gut wird in Abhängigkeit seines
Preises untersucht, die Stückkosten eines Produktionsprozesses werden als Funktion der
produzierten Menge betrachtet. Konsumausgaben werden beeinflusst durch Einkommen
und Steuern. Unsere Aufgabe ist es, diese Zusammenhänge statistisch zu untersuchen.
4.1 Das lineare Modell der Einfachregression
Im allgemeinen Ansatz, dass eine zu erklärende Variable Y von p erklärenden Variablen
X 1 ,… , X p abhänge, beschränken wir uns zunächst auf eine einzige erklärende Variable
(p = 1). Ferner unterstellen wir zwischen X und Y eine lineare Beziehung
y = f ( x ) = β 0 + β1 x
(4.1)
In der Praxis besteht in den seltensten Fällen ein exakt funktionaler Zusammenhang. So
sind die Konsumausgaben ebensowenig für alle Haushalte mit einem festen Einkommen
konstant, wie alle Personen einer bestimmten Grösse dasselbe Gewicht aufweisen. Es ist
jedoch vernünftig anzunehmen, dass mit wachsendem Einkommen die Konsumausgaben tendenziell zunehmen. Ebenso ist die Annahme begründet, dass mit zunehmender
Grösse das Gewicht zunimmt. Diese systematische Entwicklung wird im funktionalen
Ansatz zum Ausdruck gebracht. Das Modell ist jedoch so zu erweitern, dass im Einzelfall zufällige Abweichungen berücksichtigt werden können. Zu diesem Zweck wird
eine Störvariable eingeführt, welche den Zufall auffangen soll. Die nunmehr stochastische Beziehung lautet in der erweiterten Form
y = f ( x ) + U = β 0 + β1 x + U
(4.2)
Y wird demnach additiv durch einen funktionalen Teil, welcher sämtliche systematisch
wirkenden Einflüsse enthält sowie einen zufälligen Teil erklärt. Als Funktion einer
zufälligen Variablen U ist Y ebenfalls eine Zufallsvariable.
Für eine feste Beobachtung xi schreibt man
141
Yi = β 0 + β1 xi + U i
i = 1, 2,… , n
(4.3)
Ui beschreibt somit die zufälligen (beidseitigen) Abweichungen vom funktional unterstellten und zu xi gehörenden systematischen Wert.
fU ( u )
y
0
x1
y = β0 + β1x
x2
xn
x
Für die Störvariable U treffen wir folgende Annahmen
1.)
E (U i ) = 0
i = 1, 2,… , n
(4.4)
2.)
V (U i ) = σ U2
i = 1, 2,… , n
(4.5)
3.)
Cov (U i , U j ) = 0
i ≠ j ; i , j = 1,… , n
(4.6)
Mit der Annahme 1 wird die Richtigkeit des Modells unterstellt. Ui nimmt nur noch die
zufälligen Abweichungen vom systematischen Teil auf. Wäre E(Ui) verschieden von
Null, so müsste Ui konsequenterweise systematische Komponenten enthalten, welche
nach den Modellvoraussetzungen in den funktionalen Teil einzubauen sind. Annahme
2 verlangt von x unabhängige konstante Varianzen der Störvariablen. Annahme 3
impliziert unkorrelierte Störvariablen.
142
Zusammenfassend gilt somit
E ( Y ) = E ( β 0 + β1 x + U ) = β 0 + β 1 x
(4.7)
V (Y ) = V ( β 0 + β1 x + U ) = V (U ) = σ U2
Die Gerade
y = β 0 + β1 x
(4.8)
heisst Regressionsgerade von y bezüglich x. Dabei gelten folgende Bezeichnungen:
β0:
β1:
Achsenabschnitt
Regressionskoeffizient (Steigung der Regressionsgeraden)
Bezeichnet (xi,yi) eine konkrete Beobachtung, so gilt
yi = β 0 + β 1 x + u i
y
( xi , yi )
(4.9)
y = β0 + β1 x
yi
ui
yi − ui = β 0 + β1 xi
xi
x
und damit
143
ui = yi − ( β 0 + β1 xi )
(4.10)
Dabei ist ui eine Realisation der Zufallsvariablen Ui.
X braucht dabei keine Zufallsvariable zu sein. Wenn beispielsweise Y dem mit der
Benzinmenge X zurückgelegten Weg entspricht, so kann ein beliebiger Wert von X
vorgegeben werden.
Zum selben linearen Modell passen jedoch auch Situationen, bei denen X als Realisation
einer Zufallsvariablen betrachtet werden kann. Beim eingangs zitierten Zusammenhang
zwischen Gewicht Y und Körpergrösse X sind bei einer zufällig ausgewählten Person
sowohl X als auch Y als Zufallsvariablen zu betrachten. Zwischen X und Y besteht kein
(funktionaler) linearer Zusammenhang. Man weiss aber, dass im Mittel kleine Leute
leicht und grosse Leute schwer sind. Hier erscheint dann der Ansatz in Form eines
bedingten Erwartungswertes
E ( Y X = x ) = β 0 + β1 x
(4.11)
vernünftig. Wir postulieren einen linearen Zusammenhang zwischen der Körpergrösse
X und dem mittleren Gewicht Y (bei dieser Körpergrösse). Mit diesem Ansatz können
wir wieder schreiben
Yx = β 0 + β1 x + U
(4.12)
d. h. das Gewicht einer Person der Grösse x hängt von letzterer gemäss der obigen
Regressionsbeziehung ab.
Das primäre Problem der Regressionsrechnung besteht darin, aus einer Stichprobe
( x1 , y1 ) , ( x2 , y2 ) ,… , ( xn , yn )
die unbekannten Parameter β0, β1 und σ U2 zu schätzen.
144
(4.13)
4.2 Minimumquadratschätzungen von β0 und β1
Die n Wertepaare ( xi , yi ) , i = 1,… , n , können als Koordination von n Punkten in einer
x– y–Ebene aufgefasst werden.
y
ŷ = b0 + b1 x
( xi , yi )
yi
ei
yˆi = b0 + b1xi
x
xi
Wenn zwischen x und y eine funktionale Beziehung f unterstellt wird, y = f(x), so besagt
das Minimum–Quadrat–Prinzip (MQP), dass die in f zu schätzenden Parameter so zu
wählen sind, dass die Summe der quadrierten Abweichungen von yi und f(xi) minimal
wird, also
n
∑( y
i =1
→ min
i − f ( xi ) )
2
(4.14)
Analog zur Notation bei der Schätztheorie versehen wir die Schätzgrösse mit dem
Symbol "^". Die Schätzwerte für die Parameter β0 und β1 der Regressionsfunktion
bezeichnen wir mit b0 und b1.
Damit lautet für ŷ = f ( x ) bzw. yˆ i = f ( xi ) das MQ–Prinzip:
145
Wähle b0 und b1 so, dass
n
∑(y
i =1
i
n
n
− yˆ i ) = ∑ e = ∑ ( yi − b0 − b1 xi ) = f ( b0 , b1 )
2
2
i
i =1
2
(4.15)
i =1
minimal wird. Die Werte ei = yi − yˆ i = yi − f ( xi ) werden als Residuen bezeichnet. An
der Stelle des gemeinsamen Minimums müssen die partiellen Ableitungen nach b0 und
b1 notwendigerweise verschwinden.
n
∂f
= − 2 ∑ ( yi − b0 − b1 xi ) = 0
∂b0
i =1
n
∂f
= − 2 ∑ xi ( yi − b0 − b1 xi ) = 0
∂b1
i =1
(4.16)
Die beiden daraus folgenden Gleichungen in den beiden Unbekannten b0 und b1 werden
als Normalgleichungen bezeichnet.
Sie lauten
n
n
i =1
i =1
∑ ( yi − b0 − b1 xi ) = ∑ ei = 0
n
∑ x (y −b
i =1
i
0
i
n
− b1 xi ) = ∑ xi ei = 0
(4.17)
i =1
respektive
y = b0 + b1 x
n
∑x y
i =1
mit den Lösungen
146
i
i
= b0
(4.18)
n
n
∑x +b ∑x
i =1
i
1
i =1
2
i
(4.19)
n
b1 =
n
∑ x y − n x y ∑ ( x − x )( y − y )
i
i =1
n
i
∑ xi2 − n x 2
=
i =1
i
i
n
∑(x − x )
i =1
=
2
s XY
s XX
(4.20)
i
i =1
b0 = y − b1 x
Beispiel
Aus der nachfolgenden Stichprobe bestimme man eine lineare Regressionsfunktion
zwischen x und y.
x
10
14
14
17
20
22
25
27
29
30
y
2
2.5
4
5
4.5
7
8
9.5
8
10
Aus der Arbeitstabelle
xi
yi
xi yi
xi2
10
14
14
17
20
22
25
27
29
30
2.0
2.5
4.0
5.0
4.5
7.0
8.0
9.5
8.0
10.0
20.0
35.0
56.0
85.0
90.0
154.0
200.0
256.5
232.0
300.0
100
196
196
289
400
484
625
729
841
900
n
∑x
i =1
i
n
n
= 208
x = 20.8
∑y
i =1
i
= 60.5
∑x y
i =1
i
i
n
= 1428.5
∑x
i =1
2
i
= 4760
y = 6.05
147
folgt
b1 =
1428.5 − 10 ⋅ 20.8 ⋅ 6.05
= 0.392
4760 − 10 ⋅ 20.8 ⋅ 20.8
(4.21)
b0 = 6.05 − 0.392 ⋅ 20.8 = − 2.11
15
y
yˆ = − 2.1 + 0.39 ⋅ x
10
5
x
0
0
10
20
30
40
Für die weitere Diskussion erweist sich die folgende Notation als zweckmässig.
Mit
n
n
∑ ( x − x )( y − y ) = ∑ x y − n x y
i =1
i
i
i =1
n
i
i
= ∑ xi yi − x
i =1
n
n
∑y
i =1
= ∑ ( xi − x ) yi
i =1
folgt für b1
148
i
(4.22)
n
b1 =
∑ ( x − x )( y − y )
i
i =1
i
n
∑ (x − x )
2
i
i =1
n
=
∑ (x − x ) y
i
i =1
(4.23)
i
s XX
n
= ∑ ci yi
i =1
mit
ci =
xi − x
s XX
(4.24)
und für b0
b0 = y − b1 x
=
1
n
n
n
i =1
i =1
∑ yi − ∑ ci yi x
1
= ∑  − ci
i =1  n
n
(4.25)

x  yi

und daraus
yˆ = b0 + b1 x
n
1

= ∑  − ci x  yi + x ∑ ci yi

i =1  n
i =1
n
1

= ∑  + ci ( x − x )  yi

i =1  n
n
(4.26)
149
ŷ ist somit eine Linearkombination der Beobachtungen von Y. Die Gewichte
ci =
xi − x
s XX
(4.27)
sind nur von den x–Werten abhängig und genügen den Eigenschaften
n
1.)
∑c
i =1
i
=0
n
2.)
∑c x
i =1
i i
n
3.)
∑c
i =1
2
i
(4.28)
=1
=
(4.29)
1
(4.30)
s XX
4.3 Eigenschaften der Schätzfunktionen
Die Schätzwerte b0 und b1 aus dem Minimumquadratansatz sind Realisationen der
Schätzfunktionen (Zufallsvariablen)
n
B1 = ∑ ciYi
i =1
n
= ∑ ci ( β 0 + β1 xi + U i )
i =1
n
= β1 + ∑ ciU i
i =1
150
(4.31)
1

B0 = ∑  − ci x  Yi

i =1  n
n
1

= ∑  − ci x  ( β 0 + β1 xi + U i )

i =1  n
n
1

= β 0 + ∑  − xci  U i

i =1  n
n
(4.32)
Die Erwartungswerte von B0 und B1 sind
n
1

E ( B0 ) = β 0 + ∑  − xci  E (U i ) = β 0

i =1  n
n
E ( B1 ) = β1 + ∑ ci E (U i ) = β1
(4.33)
i =1
womit B0 und B1 erwartungstreue Schätzfunktionen für β0 und β1 darstellen.
Zur Bestimmung der Varianzen der Schätzfunktionen B0 und B1 gilt zunächst
( B0 − β 0 )
2
n


1

=  β 0 + ∑  − xci  U i − β 0 

i =1  n


 n 1
 
=  ∑  − xci  U i 
 
 i =1  n
2
2
(4.34)
2
1

1
 1

= ∑  − xci  U i2 + ∑∑  − xci   − xc j  U iU j

 n

i n
i
j n
i≠ j
sowie
151
( B1 − β1 )
2
n


=  β1 + ∑ ciU i − β1 
i =1


2
2
 n

=  ∑ ciU i 
 i =1

2 2
= ∑ ci U i + ∑∑ ci c jU iU j
i
(4.35)
i
j
i≠ j
Mit
E (U i2 ) = V (U i ) = σ U2
E (U iU j ) = Cov (U i ,U j ) + E (U i ) E (U j ) = 0
i≠ j
(4.36)
wird Voraussetzung 3) bezüglich der Störvariablen erstmals aktiv!
Für die Varianzen von B0 und B1 folgt aus (4.35)
V ( B0 ) = E ( B0 − β 0 )
2
2
1

= ∑  − xci  E (U i2 )

i =1  n
 1 2x n
= n 2 −
ci + x 2
∑
n i =1
 n
n
n
∑c
i =1
2
i
 1 x2 
=σ  +

 n s XX 
2
2  s XX + nx 
= σU 

 n s XX 
2
U
=
=
152
σ U2 
n s XX
σ U2
n s XX
2
2
 ∑ ( xi − x ) + n x 
 i =1

n
n
∑x
i =1
2
i
 2
 σU

(4.37)
V ( B1 ) = E ( B1 − β1 )
2
= ∑ ci2 E (U i2 )
n
i =1
=
(4.38)
σ U2
s XX
Naturgemäss gilt das Hauptinteresse bei der einfachen Regressionsanalyse der Schätzfunktion B1, zumal B1 die Reaktion von Y auf Änderungen in x zum Ausdruck bringt.
Unter Genauigkeitsaspekten ist man an möglichst kleinen Varianzen interessiert. Diesem
Anliegen kann Rechnung getragen werden, indem man durch einen möglichst grossen
Stützbereich die Summe der Abweichungsquadrate
n
s XX = ∑ ( xi − x ) 2
(4.39)
i =1
gross macht.
Für die Kovarianz zwischen B0 und B1 gilt
Cov ( B0 , B1 ) = E {( B0 − β 0 )( B1 − β1 )}
B0 − β 0
B1 − β1
1

= β 0 + ∑  − xci  U i − β 0

i =1  n
n
1

= ∑  − xci  U i

i =1  n
n
(4.40)
n
= β1 + ∑ ciU i − β1
i =1
n
= ∑ ciU i
i =1
und damit
153
1
( B0 − β 0 )( B1 − β1 ) = ∑  − xci  U i

i =1  n
n
n
∑c U
j =1
j
j
1

1

= ∑  − xci  ciU i2 + ∑∑  − xci  U i c jU j


i n
i
j n
(4.41)
i≠ j
Bildet man auf beiden Seiten den Erwartungswert, so folgt
Cov ( B0 , B1 ) = σ
=−
1
2
∑
 ci − xci  + 0

i =1  n
σ U2 x
n
2
U
n
∑ (x − x)
i =1
=−
2
(4.42)
i
σ U2 x
s XX
Die (negative) Kovarianz strebt mit breiter werdendem Stützbereich gegen Null. Für
x = 0 verschwindet die Kovarianz zwischen B0 und B1.
Für praktische Belange sind konkrete zahlenmässige Aussagen über die Varianz der
Schätzfunktionen B0 und B1 notwendig. Da beide Schätzfunktionen die unbekannte
Varianz σ U2 des Störterms U enthalten, stellt sich ein neues Schätzproblem.
4.4 Schätzfunktion für σ U2
Der Ausdruck
2
1 n
S =
Ui −U )
(
∑
n − 1 i =1
2
U
wäre eine erwartungstreue Schätzfunktion für σ U2 . Die Zufallsvariablen
154
(4.43)
U i = Yi − β 0 − β1 xi
i = 1, 2,… , n
(4.44)
können jedoch nicht beobachtet werden, zumal die Parameter β0 und β1 unbekannt sind.
Aus dem Modell und der Schätzfunktion der Regression folgt
Yi = β 0 + β1 xi + U i
Y = β 0 + β1 x + U
bzw.
bzw.
Yi = B0 + B1 xi + Ei
(4.45)
Y = B0 + B1 x
und somit
Yi − Y = β1 ( xi − x ) + (U i − U )
bzw.
Yi − Y = B1 ( xi − x ) + Ei
(4.46)
Die Residuen
Ei = (U i − U ) − ( B1 − β1 )( xi − x )
(4.47)
führen zu einer erwartungstreuen Schätzfunktion für σ U2 .
Bildet man im Ausdruck
n
n
n
∑ Ei2 = ∑ (U i − U )2 − 2 ( B1 − β1 ) ∑ (U i − U ) ( xi − x ) + ( B1 − β1 )
i =1
i =1
i =1
2
n
∑ (x
i =1
i
− x )2
(4.48)
auf beiden Seiten die Erwartungswerte, so findet man nach einigen algebraischen
Umformungen
 n 2
E  ∑ Ei  = σ U2 ( n − 1) − 2σ U2 + σ U2
 i =1 
= σ U2 ( n − 2 )
(4.49)
woraus folgt
155
 n 2
Ei 
E∑
= σ U2
i =1


 n−2 
(4.50)
d. h.
n
σˆ U2 =
∑E
2
i
i =1
(4.51)
n−2
ist eine erwartungstreue Schätzfunktion für σ U2 . Dabei wird die Schätzfunktion σˆ U2 auf
den Zufallsvariablen durch Fettdruck gekennzeichnet, zur Abgrenzung von der entsprechenden Funktion basierend auf den Realisationen
n
σˆU2 =
∑e
i =1
2
i
(4.52)
n−2
Die bisherigen Ausführungen beziehen sich auf das Modell
Yi = β 0 + β1 xi + U i
(4.53)
und gelten unter den Bedingungen
1.)
E (U i ) = 0
2.)
V (U i ) = σ U2
3.)
Cov (U i , U j ) = 0
i = 1,… , n
(4.54)
i = 1,… , n
i, j = 1,… , n;
(4.55)
i≠ j
(4.56)
Über die Verteilung der Störvariablen U wurden keine weiteren Bedingungen formuliert. Das System erfährt eine wesentliche Ergänzung, wenn unterstellt wird, dass die
156
Störvariable U normalverteilt ist.
U i ∼ N ( 0, σ U )
4.)
i = 1,… , n
(4.57)
Dann gilt für die Verteilung von Y
Yi ∼ N ( β 0 + β1 xi , σ U )
(4.58)
4.5 Maximum–Likelihood–Schätzungen
Nachdem das Verteilungsgesetz der Zufallsvariablen Y bekannt ist, kann die gemeinsame Dichte einer Stichprobe Y1 ,… , Yn und daraus die Likelihoodfunktion L bestimmt
werden.
1/ 2
 1 
L ( β 0 , β1 , σ ; y1 ,… , yn ) = ∏ 
2 
i =1  2π σ U 
n
2
U
ln L ( β 0 , β1 ,σ U2 ; y1 ,… , yn ) = −
 1  yi − β 0 − β1 xi  2 
exp  − 
  (4.59)
σ
2
U

 

n
n
1
ln ( 2π ) − ln σ U2 −
2
2
2σ U2
n
∑( y
i =1
i
− β 0 − β1 xi )
2
(4.60)
Die partiellen Ableitungen von ln L nach β0, β1 und σ U2 führen zu folgenden Gleichungen
∂ ln L
1
= 2
∂β 0
σU
∂ ln L
1
= 2
∂β1
σU
n
∑( y − β
i
i =1
0
− β1 xi ) = 0
n
∑x (y −β
i =1
i
∂ ln L
−n
1
=
+
2
2
∂σ U
2σ U 2σ U4
i
0
− β1 xi ) = 0
n
∑( y − β
i =1
i
(4.61)
− β1 xi ) = 0
2
0
157
Die
Schätzfunktionen
von
β0
β1
und
Minimum–Quadrat–Methode überein. Für σ
2
U
stimmen
mit
jenen
der
erhält man ein abweichendes Resultat,
nämlich
σˆU2 =
1
n
n
∑ ( yi − b0 − b1 xi )2 =
i =1
1 n 2
∑ ei
n i =1
(4.62)
Diese Schätzfunktion ist nur asymptotisch erwartungstreu.
4.6 Verteilung der Schätzfunktionen B0 und B1
Die Schätzfunktionen
n
B1 = ∑ ci (Yi − Y )
(4.63)
i =1
B0 = Y − B1 x
sind Linearkombinationen der Zufallsvariablen Yi. Wenn für Yi eine Normalverteilung
unterstellt wird, sind Linearkombinationen davon ebenfalls normalverteilt.
Damit erhält man mit den Gleichungen (4.38) bzw. (4.39)

σ U2
B1 ∼ N  β1 ,

s XX





n

2
σ U ∑ xi2

i =1
B0 ∼ N  β 0 ,
n s XX

Für die standardisierten Variablen gilt
158





(4.64)
Z1 =
( B1 − β1 )
s XX ∼ N ( 0,1)
σU
(4.65)
( B − β0 )
= 0
Z0
n s XX
σU
∼ N ( 0,1)
n
∑x
2
i
i =1
Schliesslich ist
n
V=
∑E
2
i
i =1
σ
2
U
n
=
∑ (Y − B
i =1
0
i
σ
− B1 xi )
2
U
2
∼ χ n2− 2
(4.66)
respektive
( n − 2 ) σˆ U2
∼ χ n2− 2
2
σU
(4.67)
2
Ersetzt man die unbekannten Varianzen σ U in Z1 und Z2 durch die entsprechenden
Schätzfunktionen, so sind die neuen Variablen t-verteilt mit n − 2 Freiheitsgraden.
W1 =
W0 =
B1 − β1
σˆU
B0 − β 0
σˆU
s XX ∼ Tn − 2
(4.68)
n s XX
n
∑x
i =1
∼ Tn − 2
2
i
Damit wird es möglich, Hypothesen zu testen und Konfidenzintervalle zu berechnen,
selbst wenn die Varianz σ U2 unbekannt ist.
159
4.7 Hypothesentest und Konfidenzintervalle für β0 und β1
4.7.1 Konfidenzintervalle für β0 und β1
Konfidenzintervalle für β0 und β1 sind solche für den Mittelwert normalverteilter Zufallsvariablen bei unbekannter Varianz. Die dazugehörige Theorie wurde in Kapitel
2.2.2 dargestellt. Danach gilt
Konf β1 [ B1 − C ; B1 + C ] = γ
(4.69)
mit
n
C = dγ
σˆ U
= dγ
S XX
∑E
i =1
2
i
(4.70)
( n − 2 ) S XX
wobei
n
S XX = ∑ ( X i − X ) 2
(4.71)
Konf β 0 [ B0 − C ; B0 + C ] = γ
(4.72)
i =1
und
mit
n
C = dγ σˆ U
∑X
i =1
n
2
i
n S XX
= dγ
n
∑E ∑X
i =1
2
i
i =1
2
i
n ( n − 2 ) S XX
Für das Beispiel von Seite 147 resultieren folgende Werte, (wobei d0.95 für
n − 2 = 10 − 2 = 8 Freiheitsgrade zu bestimmen ist).
160
(4.73)
n = 10
d 0.95 = 2.307
n
∑e
2
i
i =1
= 5.9953
(4.74)
σˆ U2 = 0.7494
n
s XX = ∑ ( xi − x ) 2 = 433.6
i =1
und damit das Konfidenzintervall für β1
σˆU
c = dγ
s XX
= 2.307
0.7494
= 0.0959
433.6
(4.75)
Konf β1 [ 0.392 − 0.0959, 0.392 + 0.0959]
Konf β1 [ 0.296, 0.488] = 0.95
respektive das Konfidenzintervall für β0
n
c = dγ σˆU
∑x
i =1
2
i
n s XX
= 2.307 0.7494
4760
= 2.09
10 ⋅ 433.6
(4.76)
Konf β0 [ −2.10 − 2.09, − 2.10 + 2.09]
Konf β0 [ −4.19, − 0.01] = 0.95
4.7.2 Hypothesentest für β1
Im linearen Modell
Y = β 0 + β1 x + U
(4.77)
wird ein Hypothesensystem über β1 formuliert, z. B.
161
H 0 : β1 = β10 = k
H1 : β1 = β11 ≠ k
(4.78)
Als Testgrösse wählen wir die Zufallsvariable W1 aus Abschnitt 4.6, zumal diese Variable sensitiv auf Änderungen in β1 reagiert und überdies ein bekanntes Verteilungsgesetz
besitzt.
W1 =
B1 − β1
σˆU
s XX ∼ Tn − 2
(4.79)
Beim obigen Test handelt es sich im Prinzip um den Test einer Hypothese über den
Mittelwert einer normalverteilten Grundgesamtheit bei unbekannter Varianz. Wir
können wiederum auf die entsprechende Theorie zurückgreifen.
Von praktischer Bedeutung ist der folgende Spezialfall des Hypothesentests
H 0 : β1 = β10 = 0
H1 : β1 = β11 ≠ 0
(4.80)
Aus geometrischer Sicht überprüft man die Annahme einer horizontalen Regressionsgeraden. In der statistischen Praxis spricht man oft von Unabhängigkeit zwischen den
beiden untersuchten Variablen, zumal im Falle einer horizontalen Regressionsgeraden
die abhängige Variable nicht auf Änderungen in der unabhängigen Variablen reagiert.
Unter H0 ist die Testgrösse
W1 =
B1
σˆU
s XX
(4.81)
t-verteilt mit n − 2 Freiheitsgraden. Auf dem Signifikanzniveau α folgt daraus die
Entscheidungsregel
 W1 ≥ t1−α / 2
E : falls 
 W1 < t1−α / 2
162
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(4.82)
Der folgende SYSTAT-Ausdruck ist ein typisches Beispiel einer Regressionsanalyse
mit Hilfe von Softwarepaketen. Das Datenmaterial entspricht jenem des Einführungsbeispiels.
DEP VAR: Y
N: 10
MULTIPLE R: .958 SQUARED MULTIPLE R: .918
ADJ. SQUARED MULTIPLE R: .907
STANDARD ERROR OF EST.:
0.866
VARIABLE
COEFFICIENT
STD ERROR
CONSTANT
X
-2.110
0.392
0.907
0.042
STD COEF TOLERANCE
0.000
0.958
.
1.000
T
-2.326
9.436
P(2TAIL)
0.048
0.000
ANALYSIS OF VARIANCE
SOURCE
REGRESSION
RESIDUAL
SUM-OF-SQUARES
DF
MEAN-SQUARE
F-RATIO
66.730
5.995
1
8
66.730
0.749
89.043
P
0.000
Der Ausdruck enthält folgende im Moment relevanten Informationen:
STANDARD ERROR OF ESTIMATE: geschätzte Standardabweichung des Stör•
terms U
σˆU =
•
1
n−2
n
∑e
i =1
2
i
=
5.995
= 0.866
8
(4.83)
COEFFICIENT : Schätzwerte der Regressionskoeffizienten
CONSTANT : b0 = y − b1 x = 6.05 − 0.392 ⋅ 20.8 = − 2.11
n
X : b1 =
∑ (x − x ) ( y − y )
i =1
i
n
∑ (x − x )
i =1
•
i
2
=
s XY 170.10
=
= 0.392
s XX 433.60
(4.84)
i
STD ERROR: geschätzte Standardabweichungen der Schätzfunktionen B0 und B1
163
CONSTANT : σˆ B0 =
σˆU2
n
∑x
i =1
n s XX
2
i
=
0.749 4760
= 0.907
10 433.6
(4.85)
σˆU2
0.749
X : σˆ B =
=
= 0.042
433.6
s XX
1
•
T: Realisation der Testgrössen W1 bzw. W0 zum Test der Hypothesen β0 = 0 bzw.
β1 = 0
CONSTANT : w0 =
b0 −2.110
= − 2.326
σˆ B0 0.907
b 0.392
X : w1 = 1
= 9.436
σˆ B1 0.042
•
(4.86)
P(2TAIL) : Wahrscheinlichkeit, dass die Testgrösse unter H0 die gegebene
oder eine noch grössere Abweichung annimmt
CONSTANT : P ( W0 ≥ 2.326 H 0 ) = 0.048
X : P ( W1 ≥ 9.436 H 0 ) = 0
164
(4.87)
4.8 Bedingtes Konfidenzintervall für Y bei gegebenem x0
Wenn man bei vorgegebenem x0 auf die zu erklärende Grösse Y schliessen möchte, ist
man aus Gründen der Genauigkeit und Zuverlässigkeit an Konfindenzintervallen
interessiert, welche den erwarteten Wert von Y an dieser Stelle x0 überdecken. Zur
Bestimmung solcher Konfidenzintervalle halten wir zunächst fest:
1.)
E (Y x ) = µ ( x ) = β 0 + β 1 x
(4.88)
2.)
µˆ ( x ) = B0 + B1 x
(4.89)
3.)
E ( µˆ ( x ) ) = β 0 + β1 x
(4.90)
4.)
V ( µˆ ( x ) ) = V ( B0 + B1 x ) = V ( B0 ) + x 2V ( B1 ) + 2 x Cov ( B0 , B1 )
σ
=
n
2
U
∑x
2
i
i =1
n s XX

n
+ x2
σ U2  ∑ xi2
=
i =1
σ U2
s XX
−
2 x σ U2 x
s XX


2
+ x − 2x x 

(4.91)
s XX 
 n
 n

σ U2  ∑ xi2
σ U2  s XX

2 
=
+ ( x − x )2 
nx =

2
i =1
 s XX  n
+ (x − x ) −
s XX 

n 
 n
 1 ( x − x )2 
=σ  +

s XX 
n
2
U
5.)
µˆ ( x ) − E ( µˆ ( x ) )
V ( µˆ ( x ) )
∼ N ( 0,1)
(4.92)
165
6.)
µˆ ( x ) − E ( µˆ ( x ) )
Vˆ ( µˆ ( x ) )
∼ Tn − 2
(4.93)
Durch Einsetzen findet man
W=
B0 + B1 x − ( β 0 + β1 x )
1 (
) 
σˆU2  + x − x 
2
n
s XX
∼ Tn − 2
(4.94)

Zu vorgegebener Konfidenzzahl γ kann d γ (gemäss 2.2.2) so bestimmt werden, dass
P ( −dγ ≤ W ≤ dγ ) = γ
(4.95)
Setzt man für W den obigen Ausdruck ein und formt man solange um, dass in der Mitte
der doppelten Ungleichung nur noch β0 + β1x steht, so erhält man die Grenzen des
100γ % –Konfidenzintervalls.
Konf β 0 + β1 x [ B0 + B1 x − C , B0 + B1 x + C ] = γ
(4.96)
mit
C = dγ σˆU
Beachte:
1 (X − X )
+
n
S XX
2
(4.97)
Die Länge des Konfidenzintervalls ist insbesondere abhängig von x und
wird an der Stelle x = x minimal.
Im Einführungsbeispiel erhält man an der Stelle x = 15 für das 90%–Konfidenzintervall
1 (15 − 20.8 )2
c = 1.86 ⋅ 0.866
+
= 0.679
10
433.6
166
(4.98)
und damit
Konf β 0 + β1 ⋅15 [ −2.11 + 15 ⋅ 0.39 − c, − 2.11 + 15 ⋅ 0.39 + c ]
= Konf β 0 + β1 ⋅15 [3.061, 4.419 ] = 0.90
(4.99)
Die nachfolgende SYGRAPH-Darstellung zeigt die Konfidenztrompete über den
gesamten Bereich für γ = 0.90
15
y
yˆ = −2.1 + 0.39 ⋅ x
10
5
x
0
0
10
20
30
40
4.9 Verletzung der Voraussetzungen
4.9.1 Varianzinhomogenität
Eine wesentliche Voraussetzung im linearen Modell ist eine konstante Varianz der
Störterme U. In vielen praktischen Anwendungen ist diese Bedingung verletzt. Im Falle
steigender Regressionsgeraden stellt man oft eine wachsende Varianz mit grösser
werdenden y–Werten fest. Wir betrachten zwei Fälle von Varianzinhomogenität.
Fall 1
Die Standardabweichung der Störvariablen U (und damit von Y) ist gegeben durch
167
σ U ( x ) = g ( x )σ U
(4.100)
wobei g(x) bekannt und σ 0 unbekannt ist.
In diesen Fällen betrachtet man nicht eine Regression zwischen x und Y, sondern
zwischen x und Y ′ mit
Yi ′ =
Yi
g ( x)
(4.101)
Dann gilt nämlich
V (Yi ′) =
1
1
V (Yi ) = 2
g 2 ( x ) σ 02 = σ 02
g ( x)
g ( x)
2
(4.102)
womit die ursprünglichen Voraussetzungen zwischen x und Y ′ erfüllt sind und das
normale Prozedere angewendet werden kann.
Fall 2
Verfügt man für die einzelnen x–Werte xi , i = 1,… , r , je über nj Beobachtungen
Yij , j = 1,… , n j und bezeichnen Yi und S i2 , i = 1, … , r , Mittelwert bzw. Varianz für
jeden x–Wert, so kann als Approximation wie folgt vorgegangen werden. Man betrachte
die Regression nicht zwischen x und Yij, sondern zwischen x und Yij′ , wobei
Yij′ = Yi +
Yij + Yi
Si
(4.103)
Zwischen x und Yij′ ist dann die Varianzhomogenität zumindest annähernd erfüllt, und
es kann ebenfalls mit den bekannten Methoden gearbeitet werden.
168
4.9.2 Autokorrelation
Bis jetzt wurden unkorrelierte Störvariablen vorausgesetzt. In der praktischen
Zeitreihenanalyse steht man oft vor dem Problem, dass diese Voraussetzung verletzt ist.
Insbesondere treten Fälle auf, bei denen aufeinanderfolgende Störterme gewisse
Abhängigkeiten zeigen. Die Autokorrelation ist ein Spezialfall dazu. Anstelle der
bisherigen Bedingungen
1.)
E (U i ) = 0
i = 1,… , n
(4.104)
2.)
V (U i ) = σ U2
i = 1,… , n
(4.105)
3.)
Cov (U i , U j ) = 0
i ≠ j ; i , j = 1,… , n
(4.106)
setzen wir
U t = ρ U t −1 + ε t
(4.107)
mit
ρ <1
Autokorrelationskoeffizient
E (ε t ) = 0
für alle Werte t
V ( ε t ) = σ ε2
für alle Werte t
Cov ( ε s , ε t ) = 0
für alle Werte s, t mit s ≠ t
(4.108)
Diese neuen Bedingungen charakterisieren die einfachste Form eines autoregressiven
Prozesses. Der Störterm zum Zeitpunkt t setzt sich additiv aus dem abgeschwächten
Störterm der Vorperiode und einem Zufallsterm zusammen. Ein Störterm zum Zeitpunkt
t entwickelt (in allerdings abgeschwächter Form) Wirkungen in alle Zukunft.
169
U t = ρ U t −1 + ε t
= ρ ( ρ U t − 2 + ε t −1 ) + ε t
= ρ 2 U t − 2 + ρ ε t −1 + ε t
(4.109)
= ε t + ρ ε t −1 + ρ 2ε t − 2 +…
Welche Konsequenzen verursacht Autokorrelation im linearen Modell?
1.)
Die Schätzfunktionen für β0 und β1 bleiben zwar erwartungstreu, verlieren jedoch
die Minimumvarianzeigenschaft.
2.)
Die wahre Varianz des Störterms kann deutlich unterschätzt werden.
3.)
Die theoretischen Voraussetzungen zur Konstruktion von Konfidenzintervallen
sowie zum Testen von Hypothesen sind nicht mehr erfüllt.
Unter den oben genannten Bedingungen an die Störterme ε t gilt für die Momente von
Ut
E (U t ) = E ( ε t + ρ ε t −1 + ρ 2 ε t − 2 + …)
=0
(4.110)
V (U t ) = E (U t2 )
= E ( ε t2 ) + ρ 2 E ( ε t2−1 ) + ρ 4 E ( ε t2− 2 ) + …
= σ ε2 + ρ 2σ ε2 + ρ 4σ ε4 + …
= σ ε (1 + ρ + ρ + …)
2
2
(4.111)
4
σ ε2
=
1− ρ 2
Die Varianz von U ist damit unabhängig von t und wird umso grösser, je näher ρ gegen
1 strebt! Ferner gilt
170
Cov (U t , U t −1 ) = E {( ρ U t −1 + ε t ) U t −1}
= ρ E (U t2−1 ) + E {ε t U t −1}
(4.112)
= ρ V (U t )
Allgemein gilt
Cov (U t , U t − s ) = ρ s V (U t )
(4.113)
Welche Massnahmen lassen sich im Falle von autokorrelierten Störvariablen ergreifen?
Ein relativ einfaches Verfahren zur Behebung des Problems existiert, falls der Wert des
Autokorrelationskoeffizienten ρ bekannt ist. Es gilt nämlich für alle Werte von t
Yt −1 = β 0 + β1 X t −1 + U t −1
ρ Yt −1 = ρ β 0 + ρ β1 X t −1 + ρ U t −1
(4.114)
Aus der Subtraktion der zweiten Gleichung von
Yt = β 0 + β1 X t + U t
(4.115)
Yt − ρ Yt −1 = β 0 (1 − ρ ) + β1 ( X t − ρ X t −1 ) + U t − ρ U t −1
(4.116)
Yt ∗ = β 0∗ + β1 X t∗ + ε t
(4.117)
folgt direkt
respektive
Zwischen den Variablen Yt ∗ und X t∗ sind die ursprünglichen Bedingungen – insbesondere jene von unkorrelierten Störvariablen – wieder erfüllt, womit das normale
Analyseinstrumentarium eingesetzt werden kann.
Normalerweise ist ρ unbekannt. Es existieren jedoch Verfahren, ρ aus den Daten zu
171
schätzen.1
4.9.3 Test auf Autokorrelation
Im linearen Modell
Y = β 0 + β1 X + U
(4.118)
werde eine autoregressive Beziehung erster Ordnung im Störterm der Form
U t = ρ U t −1 + ε t
(4.119)
vermutet. Zum Test der Hypothese einer positiven Autokorrelation formuliert man das
System
H 0 : ρ = ρ0 ≤ 0
(4.120)
H1 : ρ = ρ1 > 0
Hypothesen dieser Form können mit dem Test von Durbin–Watson überprüft werden.
Basierend auf den Residuen
et = yt − b0 − b1 xt
(4.121)
lautet die Testgrösse
n
DW =
∑ (e − e
t =2
n
∑e
t =1
1
t −1
t
)2
(4.122)
2
t
Vgl. D. Cochrane and G. H. Orcutt: Application of Least Squares Regressions to Relationships
containing Autocorrelated Error Terms. Journal of the American Statistical Association. Vol. 44,
1949, S. 32-61.
172
für welche folgende Entscheidungsregel gilt
 DW < d e

E : falls  DW > d u

d e ≤ DW ≤ d u
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(4.123)
⇒ kein Entscheid
Für die kritischen Grenzen de und du existieren Tabellen in Abhängigkeit vom
Stichprobenumfang. Die nachfolgende Tabelle enthält einen Ausschnitt.
α = 0.05
n
10
15
20
40
60
100
200
α = 0.01
de
du
de
du
0.88
1.08
1.20
1.44
1.55
1.65
1.76
1.32
1.36
1.41
1.54
1.62
1.69
1.78
0.60
0.81
0.95
1.25
1.38
1.52
1.66
1.00
1.07
1.15
1.34
1.45
1.56
1.68
Die Testgrösse sowie die Entscheidungsregel von Durbin–Watson können folgendermassen motiviert werden. Für grosse Werte von n gilt approximativ
n
DW =
∑ (et − et −1 )2
t =2
n
∑e
t =1
≈ 2−2
2
t
∑e e
∑e
=
n
n
t =2
t =2
n
∑ et2 + ∑ et2−1 − 2 ∑ et et −1
t =2
n
∑e
t =1
2
t
(4.124)
t t −1
2
t
= 2 (1 − ρˆ )
Die Schätzfunktion für ρ kann aus der regressiven Beziehung zwischen Ut und U t −1
173
motiviert werden. Ferner folgt die Abschätzung
0 < DW < 4
(4.125)
Im Falle positiver Autokorrelation der Störvariablen sind aufeinanderfolgende
Realisationen der Residuen ungefähr von derselben Grössenordnung. Der Zähler der
Testgrösse wird tendenziell klein. Sind Störvariablen nicht oder negativ korreliert, so
liegen aufeinanderfolgende Realisationen tendenziell weit auseinander; der Zähler von
DW wird entsprechend gross. Kleine Werte von DW deuten auf H1 und grosse Werte auf
H0 .
Die Entscheidungsregel für das Hypothesensystem (Test auf negative Autokorrelation)
H0 : ρ ≥ 0
(4.126)
H1 : ρ < 0
lautet
( 4 − DW ) < d e

E : falls ( 4 − DW ) > d u

 d e ≤ ( 4 − DW ) ≤ d u
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(4.127)
⇒ kein Entscheid
Der Nachteil des Tests von Durbin–Watson ist seine relativ kleine Macht.
Beispiel
Aus der konstruierten Zeitreihe
t
1
2
3
4
5
6
7
8
9
10
11
12
y
35
40
56
88
125
123
83
64
50
47
58 60.5
findet man die Regressionsbeziehung
yˆ = 69.89 − 0.117 ⋅ t
174
(4.128)
Die Schätzwerte und die daraus abgeleiteten Residuen et, ergänzt um die Rechengrösse
für die DW–Statistik, sind in der nachfolgenden Tabelle zusammengestellt.
t
1
2
3
4
5
6
7
8
9
10
11
12
y
ŷ
35
40
56
88
125
123
83
64
50
47
58
60.5
et2
et
69.77
69.65
69.53
69.42
69.30
69.18
69.07
68.95
68.83
68.72
68.60
68.48
-34.77
-29.65
-13.53
18.58
55.70
53.82
13.93
-4.95
-18.83
-21.72
-10.60
-7.98
( et − et −1 )
2
1208.90
879.25
183.20
345.30
3102.41
2896.21
194.14
24.50
354.65
471.54
112.32
63.69
26.19
259.76
1031.51
1377.68
3.55
1590.64
356.56
192.73
8.31
123.59
6.85
9836.10
DW–Statistik
4977.37
0.51
Die Vorzeichen sowie die Absolutbeträge der Residuen deuten auf (positive) Autokorrelation hin. Die entsprechende Teststatistik ergibt
n
DW =
∑ (e − e
t =2
t −1
t
n
∑e
t =1
2
t
)2
=
4977.37
= 0.51
9836.10
(4.129)
Das Hypothesensystem
H 0 : ρ = ρ0 ≤ 0
H1 : ρ = ρ1 > 0
(4.130)
führt auf dem Niveau α = 0.05 zur Entscheidungsregel
175
 DW < 0.971

E : falls  DW > 1.331

0.971 ≤ DW ≤ 1.331
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(4.131)
⇒ kein Entscheid
Die konkrete Beobachtung DW = 0.51 veranlasst uns, H0 (negative Autokorrelation)
abzulehnen.
Der Autokorrelationskoeffizient wird geschätzt durch
ρˆ = ∑
et et −1
∑e
2
t
=
6711.12
= 0.68
9836.10
(4.132)
4.9.4 Statistische Eigenschaften der Residuen
Aus
Ei = U i − U − ( B1 − β1 )( xi − x )
(4.133)
folgt für den Erwartungswert
E ( Ei ) = E (U i − U − ( B1 − β1 )( xi − x ) )
=0
und die Varianz
176
(4.134)
V ( Ei ) = E ( Ei2 )
{
= E (U i − U ) − 2 (U i − U ) ( B1 − β1 )( xi − x ) + ( B1 − β1 ) ( xi − x )
2
2
σ U2
2
 1
2
= σ 1 −  − 2σ U ci ( xi − x ) +
( xi − x )
s XX
 n
2
}
(4.135)
2
U
 1 ( xi − x )2 
= σ 1 − −

 n

s
XX


2
U
Für die Kovarianz zwischen Ei und Ej gilt
Cov ( Ei , E j ) = E ( Ei ⋅ E j )
{
= E (U i − U ) (U j − U ) − (U i − U ) ( B1 − β1 ) ( x j − x )
}
− (U j − U ) ( B1 − β1 )( xì − x ) + ( B1 − β1 ) ( xi − x ) ( x j − x )
2
=−
σ U2
n
− σ ci ( x j − x ) − σ c j ( xi − x ) +
2
U
2
U
 1 ( xi − x ) ( x j − x ) 

= − σ U2  +
n

s
XX


Beachte:
σ U2
s XX
(4.136)
( xi − x ) ( x j − x )
Während im Modell unkorrelierte Störterme Ui mit konstanter Varianz σ U2
vorausgesetzt wurden, so überträgt sich keine der beiden Eigenschaften auf
die Residuen Ei. Insbesondere fällt die Abhängigkeit von den x–Werten in
beiden Fällen auf!
4.9.5 Graphische Darstellung der Residuen
Erste Anhaltspunkte über die Regularität der Residuen liefert ein einfaches Streudiagramm, welches insbesondere Informationen über Häufungspunkte und Ausreisser
liefert. Box–Plots ergänzen Streudiagramme vor allem im Hinblick auf die Form der
Verteilung. Bei umfangreichen Stichproben erstellt man zweckmässigerweise
Histogramme.
177
Zumal sich in den Residuen bei korrekter Modellspezifikation im wesentlichen die
Eigenschaften des Störterms U manifestieren, sollte aus dem Histogramm die Glockenform der über U vorausgesetzten Normalverteilung ersichtlich werden.
In einem zweiten Schritt stellt man die Punktewolke (xi, ei) dar. Aus Darstellungen dieser
Art erkennt man sofort allfällige Muster in den Residuen, ebenso wie Abweichungen von
der als konstant vorausgesetzten Varianz der Störterme U.
e
x
Eine dritte Möglichkeit besteht in der Darstellung eines Plots der Punktewolke ( yˆ i , ei ) .
Bei richtiger Modellspezifikation verteilen sich die Residuen in einem zur Abszisse
symmetrischen Band.
e
ŷ
Auch in dieser Darstellung erkennt man sehr einfach Phänomene wie Varianzinhomogenität und Fehlspezifikation im Modell.
178
y
x
e
e
x
ŷ
Normalerweise verzichtet man auf einen Plot der Punktewolke (ei, yi). Im Gegensatz zur
Beziehung ( ei , yˆ i ) besteht gewöhnlich ein korrelativer Zusammenhang zwischen den
Residuen ei und den Beobachtungen yi.
4.9.6 Leverage
Die Minimum–Quadratschätzfunktionen für β0 und insbesondere für β1 sind lineare
Kombinationen der y–Werte. Im folgenden interessiert neben dem Beitrag von yi auch
die Sensitivität der Schätzfunktionen auf Variationen in yi etwa im Zusammenhang mit
Messfehlern.
b1 =
∑ ( x − x )y
i
i
i
∑(x
j
j
− x)
2
(4.137)
b0 = y − b1 x
Eine Änderung von yi um den Betrag ∆yi löst eine Änderung von b1 um ∆b1 aus.
179
b1 + ∆b1 =
∑(x
j ≠i
j
− x ) y j + ( xi − x )( yi + ∆yi )
∑(x
k
− x)
(4.138)
2
k
Damit erhält man für ∆b1
∆b1 =
( xi − x )
2
∑ ( xk − x )
∆yi = ci ∆yi
(4.139)
k
∆yi löst also eine umso grössere Änderung von b1 aus, je weiter xi von x entfernt ist und
je kleiner die Variation sXX der x–Werte ist.
Die Wirkungen auf b0 sind
1
∆yi − ∆b1 x
n


xi − x )
(
1

= −
x  ∆yi
2
 n ∑ ( xk − x ) 


k
1

=  − ci x  ∆yi
n

∆b0 =
(4.140)
An der Stelle xi = x verursacht ∆yi keine Änderung in b1. b0 ändert sich allerdings um
den Betrag
∆ yi
n
(4.141)
Indirekt (über die Schätzwerte b0 und b1) beeinflusst ∆yi aber auch die Schätzwerte yˆ i .
180
yˆi = b0 + b1 xi
= y + ( xi − x ) b1
1
=
n
∑ y +(x − x)
j
∑(x
j
i
j
− x ) yj
s XX
j
 1 ( xi − x ) ( x j − x ) 
 yj
= ∑ +
n

s XX
j


= ∑ λij y j
(4.142)
j
Der Faktor λij gewichtet die Beiträge von y j , j = 1, 2,… , n , zum Schätzwert yˆ i . Am
einfachsten sind die eigenen Beiträge λii von yi zu yˆ i interpretierbar.
1 (x − x)
λii = + i
n
s XX
2
(4.143)
λii hängt offensichtlich nur von x ab und wird umso grösser, je weiter xi von x entfernt
ist. Eine Änderung von yi um ∆yi induziert eine Änderung von yˆ i um λii ∆yi
∆yˆ i = λii ∆yi
(4.144)
Der Ausdruck λii wird als Leverage des Punktes (xi, yi) bezeichnet und erfüllt die
Bedingungen
1.)
1
≤ λii ≤ 1
n
2.)
∑λ
ii
=2
(4.145)
(4.146)
i
Das Leverage–Mass liefert nützliche Hinweise auf jene Punkte, welche einen grossen
Einfluss auf die Schätzwerte ausüben.
181
4.9.7 Studentized Residuals
Betrachtet man die Residuen Ei als Zufallsvariablen, so gilt gemäss Abschnitt 4.9.4
Ei = Yi − Yˆi
(4.147)
mit
E ( Ei ) = 0
  1 ( x − x )2  
V ( Ei ) = σ 1 −  + i


 n
s
XX

 
= σ U2 (1 − λii )
2
U
(4.148)
Die letzte Beziehung zeigt das inverse Verhalten von Varianz und Leverage. Die Varianz
wird umso kleiner, je grösser der Leverage wird. Letzterer wird tendenziell grösser, je
weiter die x–Werte vom Mittel x entfernt sind. Konsequenterweise muss der "Fit" in
den Randbereichen grösser werden. Die "Gleichbehandlung" aller Residuen über den
ganzen x–Bereich wird durch folgende Standardisierung erreicht
Ei∗ =
σU
Ei
1 − λii
(4.149)
Anstelle der unbekannten Standardabweichung σ U verwendet man in der Praxis ihren
Schätzwert σˆ U . Der Ausdruck
Ei∗ =
σˆU
Ei
1 − λii
(4.150)
heisst standardisiertes Residuum.
Bei stark variierenden Varianzen der Residuen verwendet man anstelle standardisierter
die sogenannten "studentized" Residuen
182
E(∗i ) =
Ei
σˆU (i ) 1 − λii
(4.151)
Dabei ist σˆU ( i ) der Schätzwert für σ U , den man erhält, falls man aus der ursprünglichen
Menge von Wertepaaren die Beobachtung (xi, yi) eliminiert.
Standardisierte und studentized Residuen liefern Informationen über Ausreisser, welche
bekanntlich den "wahren" Zusammenhang empfindlich stören können.
Die meisten Software–Pakete liefern diese Zusatzinformationen standardmässig mit den
Regressionsparametern. Das Angebot von SYSTAT sieht für das Einführungsbeispiel
wie folgt aus
ESTIMATE
RESIDUAL
LEVERAGE
COOK
STUDENT
SEPRED
1.8132
0.1868
0.3690
0.0216
0.2553
0.5259
3.3824
(0.8824)
0.2066
0.1705
(1.1705)
0.3935
3.3824
0.6176
0.2066
0.0836
0.7812
0.3935
4.5593
0.4407
0.1333
0.0230
0.5214
0.3161
5.7362
(1.2362)
0.1015
0.1281
(1.6649)
0.2758
6.5208
0.4792
0.1033
0.0197
0.5589
0.2783
7.6976
0.3024
0.1407
0.0116
0.3556
0.3247
8.4822
1.0178
0.1887
0.1981
1.3762
0.3760
9.2668
(1.2668)
0.2551
0.4922
(1.9815)
0.4372
9.6591
0.3409
0.2952
0.0461
0.4449
0.4703
SEPRED bedeutet Standardfehler der Schätzung ŷ ( x ) . Das Cook–Mass ist eine Kombination von Leverage und studentized Residuen und misst den Einfluss der einzelnen
Beobachtungen auf die Regressionsschätzungen.
4.9.8 Test auf Unkorreliertheit der Residuen
Für die Störterme wurde insbesondere auch Unkorreliertheit vorausgesetzt. Bei
zutreffender Modellspezifikation sollten sich dann auch die Residuen E zufällig um die
183
Regressionsgerade verteilen. Zur Überprüfung dieser Zufälligkeit kann der sogenannte
Run–Test herangezogen werden. Dabei werden lediglich die Vorzeichen der nach ihren
x–Werten geordneten Residuen untersucht
+ + − + − − +… −
Ein Run besteht dabei aus einer Folge identischer Vorzeichen. Die Zufälligkeitshypothese
wird abgelehnt, falls die Anzahl Runs zu klein oder zu gross wird.
Eine detaillierte Beschreibung des Run–Test befindet sich etwa bei Conover W.J.,
Practical nonparametric statistics, New York.
184
4.10 Nichtlineare Regressionsansätze
Im Verlaufe der bisherigen Untersuchungen haben wir uns stets auf die lineare
Einfachregression beschränkt. Anhand ausgewählter Beispiele werden im folgenden
einige Aspekte nichtlinearer Beziehungen dargestellt. Im Bereich der Ökonomie bestehen
nichtlineare Zusammenhänge etwa in folgenden Situationen:
1.)
Fixkosten pro Stück
y =α +
2.)
β
x
Exponentielles Wachstum
y =α ⋅β x
3.)
α >0
(4.154)
Engelfunktion mit dem Sättigungswert α
β
y =α ex
5.)
(4.153)
Nachfrage nach einem Konsumgut in Abhängigkeit vom persönlichen Einkommen bei konstanter Elastizität β
y = α xβ
4.)
(4.152)
α >0
(4.155)
Parabolischer Ansatz für Nutzenfunktionen
y = α x2 + β x + γ
(4.156)
Die Parameter der obigen Ansätze können direkt unter Anwendung der Minimumquadratmethode geschätzt werden. Für den parabolischen Ansatz von Beispiel 5.) stellt sich
dabei beispielsweise das folgende Problem.
185
y
( xi , yi )
yi
ei = yi − axi2 − bxi − c
= yi − yˆ i
ei
2
yˆ i = axi + bxi + c
x
xi
Zu bestimmen sind die Parameter a, b und c so, dass
∑ e = ∑ ( yi − axi2 − bxi − c ) = F ( a, b, c ) → min
n
i =1
n
2
i
2
(4.157)
i =1
Am Minimum von F müssen die partiellen Ableitungen nach a, b und c notwendigerweise verschwinden.
n
∂F
= − 2 ∑ xi2 ( yi − axi2 − bxi − c ) = 0 ⇔
∂a
i =1
n
∑x e
i =1
2
i i
=0
n
∂F
2
= − 2 ∑ xi ( yi − axi − bxi − c ) = 0 ⇔ ∑ xi ei = 0
∂b
i =1
i =1
n
n
∂F
= − 2 ∑ ( yi − axi2 − bxi − c ) = 0 ⇔ ∑ ei = 0
∂c
i =1
i =1
n
Das umformulierte System
186
(4.158)
n
n
n
n
a ∑ x + b ∑ x + c ∑ x = ∑ xi2 yi
i =1
4
i
i =1
3
i
i =1
2
i
i =1
n
n
n
n
i =1
i =1
i =1
i =1
n
n
n
i =1
i =1
i =1
a ∑ xi3 + b ∑ xi2 + c ∑ x = ∑ xi yi
(4.159)
a ∑ xi2 + b ∑ xi + nc = ∑ yi
in den 3 Unbekannten a, b und c heisst wiederum Normalgleichungssystem. Wir
verzichten auf die Angabe einer allgemeinen Lösung. Im konkreten Einzelfall findet man
die Lösungen etwa mit Hilfe des Gauss'schen Algorithmus.
Die Minimumquadrat–Methode ist für beliebige nichtlineare Ansätze oft kompliziert.
Häufig führt jedoch eine geschickt gewählte Transformation zu einer linearen Beziehung
zwischen den transformierten Variablen. Für die oben zitierten Beispiele gilt beispielsweise
β
1
x
1.)
y =α +
2.)
y = αβ x
log y = log α + x log β
z = α ∗ + β ∗x
(4.161)
3.)
y = α xβ
log y = log α + β log x
z =α∗ + βv
(4.162)
β
4.)
y = αe x
x
z=
y =α + β z
ln y = ln α +
β
x
(4.160)
z =α∗ + βv
(4.163)
Exponentielle Regression
Beispiel:
Sei y die Anzahl Bakterien pro Volumeneinheit. Betrachtet man y in Abhängigkeit von
der Zeit x, so entwickle sich die Kolonie gemäss folgendem Schema:
187
xi
0
1
2
3
4
5
6
yi
32
47
65
93
132
190
275
1
2
Graphische Darstellung
y
300
250
200
150
100
50
0
0
3
4
5
6
x
Theoretische Überlegungen sowie der konkrete Einzelfall motivieren einen exponentiellen Zusammenhang y = α ⋅ β x .
Durch Logarithmieren findet man
log y = log α + x log β
(4.164)
bzw. mit den Substitutionen α ∗ = log α , β ∗ = log β und der Transformation z = log y
z = α ∗ + β ∗x
(4.165)
In einem einfach logarithmischen Massstab dargestellt scharen sich die Punkte relativ
eng um eine Gerade.
188
xi
0
1
2
3
4
5
6
yi
32
47
65
93
132
190
275
zi = log yi
1.51
1.67
1.81
1.97
2.12
2.28
2.44
z
2.5
2.25
2
1.75
1.5
1.25
0
1
2
3
4
5
6
x
Das resultierende lineare Einfachregressionsmodell führt zu den Parametern
b = 0.1543
a = 1.5086
Dabei ist a ein Schätzwert für log α und somit 10a ein Schätzwert für α. Analoges gilt für
die Beziehung zwischen b und β. Man erhält schliesslich
y = 101.5086 ⋅ (100.1543 )
= 32.26 ⋅ 1.43
x
(4.166)
x
Beispiel: Potenzansatz
Gegeben seien folgende Daten
189
xi
1
3
5
10
15
20
25
30
35
40
yi
0.48
0.68
0.71
0.86
1
1.06
1.08
1.21
1.22
1.26
Graphische Darstellung
y
1.25
1
0.75
0.5
0.25
0
0
10
20
30
40
x
Man vermutet einen Potenzansatz y = α ⋅ x β und trägt die Daten in einen doppelt
logarithmischen Massstab ein. Die Vermutung wird insbesondere dann bestätigt, wenn
sich die Punkte relativ eng um eine Gerade scharen.
Durch Logarithmieren erhält man
log y = log α + β log x
und mit den Substitutionen
190
(4.167)
α ∗ = log α
z = log y
v = log x
(4.168)
z =α∗ + βv
(4.169)
den linearen Ansatz
z = log y
0.1
v = log x
0
0
0.25
xi
1
yi
0.5
0.75
3
5
10
0.48
0.68
0.71
vi = log xi
0.00
0.48
zi = log yi
-0.32
-0.17
1
1.25
1.5
1.75
15
20
25
30
35
40
0.86
1.00
1.06
1.08
1.21
1.22
1.26
0.70
1.00
1.18
1.30
1.40
1.48
1.54
1.60
-0.15
-0.07
0.00
0.03
0.03
0.08
0.09
0.10
-0.1
-0.2
-0.3
-0.4
Nach der Methode der kleinsten Quadrate erhält man für den linearen Ansatz bezüglich
der logarithmierten Werte z und v
191
a = − 0.317
b = 0.261
(4.170)
wobei a ein Schätzwert für α ∗ = log α , b ein Schätzwert für β ist. Damit ergibt sich
z = a + b log x = a + bv = − 0.317 + 0.261v
(4.171)
Durch Delogarithmierung gelangt man zur ursprünglichen Beziehung
y = 10 −0.317 ⋅ x 0.261 = 0.482 ⋅ x 0.261
(4.172)
Bemerkungen zum Problem der Linearisierung
In den obigen Beispielen führte die Transformation stets auf eine lineare Beziehung. Mit
den transformierten Daten wurde dann auch der ganze Kalkül durchgeführt. Die
Eigenschaften der Schätzfunktionen sind deshalb beschränkt auf die Parameter aus den
transformierten Werten, falls diese die notwendigen Bedingungen der linearen
Einfachregression ebenfalls erfüllen.
192
5. KORRELATIONSRECHNUNG
5.1 Der Korrelationskoeffizient nach Bravais–Pearson
Die Korrelationsanalyse beschäftigt sich damit, den stochastischen Zusammenhang
zwischen Zufallsvariablen zu quantifizieren. Während im Rahmen der Regressionsrechnung die Zusammmenhänge zwischen Merkmalen spezifiziert werden, versucht die
Korrelationsrechnung Masse für die Richtung und die Stärke des Zusammenhanges
herzuleiten. Im Einklang mit der Regressionsrechnung unterstellen wir zwischen den
beiden Zufallsvariablen X und Y zunächst einen linearen Zusammenhang.
Rein intuitiv ist man geneigt, von einem umso strengeren Zusammenhang zwischen den
Variablen X und Y zu sprechen, je enger sich die Punkte (xi, yi) um die aus ihnen berechnete Regressionsgerade scharen.
y
y
x
x
Das obige Kriterium lässt sich formal wie folgt zum Ausdruck bringen:
Ist ( X 1 , Y1 ) ,… , ( X n , Yn ) die Stichprobe, auf welcher die Schätzfunktionen B0 und B1
für das lineare Modell
Y = β 0 + β1 X + U
(5.1)
Ei = Yi − Yˆi = Yi − B0 − B1 X i
(5.2)
basieren, so gilt mit
193
∑ E = ∑(
n
i =1
n
2
i
i =1
Yi − Yˆi
) = ∑ (Y − B − B X )
2
n
0
i
i =1
(
= ∑ Yi − Y − B1 ( X i − X )
n
i =1
)
1
2
i
2
= ∑ (Yi − Y ) − 2 B1 ∑ (Yi − Y )( X i − X ) + B
n
n
2
i =1
2
1
i =1
S
S
= SYY − 2 XY S XY +
S XX
S
= S XY
2
S XY
−
S XX
= SYY
2


S XY
1 −

 S XX SYY 
2
XY
2
XX
∑( X
n
i =1
i
−X)
2
(5.3)
S XX
Definition
Der Ausdruck
2
2
S XY
S XX SYY
 n

 ∑ ( X i − X )(Yi − Y ) 
 = R2
= n i =1
n
2
2
∑ ( X i − X ) ∑ (Yi − Y )
i =1
(5.4)
i =1
heisst Determinationskoeffizient der Stichprobe. Dessen Quadratwurzel
R=
S XY
S XX SYY
heisst Korrelationskoeffizient nach Bravais–Pearson.
194
(5.5)
Eigenschaften von R
1.)
R ist ein Mass für die lineare Abhängigkeit zwischen zwei Zufallsvariablen X
und Y.
2.)
Ferner gilt
n
∑E
2
i
i =1
⇔
= SYY (1 − R 2 ) ≥ 0
(5.6)
0 ≤ R2 ≤ 1
⇔ −1 ≤ R ≤ 1
3.)
Falls alle Punkte exakt auf der Regressionsgeraden liegen und somit ein streng
funktionaler Zusammenhang zwischen X und Y besteht, gilt
n
∑E
i =1
resp.
4.)
2
i
= SYY (1 − R 2 ) = 0
(5.7)
R2 = 1
Das Vorzeichen von R stimmt mit jenem der Kovarianz zwischen X und Y überein.
y
II
I
III
IV
y
x
x
195
Die Summanden ( xi − x )( yi − y ) innerhalb der Kovarianz sind für Punkte
(xi, yi) in den Bereichen I und III positiv und in den Bereichen II und IV negativ.
Die Regressionsgerade geht stets durch den Punkt
( X , Y ) . Im Falle einer
steigenden Regressionsgeraden mit Punkten vornehmlich in den Bereichen I und
III wird der Korrelationskoeffizient positiv, für fallende Geraden negativ.
Dieser Zusammenhang folgt auch aus der folgenden Beziehung zwischen R und
B1.
R=
5.)
S XY
S XX
SYY
=
S XY
S XX
S XX
= B1
SYY
S XX
SYY
(5.8)
Im Gegensatz zu B1 ist R "symmetrisch" bezüglich X und Y. Wenn X und Y
vertauscht werden, ändert zwar der Regressionskoeffizient B1, hingegen der
Korrelationskoeffizient R nicht. Bezeichnet
B1 X =
S XY
S XX
(5.9)
den Regressionskoeffizienten, falls Y aus X erklärt wird, und
B1Y =
S XY
SYY
(5.10)
jenen, falls X aus Y erklärt wird, so gilt
2
S XY
B1 X B1Y =
= R2
S XX SYY
6.)
196
(5.11)
R wird genau dann Null, wenn die Kovarianz zwischen X und Y verschwindet.
Unkorrelierte Zufallsvariablen führen bei Stichprobenbeobachtungen tendenziell
zu Kovarianzen in der Umgebung von Null.
Man stellt fest, dass die quantitative Interpretation des Korrelationskoeffizienten
Schwierigkeiten bereitet. In einer relativ komfortablen Situation befindet man
sich im Falle von R2 = 0 sowie im Falle von R2 = 1.
Falls R2 = 0, deutet dies auf unkorrelierte Zufallsvariablen hin, falls R2 = 1 folgert
man einen "fast"–funktionalen, linearen Zusammenhang zwischen X und Y.
Falls es sich bei X und Y um stochastisch unabhängige Zufallsvariablen handelt,
wird sich R2 tendenziell in der Nähe von Null bewegen. Nur der Zufall ist für die
Abweichungen von Null verantwortlich.
7.)
Der Korrelationskoeffizient nach Bravais–Pearson
n
R=
∑(X
i =1
n
∑(X
i =1
i
i
− X )(Yi − Y )
− X)
(5.12)
n
2
∑ (Y − Y )
2
i
i =1
ist nur im Falle eines linearen Zusammenhanges zwischen X und Y sinnvoll. Für
nichtlineare Zusammenhänge existiert ein ähnliches Konzept. Danach wird
analog zum Determinationskoeffizienten R2 das folgende Abhängigkeitsmass
definiert
n
R2 =
∑ (Yˆ − Y )
2
∑ (Y − Y )
2
i =1
n
i =1
i
(5.13)
i
wobei Yˆi den Schätzwert für Yi nach einer beliebigen Abbildungsvorschrift f
bedeutet. Im allgemeinen Fall eignet sich dieses Mass für enge Beziehungen
zwischen X und Y gemäss der Abbildungsvorschrift f. Liegen insbesondere
sämtliche Punkte auf der Regressionskurve, so gilt analog zum
Bravais–Pearson–Konzept R2 = 1. Nach dieser allgemeinen Definition besitzt R2
die Interpretation als Anteil des durch den Regressionsansatz erklärten Teils der
Varianz an der gesamten Varianz.
Setzt man für Y eine lineare Beziehung ein, so folgt
197
n
R2 =
∑ (Yˆi − Y )2
i =1
n
∑ (Y − Y )
i =1
n
=
∑ (B
0
i =1
SYY
2
i
n
=
+ B1 X i − Y ) 2
∑ (Y − B X + B X
1
i =1
1
i
(5.14)
− Y )2
SYY
=
2
1
B S XX
SYY
2
S XY
=
S XX SYY
Im Falle einer linearen Beziehung führt der allgemeine Ansatz also zum Konzept
nach Bravais–Pearson. Daraus lässt sich eine weitere Interpretationsmöglichkeit
für R2 ableiten.
R2 ist demnach der durch die Regression erklärte Teil der Varianz (der Y–Werte)
an der gesamten Varianz.
y
( xi , yi )
yi
yi − yˆi
yi − y
ŷ = b0 + b1 x
yˆi − y
y
x
xi
x
Für das Einführungsbeispiel der Regressionsrechnung erhält man folgende
Resultate
198
n
r=
∑ ( x − x )( y − y )
i
i =1
i
n
=
n
∑ (x − x ) ∑ ( y − y )
2
i
i =1
i =1
2
170.1
= 0.9579
433.6 ⋅ 72.725
i
n
r2 =
∑ ( yˆ − y )
2
∑ ( y − y)
2
i =1
n
i =1
i
(5.15)
=
66.737
= 0.9176
72.725
i
r 2 = b1 X b1Y = 0.3923 ⋅ 2.3389 = 0.9176
Durch die lineare Regression werden also 91.8% der Varianz der y–Werte erklärt.
5.2 Der Korrelationskoeffizient in der Grundgesamtheit
Die Zufallsvariable R schätzt den wahren Korrelationskoeffizienten ρ der Grundgesamtheit, für welchen gilt
ρ=
Cov ( X , Y )
(5.16)
σ Xσ Y
Aus dieser Darstellung erkennt man den Korrelationskoeffizienten als Kovarianz der
standardisierten Zufallsvariablen X und Y.
ρ=
E ( X − µ X )(Y − µY ) 
σ Xσ Y
 X − µ X   Y − µY
= E 

 σ X   σ Y
 

 
(5.17)
Es gilt
(i) ρ XY = 0
⇔
X und Y sind unkorreliert
(ii) X , Y stochastisch unabhängig ⇒ ρ XY = 0
(5.18)
199
Beachte:
Aus ρ XY = 0 folgt nicht zwingend die stochastische Unabhängigkeit von
X und Y. Eine wichtige Ausnahme liegt vor, wenn X und Y gemeinsam
normalverteilt sind. Dann impliziert das Verschwinden des Korrelationskoeffizienten stochastische Unabhängigkeit. ρ erscheint implizit als
Funktionalparameter in der gemeinsamen Dichte.
f XY ( x, y ) =
1
2π σ X σ Y
1− ρ 2
exp {− c}
(5.19)
mit
1
c=
2 (1 − ρ 2 )
 x − µ  2
 x − µ X   y − µY
X

−
2
ρ



 σ X 
 σ X  σY
2
  y − µY  
+
  (5.20)
σ
Y
 
 
Für ρ = 0 kann die Dichte faktorisiert werden, woraus die stochastische Unabhängigkeit folgt.
ρ ist ein Abhängigkeitsmass für lineare Zusammenhänge. Gilt für den Determinationskoeffizienten ρ 2 für 2 Zufallsvariablen X und Y, (welche jeweils eine positive Varianz
besitzen),
ρ2 =1
(5.21)
so besteht zwischen ihnen eine linear funktionale Beziehung. Die umgekehrte Behauptung gilt ebenfalls. Mit
Y = β 0 + β1 X + U
ist
200
(5.22)
E ( Y ) = β 0 + β1µ X = µY
V (Y ) = β12σ X2 = σ Y2
Y − µ y = β 0 + β1 X − β 0 − β1 µ X = β1 ( X − µ X )
( X − µ x ) ( Y − µ y ) = β1 ( X − µ X )
(5.23)
2
und damit
Cov ( X , Y ) = β1 E ( X − µ X ) = β1σ X2
2
(5.24)
sowie
ρ XY =
Cov ( X , Y )
σ XσY
β1σ X2
=
=1
σ X β1σ X
(5.25)
5.3 Verteilung von R
Die Verteilung der Schätzfunktion R für ρ in Abhängigkeit von n und ρ ist ausführlich tabelliert. Für grosse Werte von n (n $ 25) gilt die Approximation
V=
1 1+ R
ln
∼ N ( µV , σ V )
2 1− R
(5.26)
mit
1 1+ ρ
ln
2 1− ρ
1
σ V2 = V (V ) =
n−3
µV = E (V ) =
(5.27)
V ist eine in ρ sensitive Zufallsvariable (Testgrösse) mit bekanntem Verteilungsgesetz.
Damit kann das bekannte Instrumentarium zum Testen von Hypothesen (über ρ ) sowie
201
zur Konstruktion von Konfidenzintervallen eingesetzt werden.
5.3.1 Konfidenzintervall für ρ
Mit Hilfe der standardisierten Variablen
Z=
V − E (V )
σV
=
1  1+ R
1+ ρ 
− ln
 ln
 n − 3 ∼ N ( 0,1)
2 +−R
1− ρ 
(5.28)
lässt sich infolge des bekannten Verteilungsgesetzes ein 100γ % –Konfidenzintervall
für ρ berechnen.
Zu gegebenem γ existiert ein Wert d γ so, dass
P ( − dγ ≤ Z ≤ dγ ) = γ
(5.29)
Aus

1  1+ R
1+ ρ 
− ln
P  − dγ ≤  ln
 n − 3 ≤ dγ
2
1
1
ρ
−
−
R



2 dγ
 1+ R
1+ ρ
1+ R
−
≤ ln
≤ ln
+
P  ln
1− ρ
1− R
n−3
 1− R

 =γ

2 dγ 
 =γ
n−3 
(5.30)
bestimmt man zunächst für
ln
ein Konfidenzintervall der Form
202
1+ ρ
1− ρ
(5.31)
Konf
= Konf
= Konf
1+ ρ
ln
1− ρ
ln
1+ ρ
1− ρ
1+ ρ
ln
1− ρ
2dγ
2 dγ 
 1+ R
1+ R
, ln
+
 ln 1 − R −
 =γ
R
1
−
n
n
3
3
−
−


2dγ
2 dγ 
 ∗
∗
R
R
,
−
+


n−3
n−3

(5.32)
 R1∗ , R2∗ 
Die Konfidenzgrenzen für ρ folgen aus der Beziehung


1+ ρ
P  R1∗ ≤
≤ R2∗  = γ
1− ρ


 e R1 − 1
e R2 − 1 
⇔ P  R∗
≤ ρ ≤ R∗
 = γ
 e 1 +1
2
1
e
+


∗
∗
(5.33)
und damit
 e R1 − 1 e R2 − 1 
Konf ρ  R∗
, R∗
 =γ
 e 1 + 1 e 2 + 1 
∗
∗
(5.34)
Im Einführungsbeispiel gilt r = 0.9579, woraus für r1∗ bzw. r2∗ mit γ = 0.90 folgt
2 dγ
1+ r
−
= 3.8396 − 1.2435 = 2.5961
1− r
n−3
2 dγ
1+ r
r2∗ = ln
+
= 3.8396 + 1.2435 = 5.0831
1− r
n−3
r1∗ = ln
(5.35)
 e 2.5961 − 1 e5.0831 − 1 
Konf ρ  2.5961 , 5.0831 
+1 e
+ 1
e
= Konf ρ [ 0.8612, 0.9877 ] = 0.90
203
5.3.2 Hypothesentest über ρ
Für nicht zu kleine Werte von n (n $ 25) kann der Hypothesentest für ρ über die
approximativ normalverteilte Zufallsvariable V aus Abschnitt 5.3.1 geführt werden.
Von praktischer Bedeutung sind Fälle, bei denen im Hinblick auf Unkorreliertheit oder
Unabhängigkeit getestet wird, ob der Korrelationskoeffizient zwischen X und Y wesentlich von Null abweicht. Wir betrachten speziell das Hypothesensystem
H 0 : ρ = ρ0 = 0
H1 : ρ = ρ1 ≠ 0
(5.36)
Unter H0 können einfachere Testgrössen betrachtet werden. Es gilt nämlich
1.)
R2 ist betaverteilt mit den Parametern α = 1/2 und β = n / 2 − 1 .
2.)
Die Testgrösse
U=
R
1 − R2
n − 2 ∼ Tn − 2
(5.37)
ist eine t–verteilte Zufallsvariable mit n − 2 Freiheitsgraden.
Diese zweite Beziehung gestattet eine sehr einfache Entscheidungsregel auf dem Signifikanzniveau α
 U ≥ t1−α / 2
E : falls 
 U < t1−α / 2
⇒ H 0 ablehnen
⇒ H 0 nicht ablehnen
(5.38)
Die Macht des Tests kann auf dieser Einführungsstufe nicht diskutiert werden. Wird der
Test einseitig geführt, ist die Entscheidungsregel entsprechend anzupassen. Die obige
Aussage über die Verteilung von R2 resp. von U setzt eine zweidimensionale Normalverteilung von (X,Y) voraus. Mit dem obigen Test wird somit gleichzeitig die Unabhängigkeit von X und Y überprüft!
204
5.4 Rangkorrelation
5.4.1 Rangkorrelationskoeffizient der Stichprobe
Das bekannteste Mass, um den Grad der linearen Abhängigkeit von 2 Zufallsvariablen
zu messen, ist der Korrelationskoeffizient R von Bravais–Pearson. Für eine Stichprobe
( X 1 , Y1 )( X 2 , Y2 ) ,… , ( X n , Yn )
gilt bekanntlich
n
R=
∑(X
i =1
n
∑(X
i =1
i
i
− X )(Yi − Y )
− X)
(5.39)
n
2
∑ (Y − Y )
i =1
2
i
Dieses Mass R enthält im wesentlichen die Kovarianz der (standardisierten) Zufallsvariablen X und Y. Es hat jedoch einige entscheidende Nachteile:
•
Beide Variablen müssen mindestens auf dem Intervallniveau messbar sein.
•
R ist nicht invariant gegenüber beliebigen, monotonen Transformationen (z. B.
x, log x,
x , x2, ex etc.).
Ein einfaches Abhängigkeitsmass, das nur Ordinaldaten voraussetzt und invariant ist
unter ordnungserhaltenden Transformationen, ist der sog. Rangkorrelationskoeffizient.
Beispiel
Bei einem Konsumentenreport wird das zu testende Produkt 5 Qualitätsstufen zugeteilt.
Für jede Qualitätsstufe wird ein mittlerer Preis bestimmt. Es wurden folgende Daten
festgestellt:
Qualitätsstufe
X
mittlerer Preis
Y
1
2
3
4
5
300
250
180
200
210
205
Man stellt eine positive 'Korrelation' zwischen X und Y fest. Obschon die Übereinstimmung nicht perfekt ist, so ist doch mit hohen Preisen tendenziell gute Qualität
verbunden, genauso umgekehrt.
Rangiert man die mittleren Preise ebenfalls, so erhält man
Qualitätsstufe
Durchschnittspreis
1
2
3
4
5
1
2
5
4
3
Mit den Bezeichnungen
Ri :
Si :
Rang von Xi (unter allen X)
Rang von Yi (unter allen Y)
erscheint es vernünftig, als Basis zur Beurteilung des Zusammenhanges die Grössen
Di = Ri − S i
(5.40)
einzuführen. Bei perfekter Übereinstimmung beider Rangfolgen gilt
n
∑D
i =1
2
i
=0
(5.41)
Das andere Extrem, nämlich exakte Umkehrung der Reihenfolge ergibt dann im obigen
Beispiel
206
ri
si
d i2
1
2
3
4
5
5
4
3
2
1
16
4
0
4
16
n
∑d
i =1
2
i
40
Zwischen diesen beiden Extrema (0 und 40) liegen alle möglichen quadrierten summierten Rangdifferenzen. Basierend auf der Quadratsumme
n
∑d
i =1
2
i
(5.42)
wollen wir nun ein Abhängigkeitsmass rs so definieren, dass folgende Bedingungen
erfüllt sind:
n
1.)
rs ist eine abnehmende Funktion von
∑d
i =1
2
i
.
2.)
rs = 1 bei exakter Übereinstimmung der Rangfolgen
3.)
rs = −1 für exakt gegenläufige Rangfolgen
Für rs erweist sich der Ansatz
n
rs = A + B ∑ d i2
(5.43)
i =1
als zweckmässig, wobei A und B so zu bestimmen sind, dass die obigen Bedingungen
eingehalten werden.
207
Gemäss Bedingung 2 gilt bei perfekter Übereinstimmung
rs = 1

n
⇒ A =1

2
di = 0
∑
i =1

(5.44)
Gemäss Bedingung 3 gilt bei exakt gegenläufigen Rangfolgen
rs = − 1

−2
n
⇒ B=

M
d i2 = M 
∑
i =1

(5.45)
wobei
n
M = max ∑ d i2
(5.46)
i =1
Der Wert von M ergibt sich aus folgender Überlegung
ri
1
2
...
i
...
n
si
n
n −1
...
n − i +1
...
1
di
1− n
2 − n +1
n
n
M = ∑ d = ∑ ( i − ( n − i + 1) )
i =1
2
i
Durch Einsetzen von
208
i =1
i − ( n − i + 1)
2
n −1
2
n ( n 2 − 1)
 n +1
= 4∑i −
 =
2 
3
i =1 
n
(5.47)
B=
−2
−6
=
M n ( n 2 − 1)
(5.48)
folgt schliesslich das gesuchte Mass
n
rs = 1 −
6 ∑ d i2
(5.49)
i =1
2
n ( n − 1)
Im Einführungsbeispiel ist
rs = 1 −
6 ⋅8
= 0.6
5 ⋅ 24
(5.50)
Die Beziehung zwischen dem gewöhnlichen Korrelationskoeffizienten nach Bravais–Pearson und dem Rangkorrelationskoeffizienten zeigt der folgende Satz.
Satz:
Der Rangkorrelationskoeffizient rs stimmt mit den Korrelationskoeffizienten nach
Bravais–Pearson zwischen den Rängen überein
n
rs =
∑ ( R − R )( S
i
i =1
n
i
−S)
(5.51)
n
∑ ( R − R ) ∑ (S
2
i =1
i
i =1
i
− S )2
5.4.2 Verteilung von Rs bei Unabhängigkeit
Es sind 2 Fälle zu unterscheiden, nämlich
1.)
Die Stichprobenwerte selber sind Ränge (Ri, Si).
209
2.)
Die Stichprobenwerte sind Realisationen einer zweidimensionalen Zufallsvariablen (X,Y), welchen erst im nachhinein die Ränge (Ri, Si) zugeordnet werden.
Fall 1
Bei Unabhängigkeit besitzen alle y–Ränge für jeden x–Rang dieselbe Wahrscheinlichkeit und umgekehrt.
Fall 2
Den Elementen der zweidimensionalen Zufallsvariablen (X,Y) mit der gemeinsamen
Wahrscheinlichkeits– bzw. Dichtefunktion fXY werden erst nach erfolgter
Stichprobenziehung Ränge zugeordnet. Sind X und Y unabhängig, d.h.
f XY ( x, y ) = f X ( x ) fY ( y ) , so kann man zeigen, dass die Ränge von (Xi,Yi) auch die
für
Fall
1
dargestellte
Gleichwahrscheinlichkeit
besitzen.
Werden
die
( X i , Yi ) , i = 1,… , n , auf die Ränge abgebildet, so sind alle Rangfolgen von X und auch
von Y gleichwahrscheinlich.
Aus der Tatsache, dass bei Unabhängigkeit alle n! unterscheidbaren Rangpaarmöglichkeiten dieselbe Wahrscheinlichkeit 1/n! besitzen, ist die Verteilung von Rs bekannt.
Bezeichnet u rs die Gesamtheit der möglichen Rangordnungen mit Rs = rs, so erhält man
f Rs ( rs ) =
urs
(5.52)
n!
Die Verteilung von Rs ist unter H0 (Unabhängigkeit von X und Y) symmetrisch um den
Wert 0. Rs nimmt den Wert 0 nur bei geradzahligem Stichprobenumfang an.
Die enumerative Bestimmung von f Rs ist praktisch aber schon bei kleinen Werten von
n sehr mühsam, obschon wegen der Symmetrie nur die Hälfte aller n! Permutationen
benötigt werden.
210
Beispiel
n=3
x–Rang
y–Ränge
1
2
3
1
2
3
1
3
2
2
1
3
2
3
1
3
1
2
3
2
1
0
2
2
6
6
8
n
∑d
i =1
2
i
n
∑d
2
i
8
6
2
0
rs
-1
-0.5
0.5
1
f Rs
1/6
2/6
2/6
1/6
i =1
5.4.3 Erwartungswert und Varianz von Rs bei Unabhängigkeit
Bei Unabhängigkeit der beiden Rangfolgen gilt der Satz
E ( Rs ) = 0
V ( Rs ) =
1
n −1
(5.53)
211
Beweis
n

2 
−
6
(
R
S
)
∑
i
i



E ( Rs ) = E 1 − i =1 2

−
n
n
1
( ) 

n

2
2 
 6 ∑ ( Ri − 2 Ri Si + Si ) 

= E 1 − i =1
2


n ( n − 1)


n

 n ( n + 1)( 2n + 1)

− 2 ∑ Ri Si  
 6 2
6
i =1

= E 1 − 

2
n ( n − 1)


(5.54)
n
= 1−
2n ( n + 1)( 2n + 1) − 12 ∑ E ( Ri ) E ( Si )
i =1
n ( n + 1)( n − 1)
2
(
)
+
n
1
2n ( n + 1) ( 2n + 1) − 12n
4
= 1−
n ( n + 1)( n − 1)
2 ( 2n + 1) − 3 ( n + 1)
= 1−
n −1
=0
Auf den Beweis der Varianz von Rs wird verzichtet. Die algebraischen Umformungen
sind noch umfangreicher als beim Erwartungswert von Rs.
5.4.4 Asymptotische Verteilung von Rs
Ohne Beschränkung der Allgemeinheit darf man annehmen, dass die Ränge von X in
aufsteigender Reihenfolge vorliegen. Für Rs erhält man dann die Darstellung
n
12
3 ( n + 1)
Rs =
i
S
−
∑ i n −1
n ( n 2 − 1) i =1
(5.55)
Die Verteilung von Rs hängt im wesentlichen nur noch von der Linearkombination
212
n
∑i S
i =1
i
ab. Von dieser Linearkombination kann man zeigen, dass sie asymptotisch einer
Normalverteilung genügt. Für grosse Werte von n (n > 10) gilt approximativ
1 

Rs ∼ N  0,

n −1 

(5.56)
5.4.5 Test auf Unabhängigkeit
Bei Unabhängigkeit gilt rs = 0. Als Verwerfungsbereich wählt man deshalb absolut
grosse Werte von rs bei der allgemeinen Alternative „X, Y nicht unabhängig“ oder
grosse (bzw. kleine) Werte von rs bei Alternativen von positiver (negativer) Abhängigkeit. Wird H0 nicht abgelehnt, so entscheiden wir uns für rs = 0. Andererseits garantiert
aber Abhängigkeit nicht schlechthin rs =/ 0.
rs ist ein Abhängigkeitsmass für die Ränge (und nicht für die ursprünglichen Daten).
Die obigen Ausführungen über Erwartungswert und Varianz sowie über die Verteilung
von Rs gelten nur bei Unabhängigkeit, d. h. unter H0. Man darf deshalb auch keine
allgemeinen Konfidenzintervalle (z. B. für Rs oder E(Rs)) berechnen.
213
214
LITERATURVERZEICHNIS
Bamberg G., Baur F.
Statistik. Oldenbourg, 2002
Bohley P.
Einführendes Lehrbuch für Wirtschafts- und Sozialwissenschaftler. 7. A.,
Oldenbourg, 2000
Bomsdorf E.
Induktive Statistik: eine Einführung. 4. A., Oldenbourg, 1989
Büning H., Trenkler G.
Nichtparametrische Statistische Methoden. Verlag de Gruyter, 2. A., 1994
Hartung J.
Statistik, Lehr- und Handbuch der angewandten Statistik. Oldenbourg, 2002
Kreyszig E.
Statistische Methoden und ihre Anwendungen. 7. A., Vandenhoeck & Ruprecht,
1991 (Nachdruck)
Lehmann E.L.
Testing Statistical Hypotheses. 2. A., Wiley, 1986
Mattei A.
Inférence et Décision Statistiques. Théorie et Application à la Gestion des
Affaires. 3. A., Peter Lang, 2000
Mood A.M., Graybill F.A., Boes D.C.
Introduction to the Theory of Statistics. 3. A., Mc Graw-Hill, 1974
Neter J., Wasserman W., Whitmore G.A.
Applied Statistics. Allyn and Bacon, 1992
Schaich E., Köhle D., Schweitzer W., Wegner F.
Statistik II für Volkswirte, Betriebswirte und Soziologen. 3. A., Vahlen, 1990
Spiegel M.
Schaum‘s Outline of Theory and Problems of Probability and Statistics.
Mc Graw-Hill, 2000
Spiegel M.
Schaum‘s Outline of Theory and Problems of Probability and Statistics.
Statistik, Überblicke und Aufgaben, Mc Graw-Hill, 2000
215
INDEX
Achsenabschnitt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141, 143, 160
Allgemeiner Likelihoodquotient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114, 115
Alternativhypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Analyse der Residuen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
Autokorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169
Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22, 26, 27, 30, 31
Bindungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135, 139
Bravais-Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
χ 2 –Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
χ 2 –Unabhängigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
Determinationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
Effizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Entscheidungsregel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Erwartungstreue Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
Faktorisierungssatz von Neyman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
Fehlentscheide . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Fehler 2. Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
Fehler 1. Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Genauigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Grundgesamtheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Intervallschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Kolmogoroff-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Konfidenzintervall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165, 202
Konfidenzkoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
Konsistent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
Konsumentenrisiko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
Korrelationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
Leverage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
Likelihood-Quotienten Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
Likelihoodprinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Lilliefors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Macht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62, 69
Macht des Zeichentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
Mean squared error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
216
Minimum-Quadrat-Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
Minimumquadratschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
Nichtlineare Regressionsansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
Nichtparametrische Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
Nullhypothese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Operationscharakteristik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
Produzentenrisiko . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Punktschätzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Qualitätskontrolle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
Rangkorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
Regressionskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
Repräsentativ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
Schätzfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
Sicherheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
Standard error of estimate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
Standardfehler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4, 6
Stichprobenfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
Stichprobenraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Stichprobenumfang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Suffizienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
Test auf Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
Theorem von Neyman und Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110, 121, 130
Varianzinhomogenität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
Verbundene Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
Vergleich von r Stichproben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
Verteilungsunabhängige Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
Vollerhebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Vorzeichen-Rangtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
Zusammengesetzte Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
217
Verlag Wilhelm Surbir
Betten 10 · CH-9303 Wittenbach / SG
Tel. und Fax +41 (0)71 298 36 16
E-Mail [email protected] · Internet www.surbir.ch
Lieferbare Titel
Allgoewer, Elisabeth, Dr.
Ökonomische Theoriebildung und Zeit. Eine methodenkritische Analyse anhand ausgewählter
Arbeiten J.R. Hicks', 1992 (St. Galler Dissertation), Fr. 42.00
Bartmann, Hermann, Prof. Dr.
Allokationstheorie. Vorlesung, 2. Auflage 1993, Fr. 25.00
Bartmann, Hermann, Prof. Dr. und Borchers, Henning, Dr.
Preistheorie. Vorlesung, 5. Auflage 1992 (unveränderter Nachdruck 1994), Fr. 30.00
Bartmann, Hermann, Prof. Dr. und John, Klaus-Dieter, Prof. Dr.
Grundkonzeptionen der Konjunktur- und Wachstumsanalyse. Beiträge zur Wirtschaftstheorie
Band 1, Klassik, Neoklassik, Keynes und Keynesianismus, 4. Auflage 1994, Fr. 20.00
Band 2, Monetaristisch-neoklassische Position und Supply-Side-Ökonomien, 4. Auflage 1994,
Fr. 20.00
Band 3, Postkeynesianismus, 4. Auflage 1994, Fr. 20.00
Bartmann, Hermann, Prof. Dr., Busch, Andreas A., Diplom-Volkswirt und Schwaab, Jan A.,
Diplom-Volkswirt, Preis- und Wettbewerbstheorie. Vorlesung, 6. Auflage 1999, Fr. 45.00
Beljean, Tobias, Dr. u.a.
Mikroökonomik II. Übung zur Mikroökonomik, 10. Auflage 2001, Fr. 20.00
[aktualisierte Online-Version unter http://www.surbir.ch/index.html]
Borchers, Henning, Dr.
Regulierte Strommärkte. Ein Beitrag zur (De-)Regulierungsdebatte in der Elektrizitätswirtschaft, 1994 (Mainzer Dissertation), Fr. 39.00
2
Lieferbare Titel, Stand: 25. Oktober 2004
Brauchlin, Emil, Prof. Dr., Schips, Bernd, Prof. Dr., Stier, Winfried, Prof. Dr. und Studer, HansPeter, Dr.
Statistische Methoden. Ihr sachgerechter Einsatz in der empirischen Wirtschafts- und Sozialforschung. Ein Kompendium, 3. Auflage 1987, Fr. 33.00
Einführung in die Wissenschaftstheorie für Nationalökonomen. Verfaßt von der Volkswirtschaftlichen Abteilung des Doktorandenseminars für Wissenschaftstheorie an der Hochschule St. Gallen
Band 1, hrsg. v. Prof. Dr. Walter Adolf Jöhr in Zusammenarbeit mit Dr. Gerhard Schwarz, 1979,
Fr. 33.00
Band 2, hrsg. v. Prof. Dr. Walter Adolf Jöhr und Prof. Dr. Bernd Schips in Zusammenarbeit mit
Dr. Gerhard Schwarz, 1980, Fr. 16.00
Filitti, Constantin A., Dr.
Portfolio Selection in Continuous Time, 2004 (St. Galler Dissertation), Fr. 40.00
Föller, Alex, Dr.
Umwelthaftungsrecht und Schadensprävention. Eine ökonomische Analyse der Haftung für Umweltschäden unter Einbeziehung juristischer, ökologischer und versicherungstheoretischer Aspekte, 1994 (Mainzer Dissertation), Fr. 45.00
Frenkel, Michael, Prof. Dr.
Einführung in die Makroökonomik offener Volkswirtschaften, 2. Auflage 1993 (unveränderter
Nachdruck 1995), Fr. 39.50
Gauglhofer, Margrit, Prof. Dr. und Müller, Heinz, Prof. Dr.
Mathematik für Oekonomen
Band 1, 14. Auflage 2004, Fr. 36.00
Band 2, 13. Auflage 2004, Fr. 20.00
Guyer, Philipp, Dr.
Der „Non-Market-Clearing“-Ansatz der Ungleichgewichtstheorie und seine Anwendung auf das
keynesianische makroökonomische Standardmodell, 1981 (St. Galler Dissertation), Fr. 37.00
John, Klaus-Dieter, Prof. Dr.
Verteilungskonflikte, Inflation und Beschäftigung. Ungleichgewichtsökonomische Ansätze und
sozialwissenschaftliche Erweiterungen, 1982 (Mainzer Dissertation), Fr. 44.00
KANTIge Worte und Sprueche aus berufenem Munde, von den Traegern eben derselben autorisiert
und zurecht gerueckt. Zu Nutzen und Frommen nachfolgender Schuelergenerationen gesammelt
an der hochwohlloeblichen und ehrbaren mathematischen Abteilung der Kantonsschule St. Gallen
von deren ehemaligen Zoeglingen Carola und Matthias Reetz, 1986, Fr. 12.00
Lieferbare Titel, Stand: 25. Oktober 2004
3
Keel, Alex, Prof. Dr.
Statistik
Band 1, Beschreibende Statistik, 15. Auflage 2000, Fr. 21.00
Band 2, Wahrscheinlichkeit, 14. Auflage 2000, Fr. 23.00
Band 3, Induktive Statistik, 15. Auflage 2000, Fr. 23.00
Kippel-Chronik 1991-2001, hrsg. v. Christian Reetz und Christian Strehlau, 2001, Fr. 18.00
Knecht, René, Dr.
Die Humankapitaltheorie als Ansatz zur Erklärung der personellen Arbeitseinkommensverteilung,
1988 (St. Galler Dissertation), Fr. 42.00
Koch, Christine, Dr.
Wachstum und Einkommensverteilung in postkeynesianischen Ansätzen, 1999 (Mainzer Dissertation), Fr. 48.00
Matthes, Rainer, Dr.
Zur ökonometrischen Spezifikation von Beschäftigungsfunktionen. Eine empirische Untersuchung für die BR Deutschland, 1991 (Mainzer Dissertation), Fr. 42.00
Von Musen, Müttern und der Mathematik: Frauen(an)sichten, hrsg. von Annabeth Naef-Hinderling und Johanna Schönenberger-Deuel, 1998, Fr. 20.00
Räth, Norbert, Dr.
Die Zwangsanleihe als finanzpolitisches Instrument, 1980 (Mainzer Dissertation), Fr. 39.50
Reetz, Axel, Dr.
Die Entwicklung der Parteiensysteme in den baltischen Staaten. Vom Beginn des Mehrparteiensystems 1988 bis zu den dritten Wahlen, 2004 (Berliner Dissertation), Fr. 54.00
Reetz, Gesine, Sozialarbeiterin (grad.)
Rückfallprognose in der Bewährungshilfe. Eine Untersuchung anhand von Erfahrungen mit Probanden der Reutlinger Bewährungshilfe 1960-1971, 1979, Fr. 10.00
Reetz, Norbert, Prof. Dr.
Symbole. Das griechische Alphabet und mathematische Symbole für WordPerfect und einen
grafikfähigen Drucker, Version 6, 1986
vergriffen
[Online-Version unter http://www.surbir.ch/index.html]
4
Lieferbare Titel, Stand: 25. Oktober 2004
Konjunktur und Wachstum. Eine Einführung in die reale Theorie. Vorlesung, 5. Auflage
1987, Fr. 20.00
[aktualisierte Online-Version unter http://www.surbir.ch/index.html]
Produktionstheorie. Vorlesung, 2. Auflage 1989, Fr. 20.00
[aktualisierte Online-Version unter http://www.surbir.ch/index.html]
Grundzüge der makroökonomischen Theorie. Vorlesung, 5. Auflage 1990, Fr. 30.00
[aktualisierte Online-Version unter http://www.surbir.ch/index.html]
Grundzüge der mikroökonomischen Theorie. Vorlesung, 5. Auflage 1991, Fr. 30.00
Einführung in die mikroökonomische Theorie. Vorlesung, 10. Auflage 2001, Fr. 28.00
[aktualisierte Online-Version unter http://www.surbir.ch/index.html]
Anhang zu „Einführung in die mikroökonomische Theorie. Vorlesung (10. Auflage 2001)“.
Klausuren. Aufgaben und Lösungen, 2. Auflage 2001, 20.00 Fr.
[aktualisierte Online-Version unter http://www.surbir.ch/index.html]
Grundlagen der mikroökonomischen Theorie. Vorlesungen. Online-Publikation Version 12,
September 2004
[http://www.surbir.ch/index.html]
Reine Theorie der Außenwirtschaft. Vorlesung, 1995, Fr. 40.00
[aktualisierte Online-Version unter http://www.surbir.ch/index.html]
Schierjott, Alexander, Dr.
Mengenrationierung und Arbeitsmarkt. Theoretische Untersuchungen und empirische Ergebnisse
für die Bundesrepublik Deutschland, 1984 (Mainzer Dissertation), Fr. 29.00
Schilling, Günter, Dr.
Rationale Erwartungen in makroökonomischen Modellen, 1987 (Mainzer Dissertation), Fr. 35.00
Schindler, Rosemarie, Dr.
Die Marktpolitik des Roheisenverbandes während der Weimarer Republik, 1978 (Tübinger Dissertation), Fr. 39.20
Schlotjunker, Stefan, Dr.
The Constructed Evolution of Technology. A Constructivist-Evolutionary Approach to Technological Change and its Empirical Evidence, 1994 (St. Galler Dissertation), Fr. 42.00
Lieferbare Titel, Stand: 25. Oktober 2004
5
Schmidt, Joachim, Dr.
Regionales Konsumverhalten. Theoretische Überlegungen und empirische Ergebnisse für ausgewählte Bundesländer der Bundesrepublik Deutschland, 1987 (Mainzer Dissertation), Fr. 42.00
Schmidt, Norbert, Dr.
Investorenverhalten und konjunkturelle Stabilität, 1987 (Mainzer Dissertation), Fr. 42.00