Mitschrift im Seminar Statistische Datenanalyse I WS 2004/05 Dozent: W. Nagl Skriptum Statistische Datenanalyse I WS 04/05 Seite 1 Inhaltsverzeichnis 1. Univariate Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1 Graphische Darstellung von Merkmalsausprägungen . . . . . . . . . . . . . . . . . . . . . 3 1.1.1 Nominalskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.1.2 Ordinalskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.1.3 Intervallskala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 Skalenniveaus von Maßzahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2. Stichprobenmittelwerte bzw. –varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.1 Simulationsexperiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2 Wichtige Aspekte der Stichprobenverteilung von beiden Maßzahlen . . . . . . . . . . . . . . . 9 2.3 Form der Stichprobenverteilung des Mittelwerts bei großen Stichproben . . . . . . . . . . . . . 10 2.4 Stichprobenverteilungen für Maßzahlen und Standardfehler . . . . . . . . . . . . . . . . . . 10 3. Statistische Schätztheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.1 Rolle von Varianz bzw. Standardabweichung . . . . . . . . . . . . . . . . . . . . . . . 11 3.1.1 Konfidenzintervalle (für μ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.1.1.1 Konfidenzintervall für bei bekanntem . . . . . . . . . . . . . . . . . . . . . . 11 3.1.1.2 Konfidenzintervall für bei UNbekanntem . . . . . . . . . . . . . . . . . . . . 12 3.1.2 Mittelwerttests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 3.1.2.1 Mittelwerttest bei bekanntem x (Gauß-Test) . . . . . . . . . . . . . . . . . . . . 13 3.1.2.2 Mittelwerttest bei UNbekanntem x (t-Test) . . . . . . . . . . . . . . . . . . . . . 14 3.2 Exkurs: Die Bayes`sche Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3 Fehler 1. Art, Fehler 2. Art und Macht des Tests . . . . . . . . . . . . . . . . . . . . . . 16 4. Bivariate Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 4.2 Test auf Unabhängigkeit zweier Merkmale (2-Test) . . . . . . . . . . . . . . . . . . . . . 18 4.2.1 Die Teststatistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.2.2 Beschränkung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 4.2.3 Prädiktion mit Hilfe der Anteile 4.3 Logistische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.3.1 Einführungsbeispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4.3.2 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 4.3.3 Das PRU-Maß und die Entropie. . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 4.3.4 Maximum-Likelihood und Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.3.4.1 Maximum-Likelihood-Schätzmethode . . . . . . . . . . . . . . . . . . . . . . . 24 4.3.4.2 Die Likelihoodfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 4.3.4.3 Der ML-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.3.4.4 Der Zusammenhang zur Entropie. . . . . . . . . . . . . . . . . . . . . . . . . . 25 4.4 Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.4.1 Unterschied zwischen Residuen und Störgrößen . . . . . . . . . . . . . . . . . . . . . 26 Skriptum Statistische Datenanalyse I WS 04/05 Seite 2 4.4.2 Vorgehen im konkreten Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.4.3 Erweiterung der Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . 26 4.5 Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 4.5.1 Die Hypothese, dass alle Mittelwerte gleich sind. . . . . . . . . . . . . . . . . . . . . 27 4.5.2 Testen: Konfidenzintervalle und das Bonferoni-Verfahren . . . . . . . . . . . . . . . . . 27 4.5.3 Holm-Modifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 4.5.4 Vorrausetzungen für die Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . 28 4.6 Zusammenfassung: Modellkonzeptionen der bisherigen bivariaten Verfahren . . . . . . . . . . . 29 4.6.1 Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.6.2 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.6.2 Regressionsanalyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 4.7 Konstanthaltung von Variablen: Kovarianzanalyse . . . . . . . . . . . . . . . . . . . . . 31 5. Prädiktion mit mehreren Prädiktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.1 Strukturdiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.1.1 Einführungsbeispiel Erfolgsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . 33 5.1.2 Pfaddiagrammregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5.1.3 Ergänzungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 5.1.4 Umrechnung der Pfadkoeffizienten . . . . . . . . . . . . . . . . . . . . . . . . . . 36 5.1.5 Pfaddiagramm und Regressionsgleichung 5.1.6 Kovarianzregeln . . . . . . . . . . . . . . . . . . . . . . . 36 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 5.2 Partielle, semipartielle und multiple Korelationskoeffizienten . . . . . . . . . . . . . . . . . 38 5.2.1 Spezialfall: Modell mit zwei Prädiktoren . . . . . . . . . . . . . . . . . . . . . . . . 38 5.2.2 Ballantines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.2.3 Verallgemeinerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 5.2.4 Behandlung von Drittvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.3 Spezifikationsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 5.4 Robustheitsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 5.5 Zweifaktorielle Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 5.5.1 Zweifaktorielle Varianzanalyse mit unverbundenen Gruppen . . . . . . . . . . . . . . . . 42 5.5.2 Zweifaktorielle Varianzanalyse mit Messwiederholung (repeated measurement) . . . . . . . . 43 5.6 Haupteffekt und Interaktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 5.6.1 Unterschied zwischen Haupteffekt und Interaktion . . . . . . . . . . . . . . . . . . . . 44 5.6.2 Interaktionsmuster . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 5.7 Prinzipien der Faktorenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Skriptum Statistische Datenanalyse I WS 04/05 Seite 3 1. Univariate Statistik 1.1 Graphische Darstellung von Merkmalsausprägungen Abhängig vom Skalenniveau eines Merkmals sind bestimmte graphische Darstellungen möglich. Möglichkeiten der graphischen Darstellung auf niedrigerem Skalenniveau sind dabei auch für höher skalierte Merkmale zulässig. 1.1.1 Nominalskala Stab- und Streifendiagramm Bei diskreten Verteilungen werden die Anteile als Stäbe für abzählbar viele Werte der x-Achse dargestellt. Daher können die Anteile als die Funktionswerte der x-Werte interpretiert werden. Diese für die gesamte xAchse definierte Funktion heißt DICHTEFUNKTION: Beispiel, Altersverteilung Formel Dichtefunktion: Anteile als f(x) p ( x ) x x i i f (x) Stäbe für die in der sonst 0 Häufigkeitsverteilung 0.3 vorkommenden x-Werte, sonst 0. mit ‚sonst‘ ist der 0.2 Die graphische Darstellung dieser mögliche 0.1 Ausprägungsbereich Funktion heißt Stabdiagramm. des Merkmals gemeint. 0 x 18 20 22 24 26 28 30 Graphisch wirken dicke Streifen besser als die feinen Stäbe, die idealerweise bei quantitativen Merkmalen eine Breite von 0 haben müssten. Daher werden in den meisten Computerprogrammen dicke Streifen gezeichnet, die als Streifendiagramm (auch Balkendiagramm genannt) bezeichnet werden. Bei Nominaldaten sind die Werte zwischen den Codes nicht definiert, daher können die Streifen beliebig breit gemacht werden; der Lesbarkeit halber werden statt der Codes meist die Ausprägungsnamen verwendet. Streifendiagramm, vertikal Ad-hoc-Beispiel: Streifendiagramme für das nominale Merkmal Familienstand. Streifendiagramm, horizontal 0,8 f(x) Merkmals Ausprägung ledig verlobt getrennt 0,6 0,4 0,2 Code x 0 1 3 Anzah l 11 4 1 Anteil 0.6875 0.2500 0.0625 getrennt verlobt ledig 0 ledig verlobt getrennt Bei nominalen Merkmalen wird meist der Ausprägungstext als Beschriftung verwendet. f(x) ist der Anteil. 0 0,2 0,4 Staffeldiagramm (mosaic plot) Beim Staffeldiagramm (engl. mosaic plot) werden die Anteile proportional zur Länge aufgetragen. Beispiel: Staffeldiagramm für das Merkmal Familienstand (s. o.). ledig verlobt verheiratet 0,6 f(x) 0,8 Skriptum Statistische Datenanalyse I WS 04/05 Seite 4 Kreisdiagramm Ähnlich ist das Vorgehen beim Kreisdiagramm. Hier werden die Anteile proportional zum Umfang aufgetragen. verlobt verheiratet ledig Beispiel: Kreisdiagramm für das Merkmal Familienstand (s. o.) Netzdiagramm Netzdiagramm Beim Netzdiagramm (auch Sternoder Spinnennetzdiagramm genannt, engl. starplot) wird für jede Ausprägung eine Achse gezeichnet und auf ihr der Anteil bzw. die Häufigkeit eingetragen. ledig 70,00 35,00 getrennt Beispiel: Netzdiagramm für das Merkmal Familienstand (s.o.). verlobt 1.1.2 Ordinalskala Treppenfunktion Die Fragestellung ‚Wie groß ist der Anteil der Werte kleiner oder gleich einem Wert x?‘ kann für den ganzen Zahlenbereich erweitert werden, auch für Werte x, die gar nicht erhoben wurden. Dadurch entsteht eine Funktion, die für alle x-Werte definiert werden kann: Beschreibung Anteil Werte kleiner oder gleich x Formeln Beispiel F(x) := (I(x1 x) + I(x2 x) F(20) = 0, F(20.5) = 0, F(20.99) = 0, F(20.999) = 0, F(21) = 0.375, Sprungstellen: F(21) = 0.375, F(22) = 0.625, F(23) = 0.750, F(24) + = 0.9375, F(30) = 1 ... + I(xn x))/n Die (kumulierte) 1.0 Graph der F(x) Verteilungsfunktion 0.9 Verteilungsfunktion ist für alle möglichen (theoretisch für x zwischen 0.8 Werte der Variablen - und + ) 0.7 definiert. 0.6 0.5 Form: Treppenfunktion, mit Sprungstellen 0.4 F(x) rechtsseitig stetig 0.3 0.2 0.1 monoton nichtfallend ganz links = 0, ganz rechts = 1 F(x) F(x‘) für x x‘ 0 F(x) 1 für alle x 0 18 20 22 24 26 28 30 F(-)=0, F(+)=1 Die Treppenfunktion wird auch als Darstellung der kumulativen Anteile (engl. cumulativ distribution function, kurz CDF) bezeichnet. Stamm & Blatt-Diagramm (engl. stem & leaf-plot) Für wenige Untersuchungseinheiten werden diese Diagramme so aufgebaut, dass einerseits ein Überblick über die Verteilung vermittelt wird, andererseits die Werte der sortierten Liste auch bei vielen Ausprägungen auf Grund des Diagramms rekonstruiert werden können. Skriptum Statistische Datenanalyse I WS 04/05 Zuerst Klassenzusammenfassung festlegen (s. o.) Pro Klasse gibt es ein Blatt. Die letzte Ziffer der Ausprägung wird im Blatt eingetragen. Die Klassen werden durch die vorderen Stellen der Ausprägung charakterisiert (die verschiedenen Bezeichnungen der Klassen bilden den Stamm). Seite 5 Beispiel: Körpergröße (siehe oben: Entscheidung für 6 Klassen. Die Klassengrenzen seien hier wie oben gewählt). Nach dieser Festlegung kann das Diagramm direkt auf Grund der Urdaten erstellt werden (Sortierung nur innerhalb der Klasse notwendig). Stamm & Blatt-Diagramm in horizontaler Darstellung: Die Ausprägung 190 hat als letzte Ziffer 0 (Blattinformation). Die Stellen davor sind Stamm Blatt Anzahl 19 014 3 19 (das ist die Stamminformation). 18 5699 4 167 ist in der letzten Zeile zu finden: im 18 44 2 Stamm 16, im Blatt 7. 17 58 2 186 (im Stamm 18, im Blatt 6). 17 044 3 16 57 2 Qantilplots Eine Möglichkeit Daten zu veranschaulichen bietet auch der Quantilplot. Hier werden Median, Quartile, und Dezentile verwendet 10%Quantil 1. Quartil Median 90%Quantil 3. Quartil 1.1.3 Intervallskala Histogramm: Anteile als Flächen Falls das Merkmal als stetig betrachtet wird, kann an jeder Stelle eines Bereichs der wahre Wert liegen; die protokollierte Größe selbst ist nur eine ungenaue Angabe. Damit diese Tatsache bei der Darstellung berücksichtigt werden kann, werden die einzelnen Angaben nur noch so interpretiert, als ob sie aus dem entsprechenden Intervall stammten. Es muss dann aber das Intervall betrachtet werden. Die Einteilung in die verschiedenen Intervalle wird auch als Klasseneinteilung bezeichnet, entsprechend die zusammengefassten Elemente als Klassen. Die Intervalle können unterschiedlich breit sein. grundsätzlich Formeln Die ‚Anteilsmasse‘ pro Intervall soll auf das Intervall gleichmäßig aufgeteilt werden. Das kann am besten erreicht werden, wenn Für Intervall i: pro Intervall der Anteil als Fläche dargestellt wird. So kann berücksichtigt pi = Fläche werden, dass Intervalle auch unterschiedlich breit sein können. = bi * hi Da die Breite dieser Fläche bekannt ist (und hi = pi / bi ebenfalls die Fläche), muss nur noch die Höhe des entsprechenden Rechtecks berechnet werden. Die Dichtefunktion f(x) gibt h i u i x o i nun an, welche Höhe bei den f ( x ) 0 sonst Intervallen vorhanden ist. Beispiel: Einkommensangaben mit 5 unterschiedlich breiten Intervallen seien bei 10 Personen erhoben worden. Ergebnis sind die Häufigkeiten bzw. die Anteile. Auf Grund der unteren und oberen Grenzen (u i, oi) wird die Klassenbreite berechnet. Index Klassen Klassen Häufig AnDichte Grenzen Breite keimt =Höhe teil i ui oi bi ni pi hi 1 2 3 4 5 f(x) 0 100 500 1000 2000 100 500 1000 2000 5000 100 400 500 1000 3000 1 1 2 3 3 0.10 0.10 0.20 0.30 0.30 0.00100 0.00025 0.00040 0.00030 0.00010 Histogramm 0.0010 0.0009 0.0008 0.0007 0.0006 Da pro Intervall nun die Fläche unter der Dichtefunktion den Anteil darstellt, ist die gesamte Fläche unter der Dichtefunktion insgesamt gleich eins. 0.0005 0.0004 0.0003 Diese Darstellung nach dem Prinzip der flächentreuen Darstellung der Anteile weicht erheblich von einer Darstellung der Anteile als Höhe ab, wenn die Intervalle unterschiedlich breit sind. 0.0002 0.0001 0 0 1000 2000 3000 4000 5000 Einkommen Bei diesen Überlegungen wurde unterstellt, dass die Anteilsmasse gleich verteilt wird in jedem Intervall. Die graphische Darstellung heißt auch Histogramm. Skriptum Statistische Datenanalyse I WS 04/05 Seite 6 1.2 Skalenniveaus von Maßzahlen Bestimmte Maßzahlen können erst auf ein Merkmal angewendet werden, wenn dieses ein bestimmtes Mindestskalenniveau besitzt. Für eine Auswahl an Maßzahlen ist hier das Mindestskalenniveau angegeben. Nominal Häufigkeiten, Anteile, Modalwert Ordinal Quantile, kumulierte Anteile, Hinges, Eights Intervall Momente (z.B. x ) Zentrierte Momente (z.B. Var(x)) Schiefe Skriptum Statistische Datenanalyse I WS 04/05 Seite 7 2. Stichprobenmittelwerte bzw. -varianzen Die Vorgehensweise des Ziehens von Stichproben und die Beschreibung der Ergebnisse sollen für die beiden wichtigen Maßzahlen der Stichprobenmittelwerte und Stichprobenvarianzen exemplarisch vorgeführt werden. 2.1 Simulationsexperiment Das Simulationsexperiment besteht darin, aus einer Liste von 55 UEn (als Population) jeweils 5000 Stichproben gleicher Größe zu ziehen. Dabei sollen die 55 Einheiten als Repräsentanten innerhalb einer unendlichen Gesamtheit betrachtet werden. Daher werden die Stichproben auch MIT Zurücklegen gezogen. Um den Aufwand etwas einzuschränken, soll vorläufig nur ein Merkmal betrachtet werden: Körpergröße. In diesem Fall könnte die resultierende Verteilung der Werte aller möglichen Stichproben auch theoretisch leicht über die klassische Definition der Wahrscheinlichkeit berechnet werden: für jede Ausprägung den Anteil der ‚günstigen‘ durch die möglichen Fälle. D. h. diese Wahrscheinlichkeitsverteilung gleicht genau jener in der Population. Trotzdem sind diese beiden Verteilungen konzeptionell klar zu unterscheiden. Bei der Simulation wird dieser Sachverhalt auch deutlich (bei nur 5000 Wiederholungen stimmen die beiden Verteilungen zwar fast, aber nicht völlig überein). 0.07 Populationsverteilung der Körpergröße. =176.34545 0.06 Simulierte WahrscheinlichkeitsVerteilung der Körpergröße E(X) = 176.34545 0.06 0.05 0.05 0.04 0.04 0.03 0.03 0.02 0.02 0.01 0.01 0 150 x (5000) =176.3206 0.07 160 170 180 0 150 190 Zufallsauswahl 160 170 180 190 Vert. bilden Sp1 Sp2 Sp3 Sp4 Sp5 Sp6 Die simulierte Wahrscheinlichkeitsverteilung des Sp7 Merkmals, die Übersicht über alle möglichen Sp8 .........usw......... Stichproben der Größe 1 (bei w=5000), ist rechts Sp9 Sp5000 oben dargestellt. Werte übertragen Stichprobe der Größe 1 (n = 1): Aus der Verteilung der Gesamtheit werden alle Stichproben der Größe 1 gezogen. .........usw......... Für diese Verteilung kann auch der Mittelwert Der Mittelwert bei w=5000 ist x (5000) =176.3206. Dieser Mittelwert x ( w ) berechnet werden, der bei wachsendem w strebt bei wachsendem w gegen den Erwartungswert: E(X)= 176.34545 (auf Grund theoretischer Berechnung über die klassische gegen den Erwartungswert E(X) strebt. Wahrscheinlichkeitsdefinition berechnet). Das arithmetische Mittel für die Population Andererseits kann für die Population selbst das arithmetische Mittel berechnet werden, das als bezeichnet wird: = 176.34545. (=) ist gleich groß wie der Erwartungswert: Die beiden Werte (E(X) und ) sind gleich = 176.34545. E(X) =. Skriptum Statistische Datenanalyse I WS 04/05 Seite 8 Aus der Verteilung Stichproben (n = 4): der Gesamtheit werden Stichproben Populationsverteilung der Größe n der Körpergröße. gezogen. =176.34545 2 Die Werte der ersten = 91.31702 0.1 acht (Sp1-Sp8) Stichproben und die 0.08 letzte (Sp5000) im 0.06 Rahmen der Simulation für 5000 0.04 0.02 Wiederholungen sind im Diagramm 0 150 160 170 180 190 x dargestellt. Simulierte WahrscheinlichkeitsVerteilung des arithm. Mittels der Körpergröße ( 5000) = 176.44925 x E( X ) = 176.34545 Var( X ) = 22.829255 = 91.32985 0.08 0.008 0.06 0.006 0.04 0.004 0.02 0.002 2 S n 1 ) = 91.31702 0 160 170 180 190 x 0 100 Vert. bilden 200 300 2 400 s n 1 Vert. bilden Sp1 Sp2 Sp3 Maßzahlen berechnen Sp4 Sp5 Sp6 Sp7 Sp8 .........usw......... Sp9 .........usw......... .........usw......... Sp5000 Die Verteilung der Maßzahl (über die 5000 Stichproben) ist die simulierte WahrscheinlichkeitsVerteilung der Maßzahl (jeweils oben im Diagramm). Zusätzlich wurden noch die Mittelwerte bei w=5000 und die Erwartungswerte eingetragen. (Für das arithm. Mittel auch die Varianz). Unter den Verteilungen wird der Mittelwert Standardabweichung schematisch als Intervall angezeigt. Stichproben (n = 9): Simulierte WahrscheinlichkeitsVerteilung der des arithm. Mittels der Körpergröße ( 5000) = 176.38084 x E( X ) = 176.34545 Var( X ) = 10.1463356 Populationsverteilung der Körpergröße. =176.34545 2 = 91.31702 Simulierte WahrscheinlichkeitsVerteilung der Stichprobenvarianz der Körpergröße 2 E( 0.1 0.1 0.01 0.08 0.008 0.06 0.06 0.006 0.04 0.04 0.004 0.02 0.02 0.002 160 170 180 =91.408217 2 S n 1 ) = 91.31702 0.012 0.08 0 150 ( 5000) s n 1 190 0 150 x Zufallsauswahl 0 160 170 180 Vert. bilden 190 x 0 100 200 Sp2 Sp3 Sp4 Sp5 Sp6 Sp7 Sp8 .........usw......... Sp9 Sp5000 .........usw......... 300 Vert. bilden Sp1 Maßzahlen berechnen Danach wird die Verteilung gebildet für jede Maßzahl. E( 0.012 0.01 0 150 ( 5000) 2 s n 1 0.1 Zufallsauswahl Für jede Stichprobe wird hier als Maßzahl das arithmetische Mittel und die Stichprobenvarianz (mit Division durch n-1) s2n 1 berechnet. Simulierte WahrscheinlichkeitsVerteilung der Stichprobenvarianz der Körpergröße .........usw......... 400 s 2 n 1 Skriptum Statistische Datenanalyse I WS 04/05 Seite 9 2.2 Wichtige Aspekte der Stichprobenverteilung von beiden Maßzahlen Die Wahrscheinlichkeitsverteilung für die Maßzahl (hier Stichprobenvarianz und Stichprobenmittelwert) wird als Stichprobenverteilung der Maßzahl bezeichnet. Sie stellt die Übersicht über die Ergebnisse für die Maßzahl her bei allen möglichen Stichproben. Die Ergebnisse des Simulationsexperiments bezüglich der beiden Maßzahlen sollen getrennt betrachtet werden. Das Experiment regt zu folgenden Feststellungen an: Zur Stichprobenverteilung des arithmetischen Mittels Für Körpergröße: = 176.34545 Die Mittelwerte der Stichproben haben als Erwartungswert das arithmetische Mittel der Population. Bei der Simulation entspricht dieser Erwartungswert dem E( X n ) =. Grenzwert des Mittelwerts über die Stichprobenmittelwerte. E( X n ) (Um Ergebnisse für die unterschiedlichen (w) Stichprobengrößen unterscheiden zu können, wird dem = plim x n w Mittelwert n als Index beigefügt). Diese Eigenschaft wird als die Erwartungstreue des arithmetischen Mittels bezeichnet. E( X 4 )= E( X 9 )= 176.34545 = 176.44925 ( 5000 ) x9 = 176.38084 2 = 91.31702 2 Dieser Eindruck kann präzisiert werden: Die Varianz der Var( X n ) = n Verteilung aller möglichen Mittelwerte sinkt im Verhältnis 1/n zur Varianz in der Population. Die angegebene Varianz bei den Stichprobenverteilungen ist die exakte, nicht nur die simulierte: Var( X 4 )= 22.829255 Entsprechend kann auch die Standardabweichung der Std( X n ) = Verteilung aller möglichen Mittelwerte berechnet werden. n Sie wird auch als Standardfehler des Mittelwerts bezeichnet. = 91.31702 / 4 Var( X 9 )= 10.1463356 = 91.31702 / 9 Zur Stichprobenverteilung der Stichprobenvarianz s2n 1 bzw. s2n Der Erwartungswert der mit der Formel s2 berechneten Die Populationsn 1 2 Stichprobenvarianzen ist gleich groß wie die Varianz in der Varianz . Population. Bei der Simulation entspricht dieser Erwartungswert dem Es gilt: Grenzwert des Mittelwerts über die Stichprobenvarianzen. Diese Eigenschaft wird als die Erwartungstreue von 2 = E( S 2 ) n 1 s2n 1 bezeichnet. Dieser Eigenschaft wegen wird meist diese ( 5000 ) Varianz der Population: Die Streuung des Mittelwerts wird kleiner mit zunehmender Stichprobengröße. Formel (also Division durch n-1 statt durch n) für die Berechnung der Varianz in der Stichprobe verwendet. Im Gegensatz dazu ist s2n als Schätzer für σ2 nicht erwartungstreu. Auch die Stichprobenverteilung der Varianz wird mit zunehmendem n schmaler. Der Großteil aller Stichprobenvarianzen konzentriert sich zunehmend um die Varianz der Population. Auch hier sind ähnliche Beschreibungen wie für das arithmetische Mittel möglich. x4 (= plim w s 2n 1 (w) 2 = 91.31702 2 E( S 4 1 ) 2 E( S 9 1 = ) = 91.31702 Die simulierten Mittelwerte der Varianzen: 2 ) ( 5000) = 91.32985 s n 1 2 s n 1 ( 5000) = 91.408217 Bei n=4 ist die StichprobenvarianzenVerteilung noch viel breiter als bei n=9. Skriptum Statistische Datenanalyse I WS 04/05 Seite 10 2.3 Form der Stichprobenverteilung des Mittelwerts bei großen Stichproben Bei zunehmender Stichprobengröße kann die Verteilung der Stichprobenmittelwerte durch die Normalverteilung angenähert werden. Allerdings geht das unterschiedlich schnell, je nach Art der Populationsverteilung. Falls die Populationsverteilung schief oder mehrgipflig ist, dauert es länger (größeres n erforderlich). Je ähnlicher die Populationsverteilung einer Normalverteilung ist, desto schneller (auch schon bei kleinerem n) sind die Mittelwerte normalverteilt. Ist die Population normalverteilt, sind automatisch auch die daraus gezogenen Mittelwerte normalverteilt. Dazu sagt der Zentrale Grenzwertsatz: Zentraler Grenzwertsatz: Die Verteilung des Mittelwerts über die n unabhängig aus der gleichen Populationsverteilung gezogenen Werte nähert sich bei zunehmendem n der Normalverteilung an. Diese Standardisierung bedeutet etwa bei der Körpergröße (mit x= 176.34545 und x=9.556), dass alle möglichen Mittelwerte zentriert würden (176.34545 subtrahieren) und durch die Standardabweichung des Mittelwerts (je nach n) Etwas genauer: die Verteilung der standardisierten Zufallsvariable X x Z n nähert sich bei steigendem n der Std ( X n ) Standardnormalverteilung, die einen Mittelwert von 0 und eine Standardabweichung von 1 hat: Z ~ N(0,1) Std( X n ) x n dividiert würden. 2.4 Stichprobenverteilungen für Maßzahlen und Standardfehler Die Stichprobenverteilungen zeigen die Variation einer Stichprobenmaßzahl unter Berücksichtigung des Stichprobenziehens aus einer Population, die selbst wieder durch Maßzahlen (Parameter der Populationsverteilung) beschrieben werden können. Nach dem gleichen Populations-Stichproben-Schema, nach dem die Stichproben-Verteilungen für das arithmetische Mittel und die Varianz erarbeitet wurden, könnten auch die Stichprobenverteilungen (Stv) für alle anderen unter Kapitel 2 behandelten Maßzahlen berechnet werden. Unten sind einige Beispiele aufgeführt. Die Standardabweichung der Stichprobenverteilung für eine bestimmte Stichprobenmaßzahl wird als Standardfehler der Stichprobenmaßzahl bezeichnet. Standardfehler bei Spezialfall PV NormalVerteilung Stichprobenmaßzahl Erwartungswert arithm. Mittel µ n Anteil (1 ) n 0.5 1 ~) n f ( symmetrisch, ~ sonst Stv normal ca. ab n>30 (vorher Binomialverteilung) * 1.2533 * 1 n * 1.3626 * 1 n n 1. bzw. 3. Quartil ~ ~ 0.25 bzw. 0.75 siehe oben 0.25 ~ ) f ( 0.25 0.25 3 bzw. ~ ) f ( n 0.75 3 n Stv normal ca. ab n>30, auch wenn PV nicht normal Stv normal, falls PV normal ~ falls Population Median Bemerkungen Pop.Verteilung (PV) generell Stv normal ca. für n>30. f ( ~ ) ist die Dichte in der Populationsverteilung beim Median Stv normal ca. für n>30. f (~ 0.25 ) = Dichte in Populationsverteilung beim 1. Quartil, analog für 3. Quartil Varianz: 2 S n 1 2 4 4 n 2 2 n Stv normal ca. für n>100 2 ( n 1)S n 1 2 ist 2-verteilt mit n-1 Freiheitsgraden (df) Standardabweichung: S n 1 n ab ca. n=30 wobei 4. Moment: 4 1 n (x ) 4 4 4 4 n 2 1 2n Stv normal ca. für n>100 bei diskreten Verteilungen, bzw. bei stetigen: 4 ( x ) 4 f ( x )dx Skriptum Statistische Datenanalyse I WS 04/05 Seite 11 3. Statistische Schätztheorie 3.1 Rolle von Varianz bzw. Standardabweichung Varianz bzw. Standardabweichung dienen dazu die Form einer Verteilung quantitativ zu beschreiben. Darüber hinaus hat dieses Maß aber noch weitere Anwendungsmöglichkeiten, etwa bei der Konstruktion von Konfidenzintervallen und beim Testen von Mittelwertshypothesen. 3.1.1 Konfidenzintervalle (für μ) Eine Möglichkeit Informationen über einen Parameter der Gesamtheit zu erlangen, besteht darin, Intervalle zu finden, innerhalb derer der Parameter mit angebbarer Sicherheit liegt. Solche Intervalle heißen Konfidenzintervalle; die verlangte Sicherheit (z.B.: 0.99 bzw. 0.95 usw.) heißt Konfidenzzahl: 1-. Voraussetzung für die Konstruktion der Intervalle ist die Kenntnis der Verteilung des Schätzers. Bei der Konstruktion eines Konfidenzintervalls für ist zu beachten, ob die Standardabweichung der Population () bekannt oder unbekannt ist. Während im ersten Fall die Standardnormalverteilung zur Konstruktion des Konfidenzintervalls zugrunde gelegt werden kann, wird bei unbekannter Populationsstandardabweichung die Stichprobenstandardabweichung verwendet. Diese zusätzliche eingeführte Ungenauigkeit führt zu breiteren Intervallen. 3.1.1.1 Konfidenzintervall für bei bekanntem Als Schätzer wird der Stichprobenmittelwert verwendet. Er ist schon bei kleinem n normalverteilt, falls die Populationswerte normalverteilt sind. Bei großem n sind die Stichprobenmittelwerte wegen des zentralen Grenzwertsatzes normalverteilt. Für die Standardnormalverteilung gilt, dass 95% der X 1.96 0.95 z-Werte zwischen –1.96 und 1.96 liegen. Dies gilt P 1.96 x auch für den standardisierten Stichprobenmittelwert. X 1.96 Die Aussage, dass die standardisierte Zufallsvariable 1.96 x in einem vorgegebenen Intervall liegt, kann umformuliert werden in die Aussage, dass von 1.96 x X 1.96 x einem Intervall überdeckt wird. Das Intervall ist der zufallsbehaftete Teil, ist weiterhin fest. X 1.96 x X 1.96 x U 0.95 O 0.95 Auch für dieses Überdeckungsintervall gilt die Wahrscheinlichkeitsaussage. Das Überdeckungsintervall variiert zufallsbedingt von Stichprobe zu Stichprobe und ist daher ein PU 0.95 O 0.95 0.95 Zufallsintervall. Für eine konkrete Stichprobe wird die Zufallsvariable X durch den konkreten Mittelwert der Stichprobe x ersetzt. Dieses Intervall heißt u 0.95 o 0.95 mit Konfidenzintervall zur Konfidenzzahl 0.95. u 0.95 x 1.96 x und o 0.95 x 1.96 x Für das Konfidenzintervall gilt die Wahrscheinlichkeitsaussage nicht mehr. Das Intervall für eine spezielle Stichprobe überdeckt den Parameter Das Konfidenzintervall überdeckt oder eben nicht. oder es überdeckt ihn nicht. Skriptum Statistische Datenanalyse I WS 04/05 E( IQ ) = 100 0.06 2 = 152 0.05 0.05 0.04 0.04 0.03 0.03 0.02 0.02 0.01 0.01 0 55 70 85 100 115 130 145 0 55 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 70 85 100 115 130 Zufallsauswahl 145 nicht drin IQ Vert. bilden drin Vert. bilden Sp1 Sp2 Sp3 Sp4 .........usw......... Beispiel: Stichprobe7 (Sp7) IQ-Werte: 98, 106, 120, 145. x o 0.95 x 1.96 x 1.0 0.9 Var( IQ ) = 152/4 IQ Die Konfidenzintervalle Sp5 sind so konstruiert, dass Sp6 95% aller Konfidenz- Sp7 Sp8 intervalle µ enthalten. Das ist die Wahrschein- Sp9 Sp5000 .........usw......... lichkeitsaussage des Überdeckens. Berechnung des Konfidenzintervalls: u 0.95 x 1.96 x Wahrscheinlichkeitsverteilung: Das Zufallsintervall überdeckt den Pop.-Mittelwert P(Intervall überdeckt µ) = 0.95 µ im Intervall? Beispiel: Aus einer Verteilung von IQ-Werten werden Stichproben (n=4) gezogen und Konfidenzintervalle berechnet. Für jedes einzelne Intervall gilt nur, dass es entweder µ enthält oder nicht enthält. 0.06 WahrscheinlichkeitsVerteilung des arithm. Mittels des IQ Populationsverteilung IQ =100 Konfidenzinterva ll bilden berechnen Für die Konzeption der Darstellung ist relevant: Die AnwenderIn kennt die Lage der Verteilung nicht. Sie kennt nur die Varianz. Nur wir kennen die wahre Lage der Verteilung. Sie konstruiert nur ihre Konfidenzintervalle. Seite 12 .........usw......... = (98+106+120+ 145 )/4= 117.25 x x / 4 15 / 2 7.5 . u 0.95 x 1.96 x 117.25 1.96 * 7.5 = 117.25 14.7=102.55 o0.95 x 1.96x 117.25 1.96 * 7.5 =117.25+14.7= 131.95 Das Konfidenzintervall (102.55, 131.95) überdeckt µ nicht. Das wird in der rechten Spalte vermerkt. Alle übrigen Konfidenzintervalle enthalten µ. Abkürzungskonvention für Konfidenzzahlen: Der Wert 1.96 stammt aus der Standardnormalverteilung und bezeichnet den Wert, bis zu dem 97.5 % der Fläche liegt, bzw. bezeichnet den Wert, ab dem 2.5 % der Fläche liegt, bzw. Abkürzungskonvention: = z 0.975 = z 0.025 bezeichnet den Wert, für den gilt, dass im Intervall 0 1.96 95% der Fläche liegt = z 0.95 Die Konfidenzintervalle können auch auf andere Konfidenzzahlen ausgedehnt werden. Allgemein sei die Konfidenzzahl: 1-. Dann ist bei der obigen Konvention folgendes z zu wählen: z 1 bzw. z bzw. z 2 1 . 2 3.1.1.2 Konfidenzintervall für bei UNbekanntem Falls die Varianz der Gesamtheit nicht bekannt ist, muss sie auf Grund der Stichprobe erst geschätzt werden ( wird also durch sn-1 nach der üblichen Formel in der einzelnen Stichprobe ersetzt). Das ist bei kleinen Stichproben ein gravierender Eingriff, der zusätzliche Unsicherheit schafft. Bei großen Stichproben wird das konsequenzenlos akzeptiert. Falls die Population normalverteilt ist, ist die Verteilung der standardisierten Mittelwerte bekannt: die Student-t-Verteilung. Für große Stichproben stimmt die Student-t-Verteilung mit der Normalverteilung überein. Bei kleinem n ist die t-Verteilung breiter. Die den z-Werten (z.B.: z=1.96) entsprechenden t-Werte sind daher etwas größer. Die t-Werte führen also zu breiteren, aber von Stichprobe zu Stichprobe unterschiedlich breiten Konfidenzintervallen. Die Student-t-Verteilung ist nicht nur hier anwendbar, sondern auch bei anderen Fragestellungen. Dabei werden Stichprobengrößen über die ‚Freiheitsgrade‘ berücksichtigt. Bei der vorliegenden Anwendung ist die Anzahl der Freiheitsgrade = n - 1. Die Anzahl der Freiheitsgrade wird meist mit df (degrees of freedom) abgekürzt (hier also: df = n - 1). Skriptum Statistische Datenanalyse I WS 04/05 Seite 13 3.1.2 Mittelwerttests Formen der Nullhypothese a) H0: 0 bzw. b) H0: 0 bzw. Beispiele: µ=100 µ=35 µ5.3 µ20 c) H0: 0 Im Schnitt haben Studenten einen IQ von 100. Im Durchschnitt arbeiten Studenten 35 Stunden. Der durchschnittliche Benzinverbrauch des Autotyps ZX ist (höchstens) 5.3 l . Durchschnittlich stehen jedem Bundesbürger (mindestens) 20 qm Wohnfläche zur Verfügung. Alternativhypothese µ=120 Im Schnitt haben Studenten einen IQ von 120 (hier ist 120 µa). Ha: a bzw. 0 µ35 Die durchschnittliche Arbeitszeit der Studenten ist nicht 35 Stunden. bzw. 0 bzw. 0 µ>5.3 Der durchschnittliche Benzinverbrauch des Autotyps ZX ist höher als 5.3 l. µ<20 Durchschnittlich hat jeder Bundesbürger weniger als 20 qm Wohnfläche. usw. Teststatistik: Als Teststatistik wird der Mittelwert der Stichprobe verwendet bzw. ein standardisierter Mittelwert. Je nachdem, ob die Standardabweichung der Population bekannt oder unbekannt ist, muss die Testverteilung auf der Standardnormalverteilung oder der Student-t-Verteilung aufbauen. Kritischer Bereich: Die beiden ersten Schritte des Festlegens des Kritischen Bereichs können für beide Fälle gemeinsam erfolgen. Der Stichprobenmittelwert (Teststatistik) ist im Sinn eines Schätzers unmittelbar vergleichbar mit dem Populationsmittelwert. Trotz der Vielfalt von H 0-Ha-Konstellationen genügen drei Fälle, alle Konstellationen abzudecken: Linksseitige, rechtsseitige und beidseitige Lokalisierung der Extrempunkte (EP). kritischer Bereich x sehr klein x H0 rechtsseitig EP beidseitig (symmetrisch) EP (H0: µ=100, Ha: µ=120), (H0: µ5.3, Ha: µ>5.3), EP µ0 linksseitig H0-Ha-Konstellationen-Beispiele: sehr groß (H0: µ=100, Ha: µ=90), (H0: µ20, Ha: µ<20), µ0 (H0: µ=35, Ha: µ35) Kr EP itis Kr ch er 3.1.2.1 Mittelwerttest beiitis bekanntem x (Gauß-Test) Kr Kr ch Be itis itis er rei werde gezogen, wobei H0: µ=100 untersucht werden ch BeBeispiel: Eine Stichprobe von 4 StudentInnen ch soll mit H : µ>100. Implizit in H sei die Annahme enthalten, dass auch die Varianz die gleiche wie a 0 er er rei Be Be normal sei. chbei Gleichaltrigen und die Verteilung Die ‚AnwenderIn‘ behauptet rei rei Wahrscheinlichkeitsverteilung ch Wahrscheinlichkeitsdie Lage (Nullhypothese) und ch Verteilung des arithm. Mittels Der Stichprobenmittelwert fällt die Varianz der Verteilung H0 Populationsverteilung des IQ nicht in den kritischen Bereich. IQ zu kennen. Wir helfen ihr IQ ) = 100 P( IQ liegt in krit. Ber.) = 0.05 E( =100 dabei, die Verteilung der 0.06 0.06 1.0 2 2 Var( IQ ) = 15 /4 = 152 Mittelwerte zu finden, indem 0.9 µ0 0.05 aus der Hypothesenpopulation 0.04 beliebig viele Stichproben gezogen werden. 0.03 Dadurch erhalten wir die 0.02 Testverteilung (= Stichprobenverteilung des 0.01 arithmetischen Mittels unter 0 55 Geltung der Nullhypothese H0). Die Testverteilung liefert auch den kritischen Bereich. Sp1 0.05 0.03 0.02 0.01 70 85 100 115 130 145 0 55 70 85 100 115 130 145 Zufallsauswahl Vert. bilden Sp7 Vert. bilden Mw. in KB? Sp6 arithm. Mw. berechnen Sp5 nicht ablehnen Kritischer Bereich Sp3 Sp4 ablehnen Krit. Bereich IQ Sp2 Unter dieser Voraussetzung (Geltung von H0, d. h. dass wirklich aus einer solchen Nullhypothesenpopulation gezogen wurde) wird in 5% aller möglichen Stichproben die H0 verworfen. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0.04 Sp8 Sp9 Sp5000 .........usw......... .........usw......... .........usw......... Skriptum Statistische Datenanalyse I WS 04/05 Seite 14 Als Testwert kann sowohl der Stichprobenmittelwert x n als auch der standardisierte Stichprobenmittelwert (z x n 0 x n ) verwendet werden. Die Testverteilung des Stichprobenmittels X n unter Geltung der Nullhypothese 0 ist die Normalverteilung: NV( 0 , X 0 2x ), die standardisierte Größe Z= n x n Beispiel (Fortsetzung): Sei der IQ-Mittelwert der 4 StudentInnen =120. Dann ist der z-Wert= n ist standardnormalverteilt NV(0,1). 120100 15 4 =2.67. Bei den folgenden Fallunterscheidungen werden aus Übungsgründen alle möglichen Entscheidungen vorgeführt, obwohl nur die rechtsseitige in diesem Beispiel relevant wäre. sei = 0.05. IQ-Mittelwert der 4 StudentInnen =120. Teststatistik z = 2.67. z 0.95 =1.645. 0 =100 z-Wert Mittelwert Kritischer Bereich linksseitig z - z1 x n 0 z 1 rechtsseitig z1 z 0 z 1 beidseitig z - z 1 oder z 1 z x z (= 2.67) ist nicht –1.645. Daher: H0 akzeptieren. Bzw. 120 ist nicht (1001.645*(15/2)= -87.6625) daher: akzeptieren. x n z 0.95 (=1.645) z (=2.67); daher: H0 ablehnen; bzw. ebenfalls: 100+1.645*(15/2)= 112.34 120. xn n x n 0 z 1 oder 0 z 1 x n x n xn z 0.95 =1.96. z (=2.67) ist größer als 1.96, fällt daher in den kritischen Bereich. Ebenfalls direkt nach der Mittelwertteststatistik: Die beiden Grenzen sind 100 1.96*(15/2)= (85.3; 114.7). Der Kritische Bereich liegt außerhalb des Intervalls. 120 liegt im Kritischen Bereich. Daher: H0 ablehnen. Eine dritte Möglichkeit, eine Entscheidung über die Nullhypothese herbeizuführen, ist es den sogenannten PWert des Stichprobenmittelwerts auszurechnen. Der P-Wert ist die Wahrscheinlichkeit, dass der Stichproben mittelwert diesen oder einen noch extremeren Wert annimmt unter Geltung der Nullhypothese. Bei Mittelwerttest ermittelt man den P-Wert, indem man den Stichprobenmittelwert standardisiert . Allerdings Achtung bei zweiseitigen Hypothesen! Hier muss zusätzlich noch die Wahrscheinlichkeit berücksichtigt werden, dass der negative standardisierte Stichprobenmittelwert diesen oder einen noch extremeren Wert annimmt. Der P-Wert stellt hier die Summe beider Wahrscheinlichkeiten dar. Hypothese linkseitig rechtseitig P(Z -z>1-α<) P(Z z>1-α<) beidseitig P(Z -z>1-α/2<)+ P(Z z>1-α/2<) Die Nullhypothese wird dann verworfen, wenn der P-Wert gleich oder kleiner als das Signifikanzniveau ist P-Wert 3.1.2.2 Mittelwerttest bei UNbekanntem x (t-Test) Wie schon bei den Konfidenzintervallen wird hier die unbekannte Standardabweichung durch den StichprobenX 0 X 0 n modifiziert zu T= n n . Unter der Standardabweichungswert und so die Teststatistik Z= n x S n 1 Voraussetzung, dass das Merkmal in der Population normalverteilt ist, kann als Testverteilung für die so modifizierte Teststatistik T die Student-t-Verteilung verwendet werden. Da die Populationsstandardabweichung unbekannt ist, nimmt man als Schätzwert dafür die Stichprobenstandardabweichung sn-1. Entsprechend werden bei der Berechnung der kritischen Bereiche die z-Werte durch t-Werte ersetzt. Die Anzahl der Freiheitsgrade (df) ist wiederum n - 1. Skriptum Statistische Datenanalyse I WS 04/05 Seite 15 3.2 Exkurs: Die Bayes`sche Statistik Die Bayes`sche Statistik verfolgt einen anderen Ansatz als die Klassische Statistik. Sie geht im Vergleich zu Klassischen Statistik nicht von festen Populationsparametern aus, sondern von Parameterverteilungen, die sich durch Stichprobenziehungen immer exakter dem wirklichen Parametern annähern lassen. Dieser Unterschied hat weitreichende Konsequenzen, so auch etwa in der Interpretation von Konfidenzintervallen. Klassische Statistik Bayes`sche Statistik Die Parameter der Populationsvertei- Die Parameter haben eine Verteilung, sie variieren zufällig lung sind fest Bsp.: Populationsmittelwert μ A priori Verteilung von μ Stichproben A posteriori Verteilung μ μ μ μ Der Parameter μ hat keine Verteilung Anfangs wird eine hypothetische a priori Verteilung des Parameters angenommen. Stichprobenziehungen führen dazu, dass diese korrigiert wird: Die a posteriori Verteilung entsteht. Diese wird wiederum als a priori Verteilung behandelt. Danach werden wiederum Stichproben gezogen usw. Durch diesen Lernprozesses wird die Kenntnis vom wahren Parameter immer exakter. Konstruktion von Konfidenzintervallen In der Bayes´schen Statistik ist μ verteilt mit yn als Mittelwert μ yn μ yn und Standardabweichung. n als sei normalverteilt mit Mittelwert μ Es ist auch hier möglich, Konfidenzintervalle um yn zu konstruieren, und Standardabweichung n . z.B. Yn Zieht man nun einen konkreten Stichprobenmittelwert, kann man um 95% K.I.: yn 1,96 diesen ein Konfidenzintervall konstruieren, z. B. 95% K.I.: n yn 1,96 n Interpretation des Konfidenzintervalls Es ist keine Angabe darüber möglich, mit welcher Wahrscheinlichkeit ein K. I. μ überdeckt. Man kann darüber nur sagen: Es überdeckt μ, oder es überdeckt μ nicht. Dieses Konfidenzinterval ist tatsächlich so konstruiert, dass es μ mit bestimmter angebbarer Wahrscheinlichkeit (hier 95%) überdeckt. Dies ist eine Definition von Konfidenzintervall, die intuitiv oft in der Klassischen Statistik angewendet wird, aber nur in der Bayes`schen Statistik korrekt ist. Allerdings bringt die Bayes´sche Statistik auch einige Probleme mit sich. Die Form der a priori Verteilung beruht auf der subjektiven Überzeugung dessen, der sie konstruiert hat. Die a priori Verteilungen verschiedener Leute werden sich deshalb mit ziemlicher Sicherheit unterscheiden. Außerdem stellt sich bei der Konstruktion einer a priori Verteilung immer die Frage, wie diese eigentlich genau aussehen soll. Ausweg bietet die Skriptum Statistische Datenanalyse I WS 04/05 Seite 16 Annahme einer annähernden Gleichverteilung (Annäherung deshalb, weil die Verteilung sonst von die Höhe Null hätte. Die Verteilung reicht ja von minus unendlich bis plus unendlich) als a priori Verteilung. Diese Art der Verteilung wird auch nicht-informative Verteilung genannt. Bei genügend großer Stichprobe erreicht man dann annähernd dieselbe a posteriori Verteilung wie jemand, der schon a priori Annahmen hatte. 3.3 Fehler 1. Art, Fehler 2. Art und Macht des Tests Der Hypothesentest entspricht einem Entscheidungsverfahren, bei dem auf Grund des Stichprobenergebnisses die H0 akzeptiert oder abgelehnt (und damit die Ha akzeptiert) wird. Die Situation lässt sich gut durch eine Kreuztabelle charakterisieren: Entscheidung auf Grund der Stichprobe H0 akzeptieren H0 ablehnen Zustand in H0 ist richtig P(H0|H0) P(Ha|H0) Gesamtheit richtige Entscheidung Fehler 1. Art Ha ist richtig P(H0|Ha) P(Ha|Ha) Fehler 2. Art richtige Entscheidung Die beiden Fehler-Wahrscheinlichkeiten und ihre Bedeutung: Die Wahrscheinlichkeit eines Fehlers 1. Art sollte klein sein, sie wird mit abgekürzt. wird vor der Durchführung des Tests fest vorgegeben; sie ist die Wahrscheinlichkeit, dass bei der Entscheidung der Fehler erster Art ‚passiert‘; d. h. die Wahrscheinlichkeit, dass H0 abgelehnt wird, obwohl sie richtig ist. wird auch Signifikanzniveau genannt und meistens auf 0.05 oder 0.01 festgelegt. Die Wahrscheinlichkeit, dass H0 akzeptiert wird, wenn H0 richtig ist, ist 1-. Die Wahrscheinlichkeit eines Fehlers 2. Art sollte auch klein sein; es ist die Wahrscheinlichkeit, dass H0 akzeptiert wird, obwohl die Alternativhypothese richtig ist. Sie wird mit abgekürzt, wird aber nicht festgelegt. kann berechnet werden; es hängt wesentlich von der Distanz zwischen H0 und Ha, der Größe der Stichprobe und von ab. 1- wird auch als Macht des Tests (oder Teststärke oder auch Testgüte) genannt: Sie ist die Wahrscheinlichkeit, dass die Alternative akzeptiert wird unter der Voraussetzung, dass die Alternative richtig ist. Skriptum Statistische Datenanalyse I WS 04/05 Seite 17 4. Bivariate Statistik 4.1 Zusammenfassung Je nach dem Skalenniveau zweier Merkmale X und Y lassen sich verschiedene Nullhypothesen (und damit verschiedene Tests), Prädiktionsregeln, Fehlermaße und graphische Darstellungsformen finden: Y nominal nominal Kontingenztabelle ordinal intervall (continous) ANOVA: H0: μ1 = μ2 = ..... =μG-1 = μG H0: X und Y unabhängig bzw. H0: πij = πi· πj Mittelwertregeln Diamant-Plot Mosaic-Plot (Strukturiertes Staffeldiagramm) Gleichheit der Varianzen (Levene-Test): H0: 12 = 22 = ..... = G2 1 = G2 Modalregeln und λ (PRE-Maß) Kruskal-Wallis-Test: H0: Lage der Verteilungen von X und Y sind gleich bzw. X und Y kommen aus derselben Verteilung X ordinal intervall (continous) Logistische Regression P(Y=yg) = logistische Funktion Lineare Regression (y = a + bx) H 0: β = 0 R2 (U): Pseudo R2 = Entropiereduktionsanteil PRU (proportional reduction of uncertainty) R2 (PRE-Maß) Quadratische Reression (y = a + bx + cx2) H0: = 0 ( ˆ = c) H0: β = 0 R2 Splinefunktionen Konturplots (zur Überprüfung der Normalverteilungsannahme) Diamant-Plots: Statt in einem Streudiagramm sämtliche Ausprägungen des Merkmals Y in Abhängigkeit einer bestimmten Ausprägung von X darzustellen, kann man die Darstellung mit Hilfe von Diamant-Plots vereinfachen. y 95% K.I. y Die Breite gibt proportional zu den anderen Gruppen die Größe der Gruppe wieder, die horizontalen Linien entsprechen dem 95% - Konfidenzintervall bzw. den Grenzen, wo bei gleicher Gruppengröße zwei Gruppenmittelwerte gerade noch als signifikant unterschiedlich interpretiert werden können. Die mittlere Linie steht für den Gruppenmittelwert.. Bei gleicher Gruppengröße Grenzen, bei denen zwei Gruppenmittelwerte gerade noch signifikant unterschiedlich sind x Breite = Größe der Stichprobe Skriptum Statistische Datenanalyse I WS 04/05 Seite 18 4.2 Test auf Unabhängigkeit zweier Merkmale (2-Test) Die Hypothese der Unabhängigkeit zweier Merkmale (beide mit nominalem Mindestskalenniveau) kann mit Hilfe des 2-Test (von PEARSON entwickelt) durchgeführt werden. 4.2.1 Die Teststatistik Nullhypothese: Die beiden Merkmale sind unabhängig (Die gemeinsamen Populationsanteile sind als Produkt der Populationsrandanteile darstellbar, oder andere Formulierung). In einer Stichprobe werden nur die Häufigkeiten des gemeinsamen Auftretens beobachtet, auf Grund derer die gemeinsamen Anteile und Randanteile berechnet werden können. Auf Grund der beobachteten Randanteile können die unter Unabhängigkeit erwarteten gemeinsamen Anteile berechnet werden (=hypothetische Anteile). Konstruktion der Teststatistik: Eine Maßzahl, die den Unterschied zwischen realen und hypothetischen gemeinsamen Anteilen in einer Zahl zusammenfasst, ist gesucht. Ein Maß für den Unterschied hat K. Pearson entwickelt. Es ist die Summe quadrierter, standardisierter Abweichungen der realen und hypothetischen gemeinsamen Anteile. Alternativ kann das Likelihood-RatioChi² (LR2) verwendet werden. Für die Population gilt: ij i j (bzw. irgendeine andere Art der Unabhängigkeitsformulierung). Beobachtete Häufigkeiten nij und Randanzahl bzw. gemeinsame Anteile p ij und Randanteile pi und pj. Die unter Unabhängigkeit erwarteten Anteile sind: p i p j (hypothetisch erwartete Anteile). Zwei Maße können verwendet werden, von denen aber nur eines vorgestellt wird. PEARSON-Chi²= P2 = I J n i 1 j1 (p ij p i p j ) 2 Beispiel (Angst vor Prüfungen und Ausbildung des Vaters): Die beiden Merkmale sind unabhängig. Es besteht kein Zusammenhang. Der Anteil derer, die Angst vor Prüfungen haben, ist für alle Arten von Väterausbildung gleich groß. n=10. Tabelle mit den beobachteten gemeinsamen und Randanteilen Nur die Randanteile werden für die Bilddung des Produkts verwendet z.B. 0.70*0.40. gemeinsame und Randanteile ja nein VS. 0.40 0 0.40 hS. 0.20 0.10 0.30 Abi+ 0.10 0.20 0.30 0.70 0.30 erwartete gemeinsame Anteile unter Unabhängigkeit ja nein VS. 0.28 0.12 0.40 hS. 0.21 0.09 0.30 Abi+ 0.21 0.09 0.30 0.70 0.30 * Ist der Unterschied zwischen den hypothetisch geforderten Anteilen und den empirisch gefunden ‚zu groß‘? ‚Zu groß‘ würde bedeuten, dass die Hypothese der Unabhängigkeit nicht passt. P2 = 10*((0.4-0.28) 2/0.28+ (0.0-0.12) 2/0.12+ (0.2-0.21) 2/0.21+ (0.1-0.09) 2/0.09+ (0.1-0.21) 2/0.21+ (0.2-0.09) 2/0.09) = 10*0.36507=3.6507 p i p j 4.2.2 Beschränkung Die Testverteilung für die Stichprobenmaßzahl P2 ist approximativ (n groß = n >20) Chi²-verteilt mit df=(I1)(J-1) Freiheitsgraden. Für kleines n können exakte Verteilungen konstruiert werden (FISHERs Exakt Test wurde für je zwei dichotome Merkmale entwickelt; inzwischen wurde er erweitert auf größere Tabellen). Die bei gegebenen Randhäufigkeiten zu erwartende Häufigkeit eij pro Zelle sollte mindestens 5 sein (d.h. nicht zu viele Zellen bei einem gegebenen n): eij = (ni nj)n = n p i p j 5. Dieses Kriterium ist sehr konservativ und gilt für P2 , weniger für LR2. Es sollten aber insgesamt weniger als 20% solcher Zellen vorhanden sein, für die n p i p j <5. Beim Angstbeispiel sind die Voraussetzungen für die Anwendung der Verteilungsapproximation durch die 2-Verteilung nicht erfüllt (n zu klein). Auch die durchschnittliche Häufigkeit pro Zelle (10/6=1.667) ist zu klein. 4.2.3 Prädiktion mit Hilfe der Anteile Auf Basis der Anteile in einer Kontingenztabelle lassen sich Prädiktionsregeln entwerfen, anhand deren man über die Anteile auf die Y-Ausprägung schließen kann. Bei Abhängigkeit zweier Merkmale lässt sich dabei eine Skriptum Statistische Datenanalyse I WS 04/05 Seite 19 Fehlerreduktion erreichen, wenn man bei der Prädiktion der Y-Ausprägung die X-Ausprägung berücksichtigt, bei Unabhängigkeit dagegen nicht. Bsp: Hypothetische Populationsverteilung zweier dichotomer Merkmale X und Y Populationsverteilung Tatsächlich Unter Erwartung von Unabhängigkeit ( ij i j ) Y X 0.5 0.1 0.6 Y 0.1 0.3 0.4 X-bedingte Anteile von Y Y 0.83 0.167 X 0.25 0.75 0.6 0.4 X 0.36 0.24 0.6 0.24 0.16 0.4 0.6 0.4 0.4 0.4 0.6 0.4 Y 0.6 0.4 Hier gibt es einen Zusammenhang zwischen X und Y, deshalb macht es Sinn, für verschiedene Ausprägungen von X u. U. verschieden Y- Ausprägungen zu prädizieren, und damit den Prädiktionsfehler zu verringern. Umgekehrt lässt sich sagen: Führt die Kenntnis von X bei der Vorhersagen von Y zu einer signifikanten Fehlerreduktion, sind X und Y abhängig. X 0.6 0.6 Dagegen bringt eine Berücksichtigung der XAusprägung bei der Prädiktion der Y-Ausprägung keinen zusätzlichen Informationsgewinn. Die Kenntnis von X führt zu keiner Fehlerreduktion Entsprechend kann man bei nicht-signifikanter Fehlerreduktion nicht von einer Abhängigkeit beider Merkmale ausgehen. Skriptum Statistische Datenanalyse I WS 04/05 Seite 20 4.3 Logistische Modelle Für qualitative oder auch ordinale Prädikanden (y) wurden logistische Modelle konzipiert. Wenn die Prädiktoren (x-Merkmale) quantitativ sind, werden die Modelle auch logistische Regressionsmodelle genannt. Falls die Prädiktoren qualitativ sind, stellen die logistischen Modelle die Alternative zur Varianzanalyse dar. Das Konzept soll für dichotome Prädikanden dargestellt werden, kann aber auf qualitative Merkmale mit mehreren Ausprägungen erweitert werden. 4.3.1 Einführungsbeispiel Anhand eines Beispiel soll in das Thema Beispiel: Behandlungserfolg als Prädikand (1. Ausprägung eingeführt werden. Diese Daten wurden mit bedeutet Erfolg) Hilfe des JMP bearbeitet, wobei das XAntei Anza Merkmal einmal als stetig, einmal als nominal i. l Behandlungsgruppen Gruppe hl n i betrachtet wurde. Außerdem wurden zwei p i1 verschiedene Einstellung zur Modellanpassung Kontrollgruppe 1 40 0.10 verwendet: Fit X by Y und Fit Model. Die Exp.-Gruppe 1 2 20 0.30 Ergebnisse sind unten dargestellt. Exp.-Gruppe 2 3 20 0.60 Exp.-Gruppe 3 4 Gesamt 20 100 X stetig s. unten X nominal: Bei der Anwendung des Fit X by Y nominal logistischen Modells ist zu bemerken: Das Full-Model berücksichtigt X als qualitative Variable, hat also hier vier Parameter (π1, π2, π3, π4), das Reduced-Model baut nur auf einem Parameter (Gesamt π) auf, weil es X nicht berücksichtigt. Die -Loglik sagt, wie gut das Modell jeweils Fit Model passt. Ist deren Differenz signifikant (χ2 = 2 x Diff. = 2 x 22.12) kann man sagen, dass X und Y abhängig sind: die Berücksichtigung von X führt zu einer signifikanten Fehlerreduktion. Logistisches Modell Model Df Diff 1 Full Reduced Lack of fit (2) -Loglik 22.01 45.30 67.30 -Loglik O.113 Logistisches Modell 0.90 0.40 X nominal Df -Loglik Model 3 22.12 Error 45.18 Total 67.30 LR2 = 44.24 χ2-Analyse (log. Modell für nominale Daten) Model Df -Loglik Diff 3 22.12 Full 45.18 Reduced 67.30 Nominal logistische Funktion X stetig: Die Entscheidung, welches Modell mit wie viel Parameter man anwenden soll, hängt von der Signifikanz der Differenzen zwischen den einzelnen Modellen ab. Auch hier kann eine Entscheidung mit Hilfe von χ2-Tests herbeigeführt werden: Man testet, ob der Unterschied zwischen dem reduzierten Model und dem Full Model bzw. einer logistischen Regression signifikant ist. Ist die Fehlerreduktion durch das Full-Modell und das logistischen Modells signifikant, testet man, ob die Differenz zum logistischen Regressionsmodel signifikant ist. Wenn nicht, entscheidet man sich für das Logistische Modell im Sinne der einfacheren Möglichkeit. Beispiel: s. o. Modell Reduziert Parameter π, Anz. Par. 1 -Loglik 67,30 Log. Regression α, β 2 45,30 Full (nominal) π1, π2, π3, π4 4 45,18 Die Differenz zwischen dem reduzierten Modell und dem Regressionsmodell (χ2 = 2 x Diff.. = 44.00) bzw. dem Full-Model (χ2 = 2 x Diff. = 2 x Diff = 44.24) ist signifikant, die Differenz zwischen dem Regressionsmodell und dem FullModel nicht (χ2 = 2 x lack of fit (!) = 0.226) Skriptum Statistische Datenanalyse I WS 04/05 Seite 21 4.3.2 Logistische Regression Falls der Prädiktor quantitativ (mindestens intervallskaliert) ist, ist die Frage nahe liegend, ob die Anteile bzw. Logits als lineare Funktion des Prädiktors darstellbar sind. Da aber Anteile nur zwischen 0 und 1 liegen können, ist diese Fragestellung für die Anteile problematisch. Denn bei hinreichend großem x (oder sehr kleinem x) würde eventuell ein Wert prädiziert werden, der größer als 1 (kleiner als 0) wäre und daher von vornherein nicht zugelassen werden könnte. Dieses Problem existiert bei den Logits der Anteile nicht (die Logits variieren prinzipiell zwischen - und +). Daher wird die charakterisierte Fragestellung (‚Erklärung der abhängigen Variablen’ durch eine Gerade) nicht für die Anteile, sondern auf die Logits der Anteile (oder ähnliche Transformationen der Anteile) angewandt. Werden die Logits durch eine lineare Funktion (Gerade) dargestellt, spricht man von logistischer Regression. Beispiel (s. oben): Behandlungserfolg in Abhängigkeit von der Gruppenzugehörigkeit. Der Zusammenhang wurde mit Hilfe eine logistischen Regression geschätzt. 1 1.0 0.8 0.6 0.4 0.2 0 -10 0 10 20 30 x 40 Zusätzlich zu den Gruppenanteilen lassen sich auch die einzelnen Wertepaare in das Diagramm eintragen. Der X-Wert wird dabei beibehalten, als Y-Wert wird eine Zufallszahl zwischen 0 und 1 gewählt. Dabei sind Wertepaare, die im Erfolgsanteil enthalten sind in zufälliger Y-Position unterhalb der Funktion, Wertepaare, die nicht im Erfolgsanteil enthalten sind, oberhalb der Funktion aufgetragen. Die Funktion steht für die Wahrscheinlichkeit der Gruppenzugehörigkeit (Prädikant) in Abhängigkeit von der Merkmalsausprägung (Prädiktor). Sie hat die Form π (x) = eα βx 1 eα βx . Bei der Herleitung der Formel spielen Verhältnisangaben und Logits eine Rolle. Verhältnisangaben (engl. Odds), beim Wetten als Angabe zur Charakterisierung der Chancen Beispiel: Bei Sex unter den ersten 16 ist der männlich-Anteil =14/16, der Als Darstellung interessiert das Verhältnis der Anteile oddsj(pi ) := pi : pj = weiblich-Anteil=2/16. Als Verhältnis 14:2 bzw. 7:1 mit weiblich als Referenzkategorie. Bzw. (1/7):1 mit männlich als Referenzkategorie. (Häufigkeiten) zueinander pi/pj, bzw. zu einer ‚Referenz‘Beispiel: Nach MENDEL sollten 4 Erbsensorten bei einem Ausprägung. mit j als ‚Referenz‘- Kreuzungsexperiment im Verhältnis 9:3:3:1 stehen. Die Häufigkeiten beim MENDEL’schen Versuch waren: 315, 108, 101, 32. Mit der 4. Index Ausprägung als Referenzkategorie als Odds dargestellt: 9.8 : 3.375 : 3.156 : 1 Als Logit wird der natürliche Logarithmus der Odds bezeichnet Beispiel: logit für den männlichen Anteil logit (14/16)= ln(7)= 1.96. Die Verhältnisse logit für den weiblichen Anteil logit (14/16)= ln(1/7)= -1.96. werden logarithmiert, logitj (pi) := ln(pi/pj) = damit die ln(oddsj(pi )) Dadurch erhält man bei zwei Ausprägungen den gleichen Wert (einmal ‚multiplikativen‘ positiv, einmal negativ). Die Wahl der Referenzausprägung ist folglich Verhältnisangaben mit j als ‚Referenz‘nicht mehr so wichtig. Bei den Odds versucht man oft die ‚additiv‘ werden. Index Referenzausprägung so zu wählen, dass möglichst als Verhältnis Werte größer als 1 resultieren (Bei Odds für Teilgruppen schwer realisierbar). Herleitung: Bei der logarithmischen Regression wird der Zusammenhang zwischen den Logits der Anteile und dem X-Merkmal durch eine Gerade beschrieben. Dies führt zur Formel der Funktion: log (π(x)) = α + βx ln (odds(π(x)) = α + βx ln (π(x)/ (1- π(x))) = α + βx π(x)/ (1- π(x)) = e α + βx π(x) = e α + βx - π(x) e α + βx π(x) + π(x) e α + βx = e α + βx π(x) (1+ e α + βx ) = e α + βx eα βx π (x) = . 1 eα βx Natürlich muss der Zusammenhang zwischen X und dem Logit des Anteils nicht unbedingt linear beschrieben werden. Er kann auch in Form eines Polynoms höherer Ordnung ausgedrückt werden. Dabei bestimmt die Skriptum Statistische Datenanalyse I WS 04/05 Seite 22 Anzahl an Parametern (π1, π2, π3, ...) die Ordnung des Polynoms, dass maximal herangezogen werden kann: Bei n Parametern kann der Zusammenhang maximal durch ein Polynom (n-1)ten Grades beschrieben werden. Die daraus sich ergebende logistische Funktion geht durch alle πs. Die Anwendung dieser Funktion auf die Daten entspricht dem Full-Model. Außerdem lässt sich ein direkter Zusammenhang zwischen der Steigung der Geraden α + βx und dem Verlauf von π (x) herstellen. Da sowohl Logit als auch Odds Ordnung erhaltende Transformationen darstellen (d. h. eine Transformation einer fallenden bzw. steigenden Funktion durch sie nicht dazu führt, dass die daraus entstehenden Funktion nun fällt statt steigt oder umgekehrt) kann man sagen, dass bei fallendem β auch π (x) fällt (analog bei positiver Steigung). 4.3.3 Das PRU-Maß und die Entropie Bei der Beschreibung von Zusammenhängen zwischen den Logits von Anteilen und der dazugehörigen XMerkmalsausprägung können Polynome verschiedenen Grades herangezogen werden. Desto höher das Polynom, desto genauer ist die Passung der Funktion auf die Anteilswerte. Daraus lässt sich ein PRU-Maß konstruieren. Dieses kann als PRE-Index konzipiert werden. Das U steht für Unsicherheit (engl. uncertainty). Die Unsicherheit wird durch die mittlere Entropie gemessen. PRE = F(ohne) F(mit) Loglik (Reduced) - -Loglik (Full) = R2 (U) F(ohne) - Loglik (Reduced) 67,3 45,3 0,3270 67,3 R2 (U) ist eine andere Schreibweise für PRU und ist nicht zu verwechseln mit dem Determinationskoeffizienten 2. Art R2. Andere Bezeichnungen sind Unsicherheitskoeffizient oder Pseudo-R2. Die mittlere Entropie berechnet Angewendet auf obiges Beispiel (s. 4.3.1): R2 (U) I sich: h(x) = -pi ln (pi). Die -Loglik (Reduced) kann durch die mittlere Entropie interpretiert werden: -Loglik i 1 (Reduced) = n Entropie in nits (n ist die Stichprobengröße). Das PRU-Maß ist deshalb interpretierbar als Reduktion der mittleren Entropie. Angewendet in obigem Beispiel: h (x) = 0,67301167 = 1/100 (-Loglik (Reduced)) Einschub: Entropie h(X), wird auch als mittlere Entropie bezeichnet Zur Entwicklung optimaler Codes im Sinne der (Potentiell minimale) Entropie (in bits):= Informationstheorie siehe unten. I durchschnittliche h ( X ) p ld ( p ) = i i b Länge einer Für Familienstand: i 1 Information in Bits, 1 h (X) b (p ln(p 1 ) p 2 ln(p 2 ) p 3 ln(p 3 )) {ld ist der Logarithmus dualis (Log. zur ln(2) 1 wobei jede Information Basis 2). Es gilt: ld(x)=log(x)/log(2)} 11 11 4 4 1 1 (eine der möglichen 1.44( ln( ) ln( ) ln( )) 1.1216 . 1 I 16 16 16 16 16 16 Ausprägungen des p i log(p i ) log(2) i 1 Hier wurde als Logarithmus der natürliche Logarithmus ln Merkmals) jeweils log sei Logarithmus mit beliebiger Basis (log. naturalis; das ist der Logarithmus zur Basis der optimal codiert ist. natürlichen Zahl e=2.718281828...) verwendet. Der natürliche Logarithmus wird anstelle des dualen Log. I Entropie kann auch in verwendet. Die Entropie in nits unterscheidet sich von jener h ( X ) p ln( p ) i i nits berechnet werden i 1 h (X) b liegt zwischen 0 und ld(I). h (X) b wird maximal bei Gleichverteilung der Werte in bits nur um den konstanten Faktor 1/ln(2). Beispiel: Seien 3 Ausprägungen gegeben. Alle pi sind bei Gleichverteilung 1/3. Daher h ( X ) b = -(3*(1/3)*ld(1/3)) = - ld(1/3) = ld(3) ., aufgrund der Regel: log(a)= -log(1/a). Skriptum Statistische Datenanalyse I WS 04/05 Seite 23 Überlegungen zur Entwicklung optimaler Codes mit binären Zeichen Die Entwicklung optimaler Binärcodes entspricht dem Finden einer optimalen Fragestrategie bei Unsicherheit, wobei jede Antwort nur binär (etwa: nein/ja; bzw. 0/1) sein darf. Beispiel: Anne und Bert spielen folgendes Ratespiel. Bert denkt sich ein bestimmtes Feld auf einem Schachbrett. Anne soll erraten, welches Bert sich gedacht hat. Bert antwortet auf Annes Fragen jeweils mit nein bzw. ja oder 0 bzw. 1. Bei der nächsten Runde muss Bert raten usw. (Gewinner ist, wer am wenigsten Fragen benötigt). Bei m Ausprägungen sind bei Gleichverteilung ld(m) Fragen erforderlich. Es gilt: ld(m)= -ld(1/m) Wie viele Fragen dieser Art sind nötig? 6. Mit 6 Fragen kann jedes der 64 Felder eindeutig identifiziert werden. Die 64 Felder entsprechen den Ausprägungen. Jede Frage kann 2 mögliche Antworten haben. Daher gibt es insgesamt 26=64 mögliche Antwortsequenzen. Der Logarithmus von 64 zur Basis 2 löst die Aufgabe: 2 hoch x =64. D.h. 6=ld(64). Umgeformt: 6= - ld(1/64). Würde ein Spieler eine Tendenz zur Bevorzugung bestimmter Felder ausmachen können, wäre eine andere Strategie angebracht, z. B. wenn der andere Spieler etwa die Tendenz für A1 hat. Bei ungleichen Anteilen wird die Strategie auf Grund der Anteile entwickelt. Nach Ausprägungen mit großem Anteil wird zuerst gefragt. Bei passenden Anteilen gilt: Fragenanzahl = -ld(1/pi). Durchschnittlich benötigte Anzahl ‚optimaler‘ Fragen: I 4-Buchstaben-Beispiel: Buchstaben A, B, C, D erraten. Anne weiß aus Erfahrung, dass Bert A in ½, B in ¼, C in 1/8 und D in 1/8 der Fälle auswählt. Welche optimale Fragestrategie soll sie wählen? Vorschlag: Zuerst nach A fragen, weil der Anteil mit ½ am größten ist. (Die Chance, nach der ersten Frage fertig zu sein ist groß.) Falls nein, nach B fragen (wegen ¼ Chance). Falls nein, nach C fragen. Auf Grund der Anteile wurde die Strategie entwickelt. Strategie in der Form eines Flussdiagramms: Für das Erraten von A B C D 0 C? 0 D A? B? 0 Anzahl benötigter Fragen 1 2 3 3 Anteil ½ ¼ 1/8 1/8 1 1 1 -ld(1/Anteil) 1 2 3 3 A B C h (X) b p i ld (p i ) Das Spiel werde nun sehr oft wiederholt. Mit Hilfe der Anteile als Gewichte kann nun die durchschnittlich benötigte Fragenanzahl berechnet werden : ½ mal 1, ¼ mal 2, 1/8 mal 3 1/8 mal 3. Als gewichtetes arithmetische Mittel: ½ * 1 + ¼ *2 + 1/8 *3 + 1/8 *3 bzw. anders ausgedrückt: - (½ * ld(½ ) + ¼ *ld(¼) + 1/8 *ld(1/8) + 1/8 *ld(1/8)). Übersetzen des Fragens in die Übermittlung von Mitteilungen. Das Übertragen von Nachrichten ist kein kompetitives, sondern ein kooperatives ‚Spiel‘. Dabei soll der Binärcode für alle Ausprägungen eines Merkmals (ein Alphabet, die Bezeichnung der 64 Schachfelder, die 4 Ausprägungen A B C D) optimal aufgebaut werden, damit zu einer Übertragung einer Nachricht (mit dem betrachteten Alphabet) möglichst wenig binäre Zeichen notwendig sind. i 1 Welches ist die optimale Fragestrategie? Z.B. Feld oberhalb der Mitte? 1. Feld links der Mitte? 0. Liegt es in Zeile A oder B? 0. Liegt es in Spalte 5 oder 6? 0. Liegt es in der Zeile C? 1. Ist es in Spalte 7? 0. Antwortfolge: 100010. Daher muss es Feld C8 sein. 1 2 3 4 5 6 7 8 A B C D E D F G H Länge des Binärcodes für eine Ausprägung entspricht der Fragenanzahl. Die Antwortsequenz für eine einzelne Ausprägung entspricht dem Binärcode der Ausprägung (z.B. 100010 für C8 innerhalb des Schachalphabets, im 4-Buchstaben-Beispiel 1 für A, 01 für B, 001 für C und 000 für D). Längenmaßeinheit in bits. 1 Bit: Maßeinheit für den Informationsgehalts eines binären Zeichens. Wenn auf Grund der Anteile der Ausprägungen absehbar ist, dass in einer Nachricht oft mehrere Übertragen mehrerer gleiche Ausprägungen nacheinander übertragen werden müssen, kann in die Konstruktion des Ausprägungen zusammen in Binärcodes des Alphabets ein Wiederholungsmodus (eine zahlenmäßige Information etwa derart, dass z.B. hundert gleiche Zeichen einer bestimmten Art folgen usw.) eingebaut werden. So kann einer Nachricht. die (potentiell minimale) durchschnittliche Informationslänge auch kleiner als 1 Bit werden. Skriptum Statistische Datenanalyse I WS 04/05 Seite 24 4.3.4 Maximum-Likelihood und Entropie Im Folgenden soll die Maximum-Likelihood Schätzmethode vorgestellt werden und ihr Zusammenhang zur Entropie erläutert werden. 4.3.4.1 Maximum-Likelihood-Schätzmethode Die Maximum-Likelihood-Schätzmethode ist eine Vorgehensweise um Schätzer für Parameter zu konstruieren, die der Forderung entsprechen: Wähle den Schätzwert so, dass ein vorliegendes Ergebnis möglichst plausibel erscheint. Das Ergebnis sei Die Stichprobe x1, x2, Beispiel: Peter Schummel hat zwei Würfel für seine Würfelspiele präpariert und zwar so, dass der eine Würfel die ‚6’ mit der realisiert. Für die ..., xn sei realisiert. Wahrscheinlichkeit 0.50 bringt und der andere mit der Wahrscheinlichkeit möglichen Der Parameter habe 0.75. Der Populationsanteil der ‚6’ für den einen Würfels ist daher 0.50, Parameterwerte können für den anderen 0.75. Zudem hat er einen dritten regulären Würfel. An einen bestimmten, einem Spielabend nimmt er einen der Würfel mit. Problem: Leider hat er im nachhinein die aber noch aber vergessen, welcher von den drei Würfel derjenige ist, den er Wahrscheinlichkeiten unbekannten Wert mitgenommen hat. dieser Realisation (einen von mehreren berechnet werden. Alternativen bzw. aus Um das Problem zu lösen, verfährt er folgendermaßen. Er wirft zweimal den Würfel; zweimal kommt die 6. n=2. Das Ergebnis x1 und x2 ist daher einem Bereich). Die bekannt. Der Parameter sei Der Parameterwert, der Wahrscheinlichkeit Parameter hier der Populationsanteil, der die größte P (X1=x1, ..., Xn=xn) einen von drei Werten 1/6 0.5 0.75 Wahrscheinlichkeit der ist aber eine Funktion annehmen kann. Er berechnet P(X1=6, X2=6) 1/36 0.25 0.5625 Realisation liefert, kann des Parameters . die Wahrscheinlichkeit P(X1=6, X2=6) für die drei Parameter. als der plausibelste Das Ergebnis (6, 6) ist am plausibelsten (max. Wahrscheinlichkeit), wenn gelten. der Würfel der 0.75-Würfel ist. Daher entscheidet er sich: Der Parameterwert des Würfels ist 0.75. 4.3.4.2 Die Likelihoodfunktion Die Berechnung der Plausibilität kann (besonders bei stetigen Verteilungen) durch Einführung des LikelihoodKonzepts vereinfacht werden, das auf der Dichtefunktion der Verteilung der Stichprobenvariablen aufbaut. Die Likelihoodfunktion von n Zufallsvariablen stellt die Dichte für die Realisation der Zufallsvariablen als Funktion des Parameters dar. Weil bei diskreten Variablen die Dichte gleich dem Anteil bzw. der Wahrscheinlichkeit ist, kann auch der Likelihoodfunktionswert als Wahrscheinlichkeit interpretiert werden. Die Likelihoodfunktion der Zufallsvariablen X1, X2,..., Xn zur Realisation x1,x2,..., xn stellt die gemeinsame Dichte f(x1,x2,..., xn; ) als Funktion der Werte dar. Sie wird mit L(;x1, x2, ..., xn) bezeichnet. Da die Stichprobenvariablen bei Zufallsstichproben unabhängig sind, kann Die gemeinsame Dichte die gemeinsame der Stichprobenvariablen Dichte als Produkt der bei einfachen Dichten aller Zufallsstichproben ist einzelnen immer als Produkt der Stichprobenvariablen Einzeldichten darstellbar. dargestellt werden: L(;x1, x2, ..., xn) = f(x1;) f(x2;)...f(xn;) Beispiel: In der Population wird ein dichotomes Merkmal (z. B. Erfolgreiche (mit Code=1) bzw. nicht erfolgreiche Absolventen, (mit Code=0)) erhoben. Der Anteil der Erfolgreichen (=) ist der Parameter , der die Populationsverteilung beschreibt. Die Dichten der xVerteilung sind: f(0; )=(1-) und f(1; )=. Population, Dichtefunktion f(x, ) 0.6 0.4 0.2 1- 0 1 x In einer Stichprobe der Größe n=5 seien die Realisationen der 5 Stichprobenvariablen (X1, X2, X3, X4, X5) gleich (0, 1, 0, 0, 0; k sei Anzahl der Erfolge). Die Dichtefunktion ist hier zugleich die Wahrscheinlichkeit des Ergebnisses, L(; 0, 1, 0, 0, 0) da die Zufallsvariablen diskret sind. Die Stichprobe wurde als einfache Zufallsstichprobe gezogen, daher ist die gemeinsame Dichte f(0, 1, 0, 0, 0; ) = f(0; ) f(1; ) f(0; ) f(0; ) f(0; )= (1-)(1-)(1-)(1-) = 1(1-)4 (bzw. mit geschrieben: 1(1-)4, allg. = πk (1-π)n-k). Die Likelihoodfunktion L(; 0, 1, 0, 0, 0) = f(0, 1, 0, 0, 0; ) = 1 (1-)4 stellt nun die Dichte für genau diese Sequenz von Nullen bzw. Einsen dar als Funktion des Parameters . Übrigens: Das Ergebnis (0, 1, 0, 0, 0) ist am plausibelsten (max. Likelihood), wenn der Anteil der Erfolgreichen in der Population = 0.20 ist. Das ist zugleich der Anteil der Erfolgreichen in der Stichprobe. Skriptum Statistische Datenanalyse I WS 04/05 Seite 25 Beispiel (Likelihood für eine stetige Variable): In einer Studentenpopulation wird der IQ (=x) untersucht. Es werde unterstellt, dass die Standardabweichung wie in der Gesamtpopulation (=15) sei. Zudem wird angenommen, dass die IQ-Werte IQ in der studentischen Population ebenfalls normalverteilt sei. Das arithmetische Mittel (= ) für die Studentenpopulationsdich Studenten wird aber nicht dem der Gesamtpopulation entsprechen. Daher enthält die Dichtefunktion den te f(x;). =15 unbekannten Parameter =: f(x; ) = 1 15 2 e x 1 2 15 2 0.02 0.01 . In einer Stichprobe der Größe n=3 sind die Realisationen von (X1, X2, X3) genau (95, 110, 125), allgemein: (x1, x2, x3). Die Dichtefunktion für die gemeinsame Verteilung der drei Stichprobenvariablen kann wiederum wegen ihrer Unabhängigkeit als Produkt der Einzeldichten geschrieben L(; 95, 110, 125) werden: f(x1, x2, x3; ) = f(x1; ) f(x2; ) f(x3; ) = 1 15 2 3 e 25 x -25 -25 0 +25 1 x 2 x 2 x 2 2( x x x ) 3 2 1 1 2 3 2 3 215 2 . Die Likelihoodfunktion L(; 95, 110, 125) = f(95, 110, 125; ) stellt die Dichte für genau diese drei beobachteten IQ-Werte dar, und zwar als Funktion des Parameters, der allgemein als bezeichnet wird, hier aber ist. Übrigens: Das Ergebnis (95, 110, 125) ist am plausibelsten (max. Likelihood), wenn das arithmetische Mittel in der Population =110 ist. Das entspricht dem arithmetischen Mittel der Stichprobe: (95+ 110+125)/3 = 110 = x . 4.3.4.3 Der ML-Schätzer Der Maximum-Likeli- Der ML-Schätzwert θ̂ hood-Schätzwert (kurz: ist jenes aus dem ML-Schätzwert) θ̂ des Bereich der möglichen Parameters ist jener - Parameterwerte Wert, bei dem die (Parameterraum ), Likelihoodfunktion in für den gilt: einer bestimmten sup L(;x1, x2, ..., xn) . Stichprobe maximal ist. Beispiele für ML-Schätzer werte: Der ML-Schätzwert θ̂ ist meist als Formel darstellbar, in die die realisierten Stichprobenvariablen x1, x2, ..., xn eingesetzt werden. Der ML-Schätzwert variiert von Stichprobe zu Stichprobe. Der MLSchätzer ̂ ist die Zufallsvariable, die alle Ergebnisse beschreibt. Beispiele für ML-Schätzformeln für konkrete Stichproben: 1). Beim Schummelbeispiel ist keine Formel nötig. 2). Hier ist der ML-Schätzwert ̂ =1 Erfolgreicher / 5; allgemein übrigens ̂ =(x1 + x2 + ...+ xn)/n für die (0,1)-Dummy-Variablen. (= k/n) 3). Der ML-Schätzwert für , den Populationsmittelwert, ist das arithmetische Mittel der Stichprobenwerte ̂ = (x1 + x2 + x3)/3 bei n=3; Der ML-Schätzwert θ̂ kann i. a. als Funktion der Realisierungen der Stichprobenvariablen θ̂ =g(x1, x2, ..., xn) dargestellt werden. Der ML-Schätzer ist als Funktion der Stichprobenvariablen ̂ =g(X1, X2, ..., Xn), selbst eine Zufallsvariable. 1). Beim Schummelbeispiel war der ML-Schätzwert θ̂ = 0.75. 2). Beim Beispiel für die Schätzung des Populationsanteils der Erfolgreichen wurde das Maximum der Likelihoodfunktion bei (bzw. ) = 0.20 gefunden ( bezeichnet hier das Intervall von 0 bis 1). Daher ist der ML-Schätzwert ̂ (bzw. θ̂ ) gleich 0.20. 3). Bei der Schätzung des Studentenpopulations- wurde das Maximum der Likelihood bei einem -Wert von 110 aufgespürt( sind die reellen Zahlen). Daher ist der ML- Schätzwert ̂ (bzw. θ̂ ) gleich 110 . allgemein übrigens ̂ = (x1 + x2 + ...+ xn)/n. Der Schätzer ̂ für den Populationsmittelwert ist die Zufallsvariable X = (X1 + X2 + ...+ Xn)/n. Für diesen Schätzer wird allerdings kein großes ̂ eingeführt, das den Schätzer vom Schätzwert unterscheiden könnte (bei den meisten Anwendungen wird von den Symbolen her nicht klar unterschieden zwischen dem ML-Schätzer und ML-Schätzwert). 4.3.4.4 Der Zusammenhang zur Entropie Bezogen auf das Beispiel zwei lässt sich sagen: Die Wahrscheinlichkeit für ein bestimmtes Ereignis (E) mit k Erfolgen bei n Versuchen ist: P(E) = πk (1-π)n-k = Likelihood (π). Die Maximum-Likelihood Schätzung ergibt den Schätzer k/n für π. Den Schätzer in die Likelihoodfunktion eingesetzt ergibt: max Lik (π) = (k/n)k ([n-k]/n)n-k π Zieht man daraus den natürlichen Logarithmus: ln (max Lik (π)) (= Loglik (π)) = k ln(k/n) + (n-k) ln([n-k]/n) = k ln(p1) + (n-k) ln (p2) = π = n p1 ln(p1) + n p2 ln (p2) = - n h(X) (= Entropie in nits) Skriptum Statistische Datenanalyse I WS 04/05 Seite 26 4.4 Lineare Regression Mit Hilfe der linearen Regression wird versucht, ein Zusammenhang zwischen einem X-Merkmal als Prädiktor und einem Y-Merkmale als Prädikand zu konstruieren, der die Form einer Geraden hat (es können auch mehr als ein Merkmal als Prädiktor oder als Prädikand betrachtet werden, in diesem Fall spricht man von multipler bzw. multivariater Regression). Die hier betrachtete Regression ist einfach und univariat. Natürlich passen die gezogenen Srichprobenwertepaare xi und yi nicht genau in die Geradengleichung. Deshalb behilft man sich mit einem Modell, dass Abweichungen miteinbezieht. Für die i. Stichprobe gilt demnach: Yi = α + βxi + εi Die Parameter α und β sind Populationsparameter, werden sie geschätzt spricht man von a (oder ̂ als Schätzer) bzw. von b (oder ̂ ). εi wird als Störgröße bezeichnet, von der angenommen wird, dass sie aus einer Normalverteilung mit μ = 0 und σ = σe stammt. Sowohl ̂ als auch ̂ haben eine Verteilung: ̂ hat den Erwartungswert E( ̂ ) = α, ist deshalb ein erwartungstreuer Schätzer, ̂ ist ebenfalls erwartungstreu und dazu noch konsistent, d. h. der Schätzer nähert sich mit zunehmender Stichprobengröße mit zunehmender Wahrscheinlichkeit dem Populationsparameter an. Auch bei der linearen Regressionsanalyse ist es möglich, ein PRE-Maß zu konstruieren: Der Anteil an Fehlerreduktion, der durch die Annahme eines linearen Zusammenhangs erreicht werden kann, bezeichnet man als Determinationskoeffizienten 2. Art oder R2 . Näheres zur linearen Regressionsananlyse s. Skript von Herrn Nagl: Einführung in die Statistik, S. 114ff. 4.4.1 Unterschied zwischen Residuen und Störgrößen Der Begriff Störgröße bezeichnet die Differenz zwischen der echten Geraden und den Stichprobenwertepaare in y-Ausrichtung, y geschätzte Gerade während der Begriff Residuum nur für die Differenz zwischen der geschätzten Geraden und den Stichprobenwertepaaren steht. Da für Störgrößen die Normalverteilungsannahme gilt, müssen sie in der Summe nicht Null ergeben. Die geschätzte Gerade wird mit echte Gerade der kleinste Quadrate-Schätzung ermittelt, daraus folgt, dass die Residuen in der Summe Null ergeben müssen (s. Streudiagramm rechts: die Wertepaare können zufällig alle oberhalb der echten Gerade liegen, während die Residuen immer in der Summe Null x ergeben). Eine optimale Anpassung von n Wertepaaren ist durch ein Polynom (n-1)ten Grades möglich. Diese Funktion verläuft durch alle Punkte im Streudiagramm. 4.4.2 Vorgehen im konkreten Fall Will man in einem konkreten Satz an Datenpaaren aus einer Stichprobe eine linearen Zusammenhang feststellen reicht es nicht, einfach die Geradenschätzer zu berechnen. Vielmehr muss man sein Vorgehen hinterfragen, dabei sind mehrere Schritte notwendig: 1. Man muss prüfen, ob eine lineare Funktion den Zusammenhang am besten beschreibt. 2. Man muss die zugrundeliegenden Annahmen überprüfen: 2.1 Normalverteilungsannahme der Residuen (Goodness of fit durch den Shapiro-Wilkoxon-Test) 2.2Gleichheit der Varianz der Residuen (Levene-Test) 3. Man muss den Schätzer für die Steigung testen, um überhaupt von einem Zusammenhang sprechen zu können. 4.4.3 Erweiterung der Regressionsanalyse In vielen Fragestellungen soll nicht nur ein einziger Prädiktor, sondern zugleich mehrere Prädiktoren berücksichtigt werden (Multiple Regression). Dabei wird der Prädiktions-Effekt jedes Prädiktors unter Berücksichtigung der andern (‚unter Konstanthaltung der andern‘) untersucht. Die multiple Regression soll hier nun am Beispiel der Regression mit zwei X-Variablen kurz erläutert werden: Skriptum Statistische Datenanalyse I WS 04/05 Seite 27 Die Modellgleichung sieht in diesem Fall folgendermaßen aus: y = α + β1x1 + β2x2 + ε Diese Gleichung lässt sich als Ebenengleichung interpretieren, wobei jeweils y = α + β1x1 die Schnittgerade dieser Ebene mit der x1y-Ebene und y = α + β2x2 die Schnittgerade der Ebene mit der x2y-Ebene darstellt. ε steht für die Störgröße. Das Pfaddiagramm des Modells mit zwei unabhängigen Variablen enthält implizit diese Modellgleichung. Eckige Kästchen stellen manifeste Variablen dar, also Variablen, die man erhoben hat, während runde Kästchen für Variablen stehen, die latent, d. h. hypothetisch vorhanden aber nicht erfassbar, sind. Auch wenn beide Variablen unabhängig sind, dürfen sie doch miteinander korrelieren. α x1 β1 y2 r12 ε β1 x2 4.5 Varianzanalyse Die Varianzanalyse beruht auf Prädiktionsregeln, den Mittelwertsregeln, auf deren Basis ein Test konstruiert wird, die sogn. ANOVA (ANalysis Of VAriance). Auf Basis der Mittelwertregeln lässt sich ein PRE-Maß konstruieren, welches angibt, wie viel Varianzanteil durch die Anwendung des Gruppenmittelwerts reduzierbar ist. Dieses Maß bezeichnet man als Determinationskoeffizient 1. Art oder η2 (auch R2). Als alternatives Fehlermaß kann auch das adjustierte η2 verwendet werden. 4.5.1 Die Hypothese, dass alle Mittelwerte gleich sind Die globale Null-Hypothese, dass alle Mittelwerte gleich sind ( 1 2 I ) enthält implizit mehrere Einzelhypothesen. Wenn alle Paare betrachtet werden, sind das I*(I-1)/2 (bei 10 Gruppen 45 Einzelhypothesen). Bei möglichst sparsamer Aufzählung genügen allerdings (I-1) Einzelhypothesen (z.B. (1 I ) ( 2 I ) ( I1 I ) ). Daher sind mindestens (I-1) Einzelhypothesen in dieser Globalhypothese enthalten (Beachte: I sei die Anzahl der Gruppen). Wenn alle Gruppen-Mittelwerte gleich sind, muss zudem gelten: Alle Gruppenmittelwerte sind gleich dem Gesamtmittelwert ( 1 2 I ) bzw. die Differenzen zum Gesamtmittelwert sind null ( 1 2 ... = I =0). Die Alternativhypothese ist die Verneinung der globalen Nullhypothese. Ihre Ablehnung besagt, dass zumindest eine Einzel-Nullhypothese nicht erfüllt ist (es können auch mehrere Einzel-Nullhypothesen verletzt sein). 4.5.2 Testen: Konfidenzintervalle und das Bonferoni-Verfahren Es gibt mehrere Möglichkeiten, anhand derer man entscheiden kann, welche Gruppenmittelwerte signifikant abweichen. Für eine grobe Einschätzung können die 95%-Konfidenzintervalle der einzelnen Gruppenmittelwerte herangezogen werden. Dazu trage man die einzelnen Mittelwerte mitsamt ihren Konfidenzintervallen in einem Streudiagramm auf. Überlappen sich die Konfidenzintervalle einzelner Gruppen überhaupt nicht, sind die Mittelwerte signifikant unterschiedlich, bei Überlappung können die Mittelwerte unterschiedlich sein, müssen es aber nicht sein. Eine eindeutige Entscheidung ist daher nicht immer möglich. Eine andere Möglichkeit ist, die einzelnen Mittelwerte paarweise gegeneinander zu testen. Hier offenbart sich allerdings ein anderes Problem. Testet man die einzelnen Hypothese auf einem Signifikanzniveau von 5%, ist also die Wahrscheinlichkeit, die Nullhypothese abzulehnen 5%, dann steigt die Wahrscheinlichkeit, die globale Nullhypothese abzulehnen, obwohl sie richtig ist, bei mehr als einer zu testenden Einzelhypothese über das Signifikanzniveau: Der Fehler 1. wird zu groß. Dies soll im folgenden verdeutlicht werden, wobei der Einfachheit von zwei Einzelhypothesenpaaren ausgegangen wird: Skriptum Statistische Datenanalyse I WS 04/05 Seite 28 Dabei sei: E1 das Ereignis „1. Hypothesenpaar signifikant unterschiedlich“, E2 das Ereignis „2. Hypothesenpaar signifikant unterschiedlich“, αE das Signifikanzniveau der einzelnen Tests (sollen als gleich angenommen werden), αA das Signifikanzniveau der gesamten Testbatterie. αA = P(E1 E2) = P(E1) + P(E2) – P(E1 E2) P(E1) + P(E2) = 2 αE αA liegt also irgendwo zwischen αE und 2αE . Verallgemeinernd lässt sich sagen: αA n αE (wobei n die Anzahl I an Einzeltests darstellt: n = ) 2 Bei zwei Einzeltests: Allgemein: Um zu verhindern, dass der Fehler 1. Art nicht über 5% ansteigt, αA 2 αE αA n αE müssen die Einzelsignifikanzniveaus adjustiert, das heißt hier 0,05 2 αE 0,05 n αE verschärft werden. Die Festlegung der Einzeltestsignifikanzniveaus αE 0,025 αE 0,05/n αE auf αA /n bezeichnet man als Bonferoni-Korrektur. Allerdings birgt auch dieses Vorgehen ein Problem: bei vielen Gruppen werden die Einzelsignifikanzniveaus schnell sehr klein. Das führt dazu, dass Unterschiede vielleicht vorhanden sind, allerdings schwer zu entdecken sind: Der Fehler 2. Art steigt an, deshalb verringert sich die Macht des Tests. Bsp: 10 Gruppen, 45 Einzeltests αA 45 αE 0,05 45 αE 0,05/45 αE 0,0011 αE αE = 0,0011 Lösungen für dieses Problem wären: - Aufteilung der Gesamtfragestellung in einzelne Fragestellungen, die getrennt getestet werden. Dies führt dazu, dass jede Testbatterie aus weniger Einzeltests besteht und die Adjustierung weniger scharf erfolgt. - Tests gegen die Besten: Man testet alle Gruppenmittelwerte nur gegen den höchsten Gruppenmittelwert, dies führt ebenfalls zu weniger Einzeltests. - Test gegen eine Kontrollgruppe: Man testet alle Mittelwerte gegen eine Kontrollgruppe, die keine Behandlung erfährt. Dies reduziert ebenfalls die Anzahl nötiger Einzeltests. - Holm-Modifikation der Bonferoni-Korrektur. 4.5.3 Holm-Modifikation Das Verfahren von Holm stellt eine Weiterentwicklung des Bonferoni-Verfahrens dar. Zuerst bestimmt man die P-Werte der m Einzeltest und ordnet diese der Größe nach an. Dann vergleicht man die P-Werte mit dem Wert, den das Bonferoni-Verfahren ergeben hat. Die Tests mit P-Werte, die kleiner sind, werden als signifikant angesehen. Danach zählt man die Tests, die noch nicht signifikant geworden sind. Aus dieser neuen Anzahl m* (= m – Anzahl signifikanter Tests) erstellt man ein neues Signifikanzniveau für die übrigen Test α*E (= α/m*), vergleicht die übrigen P-Werte damit, prüft, ob welche kleiner und damit signifikant sind, und wiederholt das Verfahren wieder, bis kein P-Wert mehr signifikant wird. Holm hat gezeigt, dass ein solches Verfahren Sinn macht. Bsp. mit 10 Einzelhypothesen und hypothetischen P-Werter (αE = 0,005, α*E = 0,0083, α`E = 0,01) m=10 m*=6 m`= 5 Test 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. P-Wert 0,0002 0,0004 0,0010 0,0012 0,006 0,05 0,10 0,3 0,63 0,85 Sign. niveau 0,005 0,005 0,005 0,005 0,0083 0,01 signifk.? ÓK OK OK OK OK NEIN ENDE Ab dem 6. Test erhält man auch mit einer erneuten Modifikation des Signifikanzniveaus keinen weiteren signifikanten P-Wert. 4.5.4 Vorrausetzungen für die Varianzanalyse Die Anwendung der Varianzanalyse ist nur dann möglich, wenn in den einzelnen Gruppen die Abweichungen vom Gruppenmittelwert normalverteilt sind und die Varianzen in den einzelnen Gruppen gleich sind. Diese Vorrausetzungen gilt es zu testen. Treffen sie nicht zu, können nonparametrische Verfahren einen Ausweg bieten. Skriptum Statistische Datenanalyse I WS 04/05 Seite 29 4.6 Zusammenfassung: Modellkonzeptionen der bisherigen bivariaten Verfahren Als bivariate Verfahren haben wir bisher die Regressionsanalyse, die Varianzanalyse und die logistische Regression kennengelernt. Genau betrachtet beruhen diese Verfahren auf Modellkonzeptionen, also Vorstellungen, wie die Daten theoretisch entstanden sind. Diese Modelle treffen dabei zum Teil Annahmen, die zuerst überprüft werden müssen, will man die dazugehörigen statistischen Verfahren anwenden. Diese Vorrausetzungen sollen kurz aufgeführt werden. 4.6.1 Varianzanalyse Die Modellgleichung in der Varianzanalyse lautet: y = μi + ε (i steht für die Gruppe). Für jede einzelne Gruppe gibt es einen festen Wert, dargestellt durch den gruppenspezifischen Mittelwert, wobei Abweichungen durch eine Störgröße beschrieben wird, die normalverteilt ist und für alle Gruppen die gleiche Varianz hat: ε ~ NV(0, e2 ). Einschub: Effektdarstellung Beispiel: Sei µ1=170, µ2=174, µ3=µ4=180. Darstellung der Gruppenun- Hier wird die sogenannte 1, Vs 1 terschiede mit Hilfe symmetrische Effektdarstellung µ1 symmetrischer Effekte: gewählt. 2, hS 2 Zerlegung des systematischen µ 2 Teils in eine Summe aus einer i k i , 3, Abi 3 Konstanten (‘allgemeines dabei werden die i so gewählt, dass µ3 Niveau’) und spezifischen 4, Uni die Summe der gleich 0 ist: 4 i Gruppeneffekten. Je nach y 185 165 170 175 180 1 2 ... I 0 Wahl des allgemeinen µ4 Niveaus können unterschied- Daraus folgt, dass k der ungewichtete µ liche Arten von Effektdarstel- Mittelwert der einzelnen µ‘s ist: Dann ist µ=176 (=(170+174+180+180)/4). lungen eingeführt werden. Die Effekte sind: 1= -6, 2=-2, 3=4=4. So 2 ... I sieht man die Unterschiede der einzelnen k 1 =:µ I Gruppen etwas besser. Gruppe 1 liegt um 6, Die Effekte stellen die für die Gruppe 2 um 2 unter dem allgemeinen Die Effekte stellen hier die Differenz Gruppe spezifische AbweiNiveau; die Gruppen 3 und 4 liegen um 4 cm zum ungewichteten Mittelwert dar: chung dar. darüber. i i 4.6.2 Logistische Regression Der Anteil der erfolgreichen Ereignisse E (wie auch immer man diese definiert) in Abhängigkeit von einem XMerkmal wird durch eine logistische Funktion dargestellt: P(E|x) = eα βx 1 eα βx Annahmen. Deshalb ist in diese Richtung auch keine Prüfung erforderlich. . Das logistische Modell trifft keine 4.6.2 Regressionsanalyse Bei der Regressionsanalyse unterscheidet man zwischen zwei Varianten, der klassischen und der stochastischen Regression. Beide Modelle unterscheiden sich in ihren Annahmen leicht. Klassische Regressionsmodell: Dieses Modell stellt einen Zusammenhang zwischen zwei Variablen her, der folgende Form hat: y = α + βx + ε. Die Störgröße ist dabei eine Variable, die normalverteilt ist: NV(0, e2 ). Bei der Anwendung dieses Modells sind die Annahmen der Normalverteilung und der Gleichheit der Varianz aller Störgrößen zu prüfen. Das Modell ist univariat: Nur die Y-Variable ist normalverteilt, man spricht hier auch von einer Theorie der Regression. Skriptum Statistische Datenanalyse I WS 04/05 Seite 30 X-Stochastisches Regressionsmodell: Das stochastische Modell trifft zusätzlich noch eine Annahme, indem es davon ausgeht, dass die X-Variable normalverteilt ist. Das Modell ist bivariat, man spricht hier von einer Theorie der Korrelation. Die Darstellung der Dichtefunktion zweier Merkmale (=bivariate Dichtefunktion): Bei großen Stichproben ist die Gefahr sehr groß, dass bei Streudiagrammen mehr als ein Datenpunkt an einem Koordinatenpunkt vorhanden ist. Mehrfachbesetzungen können mit Hilfe der dritten Dimension (Dichte) berücksichtigt werden (wie bei der Darstellung der eindimensionalen Verteilung). Bei diskreten Merkmalen könnten Stäbe eingezeichnet werden. Bei stetigen Merkmalen (bzw. bei Klasseneinteilungen) können dreidimensionale Quader verwendet werden (bivariates Histogramm). Beispiel: Gewicht und Körpergröße für 54 Personen der Studentenuntersuchung (von den 55 Personen fehlt eine Größenangabe). Schon bei nur 54 Personen haben mehrere Personen gleiche x-y-Wertepaare. Klasseneinteilung beider Merkmale (Werte an der Klassengrenze wurden aus inhaltlichen Gründen jeweils der nächstfolgenden Klasse zugeordnet) führt zu einem bivariaten Histogramm. Bivariates Histogramm 195 y 185 Dichte f(x, y) 175 165 195 185 155 45 145 35 55 x:Gewicht 45 55 65 75 85 x 95 65 165 75 85 95 155 175 y:Größe Beispiel: Die bivariate Normalverteilung dient häufig als Beschreibung der Verteilung zweier Merkmale in der Population. Für die Darstellung einer Bivariate Standard-Normalverteilung (x=0, x=0, x=1, y=1), ist hier =0.60. bivariaten, stetigen Population Kontur-Darstellung wird ebenfalls die f(x,y) Dichtefunktion Dichtefunktionsdarstellung verwendet, bei der für jeden (x,y) Wert die Dichte f(x,y) berechnet wird. Die Darstellung der Höhenschichtlinien (Isohypsen) des ‘DichteBerges’ wird auch als KonturDiagramm bezeichnet. Beispiele von Kontur-Diagrammen für unterschiedliche Populationskorrelationskoeffizienten . Die Funktion der bivariaten StandardNormalverteilung hängt nur vom Parameter ab: f ( x , y) 1 2 1 2 exp( x 2 2 xy y 2 2(1 2 ) ) . Die Kontur-Diagramme zeigen, wo und wie die Messwertpaare liegen müssten, falls die beiden Merkmale bivariat normalverteilt sind mit einem bestimmten . =-0.99 =-0.40 =0 Bei der Regressionsanalyse wird ein Zusammenhang zwischen zwei Merkmalen hergestellt, der die Form einer Geraden hat: Dabei ist die Gerade umso steiler, je höher beide Merkmale korrelieren. Bei Nullkorrelation ist die Steigung der Gerade Null. Skriptum Statistische Datenanalyse I WS 04/05 Seite 31 4.7 Konstanthaltung von Variablen: Kovarianzanalyse Allerdings sei bekannt, dass sich die Gruppen in einer (für y vermutlich relevanten) quantitativen x-Variablen unterscheiden. Dieser Unterschied in der x-Variablen sollte den Gruppenvergleich nicht beeinträchtigen. Beispiel: Der Gewichtsunterschied zwischen Männern und Frauen (Sex als qualitativer Faktor)soll festgestellt werden. Nun sind aber Männer meist auch größer (Körpergröße als quantitatives x-Merkmal). Soll der Größenunterschied berücksichtigt werden, könnten eventuell nur die Personen im schmalen Überlappungsbereich untersucht werden, in dem sowohl Frauen als auch Männer zu finden sind. Gewicht in kg Wie in der Varianzanalyse soll der Unterschied bezüglich y zwischen Gruppen festgestellt werden. 95 Überlappun gsbereich 85 75 Eine Möglichkeit bestünde darin, nur UEen im Überlappungsbereich des quantitativen xMerkmals für den Gruppenvergleich heranzuziehen; dann müsste aber die Stichprobe eventuell stark verkleinert werden. Zudem ist es sehr schwierig, einen angemessenen Überlappungsbereich zu definieren. 55 45 35 150 160 170 180 190 Größe in cm Es wird unterstellt, dass die beiden Regressionsgeraden (innerhalb beider Gruppen) die gleiche Steigung haben. Gewicht in kg Die Kovarianzanalyse wählt einen anderen Weg: Es wird unterstellt, dass zwischen x und y ein linearer Zusammenhang besteht; und zwar soll die Steigung in beiden Gruppen gleich sein (Parallelität). Dies muss getestet werden. Dann kann der Unterschied zwischen den Gruppen an jeder beliebigen Stelle des quantitativen Merkmals als Höhenunterschied zwischen den Geraden abgelesen werden. Auf diese Art kann der Unterschied zwischen den Gruppen unter Berücksichtigung des Einflusses des x-Merkmals (d.h. unter Konstanthaltung von x) festgestellt werden. 65 95 85 75 Gruppenunterschied 65 55 45 35 150 160 170 180 190 Größe in cm Die Konstanthaltung von x kann insofern von Bedeutung sein, als dass durch sie Gruppenunterschiede besser bewertet werden können, als wenn man nur die Gruppenmittelwerte betrachtet. Wie Herr Nagl mit seinem Zahnarztbeispiel gezeigt hat, können sich Gruppendifferenzen durch Konstanthaltung von x sogar umkehren. Ist die Steigung beider Regressionsgeraden nicht gleich, sind die Niveauunterschiede zwischen den Gruppen je nach x-Position unterschiedlich. Bei gleicher Geradensteigung lässt sich das Regressionsmodell erweitern: y = α + βx + γ * (Dummy) γ ist der Unterschied in y-Ausrichtung zwischen den beiden Regressionsgeraden, dieser wird mit einer Dummyvariablen multipliziert, die für eine Gruppe 1 (obiges Beispiel: Männer) für die andere Gruppe 0 (obiges Beispiel: Frauen) annehmen kann. Skriptum Statistische Datenanalyse I WS 04/05 Seite 32 5. Prädiktion mit mehreren Prädiktoren In diesem Kapitel soll für die Prädiktion eines Merkmals mehr als eine Variable betrachtet werden. Diese Prädiktionsart wird auch multiple Prädiktion (von mehrfach) genannt. Im allgemeinen kann durch die Hinzunahme zusätzlicher Merkmale als Prädiktoren die Prädiktion verbessert werden. Zu dieser ‚multiplen’ Fragestellung (um wie viel besser ist die Prädiktion insgesamt?) tritt die spezielle auf einzelne Merkmale bezogene ‚partielle’ Fragestellung auf (um wie viel besser ist die Prädiktion durch Erweiterung der bereits vorhandenen Prädiktoren um etwa ein einziges zusätzliches Merkmal?). 5.1 Strukturdiagramme Anhand eines Einführungsbeispiels und der Einführung von sogenannten Pfadregeln sollen der Umgang mit Strukturdiagrammen aufgezeigt werden. 5.1.1 Einführungsbeispiel Erfolgsmodell Die Variable Erfolg hängt von einem Netz weiterer Variablen ab, die hier in Form eines Pfaddiagramms dargestellt sind, man spricht hier also von multipler Prädiktion. Zu beachten ist, dass das Modell mit multipler Prädiktion nur eine Erweiterung des Regressionsmodells mit zwei Prädiktorvariablen darstellt. Die formalen Regeln des Pfaddiagramms gelten auch für die multiple Fragestellung. (E) 10 (K) 15 Erfolg Kreativ (A) GemKreativ -0.5 0.5 Iz 10 (EM) Sex 10 0 ArbMotiv (AM) 10 0 10 10 (AM) ZukOrient 10 0;1 (D) 0.25 10 (Iz) Angst 4 (ZO) 15 0.5 10 Depr -1 ArbMotiv ErfMotiv (SE) 10 SchulErf Dieses Modell stellt letztenendlich nichts anderes als ein Netz von Gleichungen dar (Bsp: Erfolg = 0,5 Schulerfolg + Kreativität + 10 ε(E); Jeder „Knoten“, also jede Variable auf die Pfeile zulaufen, kann dabei durch die Variablen ausgedrückt werden, von denen die Pfeile kommen. Die Verknüpfung der einzelnen Variablen erfolgt additiv, die Koeffizienten der Pfeile werden dabei multiplikativ mit den dazugehörigen Variablen kombiniert). Man spricht hier deshalb von einzelnen Strukturgleichungen, in Bezug auf das Modell von einem Strukturgleichungsmodell. Die Koeffizienten bezeichnet man als Strukturkoeffizienten oder auch Regressionskoeffizienten. Bei ungewichteten Pfeilen haben die Koeffizienten den Wert 1. Skriptum Statistische Datenanalyse I WS 04/05 Seite 33 Stichprobe Mittelwert -0.45 0.51 0.28 -0.17 5.69 6.68 11.77 1.01 3.33 15.47 8.23 Iz sex Kreativ gemKreativ ZukOrient ArbMotiv ErfMotiv Angst Depr Schulerf Erfolg Varianz 204.49 0.25 236.54 444.37 186.87 253.76 274.56 112.36 1965.15 2760.45 1024.00 Theoretischer Standardabw. 14.3 0.5 15.38 21.08 13.67 15.93 16.57 10.6 44.33 52.54 32 Formel 15*eps Uniform(0;1) 15*eps Kreativ+Iz 10*sex+0.5*Iz+10*eps ZukOrient+10*eps 10*sex+ZukOrient+10*eps 0.25*zukOrient-0.5*Iz+10*eps 4*Angst+10*eps ArbMotiv+ErfMotiv-Depr+10*eps 0.5*Schulerf+Kreativ+10*eps Bemerkungen eps ist jeweils Standard-NV, jeder Wert "unabhängig" von jedem anderen gezogen aus Standard-NV 100 Fälle wurden erzeugt = Stichprobe (n=100) Theretische Population Mittelwert 0 0.5 0 0 5 5 10 1.25 5 10 5 Iz sex Kreativ gemKreativ ZukOrient ArbMotiv ErfMotiv Angst Depr Schulerf Erfolg Varianz 225.00 0.25 225.00 450.00 181.25 281.25 356.25 139.45 2331.25 3606.3 1226.6 Standardabw. 15 0.5 15 21.21 13.46 16.77 17.64 11.81 48.28 55.78 33.21 Formel 15*eps Uniform(0;1) 15*eps Kreativ+Iz 10*sex+0.5*Iz+10*eps ZukOrient+10*eps 10*sex+ZukOrient+10*eps 0.25*zukOrient-0.5*Iz+10*eps 4*Angst+10*eps ArbMotiv+ErfMotiv-Depr+10*eps 0.5*Schulerf+Kreativ+10*eps Matrix der Varianzen und Kovarianzen (theoretisch) IZ IZ SEX KREATIV GEMKREA ZUKORI ARBMOT ERFMOT ANGST DEPR SCHULE ERFOLG 225 0 0 225 112.5 112.5 112.5 -84.38 -337.5 562.5 281.25 SEX 0 0.25 0 0 2.5 2.5 5 0.63 2.5 5 2.5 Kreativ 0 0 225 225 0 0 0 0 0 0 225 GemKrea ZUKORI 225 112.5 0 2.5 225 0 450 112.5 112.5 181.25 112.5 181.25 112.5 206.25 -84.38 -10.94 -337.5 -43.75 562.5 431.25 506.25 215.63 ARBMOT ERFMOT ANGST DEPR SCHULE 112.5 112.5 -84.38 -337.5 562.5 2.5 5 0.63 2.5 5 0 0 0 0 0 112.5 112.5 -84.38 -337.5 562.5 181.25 206.25 -10.94 -43.75 431.25 281.25 206.25 -10.94 -43.75 531.25 206.25 356.25 -4.69 -18.75 581.25 -10.94 -4.69 139.45 557.81 -573.4 -43.75 -18.75 557.81 2331.3 -2394 531.25 581.25 -573.4 -2394 3606.3 265.63 290.63 -286.7 -1197 1803.1 ERFOLG 281.25 2.5 225 506.25 215.63 265.63 290.63 -286.7 -1197 1803.1 1226.6 Standardisierung: Die im Modell vorkommenden Variablen lassen sich standardisieren, dementsprechend ändern sich auch die Koeffizienten. Nach der Standardisierung sind alle Mittelwerte aller Variablen gleich 0 und ihre Varianzen gleich 1. Dies hat zur Folge, dass die Kovarianz zwischen zwei Variablen gleich ihrer Korrelation wird, man sagt dann, die Koeffizienten sind standardisiert. Dies allerdings ist nicht ganz korrekt, denn eigentlich sind ja die Variablen standardisiert worden. Skriptum Statistische Datenanalyse I WS 04/05 Seite 34 (E) 0.29 (K) 1 0.43 Kreativ 0.71 (A) GemKreativ -0.64 Angst 0.98 0.29 0.74 (Iz) 1 0.56 Iz 0.80 1 0.71 (EM) Sex 0.53 0 (AM) 0.26 0 10 (D) 0.21 (AM) ZukOrient 0.37 0;1 0.86 0.85 0.71 (ZO) Erfolg Depr 0.60 ArbMotiv -0.8 0.28 ArbMotiv ErfMotiv (SE) 0.17 0.29 SchulErf Populations (‘theoretische’) Korrelationen Iz Iz Sex Kreativ GemKreativ ZukOrient ArbMotiv ErfMotiv Angst Depr SchErf Erfolg 1 0 0 0.71 0.56 0.45 0.4 -0.48 -0.47 0.62 0.54 Sex 0 1 0 0 0.37 0.3 0.53 0.11 0.1 0.17 0.14 Kreativ GemKrea ZukOrient ArbMotiv 0 0.71 0.56 0.45 0 0 0.37 0.3 1 0.71 0 0 0.71 1 0.39 0.32 0 0.39 1 0.8 0 0.32 0.8 1 0 0.28 0.81 0.65 0 -0.34 -0.07 -0.06 0 -0.33 -0.07 -0.05 0 0.44 0.53 0.53 0.43 0.68 0.46 0.45 ErfMotiv 0.4 0.53 0 0.28 0.81 0.65 1 -0.02 -0.02 0.51 0.44 Angst -0.48 0.11 0 -0.34 -0.07 -0.06 -0.02 1 0.98 -0.81 -0.69 Depr -0.47 0.1 0 -0.33 -0.07 -0.05 -0.02 0.98 1 -0.83 -0.71 SchErf 0.62 0.17 0 0.44 0.53 0.53 0.51 -0.81 -0.83 1 0.86 Erfolg 0.54 0.14 0.43 0.68 0.46 0.45 0.44 -0.69 -0.71 0.86 1 5.1.2 Pfaddiagrammregeln Mit Hilfe der „Pfaddiagrammregeln“ lassen sich die Kovarianzen zwischen einzelnen Variablen ermitteln. Die Kovarianz zwischen zwei Variablen X und Y kann folgendermaßen berechnet werden: 1. Beginne einen Pfad in X (bzw. Y) entgegen der Pfeilrichtung. Der Pfad wird weiterverfolgt, bis die „Zielvariable“ X (bzw. Y) erreicht ist. Dabei ist höchstens eine Richtungsänderung zulässig. Das Pfadstück mit der Richtungsänderung sei die „Traverse“. Falls keine Richtungsänderung eintritt ist die „Zielvariable“ die Traverse. 2. Multipliziere alle Koeffizienten (=Konstanten der Linearkombinationen) entlang eines Pfades. Bei der Traverse multipliziere die Covarianz zwischen den Variablen (bei Doppelpfeil-Traversen), sonst die Varianz. 3. Addiere die Produkte aller verschiedenen Pfade (Zwei Pfade sind verschieden, wenn nur ein einzelnes Teilstück verschieden ist). Sind die Variablen standardisiert(d.h. sie haben den Mittelwert Null und die Standardabweichung 1), sind die Kovarianzen zwischen Variablenpaaren gleich deren Korrelationen. Skriptum Statistische Datenanalyse I WS 04/05 Seite 35 5.1.3 Ergänzungen Beispiel 1: Scheinkorrelation und Mediatoren εy y a z b Korrelation (Annahme: x, y, z standartisiert): y = a z + εy Cor (x,y) = a b x = b z+ εx Dies ist eine Scheinkorrelation: x und y haben keinen direkten Einfluss aufeinander, korrelieren aber trotzdem. Variablen, die einen Einfluss „vermitteln“, bezeichnet man als Mediatoren. Hier ist z ein Mediator. Die durch z entstandene Scheinkorrelation zwischen y und x läßt sich durch Konstanthaltung beheben, indem man die partielle Korrelation zwischen x und y unter Konstanthaltung von z verwendet: Gleichungen: b x εx x Gleichungen: a z y y = a z + εy εy x = b z + εz εy rxy.z = r(x.z) (y.z) = rxy rxz ryz 2 2 (1 - ryz )(1 rxz ) Beispiel 2: εx x b c εy y Gleichungen: Korrelationen (Annahme: x, y, z standartisiert): y = b x + a z + εy Cor (x,y) = b + a c Unter Umständen kann eine solche Korrelation Null sein (hypothetisches Beispiel): Cor (x,y) = 24 + (-6)* 4 = 0 Dennoch besteht zwischen den Variablen ein Einfluss, der sich allerdings rechnerisch aufhebt. Cor (x, z) = c x = c z + εx a z Beispiel 3: Doppelpfeile x b Cov (x,z) y a z Doppelpfeile spezifizieren einen nicht näher bestimmten Zusammenhang. Sie bedeuten aber nicht, dass der kausale Einfluss wechselseitig ist. Doppelpfeile sind u. a. nützlich, um ganze Variablennetze zu vereinfachen: Man läßt die Variablen weg, die einen nicht interessieren, die aber einen Einfluss haben, und ersetzt sie durch den Doppelpfeil. Dabei nimmt man einfach eine Kovarianz an. Bei der Berechnung der Kovarianz zwischen zwei Variablen steht ein Doppelpfeil immer für eine Richtungsänderung. Beispiel 4: Faktorenanalyse f1 a4 a1 a2 a3 x1 u1 x2 u2 x3 u3 x4 u4 b1 f2 b2 b3 b4 Bei der Faktorenanalyse wird versucht, von gemessenen Variablen auf diesen zugrundeliegende, latente Faktoren zu schließen. Korrelieren diese Faktoren nicht miteinander, spricht man von einer orthogonalen Faktorenanalyse, korrelieren sie, spricht man von einer schiefwinkeligen Faktorenanalyse. Die Regressionskoeffizienten bezeichnet man als Ladungen und die Störgrößen werden mit u abgekürzt. Cor(x1, x2) = a1 a2 + b1 b2 Cor(f1,x1) = a1 Alle Variablen sind standartisiert. Skriptum Statistische Datenanalyse I WS 04/05 Seite 36 5.1.4 Umrechnung der Pfadkoeffizienten Es ist möglich, die Koeffizienten in einem Pfaddiagramm mit nichtstandartisierten Variablen direkt in standartisierte Pfadkoeffizienten umzurechnen: bi = βi Std(y)/Std(xi); βi = bi Std(xi)/Std(y) bi steht für den nichstandartisiertem Pfadkoeffizienten, βi für den entsprechenden standartisierten Pfadkoeffizienten. Denn: y = b1 x1 + b2 x2 + ... + bi xi + … + bn-1 xn-1 + bn xn + ε (n unabhängige Variablen) y* = β1 x*1 + β2 x*2 + … + βi x*i + …+ βn-1 x*n-1 + βn x*n + ε (entsprechende standartisierte Variablen) Eingestetzt in die 2. Gleichung: y* = y/Std(y) x*i = xi/Std(xi) y/ Std(y) = β1 x1/Std(x1) + β2 x2/Std(x2) + … + βi xi/Std(xi) + …+ βn-1 xn-1/Std(xn-1) + βn xn/Std(xn) + ε y = β1 x1 (Std(y)/Std(x1)) + β2 x2 (Std(y)/Std(x2)) + … + βi xi (Std(y)/Std(xi)) + …+ βn-1 xn-1 (Std(y)/Std(xn-1)) + + βn xn (Std(y)/Std(xn)) + ε Std(y) verglichen mit der 1. Gleichung kommt man auf obige Formel. 5.1.5 Pfaddiagramm und Regressionsgleichung x1 b y x2 ε Pfaddiagramme sind in erster Linie visualisierte Regressionsgleichungen (hier: y = a x1 + b x2 +ε). Die Bezeichnung Kausaldiagramm für Pfaddiagramm ist problematisch, weil Regression kausal sein kann, aber nicht sein muss. a 5.1.6 Kovarianzregeln Die Kovarianz ist symmetrisch. Der Verschiebungssatz zur Berechnung der Kovarianz für ‚krumme’ Erwartungswerte. Die Varianz einer Variablen ist gleich der Kovarianz der Variablen mit sich selbst. Die Kovarianz einer Variablen mit einer Konstanten ist gleich 0. Cov(X,Y) = Cov(Y,X) Cov(X,Y) = E(XY) – E(X)E(Y) Var(X) = Cov(X, X) Cov(X, k) = 0, wenn k eine Konstante ist. Denn: Nach Definition gilt Cov(X,Y)=E (X – E(X)) (Y-E(Y)) = Wegen Multiplikationskommutativität = E (Y – E(Y)) (X-E(X)) = Cov(Y,X) nach Definition. Wzzw. Denn: Nach Definition gilt Cov(X,Y)= E (X – E(X)) (Y-E(Y)) = Ausmultiplizieren der Klammern =E(XY- XE(Y) - E(X)Y +E(X)E(Y)) = nach E-Summenregel =E(XY) – E(X)E(Y) - E(X)E(Y) +E(X)E(Y) = E(XY)E(X)E(Y). Wzzw. Dabei wurde die Summenregel für die Erwartungswerte, die Konstanten-Produktregel und die Tatsache angewandt, dass E(X) und E(Y) selbst Konstanten sind. Denn: Nach Definition gilt Cov(X, X)=E (X – E(X)) (X-E(X)) = E (X – E(X))2 = Var(X) nach Definition der Varianz. Wzzw. Denn: Nach Definition gilt Cov(X, k)=E (X – E(X)) (k-E(k)) = E (X – E(X)) (k- k ) = 0; Denn der Erwartungswert einer Konstanten ist gleich der Konstanten (k = E(k)). Wzzw. Da in diesem Abschnitt immer wieder Linearkombinationen verwendet werden, werden zwei Linearkombinationen vorangestellt: Skriptum Statistische Datenanalyse I WS 04/05 Die hier betrachteten Linearkombinationen sind gewichtete Summen von Zufallsvariablen; die Gewichte sind fest (konstant). Lx=a0+a1X1+a2X2+…+amXm Ly=b0+b1Y1+b2Y2+…+bnYn wobei alle ai und bj Konstanten, alle Xi und Yj Zufallsvariablen sind. Seite 37 Beispiel: Die Differenz zweier Zufallsvariablen X1 – X2 ist als Linearkombination darstellbar durch die Wahl von a0 als 0, a1 als 1 und a2 als -1. Beispiel: Im Rahmen linearer Modelle kann eine Regressionsgleichung als Linearkombination interpretiert werden: Y= a0+a1X + U, mit Y als Prädikand und X als Prädiktor; U sei die Störgröße (X sei ein stochastischer Prädiktor). Die Koeffizienten sind konstante Größen. Regel für die Kovarianz zweier Linearkombinationen Die Kovarianz zweier Linearkombinationen ist Cov(a +a X +a X +…+a X , b +b Y +b Y +…+b Y ) = 0 1 1 2 2 m m 0 1 1 2 2 n n die Summe aller produkta1b1Cov(X1,Y1)+ a1b2Cov(X1,Y2)+ ... + a1bnCov(X1,Yn)+ gewichteten Kovarianzen der Variablenpaare. +a2b1Cov(X2,Y1)+ a2b2Cov(X2,Y2)+ ... + a2bnCov(X2,Yn)+ … … .… … +amb1Cov(Xm,Y1)+ amb2Cov(Xm,Y2)+ ... + ambnCov(Xm,Yn) b1Y1 b2Y2 … bnYn a1 a2 … am X1 X2 … X3 Spezialfälle Die Kovarianz einer Variablen mit einer Cov(X , b0+b1Y1+b2Y2+..+bnYn ) = b1Cov(X ,Y1)+b2Cov(X ,Y2)+..+bnCov(X ,Yn ) Linearkombination. Die Kovarianz einer VariCov(X , Y1+Y2+…+Yn ) = Cov(X ,Y1)+ Cov(X ,Y2)+…+ Cov(X ,Yn ) ablen mit einer Summe. Wie schon erwähnt ist die Varianz einer Variablen gleich der Kovarianz dieser Variablen mit sich selbst. Dies gilt auch für Linearkombinationen: Die Kovarianz zweier gleicher Linearkombinationen Var(X1-X2)=Cov(X1-X2 , X1-X2 ) = Cov(X1,X1)Cov(X1,X2)X1 -Cov(X2,X1)+ Cov(X2,X2) -X2 X1 -X2 = Cov(X1,X1) + Cov(X2,X2) - 2Cov(X1,X2) = Var(X1) + Var(X2) - 2Cov(X1,X2) = = Var(X1) + Var(X2) wenn X1 und X2 nicht kovariieren. Var(X1+X2) = Cov(X1+X2, X1+X2) = Var(X1) + Var(X2) + 2Cov(X1,X2) Die Kovarianz ist Null, wenn beide Variablen nicht korrelieren. In diesem Fall ist die Varianz einer Summe zweier Variablen gleich deren Differenz. Varianz einer Regressionsgleichung mit zwei Prädiktoren Var(Y) = Var(a0+a1X1+a2X2+ε) = Cov(a0+a1X1+a2X2+ε, a0+a1X1+a2X2+ε ) a1 2 Cov(X1,X1)+ a1a2Cov(X1,X2)+ +a1a2Cov(X2,X1)+ a22 Cov(X2,X2)+ +a1Cov(Xm,ε)+ a2Cov(ε,Y2)+ a1X1 a2X2 a1Cov(X1,ε)+ a2Cov(X2,ε)+ Cov(ε,ε) ε = a 1 X1 a 2 X2 ε = a1 2 Var(X1) + a22 Var(X2) + 2a1a2 Cov(X1,X2) + Var(ε) Die Kovarianzen einer Prädiktorvariablen mit einer Störgröße sind gleich Null, weil sie nicht korrelieren. Dieses Ergebnis erhält man auch unter Anwendung der Pfadregeln in einem Pfaddiagramm: Skriptum Statistische Datenanalyse I WS 04/05 a1 X1 Seite 38 a1 Cov(X1,X2) ε a2 X2 Var(Y) = Cov (Y, Y`) = = a1 2 Var(X1) + a22 Var(X2) + + 2a1a2 Cov(X1,X2) + Var(ε) Y a2 Y` 5.2 Partielle, semipartielle und multiple Korelationskoeffizienten Hat man mehrere Prädiktoren, kann man verschiedene Erklärungsmodelle einführen. Davon abhängig ist es möglich verschieden PRE-Maße zu konstruieren: Partielle, semipartielle und multiple Korrelationskoeffizienten. 5.2.1 Spezialfall: Modell mit zwei Prädiktoren F(-) y FR(x2) FR( x1) F(x1) y=a(y) x2 x1 F(x2) y = a + b2x2 y = a + b1x1 FR(x1, x2) FR(x2|x1) y = a + b1x1 + b2x2 FR(x1|x2) x1,x2 F(x1,x2) Die Prädiktion von y kann durch mehrere Erklärungsmodelle erfolgen: durch eine Konstante (dem Mittelwert von y), durch jeweils eine Prädiktorvariable getrennt, oder durch beide Prädiktoren gemeinsam. Jedes Modell kann allerdings nicht vollständig die Variabilität von y erklären, es verbleibt ein Fehler (F). Allerdings kann dieser Fehler reduziert werden, wobei die Größe der Fehlerreduktion (FR) vom verwendeten Modell abhängt. Die Fehlerreduktion ist die Differenz zwischen dem Fehler ohne Berücksichtigung von x und dem Fehler des jeweiligen Erlärugsmodell. Die Fehlerreduktion durch eine Variable unter Bedingung der zweiten drückt die zusätzliche Verbesserung in der Prädiktion aus, die erreicht werden kann, wenn man zusätzlich zu einer Prädiktorvariable eine weitere zur Prädiktion ins Spiel bringt. Darauf aufbauend lassen sich verschiedene Korrelationskoeffizienten konstruieren: Determinationskoeffizient 2. Art: FR(x1)/F(-) bzw. FR(x2)/F(-) Semipartielle Korelationskoeffizient: FR(x2|x1)/F(-) bzw. FR(x1|x2)/F(-) Partielle Korrelationskoeffizient: FR(x2|x1)/F(x1) bzw. FR(x1|x2)/F(x2) Multiple Korrelationskoeffizient: FR(x1, x2)/F(-) 5.2.2 Ballantines Von J. Cohen entwickelt bieten die sogn. Ballantines eine Möglichkeit, die obigen Korrelationskoeffizienten durch Venn-Diagramme auszudrücken. Dies soll exemplarisch mit zwei Prädiktoren X 1 und X1 für Y vorgeführt werden (Notation s. unten): Skriptum Statistische Datenanalyse I WS 04/05 r2y x1 = a + c r2y x2 = b + c Y e mr2yx1, x2 = a + b + c sr2y(x1.x2) = a sr2y(x2.x1) = b b a Seite 39 c X1 pr2y(x1.x2) = a/(a+e) pr2y(x1.x2) = b/(b+e) X2 Partieller und semipartieller Korrelation bei zwei Prädiktoren x und z für y kann aus den Korrelationen zwischen diesen drei Variablen errechnet werden: sry(x.z) = r yx r yz rxz ; pry(x.z) = 2 1 rxz ryx ryz rxz 2 2 (1 ryz )(1 rxz ) 5.2.3 Verallgemeinerung Bis jetzt wurden Determinationskoeffizient 2. Art, der semi- und der partielle, sowie der multiple Korelationskoeffizient nur anhand von zwei Prädiktoren erläutert. Prinzipiell können diese Koeffizienten aber in einem Modell mit beliebig vielen Prädiktoren errechnet werden. Deshalb sollen ihrer Formeln verallgemeinert werden: Gegeben: m Prädiktoren für einen Prädikant, Fehler ohne Berücksichtigung von X Fy(-), Fehler bei Prädiktion mit einem Prädiktor xi Fy(xi), Fehler bei der Prädiktion durch m-1 Prädiktoren Fy(x1, x2, ..., xm-1), Fehler bei der Prädiktion durch m Prädiktoren Fy(x1, x2, ..., xm-1, xm) Determinationskoeffizient 1. Art: r2yxi = Fy () Fy ( xi) FY () = 1 Fy ( xi) FY () Partieller Korrelationskoeffizient: pr2y(xm.x1,x2,…,xm-1) = Fy ( x1, x2 ,..., xm1) Fy ( x1, x2 ,..., xm1, xm ) FY ( x1, x2 ,..., xm1) = 1 Fy ( x1, x2 ,..., xm1, xm ) FY ( x1, x2 ,..., xm1) Semipartieller Korrelationskoeffizient: sr2y(xm.x1,x2,…,xm-1) = Fy ( x1, x2 ,..., xm1) Fy ( x1, x2 ,..., xm1, xm ) FY () Multiper Korrelationskoeffizient : mr2yx1,x2,…,xm = Fy () Fy ( x1, x2 ,..., xm1, xm ) FY () = 1 Fy ( x1, x2 ,..., xm1, xm ) FY () Additive und multiplikative Verknüpfung (am Beispiel von vier Prädiktorvariablen s, x, w, z für y): mr2ys,x,w,z = Fy () Fy ( s, x, w, z ) FY () = Fy () Fy (s) FY () + Fy (s) Fy (s, x) FY () + Fy (s, x) Fy (s, x, w) FY () + Fy (s, x, w) Fy (s, x, w, z ) FY () = r2ys + + sr2y(x.s) + sr2y(w.sx) + sr2y(z.sxw) 1- mr2ys,x,w,z = Fy ( s, x, w, z ) FY () = Fy ( s) Fy ( s, x) Fy ( s, x, w) Fy ( s, x, w, z ) Fy () Fy ( s) Fy ( s, x) Fy ( s, x, w) = (1- r2ys) (1- pr2y(x.s)) (1- pr2y(w.sx)) (1- pr2y(z.sxw)) Skriptum Statistische Datenanalyse I WS 04/05 Seite 40 5.2.4 Behandlung von Drittvariablen Gegeben seien zwei Variablen x, y und eine Drittvariable z (Annahme: alle Variablen standartisiert): Mediation durch z: a x b z Hier ist z Mediator. Ist c gleich Null spricht man von z als strikten Mediator. Ob dies der Fall ist, kann man auf mehre Arten herausfinden. Eine Möglicheit besteht darin, die partielle Korrelation zwischen x und y unter Konstanthaltung von z zu errechnen. Diese wird Null, wenn c Null y c ist: pry(x.z) = rxy ryz rxz = 2 2 (1 ryz )(1 rxz ) (c b a) a (b c a) .......... = 0 wenn c = 0 Intervenierende Variablen: z Lazersfeld bezeichnet Mediatoren als sogenannte intervenierende Variablen, in Abgrenzung zu antezedierenden (zeitlich vorgelagerte) Variablen. Hier ist z antezedierend. y x Scheinkorrelation: Obwohl x und y keinen direkten Einfluss aufeinander haben, korrelieren sie trotzdem. Man spricht hier von einer Scheinkorrelation, die durch z vermittelt wird. Eine Scheinkorrelation ist nachzuweisen, wenn die partielle Korrelation zwischen x und y unter Konstanthaltung von z Null wird. Das muss sie, weil y a z b x pry(x.z) = rxy ryz rxz 2 2 (1 ryz )(1 rxz ) = (b a) a b .......... =0 Moderatoreffekt: α0 a α1 x Wenn z in der Lage ist, den Einfluss von x auf z zu beeinflussen, dann ist z ein Moderator dieser Beziehung. y b γ Die dazugehörigen Gleichungen sind: y = a + bx; b = β + γz; a = α0 + α1z β z eingesetzt in y: y = α0 + α1z + βx + γxz In diesem Modell ist eine Produktvariable (γxz) enthalten, dadurch ist es nicht mehr linear. 5.3 Spezifikationsanalyse Wenn man aus einem Regressionsmodell Variblen weglässt, muss man die neuen Regressionskoeffizienten anpassen, indem man sie aus den alten mittels der Pfadregeln errrechnet. Dies soll an einem theoretischen Beispiel vorgeführt werden, ein Modell mit fünf Prädiktoren wird auf ein Modell mit zwei Prädiktoren reduziert: β1 x1 γ14 y β2 γ13 x2 γ15 γ23 γ24 γ25 δ1 x1 y δ2 β3 x3 x2 β4 x4 β5 δ1 = β1 + β3 γ13 + β4 γ14 + β5 γ15 δ2 = β2 + β3 γ23 + β4 γ24 + β5 γ25 x5 Die neuen Pfadkoeffizienten sind gleich den alten, wenn es keinen direkten Einflusszwischen den x-Variablen gibt (γ’s = 0) oder die weggelassenen X-Variablen keinen direkten Einfluss auf y haben (β3,4,5 = 0). Skriptum Statistische Datenanalyse I WS 04/05 Seite 41 Die Regressionsgleichungen von der verbleibenden Variablen als Regressoren (im Beispiel x1 und x2 ) auf die Regressanden (im Beispiel x3, x4 und x5) heißen Hilfsregressionen: x3= γ03+ x1 γ13 + x2 γ23 + v3. x4= γ04+ x1 γ14 + x2 γ24 + v4. x5= γ05+ x1 γ15 + x2 γ25 + v5. 5.4 Robustheitsanalyse Die Robustheitsanalyse untersucht, was passiert, wenn man nicht Variablen (wie in der Spezifikationsanalyse) sondern Messwerte weglässt. Bei einer Regressionsanalyse kann ein starker Ausreißer nämlich einen starken Einfluss auf eine Schätzgerade haben. Im schlimmsten Fall hängen die Parameter der geschätzte Gerade nur von ihm ab. Zu bemerken ist noch, dass bei einem beliebigen Wertepaar im Streudiagramm nur eine Änderung in yAusrichtung die geschätzte Gerade verändert, eine Veränderung in x-Ausrichtung nicht. Dementsprechend betrachtet man nur die y-Ausrichtung von Ausreißern. Eine Möglichkeit den Einfluss eines Wertes allgemein auf die Parameter einer Regressionsgerade abzuschätzen bilden die sogenannten Hats. Sie beschreiben bei einem Wertepaar im Streudiagramm die Auswirkung einer Änderung von y auf den durch die Gerade geschätzten Wert von y: hi(y) pij = yˆ i yi . Die Grenzen von hi(y) liegen zwischen eingeschlossen 0 und 1, hat die Gerade einen Intercept unterschiedlich von Null, liegen die Grenzen zwischen eingeschlossen 1/n und 1. hi = Anzahl der Variablen (=k) –1. Eine andere Möglichkeit den Einfluss eines Wertes auf eine Schätzgeraden zu bestimmen, ist Cook`s Di. Dieses Maß beschreibt, wie einflussreich ein Punkt im Streudiagramm auf alle prädizierten Werte (bzw. die Schätzgerade) ist. Als Richtwert für den Einfluss eines Wertes lässt sich sagen: Ist D i > 1 oder hi > 2(k 1) n , dann schätzt man ihn als gefährlichen Ausreißer ein. 5.5 Zweifaktorielle Varianzanalyse Bei der einfaktoriellen Varianzanalyse wurden die Mittelwerte der Gruppen verglichen, wobei die Gruppen durch die Ausprägungen eines Merkmals entstehen. Im Rahmen der Varianzanalyse wird ein qualitatives Merkmal als Faktor bezeichnet, die Ausprägungen werden Stufen des Faktors genannt. In diesem Kapitel werden zuerst unverbundene, dann verbundene Gruppen betrachtet. 5.5.1 Zweifaktorielle Varianzanalyse mit unverbundenen Gruppen Die Modellkonzeption der zweifaktorielle Varianzanalyse mit unverbundenen Gruppen soll hier anhand eines Einführungsbeispiels erläutert werden. Als Beispiel wird das Einkommen gewählt, in Abhängigkeit von Geschlecht (Faktor a; 1= m, 2 = w) und Wohnsituation (Faktor b; 1 = daheim, 2 = WG, 3 = privat). Haupteffekte: Gesucht ist eine additive Ausgangslage seien Populationsmittelwerte: Darstellung der Mittelwerte aus Summanden, die den b tatsächlichen Mittelwerten in 1 2 3 der Population möglichst a 1 11 12 13 nahe kommt. (Nur Effekte 2 21 22 23 der Stufen der Faktoren 1 2 3 sollen addiert werden, nicht Kombinationselemente!) Als Ausgangslage seien Stichprobenmittelwerte des Einkommensbeispiels gewählt: b 1 2 a 1 2 1 2 3 6 6 7 9 8 9 7 8 6 8 8.5 7.5 Skriptum Statistische Datenanalyse I WS 04/05 Seite 42 Eine mögliche Wahl für die Als 1 kann ( 1-) , als 2 kann ( 2Konstante ist die Wahl des ) gewählt werden; als 1 kann (1 -) Gesamtmittelwerts; zur gewählt werden usw. Konstanten können von b beiden Rändern her ’s (vom 1 2 3 Zeilenrand) und ’s (vom a 1 + 1+ 1 + 1+ 2 + 1+ 3 1 Spaltenrand) addiert werden. 2 + 2+ 1 + 2+ 2 + 2+ 3 2 So entsteht die rein additive 1 2 3 Darstellung (Rekonstruktion) der Mittelwerte. Es gelten hier die symmetrischen Restriktionen: 1+ 2=0 und 1+ 2+ 3 =0. Auf Grund der additiven Rekonstruktion von den Rändern her müssen die Linien, die diese rekonstruierten Mittelwerte im Streudiagramm verbinden, parallele Linien sein. Da zu jedem + j einerseits konstant für jede Ausprägung von a eine bestimmte Größe (i) addiert wird, entstehen parallele Linien für jede a-Ausprägung. Daher im Beispiel: 1=7 – 7.5= -0.5. 2=8 – 7.5= 0.5. 1 = 6 – 7.5 = -1.5 usw. b a 1 2 1 2 3 5.5 6.5 7.5 8.5 8 9 -0.5 0.5 -1.5 0.5 1 7.5 -0.5+ 0.5=0 und -1.5 + 0.5 + 1 =0 10 9 8 7 6 5 Daheim WG Privat Die Effekte, die pro Stufe eines Faktors definiert werden, heißen Haupteffekte. Die ’s und ’s werden auch als Effektgrößen bezeichnet. Sie sind als Parameter der Population gedacht, die in einer Stichprobe zu schätzen sind. Interaktionseffekte Da die Summe der Haupteffekte (plus Konstante) meist die Zellmittelwerte nicht vollständig rekonstruieren können, werden zusätzlich so genannte Interaktionseffekte definiert. Die Interaktionseffekte sind die Differenz der Zellmittelwerte zum rein additiven Modell (Summe von Haupteffekten und Konstante). b 1 a 2 b 3 Summe 11- ( + 12- ( + 13 - ( + 1 1+ 1) 1+ 2) 1+ 3) 0 21- ( + 12 - ( + 13 - ( + 2+ 1) 2+ 2) 2+ 3) 0 2 Summe 0 0 1 2 3 Summe 1 11 12 13 0 2 21 22 23 0 0 0 0 Summe 2 3 1 6 -5.5 7-7.5 2 8 -6.5 9-8.5 8-8 9-9 b b a a 0 Zeilenrandsummen und Spaltenrandsummen sind hier gleich null. Bezeichnung der Interaktionseffekte: Damit nicht zusätzliche neue Symbole eingeführt werden müssen, werden sie meist durch die Kombination der Haupteffektbuchstaben bezeichnet. 1 1 = 2 a 1 0.5 -0.5 2 1,5 0.5 3 0 0 Beachte ABER: αβij stellt nicht ein Produkt aus und dar, sondern ist nur ein kombiniertes Symbol! Die ()’s werden auch als Effektgrößen bezeichnet. Wie die Haupteffektgrößen sind auch sie als Parameter der Population gedacht, die in der Stichprobe zu schätzen sind. Modellgleichung des linearen Modells Das lineare Modell zur Darstellung der Zellmittelwerte kann nun als Summe von Effekten geschrieben werden: μij = μ + αi + βj + (αβ)ij Der konkrete Wert für die υ-te Person in der Zelle ij denkt man sich in seiner Entstehung folgendermaßen: Skriptum Statistische Datenanalyse I WS 04/05 Seite 43 yijυ = μij + εijυ Obige Gleichung eingesetzt ergibt die Modellgleichung für den Messwert einer Person: yijυ = μ + αi + βj + (αβ)ij + εijυ 5.5.2 Zweifaktorielle Varianzanalyse mit Messwiederholung (repeated measurement) Bis jetzt wurde nur der Fall betrachtet, dass für jede Faktorausprägung unverbundene Stichproben gewählt wurden. Allerdings ist es auch möglich, innerhalb eines Faktors verbundene Stichproben zu erheben (diesen Faktor bezeichnet man als repeated factor), d. h. konkret: man teilt die Versuchspersonen in mehrere Gruppen (deshalb Gruppenfaktor) auf und erhebt in jeder Gruppe mehrmals die abhängige Variable. Verbundene Stichproben haben den Vorteil, dass Unterschiede in der abhängigen Variable nicht auf Unterschiede in den Stichproben zurückgeführt werden können: die Personen bleiben ja dieselben in den verschiedenen Gruppen. Möglicher Nachteil können z. B. Lerneffekte sein. Die Entstehung eines Messwertes bei einer Person unter einer bestimmten Bedingung (1) konzipiert man in diesem Modell so: yi1 = α1x1 + α2x2 + … + εi1 Viele individuelle Variablen und eine Störgröße zusammen erzeugen den Messwert. Führt man nun ein experimentelles treatment C (Bedingung 2) durch, entsteht in der Modellvorstellung der Messwert so: yi2 = α1x1 + α2x2 + … + εi2 + C Der Term α1x1 + α2x2 + … bezeichnet die „Individualität“ der Person und wird mit πi abgekürzt. Dieser Faktor bleibt über alle Messwiederholungen gleich. Er ist zufällig, er hat eine Verteilung, und man bezeichnet ihn deshalb auch als Zufallsfaktor oder random factor. Von Messung zu Messung unterscheidet sich die Enstehung des Messwertes also nur aufgrund des experimentellen treatments und der Störgröße ε: yi1 - yi2 = C + ε Modellgleichung des linearen Modells mit einem Wiederholungsfaktor: Das lineare Modell mit einem Gruppenfaktor und einem repeated Faktor bezieht den Personenfaktor mit ein. Der Messwert für die υ-te Person in der i-ten Gruppe unter der j-ten Bedingung lautet: yijυ(i) = μ + αi + πυ(i) + βj + (αβ)ij + (πβ)υ(i)j + εijυ(i) Der Ausdruck υ(i) bedeutet, dass die Personen nach Gruppen ge-„nested“ sind, d. h. innerhalb einer Gruppe bleiben die Personen über die Messwiederholungen gleich. Man spricht hier auch von Verschachtelung nach Gruppen. Die Interaktion (πβ)υ(i)j ist problematisch: Da pro Zeitpunkt in einer Gruppe für eine Person nur ein Messwert erhoben werden kann, ist diese Größe vom Fehler εijυ(i) nicht zu unterscheiden. Man zieht beide Größen deshalb zusammen. Erweiterung des Modells auf zwei repeated Faktoren: Die Modellgleichung für zwei repeated Faktoren lautet: yijυ = μ + πυ + αi + (πα)υi + βj + (πβ)υj + (αβ)ij + (παβ)υij + εijυ Problematisch ist wiederum die Interaktion (παβ)υij, sie ist nicht fassbar, weil von εijυ nicht zu trennen. Praktisch bedeutet dieses Design, dass die Versuchspersonen in jeder Gruppe und unter jeder Messbedingung dieselben sind. Ergänzung: Eine Varianzanalyse mit mehreren abhängigen Variablen bezeichnet man als MANOVA. Skriptum Statistische Datenanalyse I WS 04/05 Seite 44 5.6 Haupteffekt und Interaktion 5.5.1 Unterschied zwischen Haupteffekt und Interaktion Anhand eines theoretischen Beispiels mit zwei Faktoren, welche jeweils zwei Ausprägungen haben, soll der Unterschied zwischen Haupteffekt und Interaktion aufgezeigt werden. Die Abhängige Variable ist y. Die aufgetragenen Messwerte muss man sich als Gruppenmittelwerte vorstellen: Ein Haupteffekt ist dadurch gekennzeichnet, die Verbindungslinien zwischen den Mittelwerten im Diagramm parallel verlaufen. Dies ist der Fall, wenn die Differenzen zwischen den Mittelwerten gleich sind. y Dies ist der klassische Fall für eine Interaktion. Sie ist dadurch charakterisiert, dass die Linien nicht mehr parallel verlaufen. y Auch wenn bereits eine Interaktion besteht, ist es gut möglich, dass zusätzlich noch ein Haupteffekt für jeden Faktor vorliegt. Diesen kann man bestimmen, indem man den anderen Faktor nicht berücksichtigt, und die Gesamtmittelwerte in den einzelnen Ausprägungen des anderen Faktors bildet. y 5.6.2 Interaktionsmuster Nicht immer ist es bei einer Interaktion möglich, noch zusätzlich einen Haupteffekt interpretieren zu können. Dies soll an einem Beispiel mit zwei Faktoren erläutert werden, wobei der eine Faktor (a) zwei Ausprägungen, der andere (b) drei besitzt: y a1 a2 Obwohl hier die Faktoren interagieren, kann man noch einen Haupteffekt erkennen: der Mittelwert der Faktorausprägung a1 ist größer als der der Faktorausprägung a2. Eine solche Interaktion bezeichnet man als hybrid. b y Dieser Haupteffekt im Faktor a ist nicht mehr sinnvoll interpretierbar, weil er zu klein ist. Die Analysestrategie in mehrfaktoriellen Designs besteht darin, dass man zuerst nach Interaktionseffekten sucht, die man interpretieren kann. Findet man keine, geht man dazu über nach Haupteffekten zu suchen, die man deuten könnte. Skriptum Statistische Datenanalyse I WS 04/05 Seite 45 5.7 Prinzipien der Faktorenanalyse Modell: f1 a4 a1 a2 a3 x1 u1 x2 u2 x3 u3 x4 u4 b1 f2 b2 b3 b4 Bei der Faktorenanalyse wird versucht, von gemessenen Variablen auf diesen zugrundeliegende, latente Faktoren zu schließen. Korrelieren diese Faktoren nicht miteinander, spricht man von einer orthogonalen Faktorenanalyse, korrelieren sie, spricht man von einer schiefwinkligen Faktorenanalyse. Die Korrelationen zwischen den Faktoren und den Variablen bezeichnet man als Ladungen, sie entsprechen den Regressionskoeffizienten. Deren Quadrate entsprechen dem Anteil an Varianz von x, der durch den Faktor erklärt wird. Die Störgrößen werden mit u abgekürzt. Cor(x1, x2) = a1 a2 + b1 b2 Cor(f1,x1) = a1 Alle Variablen sind standartisiert. Als Kommunalität bezeichnet man den Anteil an Theoretisches Beispiel: Tabelle mit den Faktoren, Variablen Varianz einer Variable, der durch die und den Ladungen aus dem obigen Modell: gemeinsamen Faktoren erklärt wird. Als Spezifität einer manifesten Variable f1 f2 Kommunalität bezeichnet man deren Anteil an Varianz, der nicht x1 a1 b1 a12 + b12 durch die gemeinsamen Faktoren erklärt wird. Die x2 a2 b2 a22 + b22 Spezfität einer Variable ist 1 minus deren x3 a3 b3 a32 + b32 Kommunalität. x4 a4 b4 a42 + b42 2 2 2 2 Als Eigenwert bezeichnet man die Varianz, die Eigenwert a1 + a2 + b1 + b2 + ein Faktor insgesamt in allen Variablen erklärt. + a32 + a42 + b32 + b42 Das eigentlich Interessante an der Faktorenanalyse sind die latenten Faktoren. Theoretisch kann man soviel Faktoren haben wie es manifeste Variablen gibt. Doch will man diese Zahl, wenn möglich, reduzieren. Dazu werden folgende Möglichkeiten vorgeschlagen: Ein sehr einfaches Kriterium zur Hypothetisches Beispiel: Bestimmung der Faktorenzahl ist das sogenannte KAISER-Kriterium. Es besagt, f1 f2 dass man keinen Faktor miteinbeziehen Eigenwert 2,37 1,76 soll, dessen Eigenwert kleiner als eins ist. Eine andere Möglichkeit stellt der Scree-Plot sogenannte Scree (= Geröll) –Test dar. 2,5 Der Scree sind jene Punkte, die von k 2 (=Anzahl an Faktoren) ausgehend nach vorne auf einer Geraden liegen. Diese 1,5 Faktoren sollen dann nicht in die Analyse 1 mit einbezogen werden. f3 0,44 0,5 f4 0,31 f4 0,12 Scree 0 1 2 3 4 5 Eine Interpretation der Faktoren nimmt man vor, indem man untersucht, auf welchen Variablen die Faktoren besonders hoch laden. Dementsprechend nimmt man dann eine Benennung der einzelnen Faktoren vor. Bei der Faktorenanalyse sollten echt quantitative Variablen vorhanden sein (mindestens Intervallskalenniveau). Daneben bietet die Korrespondenzanalyse die Möglichkeit auch qualitative Variablen faktoranalytisch zu analysieren.