Mitschrift 2008/09 - Universität Konstanz

Werbung
Statistische Datenanalyse
Mitschrift W
S 2008/2009
Sitzung 1
Zur Klärung einer bestimmten Fragestellung werden in wissenschaftlichen Untersuchungen Daten
über den interessierenden Gegenstandsbereich gesammelt und zur weiteren Verarbeitung nach
bestimmten Regeln geordnet.
Die Daten können durch Fragebögen, Beobachtungen oder Experimente gewonnen werden.
Der Gegenstandsbereich sollte klar umgrenzt und bestimmt sein.
Die Objekte dieses Gegenstandbereiches, über die Aussagen formuliert werden sollen, werden als
Untersuchungseinheiten (UEen) bezeichnet.
Dies sind zum Beispiel Versuchspersonen, Gruppen, Länder, Firmen, Organisationen, etc.
Entsprechend der Fragestellung sollen bestimmte Eigenschaften oder Aspekte der UE untersucht
werden. Zum Beispiel Alter, Schulform, IQ, Ausgaben pro Jahr, Managergehälter,
Spendeneinnahmen, etc.
Diese Aspekte werden als Merkmale bzw. Variablen bezeichnet.
Die Menge aller möglichen Realisierungen eines Merkmales nennt man
Merkmalsausprägungen bzw. Werte der Variablen.
Die im Versuch realisierten Einzelergebnisse jeder UE werden systematisch beobachtet und
protokolliert. Zum Beispiel ist eine Realisierung des Merkmals 'Alter' eines Studenten in einer
Untersuchung das Alter 25, die Realisierung der Schulform Hochschule, etc.
Die Merkmale müssen so konzipiert sein, dass jede UE genau eine einzige Merkmalsausprägung pro
Merkmal hat.
Die gesammelten Daten können dann in Form einer Matrix angeordnet werden, wobei pro Zeile eine
UE und pro Spalte ein Merkmal aufgeführt wird.
Auszug aus einem Fragebogen zur Studiensituation
Einige Angaben zu Ihrer Person:
Alter in Jahren:
Geschlecht: weibl.: 0 männl.: 1
Körpergröße in cm:
Gewicht in kg:
Wie viele Zigaretten rauchen Sie im Schnitt pro Tag?
Zur familiären Situation:
Wie viele ältere Geschwister haben Sie?
Wie viele jüngere Geschwister haben Sie?
Ihr Familienstand?
Ledig 0
verlobt, bzw. fest
liiert 1
Verheiratet 2
getrennt, gesch.,
verwitwet 3
Welche Schulbildung haben Ihre
Vater
Eltern?
Volksschule
1
Kreuzen sie bitte - für Vater und Mutter Höhere Schule (mit/ohne mittlere Reife)
2
getrennt - die höchste Stufe an!
Abitur
3
Ing.-schule oder Päd. HS, mit Abschluß
4
Universität/TH, ohne Abschluß
5
Universität/TH, mit Abschluß
6
Mutter
1
2
3
4
5
6
Sonstiges, weiß nicht
7
7
Bei einem exklusivem Antwortmuster (z.B.Geschlecht/Wohnform) kann eine Spalte angelegt werden,
in der die unterschiedlich kodierten Ausprägungen (z.B. 0/m für männlich, 1/w für weiblich) notiert
werden.
UE Alter Sex Größe
1
..
24
m
182
Gewicht Anz.
Anz.
Zigarett. jünger.
Geschwister
80
8
--
Anz.
älterer
Geschw.
2
Fam.
stand
Bildung Bildung
Vater
Mutter
Ledig
4
3
In einer Spalte darf nie mehr als eine Information verzeichnet werden.
Manchmal werden die UE auch kontrollierten Behandlungen (Treatments) ausgesetzt.
Ein Beispiel für dieses zentrale Element des Experimentierens findet sich im Alten Testament im
Buch Daniel (1. Kap.).
Daniel und seine Freunde (Ananias, Misael, und Azarias) sind als jüdische Jugendliche vornehmer Herkunft während der babylonischen
Gefangenschaft an den Hof Nebukadnezars verschleppt worden.
Sie erhalten dort eine babylonische Erziehung und bekommen das gleiche Essen wie der König. Daniel und seine Freunde würden allerdings
lieber streng jüdische Essensvorschriften einhalten; sie wollen auf das dargebotene Fleisch und den Wein verzichten. Sie wenden sich mit
dieser Bitte an den Oberkämmerer. Seine Bedenken bezüglich der Schönheit und Vollheit der Freunde kann Daniel durch ein Experiment zerstreuen.
Aufgrund des folgenden Berichtes sind zwar die Ergebnisse des Experimentes nicht exakt bekannt. Dem Bericht würden die folgenden Daten
zumindest nicht widersprechen (Schönheit und Vollheit seien auf einer Skala mit 5 Stufen gemessen worden).
Da sprach der Oberkämmerer zu Daniel: „Ich fürchte meinen Herrn, den König, der euch Speis und Trank bestimmte. Fänd er, dass euere
Gesichter schmächtiger als die der anderen Knaben eueres Alters wären, so brächtet ihr beim König mich um meinen Kopf“. Darauf sprach
Daniel zum Wächter, den der Oberkämmerer über Daniel, Ananias, Misael und Azarias gesetzt:
„Versuch es bitte doch 10 Tage lang mit deinen Knechten. Man gebe uns nur Gemüse zu essen und Wasser zu trinken. Besieh dir dann
unsere Gesichter und die der anderen Knaben, die von der königlichen Kost genießen. Und je nachdem, wie der Befund ausfällt, magst du
mit deinen Knechten verfahren“.
Nach Ablauf der 10 Tage aber waren ihre Gesichter sichtlich schöner wie auch voller als die aller anderen Knaben, die von königlicher
Speise zu genießen pflegten. So ließ fortan der Wächter ihre Speise wegnehmen mitsamt dem Wein, den sie genießen sollten; er brachte
ihnen dafür nur Gemüse. (AT Daniel, 1. Kap:, Vers 10-16)1
6
M
D
4
Az
An
Schön
schoen4
5
3
3
6
2
1
4
1
5
2
D
0
0
1
2
3
voll4
Voll
4
5
6
Datenmatrix
1. UE
2. UE
3. UE
4. UE
5. UE
6. UE
7. UE
8. UE
9. UE
10. UE
name
1
2
3
4
5
6
Daniel
ananias
azarias
misael
gruppe
control
control
control
control
control
control
exp
exp
exp
exp
Schoen
2
1
3
2
1
2
5
4
4
5
Voll
3
3
2
2
2
1
5
5
4
4
Die Datenpunkte können in die Form einer Datenmatrix übertragen werden mit den Merkmalen Schön
und Voll. Als weitre Merkmale werden noch der Name der Versuchsperson (=Vp) und die
Gruppenzugehörigkeit zur Experimental- bzw. Kontrollgruppe eingeführt.
Da eine zufällige Zuordnung der VP in diesem speziellen Falle nicht möglich war, interessiert die
Frage, ob der Unterschied zwischen den Gruppen in Vollheit und Schönheit schon vor der Behandlung
bestanden hat, bzw. wie die Behandlung über den untersuchten Zeitraum verlaufen ist.
Der gefundene Unterschied könnte also nicht durch das Treatment entstanden sein, sondern von einer
anderen Variable abhängig sein.
Zum Zwecke der Überprüfung dieser Möglichkeit können Messungen an Tag 1,4,7 und 10 der
Untersuchung bzgl. der Vollheit und Schönheit durchgeführt werden.
Die erhaltenen Daten können auf zwei Arten gruppiert werden – in der horizontalen Form, die auch als
Bei solch einem Vorgehen muss die Abhängigkeit der Messungen beachtet werden.
UE in Zeitreihenanalysen sind nicht unterschiedliche ‘Entitäten‘ (Versuchspersonen, Organisationen
etc.) sondern verschiedene Zeitpunkte.
Die Messungen einer Person zu verschiedenen Zeitpunkten sind voneinander nicht völlig unabhängig
(wie in unverbundenen Stichproben, in denen die UEen verschiedene Versuchspersonen sind).
Zur Behebung dieses Problems kann eine Personenvariable eingeführt werden, die interindividuelle
Unterschiede vergleichbar machen lässt. (z.B. Korrektur durch die Varianz).
Weitere Datenstrukturen, die Abhängigkeiten enthalten, sind
Mehrebenendatensätze (Land - Bundesland - Schule - Klasse - Lehrer)
und Netzwerke.(z.B. Interaktionen zwischen VP oder Gruppen)
Auch ein Buch kann als Datenstruktur mit mehreren Ebenen bezeichnet werden
(Kapitel - Unterkapitel - Paragraph - Absatz - etc. )
1.2 Zusammenfassung zur uni- und bivariaten Statistik
Variablen
1
2
Deskription
Verbal
Grafisch
Lagemaße
Histogramme
Streuungsmaße etc.
Boxplots
Kovarianz
Korrelation
2-Test
auf Unabhängigkeit
PRE-Maße
Regressionsanalyse
Streudiagramm
Mosaicplots
Induktion
, , ,...
- Anpassungstest,
Mittelwertstest etc.
,
Hat eine der Variablen distinkte Ausprägungen (z.B. Geschlecht), kann das 3dimensionale
Streudiagramm auf zwei Dimensionen abgebildet werden.
Meist wird die 3. Variable als Kontrollvariable eingeführt, um Scheinkorrelationen oder ScheinNichtkorrelationen ausschließen zu können.
Würde man etwa den Zusammenhang zwischen
der Variable „Anzahl gegessener Äpfel am Tag“
und der Variable „Verbrachte Jahre mit den
Dritten“ in einer Männerstichprobe untersuchen,
könnte man aufgrund einer Scheinkorrelation die
Annahme machen, je mehr Äpfel man zu sich
nehme, desto schneller fielen einem die Zähne
aus.
Betrachtet man jedoch die dritte Variable
„Alter“(hier in zwei Kreisen als zwei Kohorten –
Männer zwischen 50-70 (A) und Männer
zwischen 20 -50 (B) - skizziert) entpuppt sich die
Annahme einer Korrelation zwischen x und y als
fehlerhaft.
Anzahl Jahre mit den
„Dritten“
A
B
Anzahl Äpfel am Tag
Fragen
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
Was sind Untersuchungseinheiten und welchen Platz nehmen sie im Experiment ein?
Was sind Variablen? Geben Sie Beispiele.
Wandeln Sie den Studentenfragebogen in eine Datenmatrix um.
Wieviele Spalten würden Sie für ein Merkmal mit exklusivem Antwortmuster (z.B.
‘Geschlecht‘) angelegen? Begründen Sie Ihre Entscheidung.
Wieviele Informationen dürfen Sie maximal in einer Spalte angeben?
Was gilt als zentrales Element des Experimentes?
Was ist ein Quasi-Experiment? Geben Sie Beispiele.
Wandeln Sie das Streudiagramm der Daniel-Daten in eine Datenmatrix um.
Was ist eine Zeitreihenanalyse? Welche UE werden hier untersucht?
Geben Sie ein Beispiel für eine Zeitreihenanalyse mit mehreren Variablen.
Was ist eine Mehrebenenuntersuchung? Geben Sie ein Beispiel.
Welche Untersuchung würde zu einer Datenstruktur in Form eines Netzwerkes führen?
In wiefern sind Daten aus Mehrebenenuntersuchungen, Zeitreihenanalysen und Netzwerken
abhängig?
Geben Sie Beispiele für eine univariate und eine bivariate Fragestellung.
Wozu wird meist eine dritte Variable eingeführt?
Was ist eine Scheinkorrelation? Geben Sie Beispiele.
Was ist eine Schein-Nichtkorrelation? Geben Sie Beispiele.
18. Welche Maßzahlen verwendet man zur Beschreibung univariater Daten? Welche für
bivariate?
19. Wie können bivariate Daten grafisch dargestellt werden?
20. Was bedeutet Induktion? Nennen Sie Beispiele für die Induktion von Maßzahlen univariater
Datensätze.
Sitzung 2
Erste Schritte in R
- Commander laden
Taskleiste (TL) Pakete – Lade Paket – Rcmdr
- Datenmatrix bearbeiten
Die Datenmatrix kann verändert werden. Wird gerade eine Statistik gerechnet, lässt sich diese Option nicht
anwählen, stattdessen kann die Datenmatrix betrachtet werden.
- Ein Streudiagramm erstellen
TL Grafiken
- Daten importieren
TL Datenmanagment – Daten importieren
1. Nennen Sie eine mögliche Fragestellung zur ersten Analyse der Danieldaten.
2. Welche Fragestellungen könnten bei der Untersuchung eines intervallskalierten yMerkmals und eines nominalen x-Merkmals untersucht werden?
3. Mit welchem Test kann man Mittelwertsunterschiede der Gruppen untersuchen?
4. Was ist eine zweiseitige Fragestellung?
5. Wann wird ein Test signifikant?
6. Was bedeutet das Signifikanzniveau alpha?
7. Was ist der Fehler 2.Art?
8. Was ist die Macht des Testes (Power)? Wann erst kann die Macht eines Testes
berechnet werden?
9. Was ist der p-Wert?
10. Was meint die Bezeichnung „95% Konfidenzintervall“?
11. Warum kann man u.U. von einem Konfidenzintervall die Signifikanz eines Testes
ablesen?
12. Welcher Test kann zur Überprüfung der Gleichheit zweier Varianzen verwendet
werden?
13. Welche zwei Freiheitsgrade müssen bei einer Testung mit der F-Verteilung angegeben
werden?
14. Welche Voraussetzung muss gegeben sein, um einen parametrischen Test anwenden
zu können?
15. Welcher Teststatistiken kann man sich bedienen, wenn diese Voraussetzung nicht
erfüllt ist?
16. Nennen Sie einen nichtparametrischen Test zur Untersuchung von Lageunterschieden,
wenn
a. die Variablen ordinalskaliert sind
b. die Variablen intervallskaliert sind
17. Wofür steht die Bezeichnung „Location Shift“?
18. Wann können parametrische Tests trotz der Verletzung der
Normalverteilungsannahme angewendet werden?
19. Was ist der sog. Standardfehler?
Lösungsvorschläge
1. Zum Beispiel: Gibt es einen systematischen Unterschied zwischen Kontroll- und
Experimentalgruppe? Oder anders formuliert: Gibt es zwischen der Variable ‚Gruppe’ und
der Ausprägung der Variable ‚Vollheit’/ ‚Schönheit’ einen systematischen Zusammenhang?
2. Sind die Verteilungen unterschiedlich? Unterscheiden sich einzelne Parameter? (z.B.
Mittelwerte, Mediane, Streuungen, etc. )
3. In dem Falle der Danieldaten wähle man einen t-test für unabhängige Stichproben, unter
der Voraussetzung, dass die Varianzen verschieden sind.(s. auch Frage 12) -> Welch 2Sample t-test. Freiheitsgrade sind in dieser Lösung nicht ganzzahlig. Sie können aber
gerundet werden.
(In R: TL Statistik – Mittelwerte vergleichen – t-test für unabhängige SP)
4. Die Formulierung einer Alternativhypothese zur Nullhypothese „Es gibt keine
Unterschiede (zwischen den Gruppen, zwischen den Behandlungen etc.)“ bzw. μ1 = μ2 (μ1 μ2 = 0) kann entweder einseitig oder zweiseitig formuliert werden.
Die Testung einer einseitig formulierten Alternativhypothese etwa der Form μ1 - μ2 > 0 ist nur
gerechtfertigt, wenn Größenunterschiede in die entgegengesetzte Richtung ausgeschlossen
werden können – wenn man also sicher ist, dass eine zweiseitige Testung nicht notwendig ist.
Solch ein Trugschluss könnte etwa entstehen, wenn man zur Nullhypothese „Es lassen sich
keine Intelligenzunterschiede zwischen Schwarzen und Weißen feststellen“ die einseitige
Alternativhypothese „Weiße sind intelligenter als Schwarze“ testen würde, ohne ausschließen
zu können, dass Schwarze intelligenter sind als Weiße.
Eine zweiseitig formulierte Alternativhypothese führt also zu einem zweiseitigen kritischen
Bereich unter Geltung der Nullhypothese, die Richtung des Effektes ist nicht im Vorhinein
festgelegt.
5. Wenn der TW (Testwert) in den kritischen Bereich (KB) fällt. Bzw. der p-Wert kleiner als
das vorgegebene Signifikanzniveau ist.
6. Der alpha-Fehler (der Fehler 1.Art ) bezeichnet unter Geltung der Nullhypothese die
W´keit, den Fehler zu machen, die Nullhypothese abzulehnen, obwohl sie richtig ist. Je
kleiner alpha, desto höher ist das Signifikanzniveu. Ein Signifikanzniveau von 0.05 wird als
signifikant, eines von 0.01 als sehr signifikant und eines von 0.001 als hochsignifikant
bezeichnet.
7. Der Fehler 2.Art(oder β-Fehler) bezeichnet die W´keit die Alternativhypothese abzulehnen,
obwohl sie richtig ist. Er ist vom wahren Wert des Populationsparameters abhängig.
Da dieser bei der Formulierung der Alternativhypothese nicht bekannt ist, kann der Fehler
2.Art nicht berechnet werden.
Der Fehler 2.Art wird kleiner
je größer der Unterschied zwischen μ0 (angenommener Parameterwert) und μ1
(tatsächlicher Parameterwert) wird
je kleiner die Streuung ist
je größer die Stichprobe ist
je größer alpha ist.
Zu den Zusammenhängen zwischen Fehler 1.Art und 2.Art siehe:
http://www.uni-konstanz.de/FuF/wiwi/heiler/os/vt-normtest.html
Grafische Darstellung des Fehlers 1. und 2.Art.
Aus: http://page.mi.fu-berlin.de/mielke/eis/Weber-Fehlerquellen-Parametertest.pdf
8. Die Macht des Testes (1-β) bezeichnet die W´keit, die Alternativhypothese anzunehmen,
wenn sie richtig ist. Diese Teststärke ändert sich nach bestimmten Kriterien. (s.o.). Bei der
Formulierung einer exakten Alternativhypothese, kann die Macht des Tests und darüber auch
der beta-Fehler berechnet werden.
Wird ein Test nicht signifikant und die Power des Testes ist niedrig, kann sowohl Null- als
auch Alternativhypothese zutreffen. Ist die Power allerdings hoch und der Test nicht
signifikant, ist dies ein Hinweis auf die Geltung der Nullhypothese.
9. Der p-Wert bezeichnet unter Geltung der Nullhypothese die W´keit, einen Wert gleich oder
extremer dem Testwert im Sinne der Alternativhypothese zu erhalten.
10. Mit einer 95% - W´keit überdeckt das angegebene Intervall den wahren Parameterwert.
( Achtung: Es gibt nicht nur ein Intervall, sondern mehrere, die den wahren Parameterwert
überdecken, daher wird eine W´keit angegeben. )
11. Liegt der angenommene Parameterwert nicht im Konfidenzintervall, wird die
Nullhypothese abgelehnt.
12. Der Varianzen-Levene-Test.
13. Zähler: df1 = n( Stichprobe 1) - 1
Nenner: df2= n (Stichprobe 2) – 1
14. Die Werte in der Population müssen normalverteilt sein.
15. Man kann sich eines nichtparametrischen Tests bedienen.
16a. Vorzeichentest
16b. Wilcoxon-Rangsummen-Test
17. Location Shift bezeichnet die Annahme, zwei Verteilung könnten durch Verschieben zur
Deckung gebracht werden. Bei dem Wilcoxon-Rangsummen-Test bezeichnet der Location
Shift die Alternativhypothese.
18. Bei großer Stichprobengröße nähert sich die Verteilung der Mittelwerte einer NV. Je nach
Lageparametern der Stichprobe (Schiefe, Streuung, etc.) variiert die hierzu erforderliche
Größe der Stichprobe.
19. Die Standardabweichung der Verteilung einer bestimmten Maßzahl (z.B. des
Mittelwertes, der Standardabweichung, Regressionskoeffizienten, etc.)
Sitzung 3
R
-- Versehentliches Schließen des Rcmdr
Geben Sie in die Befehlszeile (ganz unten, beginnend mit ´>´) den Befehl ´Commander ( )´ ein.
-- Konvertieren der numerischen Variablen in Faktoren
Ist ein Faktor, zum Beispiel Gruppenzugehörigkeit der VPn, als numerische Variable kodiert ( etwa: 0 Experimentalgruppe, 1-Kontrollgruppe ),
werden von R nicht alle t-tests zur Ausführung angeboten, da zwischen Faktor und Variable in diesem Fall
nicht automatisch unterschieden werden kann.
Um dieses Problem zu beheben, gehen Sie zur TL Datenmanagment
- Variablen bearbeiten - Konvertiere
numerische Variablen in Faktor. Geben Sie nun die entsprechende Variable an, die konvertiert werden soll.
Wählen Sie die Option `Etikette´ wird ein neuer Stempel vergeben - es wird eine neue Spalte angelegt
(Name: Grf - Gruppenfaktor) und Sie werden dazu aufgefordert, die unterschiedlichen Ausprägungen
zu benennen.
1. Warum liegt ein Wert nicht mit einer bestimmten Wahrscheinlichkeit im
Konfidenzintervall?
2. Der Mittelwert verschiedener Stichproben streut weniger stark denn die Stichprobe selbst.
Um welchen Faktor? Wie nennt man den somit berechneten Faktor?
3. Was ist die Effektstärke und wie kann sie berechnet werden?
4. Wie verfährt man bei unterschiedlicher Stichprobenvarianz?
5. Warum benötigt man die Effektgröße neben der Berechnung eines statistisch signifikanten
Unterschiedes?
6. Wie hängt der t-Wert und d zusammen? Geben Sie eine Formel zu Berechnung an.
7. Wann kann bei verbundenen Stichproben, die den Einfluss einer Behandlung anhand
zweier Zeitpunkte untersuchen (e.g. Vorher-Nachher) auf die Analyse des ersten Zeitpunktes
verzichtet werden?
8. Welche Voraussetzungen müssen für die Durchführung eines parametrischen Tests
gegeben sein?
9. Welcher Test wird, wenn diese Voraussetzungen erfüllt sind, schneller signifikant:
Ein parametrischer oder ein nicht-parametrischer Test?
10. Was berechnet die sog. Power-Efficiency?
11. Welche Fragestellungen können mittels einer Regressionsanalyse untersucht werden?
Geben Sie ein Beispiel.
12. Welche Vorteile hat eine Regressionsanalyse gegenüber einem t-test?
13. Was ist der sog. Regressionskoeffizient?
14. Was ist die sog. Regressionskonstante?
15. Angenommen, Sie untersuchten den Zusammenhang zwischen der Anbaufläche (in
Hektar) auf die Menge an Ernte (in Kg).
Was bedeutet der Regressionskoeffizient(Anbaufläche)=2.5?
16. Angenommen, Sie verwendeten zusätzlich die Variable Frost (in Tagen) als Prädiktor für
Ernte - übersetzen Sie bitte folgende
Angabe eines Bauers in Zahlen: "Jeder Tag Frost kostet mich 2 Kilo meiner Ernte."
Lösungsvorschläge
1. Zum Einen ist der tatsächliche Parameter der Population keine Zufallsvariable. Es ist ein
fester Wert und besitzt daher
keine Auftretenswahrscheinlichkeit. Zum anderen ist das Konfidenzintervall kein stets
gleichbleibender Bereich. Mit jeder Stichprobenziehung ändern sich die Grenzen des KI. Die
Angabe eines 95%-konfidenzintervalls
kann beispielsweise folgendermaßen verbalisiert werden:
Zu 95% enthält der angegebene Bereich Konfidenzintervalle, die den wahren Wert
überdecken.
2. Die Verteilung des sog. Standardfehler des Mittelwerts (allg.: eines Parameters) streut
weniger stark denn die Verteilung der Stichprobenwerte um den Faktor 1/√n.
.
3. Mittelwertsunterschiede werden in der Einheit der Standardabweichungen angegeben und
sind daher von der Stichprobengröße unabhängig.
Ein beliebtes Maß ist Cohen´s d:
Nach Cohen´s Faustregel gilt eine Effektstärke unter 0.2 als sehr klein, unter 0.5 als klein,
unter 0.8 als mittel und 0.8 und größer als starker Effekt.
Bei einer kleinen Stichprobe ohne signifikantes Ergebnis sollte trotzdem die Effektstärke
angegeben werden. Je weniger zwei Verteilungen überlappen (je größer also der Unterschied
zwischen zwei Verteilungen ist) und/oder je geringer die Streuung ist, desto größer ist die
Effektstärke.
Siehe hierzu: http://www.bolderstats.com/jmsl/doc/CohenD.html
4. Es muss die mittlere Stichprobenvarianz berechnet werden: pooled = [(1²+ ²) / 2]
5. Die Berechnung der Effektstärke dient der Bestimmung praktischer Bedeutsamkeit eines
experimentellen Effektes.
Bei der Durchführung eines statistischen Testes kann durch eine Vergrößerung der Stichprobe
und durch eine Senkung der Streuung (etwa durch die Auswahl sehr homogener
Versuchsteilnehmer) eine Signifikanz erhöht oder erreicht werden.
Um nun herauszufinden, ob der Unterschied abgesehen von der Signifikanz tatsächlich und
aussagekräftig ist, zieht man die Effektsärke zu Rate.
6. d = 2t / √df
7. Wenn die VPn durch eine randomisierte Auswahl den Gruppen zugeordnet wurden.
Mithilfe dieses Verfahrens wird die Annahme verfolgt, durch Randomisierung eine
ausgewogenen Verteilung evtl. Unterschiede der VPn, die einen störenden oder verzerrenden
Einfluss auf die Versuchsergebnisse haben könnten, auf die beiden Gruppen erreicht zu
haben.
Die Gruppen seien demzufolge vor der Behandlung in allen relevanten Hinsichten gleich.
Ergo kann auf die Analyse des ersten Zeitpunktes verzichtet werden.
8. Intervallskalierte Variablen und normalverteilte Populationswerte.
9. Ein parametrischer Test.
10. Wenn alle Voraussetzungen für einen parametrischen Test erfüllt sind, berechnet die sog.
Power-Efficiency die Anzahl der Fälle, in denen ein nicht-parametrischer Test signifikant
wird, wenn auch der parametrische Test signifikant geworden ist. Die Power-Efficiency
beträgt beispielsweise für den Wilcoxontest .95 und für den Mediantest .65.
11. Mittels Regressionsanalyse soll eine abhängige Variable durch eine oder mehrere
unabhängige Variablen erklärt werden. Zum Beispiel kann
die Ernte eines Jahres (abhängige Variable) durch Wettereinflüsse (Regenmenge,
Sonnenstunden, Niedrigsttemperatur etc.), durch verwendete Dünger, die Anbaufläche,
etc. prognostiziert, bzw. erklärt werden. Zur Beschreibung des Zusammenhanges zwischen
abhängiger und unabhängiger/n Variablen können verschiedene Funktionen verwendet
werden. (z.B. lineare oder logistische Regression). Es soll immer die bestmögliche Anpassung
der erklärenden Gerade/Kurve an die Daten erreicht werden.
12. Der t-test eignet sich nicht zur Überprüfung der Einflüsse einer oder mehrerer
unabhängiger Variablen auf die abhängige/n Variable/n.
13. Der Regressionskoeffizient misst den Einfluss der unabhängigen Variable X auf die
abhängige Variable Y. Bei einer linearen Regression ist dieser Einfluss (" Wie verändert sich
Y, wenn sich X um eine Einheit ändert?") unabhängig von der Größe von X immer gleich und
entspricht der Steigung der Geraden.
14. Die Regressionskonstante entspricht dem Wert der abhängigen Variable Y, wenn der Wert
der unabhängigen Variablen X Null beträgt. (sog. „Intercept“). Die Interpretation ist nur dann
sinnvoll, wenn die unabhängige Variable X tatsächlich einen Wert von Null annehmen kann.
15. Etwa: Bei Vergrößerung der Anbaufläche um einen Hektar, steigt die erhaltene Ernte um
2.5 Einheiten.
16. y= a - 2x + ε
Sitzung 4
1. Welchen Vorteil hat eine Regressionsanalyse gegenüber einem t-test?
2. Was ist der Unterschied zwischen einer multivariaten und einer multiplen
Regressionsanalyse?
3. Wie bezeichnet man eine Regressionsanalyse, die den Einfluss mehrerer unabhängiger
Variablen auf eine abhängige Variable untersucht?
4. Führen Sie eine univariate Regressionsanalyse (UV=Gruppenzugehörigkeit i.e.
Experimentalgruppe =0, Kontrollgruppe = 1; AV= 'Change', i.e. Score_1 – Score_2)
der Magnetdaten (http://onlinestatbook.com/rvls.html) mithilfe von R durch und
interpretieren Sie die Ergebnisse.
a. Durch welche Punkte wird die Regressionsgerade gelegt?
b. Wie lässt sich der angegebene Intercept interpretieren?
c. Wie lässt sich der negative Regressionskoeffizient interpretieren?
d. Was würde ein positiver Regressionskoeffizient bedeuten?
e. Wie müsste der Regressionskoeffizient aussehen, wenn die Kontrollgruppe zum
zweiten Zeitpunkt einen höheren Wert als zum ersten Zeitpunkt aufweisen würde?
5. Wie unterscheidet sich dieses Ergebnis der univariaten Regression von einem t-test
auf Mittelwertsunterschiede unter der Annahme der Homoskedastizität?
6. Was ist eine Dummy-Variable?
7. Wie kann in R eine Variable in eine Dummy-Variable umgewandelt werden?
8. Führen Sie nun eine Regressionsanalyse mit den Prädiktorvariablen Gruppe und
Score_1 durch. Erläutern Sie, was man dabei unter Konstanthaltung versteht und wie
dieses Konzept in diesem Kontext zum Tragen kommt.
9. Zeigen Sie anhand einer Gleichung, warum bei einer Regressionsanalyse mit einer
Dummy-Variable als Prädiktor und einer Differenz zweier intervallskalierter
Variablen (z.B. Messzeitpunkte, i.e. y2-y1) als Kriterium der Intercept an der Stelle
x=0 problemlos interpretiert werden kann. / wann kann bei einer Dummy-Variable als
Prädiktor und einer blabla .. der durch die Regressionsanalyse herausgerechnete
Intercept problemlos interpretiert werden?
10. Die in Frage 11 vorgestellte Regression soll nun durch eine weitere Prädiktorvariable
Z erweitert werden. Zeigen Sie anhand einer Gleichung, wann in dieser Anordnung
der Intercept als Mittelwert der mit Null kodierten Ausprägung interpretiert werden
kann.
11. Was sind Odds?
12. Was ist eine Odds-Ratio?
13. Berechnen Sie die Odds das Gymnasium zu besuchen und das Abitur zu machen für
Kinder mit und ohne Migrationshintergrund. Berechnen Sie die Odds-Ratio.
Abitur
Kein Abitur
Kinder mit
Migrationshintergrund
Ohne Migrationshintergrund
24
82
76
18
14. Warum und wie rechnet man Odds in Logits um?
15. Was ist die logistische Regression?
16. Welche Unterschiede bestehen zwischen logistischer Regression und linearer
Regression?
17. Warum ist die lineare Regression nicht zur Analyse einer binären Variable geeignet?
18. Für die Chile-Daten erhält man folgende Häufigkeiten Odds und Logits:
N
Y
Odds(py)
Logit(pY)
w
m
363
526
480 1.32231405
388 0.73764259
0.27938327
-0.30429587
a) Wie groß ist der Unterschied zwischen männlich und weiblich bezüglich der YesLogits?
b) Wie groß ist der Yes-Logit für die Frauen?
19. Welches lineare Modell muss hier verwendet werden und warum?
20. Bei einer Berechnung mithilfe des generalisierten linearen Modells (Prädiktor: sex,
Prädikand: vote) werden folgende Ergebnisse ausgegeben:
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.27938 0.06956 4.017 5.90e-05 ***
sex[T.M] -0.58368 0.09652 -6.047 1.48e-09 ***
Interpretieren Sie den Intercept und den Einfluss von Sex.
Lösungsvorschläge
1. Es kann der Einfluss mehrerer unabhängiger Variablen auf eine oder mehrere
abhängige Variablen untersucht werden.
2. Eine multivariate Regressionsanalyse untersucht die Auswirkung auf mehrere
abhängige Variablen, wohingegen die multiple Regressionsanalyse den Einfluss
mehrerer unabhängiger Variablen beschreibt.
3. Univariate multiple Regression.
(s. weiterführend: http://www.uni-landau.de/schreiber/archiv/ws03_32/Multivariate1-korr_WHS.pdf )
4. a. Durch die Mittelwerte der beiden Gruppen.
b. Die Regressionskoeffizienten ändern sich stets, wenn eine neue erklärende Variable
oder eine neue zu erklärende Variable hinzukommt. Bei dieser einfachen, univariaten
Versuchsanordnung lässt sich der Intercept jedoch als Mittelwert der
Experimentalgruppe (Active 1) interpretieren.
c. Da Change über Score_1 – Score_2 definiert ist, bedeutet ein kleinerer Ergebnis
weniger Veränderung – die Experimentalgruppe zeigt also einen stärkeren Rückgang
der Schmerzen bzw. eine kleineren Score zum zweiten Zeitpunkt.
d. Die Veränderung der Kontrollgruppe wäre, im Vergleich zur Experimentalgruppe
noch kleiner, d.h. Change würde in der Kontrollgruppe einen höheren Wert aufweisen.
e. Wenn sich die Schmerzen in der Kontrollgruppe zum zweiten Zeitpunkt gesteigert
haben sollten, müsste der Regressionskoeffizient größer sein als der Mittelwert der
Experimentalgruppe, da der Mittelwert der Kontrollgruppe negativ wäre.
5. Betrachtet man die vom t-test angegebenen Mittelwerte, sollte der Mittelwert der
Experimentalgruppe gleich dem Intercept sein und der Mittelwert der Kontrollgruppe
gleich dem von der Regressionsanalyse prädizierten Wert bei X=1 sein (i.e. Y2=
5.24139– 4.1461)
6. Eine dichotome Variable (z.B. männlich, weiblich), die auf 0 und 1 kodiert ist.
7. 'Erzeuge neue Variable' (TL Datenmanagment – Variablen bearbeiten ), dann *Gruppe
== “exp“ '
Die neue Variable wird in der Datenmatrix angezeigt. Sollten die Ausprägungen noch
mit 'True' und 'False' angegeben sein, können Sie im Skriptfenster den Befehl:
'NamederDatenmatrix$exp <-- with(NamederDatenmatrix, (Gruppe==“exp“*1))'
eingeben bzw. abändern. Durch diese Multiplikation mit 1 wird die Ausprägung False
mit Null und die Ausprägung True mit 1 kodiert.
8. Durch die Konstanthaltung von Störgrößen soll der Effekt eines Treatments unverzerrt
sichtbar werden.
Im vorliegenden Falle könnte der Zustand der VPen zum ersten Zeitpunkt einen
Einfluss auf die AV haben. Die Konstanthaltung in diesem Fall gibt also Ausschluss
darüber, wie groß der Effekt der Behandlung ist, wenn alle VPen die gleiche
Schmerzintensität zum ersten Zeitpunkt berichten.
9. Bei Intervallskalen ist der Abschnitt (= Intercept) schon für einfachste Aussagen nicht
sinnvoll interpretierbar. Zulässig bei intervallskalierten Variablen sind
Lineartransformationen, so dass Y folgendermaßen ersetzt werden kann (X sei eine
Dummy-Variable: 0 bzw. 1) :
Y = a +bX;
Man betrachte folgende Behauptung: der Abschnitt ist 0 (hier a=0)
Y -> A +BY (zulässige Transformation bei Intervallskalenniveau)
d.h. Nach zulässiger Transformation gilt: A+BY = a +bX -> Y = (a-A)/B + b/B X
gilt für die Aussage (der Abschnitt ist 0: (a/B – A/B) = 0. Diese Aussage ist nur dann
zulässig, wenn A = 0 ist; d. h. diese Aussage wäre nur bei einer Verhältnisskala
sinnvoll.
Für Differenzen: Soll nun eine Differenz zweier solcher Variablen durch die
Regressionsanalyse prädiziert werden Y2-Y1 = a + bX, kürzt sich das in der linearen
Transformationen enthaltene A raus:
Nach zulässiger Transformation A+BY gilt:
A+BY2 - (A +BY1) = a + bX
-> BY2 – BY1 = a +bX
-> Y2 –Y1 = a /B + b/B X
Hier ist die Aussage (der Abschnitt ist 0) äquivalent in Vergleich der der
transformierten und untransformierten Regressionsgleichung, und daher zulässig.
Die abhängige Variable ist die Differenz. Die Regressionsgerade wurde anhand der
Regressionsgleichung geschätzt: Y2 –Y1 = a + b X + e.
(mit X=0 für Kontrollgruppe und X=1 für Experimentalgruppe).
Der Kleinst-Quadrateschätzer liefert
für die Kontrollgruppe (X=0) die Differenzenmittelwerte: y 2 (0)  y1 (0)  a und
für die Experimentalgruppe (X=1) die Differenzenmittelwerte: y 2 (1)  y1 (1)  a +b.
b ist daher gerade die Differenz der Differenzmittelwerte:
( y 2 (1)  y1 (1))  ( y 2 (0)  y1 (0)) .
10. Y2 – Y1 = a +bX +cZ An der Stelle, an der Z=0 ist.
11. Odds sind Verhältnisangaben von Anteilen oder Häufigkeiten. Zum Beispiel kann der
Anteil der Kinder unter 18 Jahren einer Horrorkinovorstellung zum Verhältnis der
Jungerwachsenen und Erwachsenen über 18 Jahren dargestellt werden – etwa 1:19.
Dies würde der Angabe entsprechen, dass sich unter 20 Kinobesuchern eine Person
unter 18 Jahren befindet oder dass der prozentuale Anteil an Minderjährigen bei 5%
liegt.
12. Odds finden oft in Wetteinsätzen Verwendung – hier geht es um einen Vergleich der
Gewinnchancen: in einem Würfelspiel etwa liegen die Odds, eine Sechs zu würfeln,
bei 1:5. Odds-Ratio – das Verhältnis von Odds – setzt Odds zweier Gruppen
zueinander in Beziehung und soll somit Aussagen über die Stärke von
Zusammenhängen geben. Beispiel: Es interessiert, wie hoch die Wahrscheinlichkeit
für Kinder mit Migrationshintergrund ist, eine weiterführende Schule zu besuchen, im
Vergleich zu Kindern ohne Migrationshintergrund.
13. Die Odds für Kinder mit Migrationshintergrund, eine weiterführende Schule zu
besuchen, betragen 12:41, für Kinder ohne 38:9. Die Odds-Ratio beträgt 14.42 für
Kinder ohne Migrationshintergrund und Abitur. D.h. die Chancen, dass ein Kind ohne
Migrationshintergrund ein Abitur macht, sind 14,42 mal so hoch, als dass ein Kind mit
Migrationshintergrund das Abitur macht. Liegt die Odds-Ratio über 1, sind die Odds
für die erste Gruppe höher, liegt sie unter 1 sind die Odds für die zweite Gruppe höher.
14. Odds haben einen beschränkten Wertebereich. Sie sind zwar nach oben hin offen,
nähern sich jedoch asymptotisch Null an. Indem man sie in Logits umwandelt, erreicht
man einen unbeschränkten Wertebereich. Der Logit ist der natürliche Logarithmus
eines Odds.
15. Die logistische Regression ist ein Verfahren zur Beurteilung des Zusammenhangs
zwischen einer dichotomen abhängigen Variable und mindestens einer unabhängigen ,
mindestens intervallskalierten Variable.
Typisch sind abhängige Variablen, die das Eintreten eines
Ereignisses erfassen und sich gegenseitig ausschließen – Ereignis tritt ein oder
Ereignis tritt nicht ein. Es interessiert der Einfluss der unabhängigen Variable/n und
die konkrete Wahrscheinlichkeit für das Eintreten des Ereignisses.
16. Im linearen Regressionsmodell ist die abhängige Variable metrisch skaliert und es
wird keine Wahrscheinlichkeit vorhergesagt, sondern die konkrete Ausprägung von Y.
Die logistische Regression unterstellt einen nicht-linearen Zusammenhang zur
Wahrscheinlichkeit des Auftretens des ‚abhängigen’ Ereignisses, das durch eine
Ausprägung der abhängigen Variablen charakterisierbar ist.
1. Die logistische Funktion lautet: p1 () :
exp( )
1  exp( )
2. Andererseits gilt dann: log it ( p1 ())  ln( Odds())  ln(
mit   a  bx
p1 ()
) :  mit   a  bx
1  p1 ()
17. Die Voraussetzung der Homoskedastizität der Residualvarianzen ist nicht erfüllt. Die
Residuen sind nicht normalverteilt. Weiterhin ist ein linearer Zusammenhang
zwischen der/n unabhängigen Variable/n und der Eintrittswahrscheinlichkeit nicht
anzunehmen. Vielmehr geht man von einem „Sättigungseffekt“ aus – die
Wahrscheinlichkeiten nähern sich den Extremwerten asymptotisch an. Und es können
für bestimmte Ausprägungen von X Werte geschätzt werden, die unter 0 oder über 1
liegen.
18. a) -0.5837 b) 0.279
19. Es muss das generalisierte lineare Modell verwendet werden, da Prädikand (Yes/No)
und Prädiktor (Male/Female) qualitative Variablen sind.
20. Da eine Dummy-Variable automatisch von R kodiert wird – je nachdem, welche
Ausprägung die vordere Stelle im Alphabet einnimmt (in diesem Falle Female) wird
mit 0 kodiert. Daher ist der Intercept als Logit der Frauen zu interpretieren
(   a  bx . x= 0 ). Der Einfluss von Sex ist genau der Unterschied zwischen dem
Logit der Frauen und dem Logit der Männer. (-0.58368)
Sitzung 5
1. Beschreiben Sie den Zusammenhang zwischen den Differenzen der Logits und den
Odds-Ratios.
2. Welche Voraussetzungen sollten die Prädiktoren bei einer multiplen Regression
erfüllen?
3. Was ist der Unterschied zwischen dem linearen Modell und dem generalisierten
linearen Modell(GLM)?
4. Was ist die Poisson-Verteilung? Geben Sie ein Beispiel.
5. Wie können die Parameter im GLM geschätzt werden?
6. Geben Sie eine Formel zur Berechnung der Schätzer für die GLM –Parameter an.
7. Was ist die sog. Goodness-of-Fit? Welches Goodness-of-Fit-Maß kann bei GLM
berechnet werden?
8. Geben Sie ein Beispiel für einen Test, mit dem die Güte der Modellanpassung
überprüft werden kann. ( Bezüglich der Chile-Daten. Man verwende zur Prädiktion
von „Vote“ die Dummy- Variable „Sex“ in einem generalisierten linearen Modell. )
9. Welcher Hypothese entspricht die Relevanzbewertung der Gruppenunterschiede?
10. Wie kann die Null-Steigungshypothese β=0 geprüft werden?
11. Warum wird bei der logistischen Regression kein Störglied eingefügt?
12. Was ist der Standardfehler?
13. Was ist ein Konfidenzintervall?
14. Wie kann die Schätzung des Regressionskoeffizienten in einen z-Wert umgewandelt
werden?
Coefficients:
Estimate Std. Error z value Pr(>|z|)
sex[T.M] -0.58368 0.09652 -6.047 1.48e-09 ***
15. Welche Hypothese wurde hier überprüft und warum ist das Ergebnis signifikant?
16. Was ist der p-Wert?
17. Wie kann das Konfidenzintervall eines Regressionskoeffizienten berechnet werden?
18. Was versteht man unter AIC?
19. Was ist ein Bootstrapping-Verfahren?
20. Welche Fragestellungen könnten nach einem Bootstrap-Verfahren im Rahmen einer
Regressionsanalyse interessieren?
Interaktionen und Haupteffekte (Datensatz: Wohnen; Balanciert und Unbalanciert)
21. Woran kann man die Existenz eines Haupteffektes an einer graphischen Darstellung
überprüfen?
22. Wie kann ein Haupteffekt interpretiert werden?
23. Woran erkennt man an einer graphischen Darstellung einen Interaktionseffekt?
24. Welches Modell kann man wählen, wenn ausschließlich Haupteffekte vorliegen oder
die Daten ausschließlich anhand solcher dargestellt werden sollen?
25. Was ist der Unterschied zwischen symmetrischen und asymmetrischen Restriktionen?
26. Prädizieren Sie die Zellmittelwerte der Wohnen_Balanced- Daten mithilfe einer
asymmetrischen Restriktion, wobei α1 und β2 als Normalfall betrachtet werden sollen.
27. Was sind (mathematisch) die Interaktionseffekte?
28. Wie können die Effekte in der Stichprobe geschätzt werden?
29. Wie groß sind die Effekte der Wohnen_Balanced-Daten? Wie können die einzelnen
Zellenmittelwerte mittels linearem Modell prädiziert werden?
30. Wie kann der Fehler (ohne) berechnet werden?
31. Welche Hypothesen können bei der zweifaktoriellen Varianzanalyse gestellt werden?
32. Wie kann überprüft werden, ob bei vorhandener Interaktion zusätzlich noch ein
Haupteffekt vorliegt?
33. Was ist ein sog. Hybrideffekt?
34. Welche Teststatistik kann zur Überprüfung der Hypothesen herangezogen werden?
Welche Eigenschaften sollte sie haben?
35. Was sind die sog. ‘mean sum of squares’?
36. Was bildet in der F-Statistik den Zähler, was den Nenner?
37. Was ist ein unbalanciertes Design?
38. Welche Probleme bringt solch ein unbalanciertes Design bezüglich der Faktoren mit
sich?
39. Welches Problem gibt es bei unbalancierten Designs bezüglich der Interpretation der
Effekte?
40. Woran liegt das?
41. Welche Fehlerreduktion eines Faktors sollte dann zur Interpretation herangezogen
werden?
42. Was ist die sog. Kleinste-Quadrate Eigenschaft des Mittelwertes?
43. Warum ist eine Aussage der Art „Die Hypothese, der F-Wert sei Null soll überprüft
werden“ eher ungeschickt?
Lösungsvorschläge
1. Der Logarithmus eines Quotienten entspricht der Differenz des Logarithmus des
Nenners zum Logarithmus des Zählers :
log it ( p1 ( ))  log it ( p 2( ))  log it (
p1 ( )
)  ln( Oddsratio ( ))
p2 ( )
p1 ( )
)
1  p1 ( )
Die Oddsratios können also ganz einfach erhalten werden, indem die e-Funktion
auf die Differenz der Logits angewendet wird.
mit log it ( p1 ( ))  ln( Odds ( ))  ln(
2. Sie sollten mind. Intervallskalenniveau haben und nicht linear voneinander abhängig
sein, auch nicht kollinear voneinander abhängig. (linear – ein Regressor wäre durch
die anderen mittels einer multiplen Regression exakt prädizierbar; kollinear – ein
Regressor wäre durch die anderen mittels einer multiplen Regression fast exakt
prädizierbar ). Sie dürfen allerdings miteinander korrelieren.
3. Im Gegensatz zu linearen Modellen, in denen man von normalverteilten abhängigen
Variablen ausgeht, nimmt man in generalisierten linearen Modellen (GLM) an, dass
die abhängige Variable eine Verteilung aus der Klasse der exponentiellen Familien
besitzt. Zu diesen Klassen gehören neben der Normalverteilung die Binomial-,
Poisson-, Gamma- und die inverse Gaußverteilung.
Achtung bei den in der Literatur verwendeten Abkürzungen: Manchmal wird das
generelle lineare Modell (aus dem Englischen von General linear Model) mit GLM
abgekürzt. In Anlehnung an die in R verwendete Bezeichung „Lineares Modell“ und
„Generalisiertes lineares Modell“ habe ich lieber GLM für das Generalisierte lineare
Modell verwendet.
4. Die Poissonverteilung entsteht bei der mehrmaligen Durchführung eines BernoulliExperimentes und ist eine diskrete Wahrscheinlichkeitsverteilung. Die Fragestellung
bezieht sich auf die Anzahl des Eintretens eines bestimmten Ereignisses in einer Zeit-,
Raum- oder sonstigen Einheit. Zum Beispiel könnte die Frage interessieren, wie oft
ein Blitz im November in einem bestimmten Stadtviertel einschlägt.
5. In generalisierten linearen Modellen erfolgt die Parameterschätzung mithilfe der
Maximum-Likelihood-Schätzung. In linearen Modellen minimiert man die Summe der
Fehlerquadrate.
6. Es kann keine allgemeine geschlossene Form zur Berechnung der Schätzer angegeben
werden. Sie werden jeweils über ein iterativ numerisches Verfahren gefunden
(Newton-Raphson-Verfahren).
7. Das Goodness-of-Fit -Maß misst die Güte der Anpassung. Dieses Maß soll minimiert
werden. Als Kriterium wird die Devianz – die Abweichung vom Idealwert betrachtet. -2LL (LL für LogLikelihood) wird als Devianz bezeichnet und ist
annähernd χ²-verteilt. Bei perfekter Modellanpassung ergäbe sich eine Devianz von 0.
Je kleiner die Devianz also ist, desto besser ist die Anpassung des Modells an die
Daten.
8. Es bietet sich zum Beispiel ein Likelihood-Ratio-Test ( ??oder Pearson -χ² Test) an,
der die Devianz des Modells mit dem Prδdiktor „Sex“ mit dem „Nullmodell“
vergleicht: Das Nullmodell erhδlt man, wenn alle Regressionskoeffizienten auf Null
gesetzt werden und nur noch die Regressionskonstante ins Modell einflieίt.
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.27938 0.06956 4.017 5.90e-05 ***
sex[T.M] -0.58368 0.09652 -6.047 1.48e-09 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Null deviance: 2435.5 on 1756 degrees of freedom
Residual deviance: 2398.5 on 1755 degrees of freedom
9. Die Relevanzbewertung der Gruppenunterschiede (z.B. der Gruppe Männlich vs.
Weiblich == Prädiktor „Sex“) entspricht der Hypothese, der zugehörige
Regressionskoeffizient sei Null, bzw. dass die Anteile für alle x-Werte gleich sind.
10. Mit dem allgemeinen Likelihood-Ratio-Test.
11. Weil man annimmt, dass Y binomialverteilt ist.
12. Als Standardfehler bezeichnet man die Streuung der Stichprobenkennwerte um
den wahren Wert des gesuchten Parameters der Population. Der Standardfehler hängt
direkt mit der Breite des Konfidenzintervalles zusammen – je größer der
Standardfehler, desto größer ist das Konfidenzintervall.
13. Ein 95% Konfidenzintervall enthält zu 95% Intervalle, die den gesuchten
Populationsparameter enthalten. Wichtig: Das Konfidenzintervall enthält nicht mit
einer bestimmten Wahrscheinlichkeit den Populationsparameter, da dieser keine
Zufallsvariable ist und daher nicht mit einer bestimmten Wahrscheinlichkeit
aufzufinden ist. Das Konfidenzintervall ist auch kein festes Intervall, sondern
schwankt mit jeder Stichprobe, die aus einer Grundgesamtheit gezogen wird.
14. Indem die Schätzung des Regressionskoeffizienten ( -0.58368 ) durch den
Standardfehler geteilt wurde.
15. Es wurde die Hypothese überprüft, der Regressionskoeffizient des Prädiktors
„Sex“ ( ̂β1) sei Null. Die Hypothese wurde abgelehnt, da der z-Wert in den kritischen
Bereich fällt.
16. Der p-Wert bezeichnet unter Geltung der Nullhypothese die Wahrscheinlichkeit,
einen Wert gleich oder extremer dem Testwert im Sinne der Alternativhypothese zu
erhalten.
17. Angenommen, es werde das 95% - Intervall gesucht: KI = ̂β1 +- 1.96σβ
18. Das sogenannte Akaike Information Criterion ist ein Maß zur Beurteilung jener
multivariater Modelle, die auf Maximum-Likelihood-Schätzern basieren und soll den
Vergleich unterschiedlicher nicht-geschachtelter Modelle zum selben Datensatz
unterstützen. Jedes dieser Modelle enthält mindestens eine Variable, die in dem
jeweils anderen Modell nicht enthalten ist. Es geht also um die Frage, welches Modell
die beste Anpassung an die Daten liefert. Angestrebt wird ein möglichst einfaches
Modell mit wenigen Variablen. Dieses Vorgehen bezeichnet man auch als BackwardStrategie – ausgehend vom komplexen Modell wird die Zahl der Variablen reduziert.
19. Das Bootstrapping ist eine Methode, Konfidenzintervalle statistischer Kennwerte
zu bilden, indem aus einer Stichprobe wiederholt Stichproben „mit Zurücklegen“
gezogen werden.
20. Bei einer Stepwise- Regression interessiert unter anderem die Fragestellung, ob die
Regressionskoeffizienten immer dasselbe Vorzeichen haben. Bei der Stepwise-Regression
ist allerdings das Problem, dass nicht alle möglichen Kombinationen (2I, mit I = Faktoren)
untersucht werden, sondern jeweils ein Faktor additiv zum Modell hinzugefügt wird.
21. Bei einem Haupteffekt sind die die Daten zweier Gruppen
anzeigenden/verbindenden Linien parallel.
22. Man kann Aussagen über die Stufen eines Faktors treffen, ohne den anderen
Faktor zu berücksichtigen. Etwa: Männer haben, unabhängig von der Wohnform, ein
höheres Einkommen als Frauen.
23. Beide Linien sind nicht mehr parallel. Will heißen: Es kann keine Aussage über
die Stufen eines Faktors getroffen werden, ohne den anderen Faktor zu
berücksichtigen. Oder: Der Unterschied zwischen den Stufen des einen Faktors (z.B.
Unterschiede zwischen Männern und Frauen im Einkommen) ist auf mindestens einer
Stufe des anderen Faktors unterschiedlich.
24. Die Effekte bezüglich der Faktoren können durch additive Kombinationen dargestellt
werden. Gesucht ist die additive Darstellung der Zellenmittelwerte aus Summanden,
die den tatsächlichen Mittelwerten in der Population möglichst nahe kommt. Es muss
unterschieden werden zwischen asymmetrischen und symmetrischen Restriktionen.
Merke: α und β sind eigentlich Regressionskoeffizienten. Es hat sich aber
eingebürgert, sie als Effekte zu bezeichnen.
25. In der symmetrischen Restriktion beziehen sich die Effekte auf ein generelles Niveau
und ergeben in der Summe Null. In der assymetrischen Restriktion beziehen sich die
Effekte auf eine Vergleichsgruppe, deren Effekt auf Null gesetzt wird. Dies bietet sich
an, wenn eine Gruppe als der 'Normalfall' betrachtet werden kann.
26. Die mittels asymmetrischer Restriktion prädizierten Zellenmittelwerte entsprechen
den mittels symmetrischer Restriktion prädizierten.
27. Die Interaktionseffekte sind die Differenz der Zellmittelwerte zum rein additiven
Modell. Wie auch die Haupteffektgrößen sind sie als Parameter der Population
gedacht, die in der Stichprobe zu schätzen sind.
28. Mittels der Methode der kleinsten Quadrate.
29. Die Zellenmittelwerte können in einer Regressionsgleichung mithilfe von DummyVariablen prädiziert werden.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.000e+01 5.774e+00 10.392 4.65e-05 ***
sex[T.w] 1.941e-14 8.165e+00 2.38e-15 1.0000
wohnen[T.Privat] 2.000e+01 8.165e+00 2.449 0.0498 *
wohnen[T.Wg] 1.000e+01 8.165e+00 1.225 0.2666
sex[T.w]:wohnen[T.Privat] 1.000e+01 1.155e+01 0.866 0.4198
sex[T.w]:wohnen[T.Wg] 2.000e+01 1.155e+01 1.732 0.1340
Im Falle der Wohnen_Balanced Daten zeigte die Regressionsgleichung dergestalt:
Einkommen = 60 + 0 Sex + 20 Privat + 10 WG + 10 weibl.Privat + 20 weibl.WG
Für die Wohnform werden zwei Dummys benötigt:
Daheim
WG
Privat
Privat
0
0
1
WG
0
1
0
Männlich und Weiblich werden mit 0 und 1 kodiert.
Die einzelnen Zellenmittelwerte (hier zur Veranschaulichung durchnummeriert)
1
2
3
1
11
12
13
2
21
22
23
können folgendermaßen prädiziert werden:
11
μ
12
μ+β2
13
μ+β3
21
μ+α2
22
μ+α2+ β2 + αβ22
23
μ+α2+ β3 + αβ23
30. Von Hand:
I1
I2
J
  y
i1 1 i 2 1 j 1
2
i 1i 2 j
 I 1 I 2 Jy 2
31. Zum Einen ist die Formulierung zweier Haupteffekthypothesen möglich:
a. Null-Hypothese zum Faktor x1: die Mittelwerte der x1-Gruppen sind gleich.
Beispiel: Der Einkommensmittelwert eines Studenten ist gleich dem Einkommensmittelwert einer Studentin.
Die Einkommenseffekte von Sex sind 0.
b. Null-Hypothese zum Faktor x2: die Mittelwerte der x2-Gruppen sind gleich.
Beispiel: Die Einkommensmittelwerte unterscheiden sich nicht nach Wohnform.
Zum anderen können drei Interaktionseffekthypothesen aufgestellt werden:
c. Null-Hypothese zur Interaktion zwischen den beiden Faktoren x1 und x2. D.h. das
rein additive Modell der Haupteffekte ist richtig.
Beispiel: Alle Interaktionseffektsparameter sind null. Auf Grund der Restriktionen sind allerdings nur zwei
Interaktionseffektsparameter zu betrachten; es genügt zu fordern, dass: 11= 12=0. Auf Grund der Restriktionen sind dann alle
Effektparameter 0.
d.
Die Mittelwertunterschiede zwischen den x1-Gruppen sind gleich in allen x2-Stufen.
Beispiel: Der Einkommensunterschied zwischen Studenten und Studentinnen ist in allen Wohnformen gleich groß.
e. Die Mittelwertunterschiede zwischen den x2-Gruppen sind gleich in allen x1Stufen.
Beispiel: Die Einkommensunterschiede zwischen daheim versus in WG zu wohnen ist gleich groß für Studenten wie für
Studentinnen.
32. Indem man einen Faktor nicht berücksichtigt (z.B. Wohnform) und die
Gesamtmittelwerte in den einzelnen Ausprägungen des anderen Faktors (hier: Sex )
bildet. In diesem Beispiel würde das bedeuten, dass man die Einkommensunterschiede
zwischen Männern und Frauen unabhängig von der Wohnform betrachtet. Diese
Vorgehensweise bezeichnet man auch als Konstanthaltung.
33. Obwohl eine Interaktion der Faktoren festgestellt werden konnte, lässt sich zudem
noch ein Haupteffekt erkennen. Solch eine Interaktion bezeichnet man als hybrid.
34. Unter Geltung der Nullhypothese sollte die Stichprobenmaßzahl klein, unter Geltung
der Alternativhypothese groß werden. Diese Eigenschaften erfüllen die
Fehlerreduktions-quadratsummen. Diese Quadratsummen werden zudem relativiert
auf die Variabilität innerhalb der Zellen einerseits, andererseits werden auch die
Freiheitsgrade berücksichtigt. Die resultierenden Teststatistiken sind F-Statistiken
35. Als mean sum of squares (msq) sind jeweils die sum of squares des Modells, die durch
die entsprechenden Freiheitsgrade geteilt wurden.
36. Den Zähler bilden die mean sum of squares des Modells, dessen Effekt in der
Nullhypothese überprüft werden soll. Den Nenner bilden die mean sum of squares des
Modells, das sowohl Interaktions- als auch Haupteffekte berücksichtigt.( Dies
entspricht der Variabilität innerhalb der Zellen. Durch kein anderes Modell kann
diese Variabilität noch weiter reduziert werden. ) Dies wird auch als msqe(within)
bezeichnet. Hier für den Faktor x1 :
Baumstruktur der Fehlerreduktion durch die einzelnen Modelle:
Studenten-Einkommens-Beispiel: für alle Faktoren-Modelle wurden die Fehler berechnet. Dargestellt wird jeweils das Fehlermaß der
Modelle (ssqe). Darauf aufbauend sind ebenfalls die Fehlerreduktionen eingetragen; hier zusätzlich mit rein additivem Modell.
-
-
ssqe(-) 1
23 1
a
b
I1
ssqe(a)
a
I2
ssqe(b)
FR(b . a)
14
3
FR(b)
FR(a)
b
9 3
20 2
FR(a . b)
3
14
a, b
a, b
I1+I2-1
ssqe(a,b)
Rein additives Modell
FR. durch Interaktion
6 4
2
FR(ab. (a,b) )
19
FR(ab)
ab
ssqe(ab) I1I2
ab
4
z
6
Anzahl linear unabhängiger Parameter
37. Versuche, bei denen ungleiche oder unproportionale Zellbesetzungen gegeben sind,
werden als unbalancierte Designs bezeichnet.
38. Bei nichtbalancierten Designs korrelieren im Allgemeinen die Faktoren, da die
Häufigkeiten nicht proportional zu den Randhäufigkeiten sind.
39. Bei den Modellen, die verschiedene Faktoren berücksichtigen, sind die geschätzten
Effekte je nach Modell unterschiedlich groß.
Die Fehlerreduktion durch einen bestimmten Faktor ohne Konstanthaltung ist nicht
gleich groß wie die Fehlerreduktion dieses Faktors bei Konstanthaltung eines anderen
Faktors.
Studenten-Einkommens-Beispiel: Prädiktionsfehlerberechnung für nicht balancierte Daten. Hier ist wiederum die Fehlerreduktion durch
einen Faktor unterschiedlich je nach Konstanthaltung (z.B. FR(b) =17.85 ungleich FR(b . a)=15.2).
-
-
ssqe(-)
26.85
a
b
a
ssqe(a)
ssqe(b)
21.5
FR(b . a)
Rein additives Modell
FR. durch Interaktion
17.85
5.35
FR(b)
FR(a)
FR(a . b)
b
9
2.7
15.2
a, b
a, b
ssqe(a,b)
6.3
2.3
FR(ab. (a,b) )
22.85
FR(a, b, ab)
a, b, ab
ssqe(ab)
a, b, ab
4
40. Die Gruppenmittelwerte der verschiedenen Stufen eines Faktors sind nicht gleich dem
ungewichteten Mittelwerte über die Zellmittelwerte. Diese Gleichheit besteht bei
balancierten Designs.
41. Wenn ein Faktor unterschiedliche Fehlerreduktionen je nach Konstanthaltung
aufweist, sollte zur Interpretation jene Fehlerreduktion herangezogen werden, die die
maximale Konstanthaltung aufweist.
42. Kleinste- Quadrate Eigenschaft des Mittelwerts: Wenn die Summe der quadrierten
Abweichungen als Fehlermaß betrachtet wird, soll der Mittelwert verwendet werden,
da er das besterklärendste Maß darstellt. Nähme man die Beträge als
Abweichungsmaß, wäre etwa der Median besser.
43. Vielleicht: Es soll die Hypothese überprüft werden, die Hinzunahme des Faktors x
führt zu keiner signifikanten Fehlerreduktion. Bzw. der Haupteffekt des Faktors x in
der Population ist Null.
Sitzung 7
1. Welcher Art sind die unabhängigen Variablen, die in der linearen Regression, dem
linearen Modell und dem generalisierten linearen Modell verwendet werden können?
2. Was ist die Kovarianzanalye? Was ist die Kovarianzanalye im engeren Sinn?
3. Welche unterschiedliche graphische Darstellung muss in der multiplen
Regressionsanalyse gewählt werden? Was ist der Intercept?
4. Was sind Störgrößen?
5. Geben Sie ein Beispiel.
6. Welche Voraussetzungen müssen die Störgrößen im linearen Modell erfüllen?
7. Wenn bei Testinstrumenten zwei Faktoren korrelieren, diese Korrelation aber
ausgeschaltet oder zumindest verringert werden soll: Welche Möglichkeiten hat man
hierzu in der Regressionsanalyse?
8. Welche Korrelationen der Prädiktoren sind in der multiplen Regression erlaubt?
Welche nicht?
9. Welche Verteilungsannahmen hat man in Bezug auf die Störgrößen?
10. Wie können sich die Regressionskoeffizienten in einer multiplen Regressionsanalyse
in verschiedenen Modellen unterscheiden? Bei welchem Fall unterscheiden sie sich
nicht?
11. Wieviele unabhängige Variablen darf man maximal in einer Regressionsanalyse
verwenden?
12. Nennen Sie die Eigenschaften der Residuen der multiplen Regression.
13. Was ist der multiple quadrierte Korrelationskoeffizient?
14. Wieviele verschiedene Modelle gibt es bei der multiplen Regressionsanalyse mit p
Prädiktoren?
15. Welche Aussage kann bezüglich der Korrelation der Prädiktoren getroffen werden,
wenn sich die Regressionskoeffizienten in verschiedenen Modellen unterscheiden?
16. Wann ist die prädiktive Relevanz eines Merkmales sequenzunabhängig?
17. Was sind semipartielle Determinationskoeffizienten?
18. Was sind partielle Determinationskoeffizienten?
19. Verbalisieren Sie:
r ya2 . gs
=
FR ( a. gs)
F(gs)
=
F( gs )-F (ags )
F(gs)
= 0.159.
Welcher Determinationskoeffizient wurde hier berechnet?
20. Verbalisieren Sie:
r y2( a. g s )
FR ( a. gs)
= F(-) =
berechnet?
F( gs )-F (ags )
F(-)
= 0.048. Welcher Determinationskoeffizient wurde hier
21. Warum ist der partielle Determinationskoeffizient größer oder gleich wie der
semipartielle Determinationskoeffizient?
22. Wie kann der multiple Determinationskoeffizient additiv oder multiplikativ durch
semipartielle oder partielle Determinationskoeffizienten dargestellt werden?
Lösungsvorschläge
1. In der linearen Regression müssen alle unabhängigen Variablen quantitativ sein. (Dummys
gelten als quantitativ). Im linearen Modell können die unabhängigen Variablen quantitativer
oder qualitativer Art sein, die abhängige Variable sollte, wie in der linearen Regression,
mindestens Intervallskalenniveau besitzen. Im generalisierten linearen Modell können sowohl
unabhängig als auch abhängige Variablen qualitativer oder quantitativer Art sein. Die
Varianzanalyse wird als lineares Modell ( mit qualitativen UV ) betrachtet. Faktoren
entsprechen den UV, man sollte sich daher nicht verwirren lassen, wenn bei der
Varianzanalyse von Faktoren gesprochen wird.
2. Als Kovarianzanalyse bezeichnet Scheffè (1959) jede Regressionsanalyse, die sowohl
quantitative Merkmale als Prädiktoren als auch qualitative Prädiktoren enthält. Etwas
eingeschränkter wird unter Kovarianzanalyse ein Verfahren verstanden, das erlaubt
Gruppenunterschiede (qualitativer Faktor) zu untersuchen, obwohl bekannt ist, dass die
Gruppen in einem (oder mehreren) quantitativen Merkmal (Kovariate genannt)
unterschiedlich sind, das seinerseits für den Prädikanden relevant ist. Durch ‚Konstanthaltung
der Kovariaten’ soll die Vergleichbarkeit hergestellt werden. Diese Form der Analyse sei als
„Kovarianzanalyse im engeren Sinne“ bezeichnet, die allgemeinere, von Scheffè (1959)
eingeführte, Bezeichnung als Kovarianzanalyse im weiteren Sinn.
3. Multiple Regression (mit mindestens zwei Faktoren) führt nicht mehr zu einer
zweidimensionalen Prädiktionsgeraden wie die einfache Regression, sondern zu einer Ebene
im dreidimensionalen Raum. Der Intercept ist hier dann jene Stelle, an der x1 und x2 Null sind.
In manchen Untersuchungssituationen ist es inhaltlich unsinnig, den Intercept an den
Nullstellen der beiden Prädiktoren gesetzt zu haben. (z.B. in einer Prädiktion von
Körpergröße und Alter auf den Prädikand Gewicht). Daher wird manchmal auf die
Mittelwerte zentriert, so dass der Intercept dann an der Stelle der Mittelwerte von x1 und x2
ist.
4. Als „Störgrößen“ werden die Abweichungen der wahren Werte von den durch die
Regressionsanalyse prädizierten Werten bezeichnet.
5. Wohnenbeispiel: Eigentlich müsste ein Mann 17.5 Euro pro Woche bekommen, wenn er
zuhause wohnt. Jetzt sind seine Eltern aber so reich, dass er zwanzig Euro bekommt. Diese
2.5 Euro bezeichnet man als Störgröße (man könnte sie vielleicht auch erklären, aber man
lässt diesen Faktor raus, um es nicht zu kompliziert werden zu lassen.)
Störgrößen sind auch die Summen jener Variablen, die man rauslässt, um das Modell nicht zu
kompliziert werden zu lassen. ABER! Bemerke, diese Einflüsse haben keinen systematischen
Effekt! (Es gibt zum Beispiel auch Eltern, die arm sind und der Sohn daher ein wenig weniger
als 17.5 Euro bekommt)
Wenn man die Parameter der Population hätte, könnte man die Störgrößen genau prädizieren.
6. Voraussetzung für das lineare Modell
Man unterstellt auch, dass die Störgrößen nicht mit den unabhängigen Variablen korrelieren.
Wenn die Störgrößen korrelieren, muss das lineare Modell verworfen werden. Auch die
Residuen werden so konstruiert, dass sie nicht mit den UV korrelieren.
7. Beispiel: Kreativitätsmessung.
In der Messung mithilfe von Instrumenten (also zum Beispiel in Kreativitätstests ) ist die
Kreativität meist nicht unkorreliert mit Intelligenz.
Wie kann man es schaffen, dass die beiden überhaupt nicht mehr korrelieren?
Man stelle sich eine einfache Regression vor, mit einem zweidimensionales Streudiagramm.
In die Daten kann die Regressionsgerade gelegt werden und die Residuen angegeben werden.
→ Residuen sind nun jene Werte, die von der Intelligenz nicht prognostiziert werden können.
Man kann also sagen, die Residuen stellten die Kreativität dar, bereinigt durch den Einfluss
von Intelligenz. Das Residuum korreliert dann nicht mehr mit IQ.
8. Unabhängige Variablen dürfen in der Regressionsanalyse miteinander korrelieren, aber auf
keinen, auf gar keinen Fall mit der Störgröße.
Achtung auch bei einer Korrelation eines Faktor Z, dessen Ausprägungen vielleicht nicht
erhoben worden sind, der eine Korrelation zwischen der Störgröße und einer oder mehreren
der UV herstellt.
Auch eine solche Korrelation ist strengstens verboten.
Sie dürfen korrelieren, aber nicht linear oder kolinear abhängig sein.
Es gibt keinen Prüfwert auf Kollinearität, R2 sollte aber nicht über .95 liegen.
9. Annahme: Bei der Datengenerierung werden die Störgrößen unabhängig aus einer NV
gezogen.
Das heißt die Störgrößen der Person haben die gleiche Variabilität (
Homoskedastizitätsannahme ).
10. Durch eine Einführung einer weiteren UV können sich die Regressionskoeffizienten der
anderen UVs ändern, u.U. auch von positive in negative Werte.
Es genügt nicht zu schauen, wie hoch die Korrelation zwischen AV und UV ist, da sich diese
Korrelation auch erst ergeben kann, wenn eine andere UV hinzugefügt wird.
Daraus resultiert der Irrtum, sich nur eine UV anzusehen. Denn man kann immer nur die
einzelnen UVs betrachten, wenn sie alle untereinander zu Null korrelieren. (das ist meist nicht
der Fall)
Wenn UV zu Null korrelieren, bleiben Regressionskoeffizienten in allen Modellen gleich.
Achtung: Es kann sein, dass bei Hinzufügen einer weiteren Variable mehr prognostiziert
werden kann (also Fehlerquadrate reduziert werden können), das muss aber nicht sein.
11. Daumenregel: Für jede Variable, die man hat, braucht man ca. 5-10 Fälle.
Es hängt auch von der Korrelation zwischen den UV ab. Wenn die Korrelation zwischen den
Prädiktoren 0 sind, braucht man weniger Versuchspersonen; dann verändern sich die
Regressionskoeffizienten nicht, wenn zusätzliche Prädiktoren hinzugefügt werden.
Die Anzahl der Beobachtungen wird beim Testen berücksichtigt (z.B. beim F-Test in den
Freiheitsgraden von ssqe(within) und ssqe(total))
12. Der arithmetische Mittelwert aller Residuen ist Null. Die Korrelation der Residuen mit
allen x Variablen ist Null.
13. Ein PRE- Maß, das das Mit-Fehlermaß (Summe der quadrierten Residuen; enthält alle p
Prädiktoren) und das Ohne-Fehlermaß (Summe der quadrierten Abweichungen vom
Mittelwert)
14. 2p Modelle.
15. Wenn sich die Regressionskoeffizienten in verschiedenen Modellen unterscheiden,
korrelieren sie miteinander.
16. Wenn die Prädiktoren nicht wechselseitig korrelieren.
17. Der semipartielle Determinationskoeffizient ist die globalanteilige Reduktion des Fehlers
durch ein Merkmal ‚unter Konstanthaltung’ anderer Merkmale. Basis der Anteilsbildung ist
der Fehler ohne jedes Merkmal.
18. Der partielle Determinationskoeffizient ist die anteilige Reduktion des Fehlers durch ein
Merkmal ‚unter Konstanthaltung’ anderer Merkmale. Basis der Anteilsbildung ist der Fehler
an der Stelle, an der das Merkmal hinzugefügt wurde.
19. Unter Konstanthaltung von g und s kann die Prädiktion von y durch a um 15.9%
verbessert werden. Dies ist ein partieller Determinationskoeffizient.
20. Unter Konstanthaltung von g und s kann die Prädiktion von y durch a um 4.8% global
verbessert werden. Dies ist ein semipartieller Determinationskoeffizient.
21. Weil der semipartielle Determinationskoeffizient durch einen größeren Fehler dividiert
wird als der partielle.
22. Der multiple Determinationskoeffizient kann additiv durch semipartielle, multiplikativ
durch partielle Determinationskoeffizienten dargestellt werden.
Sitzung 8
Semipartielle und partielle Determinationskoeffizienten
1. Der semipartielle Determinationskoeffizient
r y2( a. g s )
kann auch als quadrierte Korrelation zweier Variablen beschrieben werden.
Welche Variablen sind dies?
2. Der partielle Determinationskoeffizient
r ya2 . gs
kann auch als quadrierte Korrelation zweier Variablen beschrieben werden.
Welche Variablen sind dies?
3. Auch der multiple Determinationskoeffizient kann als Korrelation zweier
Variablen intepretiert werden. Welche?
Für die Formeln zur Berechnung der Korrelationen siehe Skript zur Einführung in die Statistik, Abschnitt 5.4.4.2
Semipartielle und partielle Korrelation.
Venn-Diagramme
y
E
A
C
B
D
x
z
4. Angenommen, die abhängige Variable Y werde durch die beiden Prädiktoren
X und Z erklärt. Welcher Teil der Grafik stellt den semipartiellen
Determinationskoeffizient r 2y(x.z) dar ?
5. Welcher Teil der Grafik stellt den einfachen Determinationskoeffizienten r2yx
dar?
6. Welcher Teil der Grafik stellt den multiplen Determinationskoeffizient dar?
Welcher Teil 1- R2?
7. Wie kann mithilfe einiger Teile der Grafik ein partieller
Determinationskoeffizient beschrieben werden? (am Beispiel: r2yx.z)
8. Was ist bei einer Darstellung mittels Venn-Diagramm zu beachten? Auf
wieviele Merkmale kann eine Darstellung erweitert werden?
Analyse zweier Merkmale – zusammenfassende Wiederholung
9. Nennen Sie die wichtigsten Verfahren, die zur Analyse einer quantitativen
abhängigen Variable (mind. intervallskaliertes y-Merkmal) durchgeführt
werden können.
10. Nennen Sie die wichtigsten Verfahren zur Analyse einer qualitativen
abhängigen Variable.
11. Welche Vorteile hat der t-Test gegenüber einer Regressionsanalyse? Welche
Nachteile gibt es?
Standardisierte Regressionskoeffizienten
12. In einer multiplen Regressionsanalyse kann die Frage interessieren, welche
Variable den stärksten Effekt hat. Wodurch wird der Effekt einer Variable
ersichtlich?
13. Wodurch kann die Vergleichbarkeit der Regressionskoeffizienten verhindert
werden?
14. Was kann getan werden, um die Regressionskoeffizienten vergleichbar zu
machen?
15. Verbalisieren Sie, welchen Einfluss ein standardisierter Regressionskoeffizient
angibt.
16. Warum ist es daher unsinnig, eine dichotome Variable zu standardisieren?
17. Welche Einschränkungen müssen bezüglich der standardisierten
Regressionskoeffizienten unterschiedlicher Datensätze beachtet werden?
18. Was ist der Unterschied zwischen der Normierung und der Standardisierung?
19. Welche Fehlermaße gibt es außer Cohens d?
20. Wann ist Cohens d äquivalent zum standardisierten Regressionskoeffizienten?
Faktorenanalyse
21. Welche Fragestellung soll mittels Faktorenanalyse untersucht werden?
22. In welcher Beziehung stehen manifeste und latente Variablen?
23. Es gibt verschiedene Vorgehensweisen, bzw. Annahmen über Koeffizienten.
Welche?
24. Was sind die sog. Ladungen?
25. Was ist das Modell der gemeinsamen Faktoren (common factors model)?
26. Beim Modell der gemeinsamen Faktoren wird zusätzlich zu den gemeinsamen
Faktoren noch eine andere Größe mit in die Linearkombination genommen.
Welche ist das und welche Voraussetzung muss sie erfüllen?
27. Unter welchen Voraussetzungen sind die Ladungen gleich den Korrelationen
zwischen den Faktoren und den manifesten Variablen?
28. Was ist das Hauptkomponentenmodell?
29. Was bedeutet Orthogonalität?
30. Warum können Korrelationen zwischen X-Variablen, die von demselben
Faktor erklärt werden, als Scheinkorrelationen enttarnt werden?
31. Was ist eine Kommunalität?
32. Geben Sie eine Formel zur Berechnung der Varianz eines Items bei Erklärung
durch einen Faktor an.
33. Geben Sie eine Formel zur Berechnung der Varianz eines Items bei Erklärung
durch zwei Faktoren an.
34. Wie können die Faktoren interpretiert werden?
35. Was ist eine Spezifität?
36. Wie hoch korrelieren die Spezifitäten mit den Faktoren?
37. Wie wird die Varianz, die ein Faktor in allen Variablen erklärt, berechnet?
Wofür ist diese Berechnung wichtig?
Lösungsvorschläge
1. Der semipartielle Determinationskoeffizient kann als quadrierte Korrelation
zwischen y und den Residuen von a unter der Konstanthaltung von gs
interpretiert werden.
2. Der partielle Determinationskoeffizient kann als quadrierte Korrelation
zwischen dem Residuum y.s und und dem Residuum a.gs interpretiert werden.
3. Die multiple Korrelation kann als einfache Korrelation der y-Werte mit den
Prädiktionswerten ŷ(x1 , x 2 ,...,x p ) interpretiert werden, kurz: Korr(y, ŷ ). Die
quadrierte Korrelation ist dann auch der Determinationskoeffizient, der angibt,
wie gut die y-Werte durch die p x-Variablen prognostizierbar sind.
4. A - die Schnittfläche zwischen x und y ohne C - stellt den semipartiellen
Determinationskoeffizient r 2y(x.z) dar.
5. A+C
6. A+B+C. Der Varianzanteil der Variablen y, der nicht durch die Prädiktoren x
und z erklärt werden kann ist mit E graphisch dargestellt. (und entspricht 1R2).
A
7. Der partielle Determinationskoeffizient r2yx.z kann durch
beschrieben
( A  E)
werden.
8. Bei Darstellung von mehr als zwei Variablen sind auch negative Flächen
möglich. Je mehr Variablen hinzugenommen werden, desto größer wird die
Gefahr negativer Flächen. Grundsätzlich können mehr als drei Variablen
dargestellt werden, im Einzelfalle sollte aber zu Gunsten der Übersichtlichkeit
davon abgeraten werden.
Bei einer Darstellung mithilfe eines Venn-Diagramms ist zu beachten, dass
durch die Darstellung mit Kreisen keine flächengetreue Darstellung möglich
ist.
9. Bei qualitativen unabhängigen Variablen: Vergleiche zweier Mittelwerte,
Varianzanalyse, Vergleiche von Varianzen. Nichtparametrische Verfahren (bei
Verletzung von Verteilungs-Voraussetzungen)
Bei ordinalen unabhängigen Variablen: Mittelwerttests, Varianzanalyse
Bei quantitativen unabhängigen Variablen: Pearson- Korrelation,
Regressionsanalyse
Merke: Auch eine qualitative unabhängige Variable kann als Prädiktor in eine
Regressionsanalyse eingeführt werden und zwar dann, wenn sie als Dummy
kodiert wurde.
10. Bei qualitativen unabhängigen Variablen: Kreuztabellenanalysen, ChiQuadrat, Nominale Korrelation (Chi-Quadrat-Normierungen, GOODMANs ,
KRUSKALs , kappa), Analyse mit loglinearen und nominal-logistischen
Modellen.
Bei quantitativen unabhängigen Variablen: Analyse mit nominal-logistischen
Modellen (logistische Regression)
Auch bei qualitativen abhängigen Variablen gilt in der Regressionsanalyse die
Verwendung qualitativer unabhängiger Variablen als Dummy-Variablen
kodiert als zulässig.
11. Ein Vorteil des t-Test gegenüber der Regressionsanalyse liegt darin, dass im ttest unterschiedliche Varianzen berücksichtigt werden können (vgl. Welch 2sample test), wohingegen die Gleichheit der Varianz in der Regressionsanalyse
vorausgesetzt ist.
Ein Vorteil der Regressionsanalyse gegenüber dem t-Test ist, dass mehrere
unabhängige Variablen und deren Einfluss beachtet werden kann. Ein weiterer
liegt natürlich darin, dass verschiedene Funktionen herangezogen werden
können, um die Daten zu beschreiben (vgl. logistisches Modell,
Linearkombination, Poisson-Verteilung etc.)
12. Der jeweilige Regressionskoeffizient misst den Effekt der Variable.
13. Werden die Prädiktoren in unterschiedlichen Masseinheiten angegeben, ist die
Vergleichbarkeit zwischen ihnen erschwert, bzw. verhindert.
14. Die Regressionskoeffizienten werden vergleichbar, wenn sie standardisiert
wurden. Multipliziert man die unstandardisierten Regressionskoeffizienten mit
den Standardabweichungen der jeweiligen unabhängigen Variable und teilt
dies durch die Standardabweichung der abhängigen Variable, erhält man die
standardisierten Regressionskoeffizienten, die nunmehr vergleichbar sind.
Zum Beispiel: y  a  b1
s(x1)
x1
*
s(y) s ( x1)
Achtung: Die Koeffizienten sind nicht auf einen bestimmten Wertebereich
begrenzt, können also größer als 1 und kleiner als -1 werden.
15. Der standardisierte Regressionskoeffizient gibt an, um wieviele
Standardabweichungen sich die abhängige Variable ändert (senkt oder erhöht,
je nach Vorzeichen des Regressionskoeffizienten), wenn sich die unabhängige
Variable um eine Standardabweichung erhöht.
16. Es ist unmöglich, den Fall zu interpretieren, dass sich zum Beispiel
‚Geschlecht‘ um eine Standardabweichung ändert.
17. Wird dasselbe Regressionsmodell in unterschiedlichen Datensätzen berechnet,
ist die Vergleichbarkeit der Regressionskoeffizienten eingeschränkt bzw.
verhindert, da die Variablen unterschiedliche Streuungen aufweisen können.
18. Bei einer Normierung wird durch die Standardabweichung geteilt. Bei der
Standardisierung wird zusätzlich noch der Mittelwert abgezogen (vgl. zTransformation).
19.
- Determinations-Koeffizient 1. und 2. Art
- Prozentuale Fehlerreduktion
- Entropiereduktion
- β-Koeffizient
- Kappa
- Vergleich von Anteilen nur nach Arcsin-Transformation (Umkehrfunktion
vom Sinus)
- etc.
20. Bei einer dichotomen x-Variable.
21. Mittels Faktorenanalyse soll die Fragestellung untersucht werden, inwieweit
manifeste Variablen auf eventuell wenige zugrundeliegende Faktoren (latent)
zurückgeführt werden können.
22. Die manifesten Variablen werden in der Faktorenanalyse als
Linearkombination der latenten Variablen (Faktoren) dargestellt.
23. Konfirmatorisches Vorgehen: Es existieren inhaltlich begründete Annahmen
über die Koeffizienten.
Beim explorativen Vorgehen werden keine Annahmen über die Koeffizienten
gemacht. Es ist primär ein Vorgehen zum Auffinden einer bestimmten
Faktorenstruktur, Hypothesen können im Gegensatz zum konfirmatorischen
Vorgehen nicht untersucht werden.
24. Als Ladungen werden die in der Regressionsgleichung zur Prädiktion der
manifesten Variablen verwendeten Regressionskoeffizienten bezeichnet.
25. Beim Modell der gemeinsamen Faktoren wird entweder theoriegeleitet oder
auf Grund empirischer Analyse eine bestimmte Anzahl gemeinsamer Faktoren
festgelegt. Jede manifeste Variable wird als Linearkombination der
gemeinsamen Faktoren und einer Störgröße dargestellt. Gegeben sind die
Korrelationen (bzw. Kovarianzen) der manifesten Variablen; gesucht sind die
Ladungen und die Varianzen der Störgrößen. Falls nicht zu viele Faktoren im
Modell gefordert werden, sind die Ladungen eindeutig (bis auf Rotation des
Koordinatensystems) und die Varianzen der Störgrößen eindeutig bestimmbar.
26. Zusätzlich zu gemeinsamen Faktoren wird in der Linearkombination noch eine
Störgröße hinzugenommen. Diese enthält Messfehler und Varianzanteile, die
nicht durch die gemeinsamen Faktoren abgedeckt werden können. Sie selbst
sollen unkorreliert sein und nicht mit den Faktoren korrelieren.
27. Meist werden die Varianzen der Faktoren auf 1 normiert. Als manifeste
Variablen dienen die standardisierten X-Variablen.
Var(Xi) = 1 für alle manifesten Variablen und Var(Fj)=1 für alle Faktoren.
Unter diesen Voraussetzungen sind die Ladungen gleich den Korrelationen
zwischen den Faktoren und den manifesten Variablen.
28. Beim Hauptkomponentenmodell werden i. a. gleich viele latente Variable (hier
auch Hauptkomponenten genannt) eingeführt wie linear unabhängige
manifeste Variable existieren. Auf Störgrößen wird verzichtet. Damit in
diesem Modell die Hauptkomponenten (bis auf das Vorzeichen) eindeutig
bestimmt werden können, wird vorausgesetzt, dass die Hauptkomponenten
nicht korrelieren und zudem so gebildet werden, dass die erste Komponente
maximal viel Varianz in den manifesten Variablen erklärt, die zweite
Hauptkomponente die zweit meiste Varianz usw. Nur die Vorzeichen der
Hauptkomponenten sind dann nicht eindeutig (geometrisch bedeutet der
Vorzeichenwechsel eine Spiegelung einer Koordinatenachse am Nullpunkt im
Koordinatenraum).
29. Die Kovarianz zwischen den Faktoren ist Null. (Die Faktoren sind
unkorreliert)
30.
Cov(X1 ,X 2) = ?
X1 = F1 a1 + U1
X2 = F1 a2 + U2
==> Cov (F1 a1 + U1, F1 a2 + U2) = a1 a2 Cov (F1, F1) + a1 Cov (F1, U2) + a2
Cov (F1, U1) + Cov (U1, U2) = a1 a2 Var(F1), da alle anderen Cov = 0.
==> Cov (X1 ,X 2) = a1 a2
31. Die Kommunalität einer Variablen beschreibt den Anteil der Varianz dieser
Variablen, der durch die gemeinsamen Faktoren erklärt wird. Die manifeste
Variable ist im vorliegenden Modell der Regressand, die Faktoren entsprechen
den Regressoren. Von der einfachen Regressionsanalyse her ist der
Determinationskoeffizient 1. Art bekannt: die quadrierte Korrelation des
Regressors mit dem Regressanden; das gilt auch hier und ist erweiterbar auf
mehrere Regressoren.
Wenn die Regressoren unkorreliert sind, ist der Determinationskoeffizient für
mehrere Regressoren (multipler Determinationskoeffizient) die Summe der
quadrierten Korrelationen zwischen Regressand und Regressoren, daher für die
i. manifeste Variable:
2
h i2  a i21  a i22    a im
(die Kommunalität wird mit h2 abgekürzt).
Die Wurzel aus der Kommunalität ist zudem die Länge des Vektors vom
Koordinatennullpunkt zum Punkt im gemeinsamen Faktorraum.
32. Berechnung der Varianz eines Items bei einem Faktor:
X1 = a1F1 + U1
Var (X1) = Cov (X1, X1) = a1² Var(F1) + Var(U1) + 2 Cov (a1F1, U1)
Var (X1) = a1² + Var(U1)
mit Var(U1) = Itemspezifische Varianz, die sich der Kenntnis entzieht
a1² = Kommunalität, der Anteil erklärter Varianz
33. Berechnung der Varianz eines Items bei 2 Faktoren:
X1 = a1F1 + U1
+ b1F2 + U2
Var (X1) = a1² + b1² * Var (U1)
und a1² + b1² = Kommunalität
und
34. Für jede manifeste Variable wird untersucht, auf welchem Faktor sie am
höchsten lädt. Alle manifesten Variablen, die ihre höchste Ladung auf diesen
Faktor aufweisen werden zusammengefasst. Diese Gruppe muss nun etikettiert
werden – man kennt das etwa aus der Diagnostik. (vgl. Items verschiedener
Fragebögen, die entweder unter ‚Offenheit‘ oder unter ‚Extraversion‘
zusammengefasst werden.)
35. Die Varianz der Störgröße der i. manifesten Variablen wird als Spezifität der i.
manifesten Variable bezeichnet.
Var(Ui) = 1 – Kommunalität.
Die Spezifizität besteht aus der Messfehlervarianz und zusätzlich aus der
‚Eigenart’-Varianz der Variablen.
36. Die Spezifitäten sind mit den Faktoren unkorreliert.
37. Die Varianz, die ein Faktor in allen Variablen erklärt, wird durch die
summierten quadrierten Korrelationen des Faktors mit den Variablen
berechnet. Dies ist wichtig für die Entscheidung, welche Faktoren
berücksichtig werden sollen. (falls nicht schon durch theoretische Annahmen
festgelegt) Der Scree-Plot stellt diese Varianzen für alle Faktoren dar.
Anwendungen der Kovarianzregeln (siehe Skript: Einführung in die Statistik)
Die Anwendungen der Kovarianzregeln in linearen Modellen kann durch die
„Pfaddiagrammregeln“ zur Darstellung von Kovarianzen erleichtert werden. Sie
repräsentieren Anweisungen, die auch bei Gleichungssystemen die „richtige
Hintereinanderschaltung“ der Einsetzungsschritte gewährleisten. Die Kovarianz zwischen
zwei Variablen X und Y kann folgendermaßen berechnet werden:
1. Beginne einen Pfad in X (bzw. Y) entgegen der Pfeilrichtung. Der Pfad wird
weiterverfolgt, bis die „Zielvariable“ Y (bzw. X) erreicht ist. Dabei ist höchstens eine
Richtungsänderung zulässig. Das Pfadstück mit der Richtungsänderung sei die
„Traverse“. Falls keine Richtungsänderung eintritt ist die „Zielvariable“ die Traverse.
2. Multipliziere alle Koeffizienten (=Konstanten der Linearkombinationen) entlang eines
Pfades. Bei der Traverse multipliziere die Kovarianz zwischen den Variablen (bei
Doppelpfeil-Traversen), sonst die Varianz.
3. Addiere die Produkte aller verschiedenen Pfade (Zwei Pfade sind verschieden, wenn
nur ein einzelnes Teilstück verschieden ist).
Bei standardisierten Variablen sind die Varianzen gleich 1 und die Kovarianzen gleich den
Korrelationen.
Beispiel 1: Scheinkorrelation und Mediatoren
Gleichungen:
εy
Y
a
Z
b
εx
X
Y = a Z + εy
Cor (X,Y) = a b
Xx = b Z+ εx
Dies ist eine Scheinkorrelation: X und Y haben
keinen direkten Einfluss aufeinander, korrelieren
aber trotzdem.
Variablen, die einen Einfluss „vermitteln“,
bezeichnet man als Mediatoren. Hier ist z ein
Mediator. Die durch z entstandene
Scheinkorrelation zwischen y und x läßt sich
durch Konstanthaltung beheben, indem man die
partielle Korrelation zwischen x und y unter
Konstanthaltung von z verwendet:
Gleichungen:
X
b
a
Z
Y = a Z + εy
Y
X = b Z + εz
εy
Korrelation (Annahme: X, Y, Z standartisiert):
εy
rxy.z = r(x.z) (y.z) =
rxy  rxz  ryz
2
2
(1 - ryz
)(1  rxz
)
Beispiel 2: Regressions- und Pfadanalyse
Gleichungen:
εx
X
Y = b X + a Z + εy
b
c
Y
Z
a
εy
X = c Z + εx
Korrelationen (Annahme: X, Y, Z standardisiert):
Corr(X,Y) = b + a c
Unter Umständen kann eine solche Korrelation
Null sein (hypothetisches Beispiel):
Corr(X,Y) = 24 + (-6)* 4 = 0
Dennoch besteht zwischen den Variablen ein
Einfluss, der sich allerdings rechnerisch aufhebt.
Corr(X, Z) = c
Beispiel 3: Doppelpfeile, Regressionsanalyse mit 2 Prädiktoren
Doppelpfeile spezifizieren einen nicht näher bestimmten
Zusammenhang. Sie bedeuten aber nicht, dass der ‚kausale’ Einfluss
X
b
wechselseitig ist. Doppelpfeile sind u. a. nützlich, um ganze
Cov (X,Z)
Variablennetze zu vereinfachen: Man läßt die Variablen weg, die einen
Y
nicht interessieren, die aber einen Einfluss haben, und ersetzt sie durch
a
Z
den Doppelpfeil. Dabei wird eine von 0 verschiedene Kovarianz
unterstellt. Bei der Berechnung der Kovarianz zwischen zwei Variablen
steht ein Doppelpfeil immer für eine Richtungsänderung.
Beispiel 4: Faktorenanalyse
Gleichungen:
X1
F1
a4
a1
a2
a3
U1
X2
U2
X3
U3
X4
U4
X1= a1F1 + b1F2 +U1
X2= a2F1 + b2F2 +U2
X3= a3F1 + b3F2 +U3
X4= a4F1 + b4F2 +U4
b1
F2
b2
b3
b4
Bei der Faktorenanalyse wird versucht, von
gemessenen Variablen auf zugrundeliegende,
latente Faktoren zu schließen. Korrelieren die
Faktoren nicht miteinander, spricht man von
einer orthogonalen Faktorenanalyse, korrelieren
sie, spricht man von einer schiefwinkeligen
Faktorenanalyse. Die Regressionskoeffizienten
bezeichnet man als Ladungen, die Störgrößen
werden mit u abgekürzt.
Corr(X1, X2) = a1 a2 + b1 b2
Corr(F1, X1) = a1
Alle X- und F-Variablen seien standartisiert.
Danke an Jan und Mia!
Sitzung 9
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
Angenommen, mittels Hauptkomponentenmodell sollen vier manifeste
Variablen durch vier latente Faktoren erklärt werden. Nun soll nur ein Faktor
angestrebt werden und die restliche Varianz der einzelnen Variablen soll in
'variablenspezifische' Störgrößen überführt werden. D.h., der spezifische
Einfluss von Faktor 2, 3 und 4 auf x1 und die Spezifität von x1 werde in einer
Störgröße U1 zusammengefasst. Welche Konsequenzen hat dies bezüglich der
Unkorreliertheit der Störgrößen? Warum?
Wie korrelieren die Faktoren in der Hauptkomponentenanalyse?
Wie sind Hauptkomponenten definiert?
Warum ist die Spezifität (Varianz der Störgröße einer Variablen) gleich 1Kommunalität? Geben Sie eine Formel an.
Wie kann man anhand eines Scree-Plots bestimmen, welche Faktoren in die
Analyse mit einbezogen werden sollten?
Welches Vorgehen bezüglich der Bestimmung der Faktoren durch die beiden
vorgestellten Modelle wird meist gewählt?
Wann ist die inhaltliche Interpretation von Faktoren einfach?
Was ist das Varimax-Kriterium?
Was ist Zweck der Rotation und Spiegelung der Faktorenachsen?
Welche fünf Eigenschaften gelten bei jeder Rotation (inklusive Spiegelung)?
Welche Parameter müssen in der Faktorenanalyse geschätzt werden?
Angenommen, zwei Faktoren a und b erklären zwei manifeste Variable x1
und x2. Geben Sie eine Formel für die Kovarianz zwischen beiden Variablen
an.
Was kann man als Kriterium zur Beurteilung der Güte der Modellanpassung
heranziehen?
Clusteranalyse
14.
15.
16.
Was ist das Ziel der Clusteranalyse?
Welche Objekte können zu Clustern zusammengefasst werden? Nennen Sie
zwei Techniken.
Wie bestimmt sich die Anzahl der Cluster?
17.
18.
Was ist ein sog. Dendrogramm?
In der hierarchischen Clusteranalyse gibt es verschiedene Methoden, die
Abstände zu kalkulieren. Beschreiben Sie Single, Complete und Average
Linkage Funktionen.
Wodurch wird die Ähnlichkeit zwischen Objekten charakterisiert?
Beschreiben sie das Unähnlichkeitsmaß Euklidische Distanz.
Beschreiben Sie das Unähnlichkeitsmaß Manhattan (City Block)
19.
20.
21.
Lösungsvorschläge
1.
Hauptkomponentenmodell:
x1
x2
F1
F2
F3
F4
x3
x4
Zusammenfassung in spezifische Störgrößen:
x1
a1
F1
a2
x2
b1
F2
U1
11
b2
U2
c1
c2
a3
x3
F3
U3
3
a4
x4
U4
Zwecks der Übersichtlichkeit sind in obigem Schaubild nur Teile der Faktorladungen
über die Störgrößen aufgezeichnet. Dieses Schaubild soll klarmachen, warum im
Hauptkomponentenmodell die Unkorreliertheit der Störgrößen nicht gewährleistet ist:
Es wird ersichtlich, dass die Korrelation zwischen U1 und U2 = b1*b2 + c1*c2.
2.
Der zweite Faktor steht
orthogonal zum ersten Faktor, der dritte Faktor orthogonal zum ersten und zweiten
Faktor usw.
3.
Damit Hauptkomponenten
Hauptkomponenten sind, muss die erste Hauptkomponente die meiste Varianz
aufklären, die zweite die zweitmeiste etc. (Wird später bei der Betrachtung der
orthogonalen Rotation wichtig, s. Frage 7)
4.
Angenommen, die manifeste
Variable X1 werde durch zwei orthogonale Faktoren erklärt, dann ist die Varianz
dieser Variable:
Var (X1) = Var ( a1F1 + b1F2 + U1)
Nach dem Additionssatz für Varianzen folgt:
= a2 Var(F1) + b2Var(F2) + 12Var(U1)
mit Var(F1),Var(F2),Var (X1) =1
Daraus folgt:
1 = a2 + b2 + Var (U1)
a1² + b1² = Kommunalität
 Var(Ui) = 1 – Kommunalität
5.
In einem Scree-Plot werden die
Faktoren und der jeweilige Anteil erklärter Varianz aufgetragen.
Scree-Plot
2.5
2.0
1.5
1.0
0.5
0
1
6.
7.
8.
2
3
4
5
Nun wird ‚von hinten her‘, also vom letzten Faktor in Richtung der ersten Faktoren,
eine Gerade angepasst. Der Faktor, bei dem die Anpassung durch eine Gerade nicht
mehr sinnvoll nachvollzogen werden kann, soll in die Analyse mit einbezogen
werden.
Meist wird mit einem Hauptkomponentenmodell begonnen, dann werden möglichst
wenige Faktoren im Sinne eines Common factor models aus der
Hauptfaktorenlösung verwendet mit dem Ziel, möglichst viel Information zu
erhalten (viel Varianz der ursprünglichen Daten durch die Faktoren).Für die
endgültige Schätzung eines Common factor models sollte aber nach Möglichkeit
eine echte Schätzmethode verwendet werden (etwa ML-Schätzung oder gewichtete
bzw. ungewichtete KQ-Schätzung).
Wenn jede manifeste Variable auf einen Faktor die höchste Ladung aufweist und
auf den/ die anderen Faktor/en möglichst geringe, oder am besten Nullladungen
aufweist. D.h., wenn die Ladungen eine sog. Einfachstruktur aufweisen.
Das Varimax-Kriterium als eine der vielen möglichen Varianten einer Definition
einer Einfachstruktur fordert, dass die Summe der quadrierten (und durch die
Kommunalitäten geteilten)Varianzen der Ladungen der Faktoren maximal ist. Die
Varianz wird also als Kriterium herangezogen: Die Ladungen sollen „extremer“
werden, d.h. die Ladung einer Variable auf den gewünschten Faktors soll größer
und die Ladung auf den anderen, nicht gewünschten Faktor soll kleiner werden.Je
extremer die Ladungen sind, desto größer ist die Summe der quadrierten Varianz.
Daher heißt das Kriterium auch Varimax-Kriterium. Siehe hier:
FAn
WS
ZAn
SBK
SErg
Vor Rotation
F1
0.4
0.7
0
0.1
1
Durch
die
Faktoren
erklärte
Varianz
1.66
F2
0.86
-0.42
0.82
0.67
0
2.03
Komm.
0.90
0.67
0.67
0.46
1
3.69
FAn
WS
ZAn
SBK
SErg
Nach Rotation
F1
F2
0.20
0.93
-0.26
0.78
-0.18
0.80
-0.05
0.67
0.22
0.98
Durch
die
Faktoren
erklärte
Varianz
2.06
1.629
Komm.
0.90
0.67
0.67
0.46
1
3.69
9. Eine besser interpretierbare Faktorenstruktur zu erhalten (in Richtung der
Einfachstruktur).
10. Bei jeder Rotation (inklusive Spiegelung) gelten folgende Eigenschaften:
1. Nur die Achsen werden rotiert, die Abstände der Punkte zueinander bleiben
unverändert.
2. Die Kommunalitäten werden durch die Rotation nicht verändert.
3. Die durch jeden Faktor erklärte Varianz ändert sich.
4. Rotierte ML-Schätzer sind ebenfalls ML-Schätzer.
5. Die rückgerechneten Korrelationen bleiben trotz Rotation gleich.
11. Als Modellparameter müssen Ladungen und Spezifitäten geschätzt werden.
12. Cov( a1F1 + b1F2+ U1 , a1F1 + b2F2 + U2) = a a  b b .
Die Kovarianzen sind gleich den Korrelationen.
13. Die Parameter sollten so geschätzt werden, dass die Differenz zwischen den
tatsächlichen Korrelationen (zwischen den manifesten Variablen) und den durch die
Faktoren prädizierten Korrelationen minimal wird. Diese Differenzen werden auch als
Restkorrelationen bezeichnet. Mithilfe der Faktorenstruktur soll also die ursprüngliche
Korrelationsmatrix möglichst gut angenähert werden.
14. Ziel der Clusteranalyse ist, ungeordnete Daten zu Gruppen zusammenzufassen. Die
Gruppenanzahl soll möglichst klein sein, die Homogenität innerhalb von Gruppen und
die Heterogenität zwischen den Gruppen möglichst groß sein.
15. Als Objekte können Merkmale zusammengefasst werden, die bezüglich der UEen
ähnlich sind. (R-Technik). Es können aber auch UEen zusammengefasst werden, die
sich bezüglich einiger Merkmale ähnlich sind (Q-Technik).
16. Es gibt Verfahren, bei denen von vorneherein klar sein muss, wie viele Cluster
entstehen sollen. Bei anderen Verfahren wird sukzessive vorgegangen (Hierarchische
Clusteranalyse). Hierbei kann agglomerativ oder diversiv organisiert werden. Bei
agglomerativer Organisation wird jedes einzelne Objekt zuerst als Cluster angesehen
und man fasst diese einzelnen Cluster schrittweise zu neuen zusammen. Beim
diversiven Vorgehen werden alle Objekte vorerst als Cluster angesehen und dann
sukzessiv aufgeteilt.
17. Das Dendrogramm wird im Rahmen der hierarchischen Clusteranalyse dazu
verwendet, die Verschmelzung oder Teilung der Cluster zu jedem Schritt der Analyse
in einem zweidimensionalen Diagramm darzustellen.
1
aus: http://www.resample.com/xlminer/help/HClst/HClst_intro.htm
2
1
2
18.
Single Linkage Clustering: Die Distanz zwischen Gruppen ist über die Distanz der am
nächsten liegenden Teile beider Gruppen definiert (next neighbour method):
Es werden also Paare
betrachtet, wobei der eine
Teil aus Cluster A und der
andere Teil aus Cluster B
sein muss. Jedes mögliche
Paar zwischen beiden
Clustern wird betrachtet, die
kleinste Differenz gilt als
Distanz zwischen Cluster A
und Cluster B.
Complete Linkage Clustering: Das Gegenteil des Single Linkage Clustering. Es wird
nun die weiteste Distanz als Distanz zwischen den Clustern definiert.
Average Linkage Clustering: Es wird der Durchschnitt der Distanzen aller Paare als
Maß der Distanz der Cluster definiert.
D(r,s) = TAB / ( NA * NB)
TAB ist die Summe aller Paardistanzen, NA und NB beschreiben die Größen der
Cluster.
aus: http://www.resample.com/xlminer/help/HClst/HClst_intro.htm
19. Die unterschiedlichen Arten der Clusteranalyse entscheiden sich durch ihre präzise
Formulierung der Ähnlichkeit. Meist wird die Distanz zwischen Objekten betrachtet.
Man spricht daher meist von Unähnlichkeitsmaßen, da das zentrale Kriterium zur
Unterscheidung der Gruppen, deren Unähnlichkeit ist. Die Unähnlichkeitsmaße
werden mit d(i,j) abgekürzt ( für die Distanz zwischen den Objekten i,j = 1,..,n). Meist
werden die Rohdaten in eine Unähnlichkeitsmatrix formiert. Ein Unähnlichkeitsmaß
muss bestimmte Anforderungen erfüllen: Die Unähnlichkeit mit sich selbst muss Null
betragen. Es sind keine negativen Werte möglich. Die Unähnlichkeitsmaße sind
symmetrisch (d(i,j)= d(j,i))
20. Die Euklidische Distanz setzt mind. intervallskalierte Variablen voraus. Diese werden
meist standardisiert, um die Invarianz gegenüber Skalentransformationen zu
gewährleisten.
aus: http://ki.informatik.uni-wuerzburg.de/teach/ws-2004-2005/wms/documents/WMS_2004_05_5.4.pdf
21. Die Manhattan-Metrik (auch Cityblock – oder Mannheim-Metrik) hat ihren Namen
dem Problem der Wegzurücklegung entlehnt. Die Strecke etwa, die ein Taxifahrer
zurücklegen muss, um von A nach B zu gelangen, entspricht nicht der Luftlinie,
sondern eher einem sich um die Häuserblocks schlängelnden Wegs. Es sind also nur
vertikale und horizontale Wegstrecken möglich, diagonal darf nicht über Hausdächer
gefahren werden. Geometrisch:
aus: http://www.gitta.info/Accessibilit/de/html/NotaSpatDist_metrik.html
Zusatz: AIC und BIC -Kriterien. bei der Faktorenanalyse in R (Rcmdr):
Die beiden Informationskriterien werden im allgemeinen definiert als Funktionen der
Likelihood (= -2ln(Likelihood(k)) und der Parameteranzahl (= Parameteranzahl(k)) bei k
Faktoren:
AIC(k) = -2ln(Likelihood(k)) +2*Parameteranzahl(k);
BIC(k) = -2ln(Likelihood(k)) + ln(n)*Parameteranzahl(k); mit n = die Anzahl der Fälle.
Die Anzahl der Parameter, die in einem Modell mit k Faktoren implizit geschätzt werden
muss, ist gleich (k+1)*m -(k*(k-1)/2), wobei m die Anzahl der Variablen symbolisiert.
Parameteranzahl(k) = (k+1)*m -(k*(k-1)/2).
Ich habe bisher im Faktorenanalysepaket in Rcmdr keine Möglichkeit gefunden, AIC, BIC
oder -2ln(Likelihood(k)) auszugeben. Der einzige dafür verwertbare Teil im Ausdruck ist das
Chi**2. Denn dieses Chi**2 ist eine BARTLETT-Korrigierte Differenz von Likelihoods:
Chi**2 =LDiff(k)*( n-1 -(4k +2m+5)/6))/(n-1),
wobei LDiff(k) := -2ln(Likelihood(k) - -2ln(Likelihood(gesättigtes Modell)) .
LDiff kann daher folgendermaßen berechnen werden:
LDiff(k):=Chi**2 * (n - 1)/( n-1 -(4k +2m+5)/6)).
Aus diesem LDiff kann nun eine zu AIC bzw. BIC nur um eine additive Konstante
( = -2ln(Likelihood(gesättigtes Modell)) ) differierende Größe gebildet werden, die hier als
AIC' bzw. BIC' bezeichnet werden soll:
AIC’(k) = LDiff(k):+2*Parameteranzahl(k);
BIC’(k) = LDiff(k)+ ln(n)*Parameteranzahl(k).
Verglichen mit der obigen Definition gilt:
AIC’(k) = AIC(k) + 2ln(Likelihood(gesättigtes Modell));
BIC’(k) = BIC(k) + 2ln(Likelihood(gesättigtes Modell));
Da die Likelihood allemal nicht voll eindeutig, sondern nur bis auf eine multiplikative
Konstante eindeutig definiert ist, ist die additive Konstante (= 2ln(Likelihood(gesättigtes
Modell))) irrelevant für die Definition von AIC und BIC.
Beispiel: Sei n=73, m=45,
Für k=1 erhält man: Chi**2=1550.2863 LDiff=2011.18; Parameteranzahl(1)=90;
AIC'=2191.18; BIC'=2397.32
Für k=2 erhält man: Chi**2=1353.9225 LDiff=1777.79; Parameteranzahl(2)=134
AIC'=2045.79; BIC'=2352.72
StaDat11
1. Mit welchem Test kann überprüft werden, ob ein Faktor zur Beschreibung der Daten
ausreichend ist?
2. Der Likelihood-Ratio-Test folgt der Chi-Quadrat-Verteilung. Welche Konsequenzen
hat eine große Stichprobe auf einen signifikanten Testwert?
3. Was ist das Akaike-Infomation-Criterion(AIC)?
4. Was ist das sog. BIC?
5. Wie unterscheiden sich die beiden Kriterien bezüglich der Gewichtung mehrere
Parameter?
6. Beschreiben Sie, wieviele Parameter bei 6 Variablen maximal geschätzt werden
können.
7. Beschreiben Sie, wieviele Parameter bei 6 Variablen und 3 Faktoren geschätzt
werden.
8. Ist eine additive Konstante für die Definition von AIC und BIC relevant? Warum?
Übung in R – Erfolgsmodell
Darstellung einer Struktur zwischen mehreren Variablen. Die Störgrößen, die auch im Modell
enthalten sind, sind standardnormalverteilt und voneinander unabhängig. Nur Covarianzen
und Varianzen können betrachtet werden, die Strukturen an sich kann man nicht beobachten,
diese will man aber finden! Diese Analyse nennt man Pfadanalyse.
Unter der Annahme, das Modell stelle die „wahren“ Strukturen dar, d.h. das Erfolgsmodell
stelle die Strukturen der Population dar, werde nun eine Stichprobe der Größe 1000 gezogen.
Ziel ist, zu sehen, wie Strichprobenmaßzahlen, die aus einer Grundgesamtheit gezogen
werden (und wir wissen in diesem Fall, wie die Maßzahlen der Grundgesamtheit sind!),
ausfallen.Es gibt zehn Variablen im Modell und dementsprechend zehn Störgrößen.
(Zusätzlich gibt es auch noch die Variable Geschlecht zu der keine Störgröße angegeben
werden muss)Eine Stichprobe der Größe 1000 mit 10 Variablen hat also insgesamt 10*1000=
10 000 Werte. Diese können in R generiert werden: (zur Programmierung in R siehe http://www.rpad.org/Rpad/Rrefcard.pdf)
a<-rnorm(10000)
Die Werte sollen aus einer Normalverteilung gezogen werden. (Erkennbar an „norm“ im
Befehl). Der nach links gerichtete Pfeil ist die Zuordnungsfunktion.
Nun werden die Werte als Matrix strukturiert (10 Spalten(Col) mit jeweils 1000 Zeilen (row))
und dem Namen 'b' zugeordnet:
b<-matrix(a,nrow=1000, ncol=10)
zusätzlich wird die Matrix in ein Data-Frame umgewandelt und als erf gespeichert:
erf<-data.frame(b)
(Der Vorteil einer Speicherung der Werte in einem Data-Frame: Variablen unterschiedlichen
Typs, z.B.Zahlen wie auch Texte, sind als Spalten zugelassen)
Zur Formulierung von Variablennamen werden als Vektor die Zahlen 1 bis 10 generiert
num<-1:10
Mithilfe von 'paste' wird der vorher generierte Zeilenvektor, durch ein Leerzeichen (sep=““)
getrennt, mit „eps“ betitelt und dem Namen xxx zugeordnet:
xxx<-paste("eps",num,sep="")
Im Vektor xxx stehen nun die Namen: eps1, eps2, …, eps10.
Mit dem Befehl names(erf)<-xxx werden die Namen als Variablennamen dem Dataframe erf
zugeordnet.
Nun werden die Variablen nach den Strukturen des Erfolgsmodells generiert:
erf$sex<- 1*(erf$eps1>0)
Sind die Ausprägungen der Variable in Spalte 1 größer als Null, soll sie mit 'Wahr', ansonsten
mit 'Falsch' etikettiert werden.
Vergleiche Erfolgsmodell:
erf$Iz<- erf$eps2*15
→ Die Ausprägungen der Variable in Spalte 2 mal 15 nehmen und in eine neue Spalte mit
dem Namen Iz schreiben.
Und fortfolgend:
erf$Kreativ <- erf$eps3*15
erf$GemKreativ <- erf$Iz+erf$Kreativ
erf$ZukOrient <- 10*erf$sex + 0.5*erf$Iz+ erf$eps4
erf$ArbMotiv <- erf$ZukOrient + 10*erf$sex +erf$eps5
erf$ErfMotiv <- 10*erf$sex+erf$ZukOrient+10*erf$eps6
erf$Angst <- 0.25*erf$ZukOrient-0.5*erf$Iz+10*erf$eps7
erf$Depr <- 4*erf$Angst+10*erf$eps8
erf$Schulerf <- erf$ArbMotiv+erf$ErfMotiv-erf$Depr+10*erf$eps9
erf$Erfolg <-0.5*erf$Schulerf+erf$Kreativ+10*erf$eps10
Zeigt die Namen der Spalten an.
Nun können Statistiken anhand der generierten Stichprobe berechnet werden. Etwa ein
lineares Modell mit den Prädiktoren 'Sex' und Zukunftsorientierung('ZukOrient').
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.10380 0.45062 -0.23 0.818
sex[T.TRUE] 10.24803 0.75395 13.59 <2e-16 ***
ZukOrient 1.05883 0.04153 25.50 <2e-16 ***
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 9.923 on 997 degrees of freedom
Multiple R-squared: 0.638, Adjusted R-squared: 0.6372
F-statistic: 878.5 on 2 and 997 DF, p-value: < 2.2e-16
Besonders beachtet werden sollte, dass dies ein Ergebnis aufgrund einer Stichprobenziehung
ist. Die Regressionsanalyse hat die wahren Werte aufgrund der Stichprobe nachgebildet.
Würde man alle möglichen Stichproben ziehen, läge das Ergebnis bei 10 für Sex und bei 1 für
Zukunftsorientierung (siehe Erfolgsmodell: Dies gilt als Population). Man kann hieran sehen,
wie genau die Schätzer sind.
Lösungsvorschläge
1. Mit einem χ2 Anpassungstest. Das Modell, das nur einen Parameter enthält wird mit
dem Modell, dass alle maximalen Parameter enthält, verglichen. Bei einem Faktor
kann die Nullhypothese „Ein Faktor ist ausreichend“ und die Alternativhypothese „Ein
Faktor ist nicht ausreichend“ formuliert werden.
2. Je größer die Stichprobe ist, desto größer wird der Testwert (er steigt linear mit n): Je
größer die Stichprobe, desto eher steigt die Evidenz i.a. gegen ein Modell.
3. s.Sitzung 5, Frage 18.
4. Das sog. Bayesianische Informations-Kriterium (BIC) entspricht seiner Art nach dem
AIC – ein Maß zur Beurteilung der Güte der Anpassung von auf ML-Schätzungen
basierenden nicht-geschachtelten Modellen – unterschiedet sich aber in der additiven
Konstante: Statt zu die zweifache Parameteranzahl(k) zu addieren, wird die
Parameteranzahl* ln(n) – mit n= Anzahl der Fälle – addiert.
5. Bei mehr als n=8 ist der Faktor, mit dem die Parameteranzahl multipliziert wird
größer als 2. Demnach größer als beim AIC. Daher fällt hier die Zahl der Parameter
als „Strafe“ stärker ins Gewicht. Warum als Strafe? Je mehr Parameter berücksichtigt
werden, desto umfassender und komplexer ist das Modell: Gesucht ist aber ein
möglichst einfaches Modell.
6. m*(m+1)/2 ; mit m= Anzahl Variablen.
7. m*(k+1)- k(k-1)/2. In dem vorliegenden Fall: 6*(4) -4*(3)/2 = 18
8. Da die Likelihood nicht eindeutig, sondern nur bis auf eine multiplikative Konstante
definiert ist, ist eine additive Konstante, wie sie etwa zur Umwandlung zu AIC' und
BIC' vorgenommen wird, für die Definition von nicht relevant.(s.o.)
Sitzung 11
1.
2.
3.
4.
5.
6.
7.
8.
9.
Was sind Störgrößen?
Was sind Residuen?
Sind deren Einflüsse systematischer oder unsystematischer Art?
Wie hängen Residuen und Störgrößen zusammen?
Was ist das Gesetz der großen Zahl?
Erwartungswert einer Linearkombination E(Z) (mit Z=a*X + b*Y) ?
Varianz einer Linearkombination E(Z)?
Was ist das sog. LISREL - Modell?
Innerhalb eines komplexen Strukturgleichungsmodelles kann die Frage auftauchen,
welche direkten Effekte, aber auch welche indirekten Effekte Variablen auf eine
Zielvariable haben. Beschreiben Sie mithilfe von Matrizen anhand des schematischen
Beispieles, wie solche Effekte dargestellt werden können.
x1
a1
b1
Y
b2
b3
x2
Z1
a2
a3
x3
c2
c1
c3
Z2
10. Was ist ein Moderator?
1. Als Störgrößen werden die Abweichungen der wahren Daten von den durch ein Modell
prädizierten Daten bezeichnet. Der Einfluss von Variablen, die in dem geprüften Modell
vergessen oder nicht berücksichtigt wurden, gehören zu dieser Kategorie. Als Verteilung der
Störgrößen nimmt man eine NV mit dem Mittelwert Null an.
2. Als Residuen bezeichnet man die Differenzen des Modells zu den beobachteten Werten.
Dies dient häufig als Ersatz für die Störgrößen.
3. Der Einfluss der Störgrößen ist nicht systematisch. Der Einfluss der Residuen ist
systematisch.
4. Eigentlich soll getestet werden, ob die Störgrößen normalverteilt sind. Da man die
Störgrößen aber nicht kennt, verwendet man stattdessen die Residuen.
Wenn die 'tatsächliche Gerade' z.B. einer Regressionsanalyse bekannt ist, entsprechen die
Residuen genau den Störgrößen.
5. Bei identischen Zufallsexperimenten wird die Wahrscheinlichkeit, dass die relative
Häufigkeit eines Zufallergebnisses (z.B. Mittelwert) von dessen Erwartungswert abweicht,
mit steigender Anzahl der Wiederholungen kleiner.
Die Stichprobengröße spielt keine Rolle!
6. E(Z)=a* E(X) + b*E(Y)
7. Var(Z)= a2 Var(X) + b2 Var(Y) + 2Cov(X,Y)
Enthält die Linearkombination mehr als zwei Variablen, kann als Hilfe eine Tabelle
verwendet werden:
a1 x1
a2 x2
a3 x3
a1 x1
a12 Var(x1)
a1 a2 Cov(x1, x2)
a1a3 Cov(x1, x3)
a2 x2
..
a22 Var(x2)
a2 x3Cov(x1, x2)
a2 x2
..
..
a32 Var(x3)
Die Tabelle ist symmetrisch, daher sind die leeren Zellen mit den entsprechenden
Covarianzen der rechten Seite aufzufüllen.
Die Varianz einer Linearkombination a1 x1 + a2 x2 + a3 x3 ist dann wie folgt:
a12 Var(x1) + a22 Var(x2) + a32 Var(x3) + 2 a1 a2 Cov(x1, x2) + 2 a1a3 Cov(x1, x3) + 2 a2
x3Cov(x1, x2)
Für Übungen siehe: Erfolgsmodell
8. Das LISREL – Modell (von LInear Structural RELation ) ist eine Verbindung von
Faktorenstruktur und Pfadanalyse. Das Modell beinhaltet latente und manifeste
Variablen. Schematisch:
9. X1, X2 und X3 haben einen direkten Einfluss auf die Zielvariable Y.
Als Linearkombination: Y = b1 x1 + b2 x2+ b3 x3 + ε1
In Matrizenschreibweise: (Erwartungswerte werden nur verwendet, damit der Term der Störgröße herausfällt)
b1 b2 b3
E(Y) =
E( x1 )
x2
x3
mit: x1 = a1z1 + c1z2
x2 = a2z1 + c2z2
x3 = a3z1 + c3z2
Die X-Variablen als Matrixschreibweise:
E( x1 ) = a1 c1
x2
a2 c2
x3
a3 c3
E( z1
z2
)
Wird nun in der die Zielvariable Y beschreibenden Gleichung der X-Vektor durch den zVektor inklusive Ladungsmatrix substituiert, kann geschrieben werden:
Y=
ä ö
wobei die
ä ö =
z1
z2
b1 b2
Matrix äö den indirekten Einfluss von z beschreibt:
b3 a1 c1
a2 c2
a3 c3
Es wird also die Summe aller Wege sowohl von z1 als auch von von z2 über x1, x2 und x3
beschrieben.
Vergleiche Erfolgsmodell: Die Variable Sex hat einen direkten Einfluss auf ErfMotiv und
ZukOrient und einen indirekten Einfluss auf ArbMotiv.
Angenommen, zwei Variablen X und Z beeinflussen jeweils die Zielvariable Y.
Z
a
Y
b
x3
Y= aZ + bX
Beeinflusst nun Z den Einfluss zwischen X und Y, bezeichnet man Z als Moderator:
Z
a
γ
Y
b
x3
β
mit b=β + γZ
Somit kann die Zielvariable folgendermaßen durch die Gleichung beschrieben werden:
Y = aZ + βX + γZX
Zu beachten ist jedoch, dass nur das Produkt von ZX berechnet wird – welche Variable daher
als Moderator fungiert, wird nicht ersichtlich.
Ist der Einfluss von X auf die Zielvariable Y von β und γ folgender Art :
Y= a + bx X und bx = β + γX
 Y = a + βX + γX2
Wenn eine Produktvariable in der Gleichung vorkommt (X^2 oder X*Z), sollte immer auch
der Faktor X bzw. Zelbst in der Gleichung enthalten sein, wenn X bzw. Z Intervallskalen sind
(siehe dazu Nagl: Statistische Datenanalyse mit SAS, S155 ff)
Wenn die X-Variable mindest eine Verhältnisskala ist (oder die X- bzw. Z- Variablen
zentriert sind, wodurch die Intervallskalen zu Verhältnisskalen werden), können auch Modelle
betrachtet werden, die nur das Produkt enthalten (vgl. Fallgesetze: s(t)=g/2 *t**2; mit g =
9.8. wobei s(t) der zurückgelegte Weg in Metern und t die Zeit in Sekunden ist).
Beachte: Die Interaktion entspricht dem Fall der Moderation.
10. Eine Mediatorvariable ist ein „Vermittler“ zwischen zwei Variablen:
x
a
z
c
b
y
Hier ist z Mediator. Ist c gleich Null spricht man von z als strikten
Mediator. Ob dies der Fall ist, kann man auf mehre Arten herausfinden.
Eine Möglicheit besteht darin, die partielle Korrelation zwischen x und y
unter Konstanthaltung von z zu errechnen. Diese wird Null, wenn c Null
ist: pry(x.z) =
rxy  ryz rxz
2
2
(1  ryz
)(1  rxz
)
=
(c  b  a)  a  (b  c  a)
..........
= 0 wenn c = 0
Sitzung 12
Klausur Freitag, 13. Februar in Raum G420!!
1. Welche Arten von Zusammenhängen der UV in einer Regressionsanalyse sind erlaubt?
2. Dürfen unabhängige Variablen weggelassen werden? Wenn ja, welche Schritte müssen dann
vorgenommen werden?
3. Wie können aus einer Regression mit mehreren UVs einige UVs weggelassen werden und
neue Regressionskoeffizienten errechnet werden?
4. Wann ändern sich die Koeffizienten nicht, wenn einige UVs weggelassen werden? Warum?
5. Wieviele Regressionen müssen bei fünf Variablen berechnet werden, wenn sie auf zwei
Variablen dezimiert werden sollen?
6. Was sind verbundene Stichproben?
7. Geben Sie Beispiele für verbundene Stichproben.
8. Warum sollte immer ein repeated - measurement Design angestrebt werden?
9. Was ist der Unterschied zwischen einer Zeitreihe und Vpn als UEen, deren Merkmale über
mehrere Zeitpunkte als verbundene Stichprobe miteinander verglichen werden?
10. Was bedeutet die Aussage, zwei Faktoren seien vollständig gekreuzt?
11. Geben Sie ein Beispiel für zwei vollständig gekreuzte Faktoren.
12. Was bedeutet die Aussage, zwei Faktoren seien genested?
13. Geben Sie ein Beispiel.
14. Was ist ein Personenfaktor und was bedeutet die Aussage, der Personenfaktor sei im
Gruppenfaktor genested?
15. Was bedeutet die Aussage, ein Faktor sei in der Interaktion zwischen zwei anderen Faktoren
genested? Geben Sie ein Beispiel für ein Versuchsdesign.
16. Was ist bezüglich der Vergleichbarkeit zu beachten?
17. Welche Aussagen sind bezüglich des Kreuzens bei Withinfaktoren und Betweenfaktoren zu
machen?
18. Skizzieren Sie für eine Personen und vier Messzeitpunkte der Variable ‚Schön‘ und der
Variable ‚Voll‘ einen horizontalen und einen vertikalen Datensatz.
19. Was sind stochastische Faktoren?
20. Geben Sie Beispiele für stochastische Faktoren.
21. Was sind fixe Faktoren? Geben Sie ein Beispiel.
Lösungsvorschläge
1. Die UV dürfen korrelieren, aber in keinem Fall linear voneinander abhängig sein.
2. Ja, es dürfen unabhängige Variablen weggelassen werden. Dazu müssen allerdings neue
Regressionskoeffizienten mithilfe von Pfadregeln berechnet werden.
3. Sind die Korrelationen zwischen UVs bekannt, können Hilfsregressionen zur Berechnung der
neuen Regressionskoeffizienten herangezogen werden.
β1
x1
γ14
γ13
γ15
x2
γ23
γ24
γ25
y
x1
δ1
β2
y
δ2
β3
x3
x2
β4
x4
β5
δ1 = β1 + β3 γ13 + β4 γ14 + β5 γ15
δ2 = β2 + β3 γ23 + β4 γ24 + β5 γ25
x5
γ13, γ14, …, γ25 sind die Hilfsregressionen. Für den neuen Regressionskoeffizienten δ1 müssen
alle Wege über x1 zu y aufsummiert werden (vgl. direkte und indirekte Effekte). Genauso wird
für δ2 vorgegangen.
4. Wenn die UV untereinander nicht korrelieren, ändern sich die Koeffizienten nicht. Die
Hilfsregressionen sind gleich Null und daher besteht die Summe für den ‚neuen‘
Regressionskoeffizienten δ nur aus dem ‚alten‘ Regressionskoeffizienten β. Bei
randomisierten UVs ist die Wahrscheinlichkeit sehr gering, dass sie mit anderen UVs
korrelieren  daher immer randomisierte Designs durchführen!
5. Es müssen insgesamt fünf Regressionen berechnet werden:
a.
b.
c.
d.
e.
y|x1 , x2 , x3 , x4, x5
y| x1, x2
x3| x1, x2
x4| x1, x2
x5| x1, x2
Für Übungen: Exceldatensatz RegSpezif
6. Wenn eine Zuordnungsregel formuliert werden kann, die einer Messung in Gruppe 1 eindeutig
eine Messung in Gruppe 2 zuordnet, spricht man von verbundenen Stichproben.
7. Beispiele für verbundene Stichproben sind etwa Messungen einer Person vor und nach einer
Behandlung, die Messung von der Intelligenz zweier Partner, die Messung der rechten und
linken Gehirnhälfte, der Verschmutzungsgrad an zwei Seiten einer Tür etc. Auch die Messung
einer Person zu verschiedenen Zeitpunkten (vgl. Danieldaten) bezeichnet man als verbundene
Stichproben.
8. Unterschiedliche VP bergen zusätzliche Varianz. Sollen etwa Effekte einer Behandlung zu
verschiedenen Zeitpunkten untersucht werden, werden nicht nur Effekte und verschiedene
Zeitpunkte miteinander verglichen, sondern auch verschiedene Personen. Bei verbundenen
Gruppen kann der Unterschied eher dem Gruppenmerkmal zugeordnet werden.
9. Eine Zeitreihenanalyse ist nur dann eine Zeitreihenanalyse, wenn nur EINE UE in ihrem
Verlauf über die Zeit betrachtet wird. Dies können zwar auch Personen sein, dann ist
allerdings nur die Beobachtung EINER VP zulässig, z.B. Blutwerte eines Sportlers über die
Monate vor einer Olympiade hinweg. Klassische Zeitreihenanalysen sind Börsenkurse.
10. Wenn für jede Stufe des Faktors A in allen Stufen des Faktors B UEen vorhanden sind,
bezeichnet man beide Faktoren als vollständig gekreuzt.
11. Angenommen, Faktor A sei ein Faktor mit 6 Stufen (6 UEen, z.B. VPn mit einem
interessierenden Merkmal) und Faktor B seien 3 Messzeitpunkte. Wird das Merkmal jeder UE
zu jedem der drei Zeitpunkte beobachtet, sind die beiden Faktoren vollständig gekreuzt. Es
handelt sich um eine verbundene Stichprobe.
12. Zwei Faktoren sind genested, wenn für jede Stufe eines Faktors A nur ganz bestimmte Stufen
des Faktor B besetzt sind.
13. Angenommen, Faktor A sei ein Faktor mit 6 Stufen (s.o.) und Faktor B seien 3
Messzeitpunkte, dann ist Faktor B in Faktor A (bzw. in den Stufen von Faktor A) genested,
wenn etwa die ersten zwei UE nur zu Zeitpunkt 1, die dritte und vierte UE nur zu Zeitpunkt 2
und die fünfte und sechste UE nur zu Zeitpunkt 3 in den Ausprägungen des interessierenden
Merkmales beobachtet werden.
14. Bei repeated-measurement-designs wird eine Vorraussetzung der Statistik – die
Unabhängigkeit der UEen - verletzt. Zur Behebung dieses Problems wird ein Personenfaktor
eingeführt, der interindividuelle Unterschiede in sich vereint und dadurch als möglicherweise
verzerrenden Einfluss zusammenfasst. Die Daten werden vergleichbar und die Varianz fließt
nicht mehr als Störgröße in eine UV ein (und dadurch wird Signifikanz schneller erreicht!).
Zum Selbstsehen: In R ein lineares Modell mit Zeit*Gruppe berechnen lassen und
dann mit einem zweiten linearen Modell mit Zeit*Gruppe + Name vergleichen.
Gruppeneffekte können aus dem Personenfaktor erzeugt werden.
15. Angenommen, an drei Messzeitpunkten (Faktor B, z.B. vor der Behandlung, ein Tag nach der
Behandlung, ein Jahr nach der Behandlung) sollen zwei Gruppen (Faktor C, z.B. EG und KG)
mit jeweils 6 VP (Faktor A) in den Ausprägungen eines interessierenden Merkmals (z.B.
Zigarettenkonsum pro Tag) untersucht werden:
VP
1
2
3
4
5
6
7
8
9
10
11
12
Gruppe 1
Zeitpunkt
1
×
×
Zeitpunkt Zeitpunkt
2
3
Gruppe 2
Zeitpunkt
1
Zeitpunkt Zeitpunkt 3
2
×
×
×
×
×
×
×
×
×
×
Man spricht in einem solchen Fall davon, dass der Personenfaktor in der Interaktion zwischen
Zeit- und Gruppenfaktor genested ist.
16. Zwischen genesteten Faktoren ist keine Interaktion definierbar (da die Randmittelwerte des
genesteten Faktors identisch mit den Zellmittelwerten sind). Jede Stufe des Faktors A wird ja
nur in einer Stufe des Faktors B betrachtet: Eine Aussage darüber zu treffen, wie Faktor A mit
verschiedenen Stufen des Faktor B interagiert ist unsinnig. Vergleiche zwischen den Stufen
der Faktoren sind nur eingeschränkt möglich: Innerhalb einer Stufe von B (z.B.
Messzeitpunkte) können nur manche Stufen von A miteinander verglichen werden. Ein
Vergleich verschiedener Stufen des Faktor B sind implizit Vergleiche zwischen den AStufen.
17. Within-Faktoren sind mit dem Personenfaktor gekreuzt; Between-Faktoren sind mit dem
Personenfaktor nicht kreuzbar.
18. Horizontaler Datensatz:
Schön1 Schön2
VP1
..
..
Schön3
..
Schön4
..
Voll1
..
Voll2
..
Voll3
..
Voll4
..
Vertikaler Datensatz:
VP1
VP1
VP1
VP1
Schön
..
..
..
..
Voll
..
..
..
..
Um einen Personenfaktor in eine Regressionsanalyse mit ein zu beziehen, muss in R der
vertikale Datensatz verwendet werden.
19. Faktoren werden als stochastisch bezeichnet, wenn die Stufen des Faktors als eine
Zufallsauswahl aus einer Population von Stufen angesehen werden. Schlussfolgerungen aus
Versuchsergebnissen sollen für die Population aller Faktorstufen gelten. Es interessiert daher
nicht der einzelne Stufeneffekt, sondern die Variabilität in der Stufenpopulation. Diese
Variabilität wird durch die Varianz operationalisiert.
Es muss ein Stichprobenfehler beachtet werden.
20. Am eingänglichsten ist als Beispiel für einen stochastischen Faktor der Personenfaktor. Es ist
unmöglich, in einem Experiment alle Personen einer Grundgesamtheit zu untersuchen. Daher
wird aus der Population eine Stichprobe, eine Zufallsauswahl gezogen. Das Ziel ist, die
Ergebnisse zu generalisieren. Die Ergebnisse sollen sich auf alle Stufen des Faktors in der
Population beziehen, nicht nur auf die Personen, die untersucht wurden. Der Effekt einer
einzelnen Person interessiert also nicht. Weitere stochastische Faktoren sind der Interview-,
Länder-, Schulen-, Betriebe –Faktoren etc.
21. Bei fixen Faktoren interessieren die Effekte der Stufen. Geschlecht zum Beispiel ist ein
fixer Faktor – andere Stufen in der Population gibt es nicht. Interaktionen zwischen
fixen und stochastischen Faktoren sind jeweils wieder stochastisch.
Empfehlung für ein Programm:
G-Power. Hier kann etwa berechnet werden, wie groß die Gruppengröße sein muss, damit eine
bestimmte Effektgröße erwartet werden kann.
Herunterladen