Statistische Datenanalyse

Werbung
Statistische Datenanalyse
Mitschrift WS 2008/2009
Sitzung 1
Zur Klärung einer bestimmten Fragestellung werden in wissenschaftlichen Untersuchungen Daten
über den interessierenden Gegenstandsbereich gesammelt und zur weiteren Verarbeitung nach
bestimmten Regeln geordnet.
Die Daten können durch Fragebögen, Beobachtungen oder Experimente gewonnen werden.
Der Gegenstandsbereich sollte klar umgrenzt und bestimmt sein.
Die Objekte dieses Gegenstandbereiches, über die Aussagen formuliert werden sollen, werden als
Untersuchungseinheiten (UEen) bezeichnet.
Dies sind zum Beispiel Versuchspersonen, Gruppen, Länder, Firmen, Organisationen, etc.
Entsprechend der Fragestellung sollen bestimmte Eigenschaften oder Aspekte der UE untersucht
werden. Zum Beispiel Alter, Schulform, IQ, Ausgaben pro Jahr, Managergehälter,
Spendeneinnahmen, etc.
Diese Aspekte werden als Merkmale bzw. Variablen bezeichnet.
Die Menge aller möglichen Realisierungen eines Merkmales nennt man
Merkmalsausprägungen bzw. Werte der Variablen.
Die im Versuch realisierten Einzelergebnisse jeder UE werden systematisch beobachtet und
protokolliert. Zum Beispiel ist eine Realisierung des Merkmals 'Alter' eines Studenten in einer
Untersuchung das Alter 25, die Realisierung der Schulform Hochschule, etc.
Die Merkmale müssen so konzipiert sein, dass jede UE genau eine einzige Merkmalsausprägung pro
Merkmal hat.
Die gesammelten Daten können dann in Form einer Matrix angeordnet werden, wobei pro Zeile eine
UE und pro Spalte ein Merkmal aufgeführt wird.
Auszug aus einem Fragebogen zur Studiensituation
Einige Angaben zu Ihrer Person:
Alter in Jahren:
Geschlecht: weibl.: 0 männl.: 1
Körpergröße in cm:
Gewicht in kg:
Wie viele Zigaretten rauchen Sie im Schnitt pro Tag?
Zur familiären Situation:
Wie viele ältere Geschwister haben Sie?
Wie viele jüngere Geschwister haben Sie?
Ihr Familienstand?
Ledig 0
verlobt, bzw. fest
liiert 1
Verheiratet 2
getrennt, gesch.,
verwitwet 3
Welche Schulbildung haben Ihre
Vater
Eltern?
Volksschule
1
Kreuzen sie bitte - für Vater und Mutter Höhere Schule (mit/ohne mittlere Reife)
2
getrennt - die höchste Stufe an!
Abitur
3
Ing.-schule oder Päd. HS, mit Abschluß
4
Universität/TH, ohne Abschluß
5
Universität/TH, mit Abschluß
6
Sonstiges, weiß nicht
7
Mutter
1
2
3
4
5
6
7
Bei einem exklusivem Antwortmuster (z.B.Geschlecht/Wohnform) kann eine Spalte angelegt werden,
in der die unterschiedlich kodierten Ausprägungen (z.B. 0/m für männlich, 1/w für weiblich) notiert
werden.
UE Alter Sex Größe
1
..
24
m
182
Gewicht Anz.
Anz.
Zigarett. jünger.
Geschwister
80
8
--
Anz.
älterer
Geschw.
2
Fam.
stand
Bildung Bildung
Vater
Mutter
Ledig
4
3
In einer Spalte darf nie mehr als eine Information verzeichnet werden.
Manchmal werden die UE auch kontrollierten Behandlungen (Treatments) ausgesetzt.
Ein Beispiel für dieses zentrale Element des Experimentierens findet sich im Alten Testament im
Buch Daniel (1. Kap.).
Daniel und seine Freunde (Ananias, Misael, und Azarias) sind als jüdische Jugendliche vornehmer
Herkunft während der babylonischen Gefangenschaft an den Hof Nebukadnezars verschleppt worden.
Sie erhalten dort eine babylonische Erziehung und bekommen das gleiche Essen wie der König.
Daniel und seine Freunde würden allerdings lieber streng jüdische Essensvorschriften einhalten; sie
wollen auf das dargebotene Fleisch und den Wein verzichten. Sie wenden sich mit dieser Bitte an den
Oberkämmerer. Seine Bedenken bezüglich der Schönheit und Vollheit der Freunde kann Daniel durch
ein Experiment zerstreuen.
Aufgrund des folgenden Berichtes sind zwar die Ergebnisse des Experimentes nicht exakt bekannt.
Dem Bericht würden die folgenden Daten zumindest nicht widersprechen (Schönheit und Vollheit
seien auf einer Skala mit 5 Stufen gemessen worden).
Da sprach der Oberkämmerer zu Daniel: „Ich fürchte meinen Herrn, den König, der euch Speis und Trank
bestimmte. Fänd er, dass euere Gesichter schmächtiger als die der anderen Knaben eueres Alters wären, so
brächtet ihr beim König mich um meinen Kopf“. Darauf sprach Daniel zum Wächter, den der Oberkämmerer
über Daniel, Ananias, Misael und Azarias gesetzt:
„Versuch es bitte doch 10 Tage lang mit deinen Knechten. Man gebe uns nur Gemüse zu essen und Wasser zu
trinken. Besieh dir dann unsere Gesichter und die der anderen Knaben, die von der königlichen Kost genießen.
Und je nachdem, wie der Befund ausfällt, magst du mit deinen Knechten verfahren“.
Nach Ablauf der 10 Tage aber waren ihre Gesichter sichtlich schöner wie auch voller als die aller anderen
Knaben, die von königlicher Speise zu genießen pflegten. So ließ fortan der Wächter ihre Speise wegnehmen
mitsamt dem Wein, den sie genießen sollten; er brachte ihnen dafür nur Gemüse. (AT Daniel, 1. Kap:, Vers 1016)1
Schön
schoen4
6
5
M
D
4
Az
An
3
3
2
6
1
4
1
5
2
D
0
0
1
2
3
voll4
Voll
4
5
6
Die Datenpunkte können in die Form einer Datenmatrix übertragen werden mit den Merkmalen Schön
und Voll. Als weitre Merkmale werden noch der Name der Versuchsperson (=Vp) und die
Gruppenzugehörigkeit zur Experimental- bzw. Kontrollgruppe eingeführt.
Da eine zufällige Zuordnung der VP in diesem speziellen Falle nicht möglich war, interessiert die
Frage, ob der Unterschied zwischen den Gruppen in Vollheit und Schönheit schon vor der Behandlung
bestanden hat, bzw. wie die Behandlung über den untersuchten Zeitraum verlaufen ist.
Der gefundene Unterschied könnte also nicht durch das Treatment entstanden sein, sondern von einer
anderen Variable abhängig sein.
Zum Zwecke der Überprüfung dieser Möglichkeit können Messungen an Tag 1,4,7 und 10 der
Untersuchung bzgl. der Vollheit und Schönheit durchgeführt werden.
Die erhaltenen Daten können auf zwei Arten gruppiert werden.
Bei solch einem Vorgehen muss die Abhängigkeit der Messungen beachtet werden.
UE in Zeitreihenanalysen sind nicht unterschiedliche ‘Entitäten‘ (Versuchspersonen, Organisationen
etc.)
sondern
verschiedene
Datenmatrix
Zeitpunkte.
Die Messungen einer
Person zu verschiedenen
name
gruppe Schoen
Voll
Zeitpunkten
sind
voneinander nicht völlig
1. UE
1
control
2
3
unabhängig (wie in
unverbundenen
2. UE
2
control
1
3
Stichproben, in denen
die UEen verschiedene
3. UE
3
control
3
2
Versuchspersonen sind).
4. UE
4
control
2
2
Zur Behebung dieses
Problems kann eine
5.
UE
5
control
1
2
Personenvariable
eingeführt werden, die
6. UE
6
control
2
1
interindividuelle
Unterschiede
7. UE
Daniel
exp
5
5
vergleichbar
machen
lässt. (z.B. Korrektur
8. UE
ananias
exp
4
5
durch die Varianz).
9. UE
azarias
exp
4
4
Weitere Datenstrukturen,
10. UE
misael
exp
5
4
enthalten, sind
Mehrebenendatensätze (Land - Bundesland - Schule - Klasse - Lehrer)
und Netzwerke.(z.B. Interaktionen zwischen VP oder Gruppen)
die
Auch ein Buch kann als Datenstruktur mit mehreren Ebenen bezeichnet werden
(Kapitel - Unterkapitel - Paragraph - Absatz - etc. )
Abhängigkeiten
1.2 Zusammenfassung zur uni- und bivariaten Statistik
Deskription
Variablen
1
Verbal
Lagemaße
Streuungsmaße etc.
Grafisch
Histogramme
Boxplots
2
Kovarianz
Korrelation
2-Test
auf Unabhängigkeit
PRE-Maße
Regressionsanalyse
Streudiagramm
Mosaicplots
Induktion
, , ,...
- Anpassungstest,
Mittelwertstest etc.
,
Hat eine der Variablen distinkte Ausprägungen (z.B. Geschlecht), kann das 3dimensionale
Streudiagramm auf zwei Dimensionen abgebildet werden.
Meist wird die 3. Variable als Kontrollvariable eingeführt, um Scheinkorrelationen oder ScheinNichtkorrelationen ausschließen zu können.
Anzahl Jahre mit den
„Dritten“
A
B
Anzahl Äpfel am Tag
Fragen (Sitzung 1)
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
Würde man etwa den Zusammenhang zwischen
der Variable „Anzahl gegessener Äpfel am Tag“
und der Variable „Verbrachte Jahre mit den
Dritten“ in einer Männerstichprobe untersuchen,
könnte man aufgrund einer Scheinkorrelation die
Annahme machen, je mehr Äpfel man zu sich
nehme, desto schneller fielen einem die Zähne
aus.
Betrachtet man jedoch die dritte Variable
„Alter“(hier in zwei Kreisen als zwei Kohorten –
Männer zwischen 50-70 (A) und Männer
zwischen 20 -50 (B) - skizziert) entpuppt sich die
Annahme einer Korrelation zwischen x und y als
fehlerhaft.
Was sind Untersuchungseinheiten und welchen Platz nehmen sie im Experiment ein?
Was sind Variablen? Geben Sie Beispiele.
Wandeln Sie den Studentenfragebogen in eine Datenmatrix um.
Wieviele Spalten würden Sie für ein Merkmal mit exklusivem Antwortmuster (z.B.
‘Geschlecht‘) angelegen? Begründen Sie Ihre Entscheidung.
Wieviele Informationen dürfen Sie maximal in einer Spalte angeben?
Was gilt als zentrales Element des Experimentes?
Was ist ein Quasi-Experiment? Geben Sie Beispiele.
Wandeln Sie das Streudiagramm der Daniel-Daten in eine Datenmatrix um.
Was ist eine Zeitreihenanalyse? Welche UE werden hier untersucht?
Geben Sie ein Beispiel für eine Zeitreihenanalyse mit mehreren Variablen.
Was ist eine Mehrebenenuntersuchung? Geben Sie ein Beispiel.
Welche Untersuchung würde zu einer Datenstruktur in Form eines Netzwerkes führen?
In wiefern sind Daten aus Mehrebenenuntersuchungen, Zeitreihenanalysen und Netzwerken
abhängig?
Geben Sie Beispiele für eine univariate und eine bivariate Fragestellung.
Wozu wird meist eine dritte Variable eingeführt?
Was ist eine Scheinkorrelation? Geben Sie Beispiele.
Was ist eine Schein-Nichtkorrelation? Geben Sie Beispiele.
18. Welche Maßzahlen verwendet man zur Beschreibung univariater Daten? Welche für
bivariate?
19. Wie können bivariate Daten grafisch dargestellt werden?
20. Was bedeutet Induktion? Nennen Sie Beispiele für die Induktion von Maßzahlen univariater
Datensätze.
Statistische Datenanalyse
Mitschrift WS 2008/09
Sitzung 2
Erste Schritte in R
- Commander laden
Taskleiste (TL) Pakete – Lade Paket – Rcmdr
- Datenmatrix bearbeiten
Die Datenmatrix kann verändert werden. Wird gerade eine Statistik gerechnet, lässt sich diese Option nicht
anwählen, stattdessen kann die Datenmatrix betrachtet werden.
- Ein Streudiagramm erstellen
TL Grafiken
- Daten importieren
TL Datenmanagment – Daten importieren
Übungsfragen (Sitzung 2)
1. Nennen Sie eine mögliche Fragestellung zur ersten Analyse der Danieldaten.
2. Welche Fragestellungen könnten bei der Untersuchung eines intervallskalierten yMerkmals und eines nominalen x-Merkmals untersucht werden?
3. Mit welchem Test kann man Mittelwertsunterschiede der Gruppen untersuchen?
4. Was ist eine zweiseitige Fragestellung?
5. Wann wird ein Test signifikant?
6. Was bedeutet das Signifikanzniveau alpha?
7. Was ist der Fehler 2.Art?
8. Was ist die Macht des Testes (Power)? Wann erst kann die Macht eines Testes
berechnet werden?
9. Was ist der p-Wert?
10. Was meint die Bezeichnung „95% Konfidenzintervall“?
11. Warum kann man u.U. von einem Konfidenzintervall die Signifikanz eines Testes
ablesen?
12. Welcher Test kann zur Überprüfung der Gleichheit zweier Varianzen verwendet
werden?
13. Welche zwei Freiheitsgrade müssen bei einer Testung mit der F-Verteilung angegeben
werden?
14. Welche Voraussetzung muss gegeben sein, um einen parametrischen Test anwenden
zu können?
15. Welcher Teststatistiken kann man sich bedienen, wenn diese Voraussetzung nicht
erfüllt ist?
16. Nennen Sie einen nichtparametrischen Test zur Untersuchung von Lageunterschieden,
wenn
a. die Variablen ordinalskaliert sind
b. die Variablen intervallskaliert sind
17. Wofür steht die Bezeichnung „Location Shift“?
18. Wann können parametrische Tests trotz der Verletzung der
Normalverteilungsannahme angewendet werden?
19. Was ist der sog. Standardfehler?
1. Zum Beispiel: Gibt es einen systematischen Unterschied zwischen Kontroll- und
Experimentalgruppe? Oder anders formuliert: Gibt es zwischen der Variable ‚Gruppe’ und
der Ausprägung der Variable ‚Vollheit’/ ‚Schönheit’ einen systematischen Zusammenhang?
2. Sind die Verteilungen unterschiedlich? Unterscheiden sich einzelne Parameter? (z.B.
Mittelwerte, Mediane, Streuungen, etc. )
3. In dem Falle der Danieldaten wähle man einen t-test für unabhängige Stichproben, unter
der Voraussetzung, dass die Varianzen verschieden sind.(s. auch Frage 12) -> Welch 2Sample t-test. Freiheitsgrade sind in dieser Lösung nicht ganzzahlig. Sie können aber
gerundet werden.
(In R: TL Statistik – Mittelwerte vergleichen – t-test für unabhängige SP)
4. Die Formulierung einer Alternativhypothese zur Nullhypothese „Es gibt keine
Unterschiede (zwischen den Gruppen, zwischen den Behandlungen etc.)“ bzw. μ1 = μ2 (μ1 μ2 = 0) kann entweder einseitig oder zweiseitig formuliert werden.
Die Testung einer einseitig formulierten Alternativhypothese etwa der Form μ1 - μ2 > 0 ist nur
gerechtfertigt, wenn Größenunterschiede in die entgegengesetzte Richtung ausgeschlossen
werden können – wenn man also sicher ist, dass eine zweiseitige Testung nicht notwendig ist.
Solch ein Trugschluss könnte etwa entstehen, wenn man zur Nullhypothese „Es lassen sich
keine Intelligenzunterschiede zwischen Schwarzen und Weißen feststellen“ die einseitige
Alternativhypothese „Weiße sind intelligenter als Schwarze“ testen würde, ohne ausschließen
zu können, dass Schwarze intelligenter sind als Weiße.
Eine zweiseitig formulierte Alternativhypothese führt also zu einem zweiseitigen kritischen
Bereich unter Geltung der Nullhypothese, die Richtung des Effektes ist nicht im Vorhinein
festgelegt.
5. Wenn der TW (Testwert) in den kritischen Bereich (KB) fällt. Bzw. der p-Wert kleiner als
das vorgegebene Signifikanzniveau ist.
6. Der alpha-Fehler (der Fehler 1.Art ) bezeichnet unter Geltung der Nullhypothese die
W´keit, den Fehler zu machen, die Nullhypothese abzulehnen, obwohl sie richtig ist. Je
kleiner alpha, desto höher ist das Signifikanzniveu. Ein Signifikanzniveau von 0.05 wird als
signifikant, eines von 0.01 als sehr signifikant und eines von 0.001 als hochsignifikant
bezeichnet.
7. Der Fehler 2.Art(oder β-Fehler) bezeichnet die W´keit die Alternativhypothese abzulehnen,
obwohl sie richtig ist. Er ist vom wahren Wert des Populationsparameters abhängig.
Da dieser bei der Formulierung der Alternativhypothese nicht bekannt ist, kann der Fehler
2.Art nicht berechnet werden.
Der Fehler 2.Art wird kleiner
je größer der Unterschied zwischen μ0 (angenommener Parameterwert) und μ1
(tatsächlicher Parameterwert) wird
je kleiner die Streuung ist
je größer die Stichprobe ist
je größer alpha ist.
Zu den Zusammenhängen zwischen Fehler 1.Art und 2.Art siehe:
http://www.uni-konstanz.de/FuF/wiwi/heiler/os/vt-normtest.html
Grafische Darstellung des Fehlers 1. und 2.Art.
Aus: http://page.mi.fu-berlin.de/mielke/eis/Weber-Fehlerquellen-Parametertest.pdf
8. Die Macht des Testes (1-β) bezeichnet die W´keit, die Alternativhypothese anzunehmen,
wenn sie richtig ist. Diese Teststärke ändert sich nach bestimmten Kriterien. (s.o.). Bei der
Formulierung einer exakten Alternativhypothese, kann die Macht des Tests und darüber auch
der beta-Fehler berechnet werden.
Wird ein Test nicht signifikant und die Power des Testes ist niedrig, kann sowohl Null- als
auch Alternativhypothese zutreffen. Ist die Power allerdings hoch und der Test nicht
signifikant, ist dies ein Hinweis auf die Geltung der Nullhypothese.
9. Der p-Wert bezeichnet unter Geltung der Nullhypothese die W´keit, einen Wert gleich oder
extremer dem Testwert im Sinne der Alternativhypothese zu erhalten.
10. Mit einer 95% - W´keit überdeckt das angegebene Intervall den wahren Parameterwert.
( Achtung: Es gibt nicht nur ein Intervall, sondern mehrere, die den wahren Parameterwert
überdecken, daher wird eine W´keit angegeben. )
11. Liegt der angenommene Parameterwert nicht im Konfidenzintervall, wird die
Nullhypothese abgelehnt.
12. Der Varianzen-Levene-Test.
13. Zähler: df1 = n( Stichprobe 1) - 1
Nenner: df2= n (Stichprobe 2) – 1
14. Die Werte in der Population müssen normalverteilt sein.
15. Man kann sich eines nichtparametrischen Tests bedienen.
16a. Vorzeichentest
16b. Wilcoxon-Rangsummen-Test
17. Location Shift bezeichnet die Annahme, zwei Verteilung könnten durch Verschieben zur
Deckung gebracht werden. Bei dem Wilcoxon-Rangsummen-Test bezeichnet der Location
Shift die Alternativhypothese.
18. Bei großer Stichprobengröße nähert sich die Verteilung der Mittelwerte einer NV. Je nach
Lageparametern der Stichprobe (Schiefe, Streuung, etc.) variiert die hierzu erforderliche
Größe der Stichprobe.
19. Die Standardabweichung der Verteilung einer bestimmten Maßzahl (z.B. des
Mittelwertes, der Standardabweichung, Regressionskoeffizienten, etc.)
Statistische Datenanalyse
Mitschrift 2008/2009
Sitzung 3
R
-- Versehentliches Schließen des Rcmdr
Geben Sie in die Befehlszeile (ganz unten, beginnend mit ´>´) den Befehl ´Commander ( )´ ein.
-- Konvertieren der numerischen Variablen in Faktoren
Ist ein Faktor, zum Beispiel Gruppenzugehörigkeit der VPn, als numerische Variable kodiert ( etwa: 0 Experimentalgruppe, 1-Kontrollgruppe ),
werden von R nicht alle t-tests zur Ausführung angeboten, da zwischen Faktor und Variable in diesem Fall
nicht automatisch unterschieden werden kann.
Um dieses Problem zu beheben, gehen Sie zur TL Datenmanagment
- Variablen bearbeiten - Konvertiere
numerische Variablen in Faktor. Geben Sie nun die entsprechende Variable an, die konvertiert werden soll.
Wählen Sie die Option `Etikette´ wird ein neuer Stempel vergeben - es wird eine neue Spalte angelegt
(Name: Grf - Gruppenfaktor) und Sie werden dazu aufgefordert, die unterschiedlichen Ausprägungen
zu benennen.
Sitzung 3
1. Warum liegt ein Wert nicht mit einer bestimmten Wahrscheinlichkeit im
Konfidenzintervall?
2. Der Mittelwert verschiedener Stichproben streut weniger stark denn die Stichprobe selbst.
Um welchen Faktor? Wie nennt man den somit berechneten Faktor?
3. Was ist die Effektstärke und wie kann sie berechnet werden?
4. Wie verfährt man bei unterschiedlicher Stichprobenvarianz?
5. Warum benötigt man die Effektgröße neben der Berechnung eines statistisch signifikanten
Unterschiedes?
6. Wie hängt der t-Wert und d zusammen? Geben Sie eine Formel zu Berechnung an.
7. Wann kann bei verbundenen Stichproben, die den Einfluss einer Behandlung anhand
zweier Zeitpunkte untersuchen (e.g. Vorher-Nachher) auf die Analyse des ersten Zeitpunktes
verzichtet werden?
8. Welche Voraussetzungen müssen für die Durchführung eines parametrischen Tests
gegeben sein?
9. Welcher Test wird, wenn diese Voraussetzungen erfüllt sind, schneller signifikant:
Ein parametrischer oder ein nicht-parametrischer Test?
10. Was berechnet die sog. Power-Efficiency?
11. Welche Fragestellungen können mittels einer Regressionsanalyse untersucht werden?
Geben Sie ein Beispiel.
12. Welche Vorteile hat eine Regressionsanalyse gegenüber einem t-test?
13. Was ist der sog. Regressionskoeffizient?
14. Was ist die sog. Regressionskonstante?
15. Angenommen, Sie untersuchten den Zusammenhang zwischen der Anbaufläche (in
Hektar) auf die Menge an Ernte (in Kg).
Was bedeutet der Regressionskoeffizient(Anbaufläche)=2.5?
16. Angenommen, Sie verwendeten die Variable Frost (in Tagen) als Prädiktor für Ernte übersetzen Sie bitte folgende
Angabe eines Bauers in Zahlen: " Wenn es dieses Jahr auch nur einen Tag Frost hat, kann ich
die Hälfte meiner Ernte wieder vergessen."
Lösungen zu den Fragen
1. Zum Einen ist der tatsächliche Parameter der Population keine Zufallsvariable. Es ist ein
fester Wert und besitzt daher
keine Auftretenswahrscheinlichkeit. Zum anderen ist das Konfidenzintervall kein stets
gleichbleibender Bereich. Mit jeder Stichprobenziehung ändern sich die Grenzen des KI. Die
Angabe eines 95%-konfidenzintervalls
kann beispielsweise folgendermaßen verbalisiert werden:
Zu 95% enthält der angegebene Bereich Konfidenzintervalle, die den wahren Wert
überdecken.
2. Die Verteilung des sog. Standardfehler des Mittelwerts (allg.: eines Parameters) streut
weniger stark denn die Verteilung der Stichprobenwerte um den Faktor 1/√n.
Der Standardfehler gilt als die Standardabweichung des Populationsparameters.
3. Mittelwertsunterschiede werden in der Einheit der Standardabweichungen angegeben und
sind daher von der Stichprobengröße unabhängig.
Ein beliebtes Maß ist Cohen´s d:
Nach Cohen´s Faustregel gilt eine Effektstärke unter 0.2 als sehr klein, unter 0.5 als klein,
unter 0.8 als mittel und 0.8 und größer als starker Effekt.
Bei einer kleinen Stichprobe ohne signifikantes Ergebnis sollte trotzdem die Effektstärke
angegeben werden. Je weniger zwei Verteilungen überlappen (je größer also der Unterschied
zwischen zwei Verteilungen ist) und/oder je geringer die Streuung ist, desto größer ist die
Effektstärke.
Siehe hierzu: http://www.bolderstats.com/jmsl/doc/CohenD.html
4. Es muss die mittlere Stichprobenvarianz berechnet werden: pooled = [(1²+ ²) / 2]
5. Die Berechnung der Effektstärke dient der Bestimmung praktischer Bedeutsamkeit eines
experimentellen Effektes.
Bei der Durchführung eines statistischen Testes kann durch eine Vergrößerung der Stichprobe
und durch eine Senkung der Streuung (etwa durch die Auswahl sehr homogener
Versuchsteilnehmer) eine Signifikanz erhöht oder erreicht werden.
Um nun herauszufinden, ob der Unterschied abgesehen von der Signifikanz tatsächlich und
aussagekräftig ist, zieht man die Effektsärke zu Rate.
6. d = 2t / √df
7. Wenn die VPn durch eine randomisierte Auswahl den Gruppen zugeordnet wurden.
Mithilfe dieses Verfahrens wird die Annahme verfolgt, durch Randomisierung eine
ausgewogenen Verteilung evtl. Unterschiede der VPn, die einen störenden oder verzerrenden
Einfluss auf die Versuchsergebnisse haben könnten, auf die beiden Gruppen erreicht zu
haben.
Die Gruppen seien demzufolge vor der Behandlung in allen relevanten Hinsichten gleich.
Ergo kann auf die Analyse des ersten Zeitpunktes verzichtet werden.
8. Intervallskalierte Variablen und normalverteilte Populationswerte.
9. Ein parametrischer Test.
10. Wenn alle Voraussetzungen für einen parametrischen Test erfüllt sind, berechnet die sog.
Power-Efficiency die Anzahl der Fälle, in denen ein nicht-parametrischer Test signifikant
wird, wenn auch der parametrische Test signifikant geworden ist. Die Power-Efficiency
beträgt beispielsweise für den Wilcoxontest .95 und für den Mediantest .65.
11. Mittels Regressionsanalyse soll eine abhängige Variable durch eine oder mehrere
unabhängige Variablen erklärt werden. Zum Beispiel kann
die Ernte eines Jahres (abhängige Variable) durch Wettereinflüsse (Regenmenge,
Sonnenstunden, Niedrigsttemperatur etc.), durch verwendete Dünger, die Anbaufläche,
etc. prognostiziert, bzw. erklärt werden. Zur Beschreibung des Zusammenhanges zwischen
abhängiger und unabhängiger/n Variablen können verschiedene Funktionen verwendet
werden. (z.B. lineare oder logistische Regression). Es soll immer die bestmögliche Anpassung
der erklärenden Gerade/Kurve an die Daten erreicht werden.
12. Der Regressionskoeffizient misst den Einfluss der unabhängigen Variable X auf die
abhängige Variable Y. Bei einer linearen Regression ist dieser Einfluss (" Wie verändert sich
Y, wenn sich X um eine Einheit ändert?") unabhängig von der Größe von X immer gleich und
entspricht der Steigung der Geraden.
13. Die Regressionskonstante entspricht dem Wert der abhängigen Variable Y, wenn der Wert
der unabhängigen Variablen X Null beträgt. (sog. „Intercept“). Die Interpretation ist nur dann
sinnvoll, wenn die unabhängige Variable X tatsächlich einen Wert von Null annehmen kann.
14. Etwa: Bei Vergrößerung der Anbaufläche um einen Hektar, steigt die erhaltene Ernte um
250% / wird aus einem Kilo Tomaten 2.5Kg.
15. y = a + 0.5b + ε
Statistische Datenanalyse
Mitschrift 2008/2009
Sitzung 4
1. Welchen Vorteil hat eine Regressionsanalyse gegenüber einem t-test?
2. Was ist der Unterschied zwischen einer multivariaten und einer multiplen
Regressionsanalyse?
3. Wie bezeichnet man eine Regressionsanalyse, die den Einfluss mehrerer unabhängiger
Variablen auf eine abhängige Variable untersucht?
4. Führen Sie eine univariate Regressionsanalyse (UV=Gruppenzugehörigkeit i.e.
Experimentalgruppe =1, Kontrollgruppe = 2; AV= 'Change', i.e. Score_1 – Score_2)
der Magnetdaten (http://onlinestatbook.com/rvls.html) mithilfe von R durch und
interpretieren Sie die Ergebnisse.
a. Durch welche Punkte wird die Regressionsgerade gelegt?
b. Wie lässt sich der angegebene Intercept interpretieren?
c. Wie lässt sich der negative Regressionskoeffizient interpretieren?
d. Was würde ein positiver Regressionskoeffizient bedeuten?
e. Wie müsste der Regressionskoeffizient aussehen, wenn die Kontrollgruppe zum
zweiten Zeitpunkt einen höheren Wert als zum ersten Zeitpunkt aufweisen würde?
5. Wie unterscheidet sich dieses Ergebnis der univariaten Regression von einem t-test
auf Mittelwertsunterschiede unter der Annahme der Homoskedastizität?
6. Was ist eine Dummy-Variable?
7. Wie kann in R eine Variable in eine Dummy-Variable umgewandelt werden?
8. Führen Sie nun eine Regressionsanalyse mit den Prädiktorvariablen Gruppe und
Score_1 durch. Erläutern Sie, was man dabei unter Konstanthaltung versteht und wie
dieses Konzept in diesem Kontext zum Tragen kommt.
9. Zeigen Sie anhand einer Gleichung, warum bei einer Regressionsanalyse mit einer
Dummy-Variable als Prädiktor und einer Differenz zweier intervallskalierter
Variablen (z.B. Messzeitpunkte, i.e. y2-y1) als Kriterium der Intercept an der Stelle
x=0 problemlos interpretiert werden kann. / wann kann bei einer Dummy-Variable als
Prädiktor und einer blabla .. der durch die Regressionsanalyse herausgerechnete
Intercept problemlos interpretiert werden?
10. Die in Frage 11 vorgestellte Regression soll nun durch eine weitere Prädiktorvariable
Z erweitert werden. Zeigen Sie anhand einer Gleichung, wann in dieser Anordnung
der Intercept als Mittelwert der mit Null kodierten Ausprägung interpretiert werden
kann.
11. Was sind Odds?
12. Was ist eine Odds-Ratio?
13. Berechnen Sie die Odds das Gymnasium zu besuchen und das Abitur zu machen für
Kinder mit und ohne Migrationshintergrund. Berechnen Sie die Odds-Ratio.
Abitur
Kein Abitur
Kinder mit
Migrationshintergrund
Ohne Migrationshintergrund
24
82
76
18
14. Warum und wie rechnet man Odds in Logits um?
15. Was ist die logistische Regression?
16. Welche Unterschiede bestehen zwischen logistischer Regression und linearer
Regression?
17. Warum ist die lineare Regression nicht zur Analyse einer binären Variable geeignet?
18. Für die Chile-Daten erhält man folgende Häufigkeiten Odds und Logits:
N
w
m
363
526
Y
Odds(py)
480 1.32231405
388 0.73764259
Logit(pY)
0.27938327
-0.30429587
a) Wie groß ist der Unterschied zwischen männlich und weiblich bezüglich der YesLogits?
b) Wie groß ist der Yes-Logit für die Frauen?
Lösungen
1. Es kann der Einfluss mehrerer unabhängiger Variablen auf eine oder mehrere
abhängige Variablen untersucht werden.
2. Eine multivariate Regressionsanalyse untersucht die Auswirkung auf mehrere
abhängige Variablen, wohingegen die multiple Regressionsanalyse den Einfluss
mehrerer unabhängiger Variablen beschreibt.
3. Univariate multiple Regression.
(s. weiterführend: http://www.uni-landau.de/schreiber/archiv/ws03_32/Multivariate1-korr_WHS.pdf )
4. a. Durch die Mittelwerte der beiden Gruppen.
b. Die Regressionskoeffizienten ändern sich stets, wenn eine neue erklärende Variable
oder eine neue zu erklärende Variable hinzukommt. Bei dieser einfachen, univariaten
Versuchsanordnung lässt sich der Intercept jedoch als Mittelwert der
Experimentalgruppe (Active 1) interpretieren.
c. Da Change über Score_1 – Score_2 definiert ist, bedeutet ein kleinerer Ergebnis
weniger Veränderung – die Experimentalgruppe zeigt also einen stärkeren Rückgang
der Schmerzen bzw. eine kleineren Score zum zweiten Zeitpunkt.
d. Die Veränderung der Kontrollgruppe wäre, im Vergleich zur Experimentalgruppe
noch kleiner, d.h. Change würde in der Kontrollgruppe einen höheren Wert aufweisen.
e. Wenn sich die Schmerzen in der Kontrollgruppe zum zweiten Zeitpunkt gesteigert
haben sollten, müsste der Regressionskoeffizient größer sein als der Mittelwert der
Experimentalgruppe, da der Mittelwert der Kontrollgruppe negativ wäre.
5. Betrachtet man die vom t-test angegebenen Mittelwerte, sollte der Mittelwert der
Experimentalgruppe gleich dem Intercept sein und der Mittelwert der Kontrollgruppe
gleich dem von der Regressionsanalyse prädizierten Wert bei X=1 sein (i.e. Y2=
5.24139– 4.1461)
6. Eine dichotome Variable (z.B. männlich, weiblich), die auf 0 und 1 kodiert ist.
7. 'Erzeuge neue Variable' (TL Datenmanagment – Variablen bearbeiten ), dann *Gruppe
== “exp“ '
Die neue Variable wird in der Datenmatrix angezeigt. Sollten die Ausprägungen noch
mit 'True' und 'False' angegeben sein, können Sie im Skriptfenster den Befehl:
'NamederDatenmatrix$exp <-- with(NamederDatenmatrix, (Gruppe==“exp“*1))'
eingeben bzw. abändern. Durch diese Multiplikation mit 1 wird die Ausprägung False
mit Null und die Ausprägung True mit 1 kodiert.
8. Durch die Konstanthaltung von Störgrößen soll der Effekt eines Treatments unverzerrt
sichtbar werden.
Im vorliegenden Falle könnte der Zustand der VPen zum ersten Zeitpunkt einen
Einfluss auf die AV haben. Die Konstanthaltung in diesem Fall gibt also Ausschluss
darüber, wie groß der Effekt der Behandlung ist, wenn alle VPen die gleiche
Schmerzintensität zum ersten Zeitpunkt berichten.
9. Bei Intervallskalen ist der Abschnitt (= Intercept) schon für einfachste Aussagen nicht
sinnvoll interpretierbar. Zulässig bei intervallskalierten Variablen sind
Lineartransformationen, so dass Y folgendermaßen ersetzt werden kann (X sei eine
Dummy-Variable: 0 bzw. 1) :
Y = a +bX;
Man betrachte folgende Behauptung: der Abschnitt ist 0 (hier a=0)
Y -> A +BY (zulässige Transformation bei Intervallskalenniveau)
d.h. Nach zulässiger Transformation gilt: A+BY = a +bX -> Y = (a-A)/B + b/B X
gilt für die Aussage (der Abschnitt ist 0: (a/B – A/B) = 0. Diese Aussage ist nur dann
zulässig, wenn A = 0 ist; d. h. diese Aussage wäre nur bei einer Verhältnisskala
sinnvoll.
Für Differenzen: Soll nun eine Differenz zweier solcher Variablen durch die
Regressionsanalyse prädiziert werden Y2-Y1 = a + bX, kürzt sich das in der linearen
Transformationen enthaltene A raus:
Nach zulässiger Transformation A+BY gilt:
A+BY2 - (A +BY1) = a + bX
-> BY2 – BY1 = a +bX
-> Y2 –Y1 = a /B + b/B X
Hier ist die Aussage (der Abschnitt ist 0) äquivalent in Vergleich der der
transformierten und untransformierten Regressionsgleichung, und daher zulässig.
Die abhängige Variable ist die Differenz. Die Regressionsgerade wurde anhand der
Regressionsgleichung geschätzt: Y2 –Y1 = a + b X + e.
(mit X=0 für Kontrollgruppe und X=1 für Experimentalgruppe).
Der Kleinst-Quadrateschätzer liefert
für die Kontrollgruppe (X=0) die Differenzenmittelwerte: y 2 (0)  y1 (0)  a und
für die Experimentalgruppe (X=1) die Differenzenmittelwerte: y 2 (1)  y1 (1)  a +b.
b ist daher gerade die Differenz der Differenzmittelwerte:
( y 2 (1)  y1 (1))  ( y 2 (0)  y1 (0)) .
10. Y2 – Y1 = a +bX +cZ An der Stelle, an der Z=0 ist.
11. Odds sind Verhältnisangaben von Anteilen oder Häufigkeiten. Zum Beispiel kann der
Anteil der Kinder unter 18 Jahren einer Horrorkinovorstellung zum Verhältnis der
Jungerwachsenen und Erwachsenen über 18 Jahren dargestellt werden – etwa 1:19.
Dies würde der Angabe entsprechen, dass sich unter 20 Kinobesuchern eine Person
unter 18 Jahren befindet oder dass der prozentuale Anteil an Minderjährigen bei 5%
liegt.
12. Odds finden oft in Wetteinsätzen Verwendung – hier geht es um einen Vergleich der
Gewinnchancen: in einem Würfelspiel etwa liegen die Odds, eine Sechs zu würfeln,
bei 1:5. Odds-Ratio – das Verhältnis von Odds – setzt Odds zweier Gruppen
zueinander in Beziehung und soll somit Aussagen über die Stärke von
Zusammenhängen geben. Beispiel: Es interessiert, wie hoch die Wahrscheinlichkeit
für Kinder mit Migrationshintergrund ist, eine weiterführende Schule zu besuchen, im
Vergleich zu Kindern ohne Migrationshintergrund.
13. Die Odds für Kinder mit Migrationshintergrund, eine weiterführende Schule zu
besuchen, betragen 12:41, für Kinder ohne 38:9. Die Odds-Ratio beträgt 14.42 für
Kinder ohne Migrationshintergrund und Abitur. D.h. die Chancen, dass ein Kind ohne
Migrationshintergrund ein Abitur macht, sind 14,42 mal so hoch, als dass ein Kind mit
Migrationshintergrund das Abitur macht. Liegt die Odds-Ratio über 1, sind die Odds
für die erste Gruppe höher, liegt sie unter 1 sind die Odds für die zweite Gruppe höher.
14. Odds haben einen beschränkten Wertebereich. Sie sind zwar nach oben hin offen,
nähern sich jedoch asymptotisch Null an. Indem man sie in Logits umwandelt, erreicht
man einen unbeschränkten Wertebereich. Der Logit ist der natürliche Logarithmus
eines Odds.
15. Die logistische Regression ist ein Verfahren zur Beurteilung des Zusammenhangs
zwischen einer dichotomen abhängigen Variable und mindestens einer unabhängigen ,
mindestens intervallskalierten Variable.
Typisch sind abhängige Variablen, die das Eintreten eines
Ereignisses erfassen und sich gegenseitig ausschließen – Ereignis tritt ein oder
Ereignis tritt nicht ein. Es interessiert der Einfluss der unabhängigen Variable/n und
die konkrete Wahrscheinlichkeit für das Eintreten des Ereignisses.
16. Im linearen Regressionsmodell ist die abhängige Variable metrisch skaliert und es
wird keine Wahrscheinlichkeit vorhergesagt, sondern die konkrete Ausprägung von Y.
Die logistische Regression unterstellt einen nicht-linearen Zusammenhang zur
Wahrscheinlichkeit des Auftretens des ‚abhängigen’ Ereignisses, das durch eine
Ausprägung der abhängigen Variablen charakterisierbar ist.
1. Die logistische Funktion lautet: p1 () :
exp( )
1  exp( )
2. Andererseits gilt dann: log it ( p1 ())  ln( Odds())  ln(
mit   a  bx
p1 ()
) :  mit   a  bx
1  p1 ()
17. Die Voraussetzung der Homoskedastizität der Residualvarianzen ist nicht erfüllt. Die
Residuen sind nicht normalverteilt. Weiterhin ist ein linearer Zusammenhang
zwischen der/n unabhängigen Variable/n und der Eintrittswahrscheinlichkeit nicht
anzunehmen. Vielmehr geht man von einem „Sättigungseffekt“ aus – die
Wahrscheinlichkeiten nähern sich den Extremwerten asymptotisch an. Und es können
für bestimmte Ausprägungen von X Werte geschätzt werden, die unter 0 oder über 1
liegen.
18. a) -0.5837 b) 0.279
Herunterladen