Methoden II

Werbung
Proseminar
Methoden II
für das Modul P4
Stefan Jahr
Organisatorisches
• Teilnahmebedingungen
– Bestandene Methoden I – Klausur oder
– Stattgegebener Härtefallantrag
• Leistungen für den Teilmodulabschluss
– max. zweimaliges Fehlen
– Klausur am 11.2.2008, HS 146 UHG
– Nachklausur 3.3.2008, HS 146 UHG
• „alter“ Methoden II – Schein
– Zusatzleistung in Statistik I erforderlich
Methoden II – Stefan Jahr
2
Kursmaterialien
• Folien + Fragebogen + Datensatz +
weitere Infos:
www.eurelite.uni-jena.de/Methoden2/Methoden
• Fragebogen + Datensatz:
• Studentenbefragung von Michael Behr
• Allgemeine Fragen zur Demographie,
Studium, Einstellungen
• Panel
• n = Studenten aller bisherigen Kurse
Methoden II – Stefan Jahr
3
Was ist Statistik?
Steigerung:
Lüge,
gemeine Lüge,
Statistik
Mit Statistik
kann man alles
beweisen
Nützliche Hilfswissenschaft zur
Bewertung von empirischen
Zusammenhängen
Ich glaube keiner Statistik, die ich nicht
selbst gefälscht habe.
-- Winston Churchill
Die Statistik ist die Erste der
ungenauen Wissenschaften.
(Edmond de Goncourt,
franz. Schriftsteller, 1822-1896)
Statistics are like a bikini. What they reveal is
suggestive, but what they conceal is vital.
Aaron Levenstein
Verdichtung von Information
⇒ Traue keiner Statistik,
die Du nicht selbst
verstanden hast!
Methoden II – Stefan Jahr
4
Forderung an empirische Daten
1. Quantifizierbare Daten
2. Exakte Definitionen
3. geeignete Messung/Erhebung
Methoden II – Stefan Jahr
5
Vorteile von Statistik
•
Möglichkeit der Präzisierung
•
Verallgemeinerbarkeit von
Stichprobenergebnissen
•
Genauigkeit und Sicherheit der
Ergebnisse einschätzbar
•
Modellrechnungen möglich
Methoden II – Stefan Jahr
6
Nachteile von Statistik
• Keine Aussagen zur inhaltlichen Bedeutsamkeit
der durchgeführten Untersuchung
• Liefert keine Kriterien für die notwendigen
Beobachtungsgrößen
• Keine Anhaltspunkte für die Wahl des
Erhebungsinstrumentes
• Keine inhaltliche Interpretation
• Kann sich gegen Voraussetzungsverletzungen
nicht wehren
Methoden II – Stefan Jahr
7
Ablauf einer statistischen
Untersuchung
• Codeplanerstellung
• Dateneingabe
• Formulierung der statistischen Hypothesen
• Untersuchung der benötigten Variablen im Datensatz und
gegebenenfalls Datenbereinigung und Datentransformation
• Allgemeine Voraussetzungsprüfung
• Wahl des statistischen Verfahrens
• Spezielle Voraussetzungsprüfung
• Durchführung des statistischen Verfahrens und Interpretation der
Ergebnisse
Methoden II – Stefan Jahr
8
Kursablauf
22.10
Organisatorisches, Vorstellung der Themen, Einführung
29.10.
Auswertung I: Vom Fragebogen zur Datenmatrix, Codeplan, Datenorganisation,
Auswertungsstrategien, Fragebogen zur Erstellung eines Datensatzes für den Kurs
5.11.
SPSS I: Programm- und Versionshistorie, Programmmodule, Struktur, Menü, Fenster, Hilfe,
Syntaxgrammatik, Programmoptionen
12.11.
Auswertung II: Prüfung auf NV, Häufigkeiten, Mittelwerte und Streuungsmaße
19.11.
Auswertung III: Indifferenz und Assoziation, PRE-Interpretation
Auswertung IV: Kreuztabellenanalyse, Zusammenhangsmaße
26.11.
SPSS II: Häufigkeiten, Deskriptive Maßzahlen
3.12.
SPSS III: Mittelwerte und Streuungsmaße, Darstellungsformen: Tabellen und Grafiken in SPSS,
Word und Excel, Ergebnissexport
10.12.
SPSS IV: Datentransformation und –manipulationen, Indexbildung
17.12.
SPSS V: Kreuztabellenanalyse
7.1.
SPSS VI: Zusammenhangsmaße I
14.1.
SPSS VII: Zusammenhangsmaße II
21.1.
SPSS VIII: Lineare Regressionsanalyse I
28.1.
SPSS IIX: Lineare Regressionsanalyse II
4.2
SPSS IX: Ausblick auf multiple Regressionsanalyse
II – Stefan Jahr
Abschlussklausur: 10-12 UhrMethoden
HS 146 ÚHG
11.2.
9
Vom Fragebogen zum Codeplan
1.
2.
3.
Wie sicher fühlen Sie sich in Leipzig?
sehr sicher
7
eher sicher
ˆ
eher unsicher
ˆ
sehr unsicher
ˆ
Um das Sicherheitsgefühl der Bürger zu erhöhen, hat Leipzig begonnen, öffentliche
Straßen und Plätze durch Videokameras zu überwachen. Ist Ihnen das bekannt?
nein
ˆ ) weiter mit Frage 6 auf dieser Seite
ja
7
Wodurch haben Sie das erfahren? (Mehrfachantworten möglich)
Fernsehen
7
Illustrierte/Stadtmagazin(e) ˆ
Radio
ˆ
Familienmitglieder/Freunde ˆ
Bekannte/Kollegen
ˆ
Tageszeitungen
7 ) welche? LVZ
(weiß nicht mehr)
ˆ
andere Infoquelle
ˆ
Methoden II – Stefan Jahr
10
Variablen
Variable = Merkmal, Skala, Item, Verteilung
Unterscheidung von:
• Variable
• Ausprägungen
• Merkmalsträgern
Definition
• Eigenschaft eines Begriffes mit
mehr als einer Ausprägung
(ggs. Konstante)
Arten
• Quantitativ vs. Qualitativ
• Kontinuierlich vs. Diskret
• Dichotom vs. Trichotom vs. Polytom
Methoden II – Stefan Jahr
11
Nominal
Ordinal
Intervall
Zulässige stat. Verfahren
Informationsgehalt
Skalentypen - Messniveaus
Ratio
Methoden II – Stefan Jahr
12
Datenmatrix
Stichworte:
• Untersuchungseinheit, Case, Merkmalsträger
• Variable, Merkmal, Item, Skala, Verteilung
• Wert
• Rohdatenmatrix
Methoden II – Stefan Jahr
13
Datenorganisationsformen (I)
• Standardformat
Methoden II – Stefan Jahr
14
Datenorganisationsformen (II)
• Horizontales Panel
Person
Jahreseinkommen t1
Jahreseinkommen t2
Stellung
im Beruf t1
Stellung
im Beruf t2
1
50000,-
60000,-
Angestellter
Angestellter
2
55000,-
62000,-
Angestellter
Selbstständig
3
-
40800,-
-
Angestellter
4
48000,-
-
Beamter
-
• Vertikales Panel
Person
Untersuchungszeitpunkt
Jahreseinkommen
Stellung im Beruf
1
t1
50000,-
Angestellter
1
t2
60000,-
Angestellter
2
t1
55000,-
Angestellter
2
t2
62000,-
Selbstständig
3
t2
40800,-
Angestellter
4
t1
48000,-
Beamter
Methoden II – Stefan Jahr
15
Vom Fragebogen zum Codeplan
1.
2.
3.
Wie sicher fühlen Sie sich in Leipzig?
v1
sehr sicher
7
(1)
eher sicher
ˆ
(2)
eher unsicher
ˆ
(3)
sehr unsicher
ˆ
(4)
Um das Sicherheitsgefühl der Bürger zu erhöhen, hat Leipzig begonnen, öffentliche
Straßen und Plätze durch Videokameras zu überwachen. Ist Ihnen das bekannt?
v2
nein
ˆ (0)
) weiter mit Frage 6 auf dieser Seite
ja
7 (1)
Wodurch haben Sie das erfahren? (Mehrfachantworten möglich)
Fernsehen
7
Illustrierte/Stadtmagazin(e) ˆ
Radio
ˆ
Familienmitglieder/Freunde ˆ
Bekannte/Kollegen
ˆ
Tageszeitungen
7 ) welche? LVZ
(weiß nicht mehr)
ˆ
andere Infoquelle
ˆ
Variablennamen
• Restriktionen des Datenverarbeitungsprogramms
hinsichtlich: Schreibweise, Sonderzeichen, Namenlänge,
zulässige Variablentypen
• Logischer Aufbau
• Keine Dopplungen
• Praktikabilität
Variablenausprägungen
• Skalenniveaus
• Restriktionen des Datenverarbeitungsprogramms
hinsichtlich: Schreibweise, Sonderzeichen, Namenlänge
• Eindeutige Abbildung
Methoden II• –Praktikabilität
Stefan Jahr
16
Auswertungsstrategien
Univariate
Datenanalyse
Bivariate
Datenanalyse
Multivariate
Datenanalyse
sex Geschlecht
Frequency
Valid
Percent
Valid Percent
Cumulative
Percent
1 männlich
9
64,3
64,3
64,3
2 weiblich
5
35,7
35,7
100,0
14
100,0
100,0
Total
Methoden II – Stefan Jahr
17
SPSS – Allgemein
• Superior Performing Statistical Software
– Alter Name: Statistical Package for the Social Sciences
• 1965 von Norman Nie und Dale Bent an der
Stanford University entwickelt
–
–
–
–
1968 Teamerweiterung mit Hadlai Hull
In FORTRAN programmiert
Erstes zusammenhängendes Statistikpaket
1981 für IBM-kompatible PC weiterentwickelt
(SPSS/PC+)
– 1992 für Windows portiert
• Aktuelle Version: 15.0
• Modularer Aufbau
Methoden II – Stefan Jahr
18
SPSS-Module
Modul
Beschreibung
Base
Basissystem enthält Datenmanagementfunktionen, deskrip. Statistiken,
Mittelwertvergleiche, lineare Regression, Faktorenanalyse etc.
Regression Models
Verschiedene Regressionsmodelle (multinominal, logistisch, nicht
lineare Modelle)
Advanced Models
Allgemeine lineare Modelle (GLM), multivariate Varianzanalysen, Loglineare Modelle, Cox-Regression, Survivalanalysen
Tables
Erzeugung „druckreifer“ Häufigkeitstabellen
Classification Trees (ab SPSS 13)
Klassifikations- und Entscheidungsbäume erstellen
Categories
Korrespondenzanalysen, optimale Skalierung, Klassif. nominaler Daten
Complex Samples (ab SPSS 12)
Komplexe Stichprobendesigns
Trends
Zeitreihenanalysen und Prognosen
Missing Value Analysis
Analyse fehlender Werte
Maps
Darstellung von Daten in geographischen Karten
Conjoint
Conjoint-Analyse
Exact Test
Exakte Signifikanztests für kleine Stichproben
Amos
Lineare Strukturgleichungsmodelle
Methoden II – Stefan Jahr
19
SPSS-Vorteile
• Umfangreiche Datenmengen bearbeitbar
(32768 Variablen und 2,15 Billionen Fälle bis SPSS9.x; ab SPSS10 2,15 Billionen
Variablen und Fälle; Excel kann nur 65.536 Datenzeilen und XX Variablen bearbeiten)
• Moderate Hardwareanforderungen
(z.B. geringerer Speicherverbrauch im vgl. zu TDA)
• Gute Symbiose aus menü- und syntaxgeführter
Bedienung
• Relativ leicht zu erlernen
• Im Vergleich recht gute Darstellung der Ergebnisse
• Gute Export- und Importfunktionen
(ODBC-Quellen [Open Database Connectivity])
• Gute Interaktion mit Office-Programmen
• Hoher Verbreitungsgrad
(Quasi-Standard)
Methoden II – Stefan Jahr
20
SPSS - Nachteile
• Recht teuer
12.131 € Neuanschaffung
2690 € Lizenzverlängerung pro Jahr
– Studentenversion (1500 Fälle und 50 Variablen): bei http://www.statcon.de
für 75.00 €
– 30 Tage voll funktionsfähige Demoversion nach Anmeldung: www.spss.com
– Statistica: 998,00 € / Stata: 1215,00 € / TDA: kostenlos
•
•
•
•
Recht rigide Datenorganisation
Schlechter Debugger der Syntax
Noch teilweise fehlerhafte Prozeduren enthalten
Einige (mittlerweile) wichtige Analyseverfahren
nicht oder nur halbherzig integriert
(Korrespondenzanalyse – SIMCA, Verlaufdatenanalyse – TDA/STATA)
Methoden II – Stefan Jahr
21
Gefahren von Statistikpaketen
• Programmstruktur beeinflusst Forschungslogik
– Forschungsfragen werden auf die Möglichkeiten des Programms
zugeschnitten
• Unvollständigkeit der Pakete
– Man rechnet nicht mit dem optimalen, sondern mit dem vorhanden
Verfahren
• Leichtigkeit der Anwendung
– Verfahren werden oft explorativ genutzt, ohne genaue Überlegungen
ihrer Verwendbarkeit anzustellen
Kein Test, der auf Wahrscheinlichkeitstheorie beruht, kann von sich aus nützliche Belege für die
Richtigkeit oder Unrichtigkeit einer Hypothese liefern.
Neyman/Pearson 1933
Methoden II – Stefan Jahr
22
SPSS-Bestandteile
• Dateneditor
–
–
–
–
Hauptmodul von SPSS
Seit Version 10 mehrere Instanzen möglich
Spezielle Menüpunkte „Daten“ und „Transformieren“
Seit Version 7.XX und 13 neues Format der Datenspeicherung (nicht mit
älteren Versionen kompatibel)
• Syntaxeditor
– Normaler Texteditor mit angepassten Menüs
– Spezieller Menüpunkt „Ausführen“
• Ausgabeviewer
– Über Menüpunkt „Optionen“ Wahl zw. neuem Viewer oder (altem)
Draft-Viewer
• Diagrammeditor
– Nachbearbeitung der Diagramme
• Pivot-Tabellen-Editor
– Nachbearbeitung von Tabellen
Methoden II – Stefan Jahr
23
Dateneditor
Methoden II – Stefan Jahr
24
Variablennamen
Normen:
• Darf maximal 8 Zeichen lang sein und keine Leerzeichen enthalten
(ab SPSS 12: 64 Zeichen)
• Muss mit einem Buchstaben oder Zeichen: @ # $ beginnen, aber:
• # indiziert eine Arbeitsvariable (wird nicht im Editor angezeigt)
• $ indiziert eine Systemvariable (sind von SPSS vorgegeben)
• Alle Zeichen des Alphabets zulässig (keine Unterscheidung zwischen
Groß- und Kleinschreibung)
• An zweiter Stelle alle Ziffern von 0 – 9 zulässig
• Dürfen nicht mit Punkt oder Unterstrich enden
• Bestimmte Schlüsselwörter ausgeschlossen (z.B. and, or, eq, lt, with)
• Umlaute und ß machen in älteren SPSS-Versionen Probleme
Methoden II – Stefan Jahr
25
Variablentypen
Numerisch: Ziffern mit oder ohne Nachkommastelle; Dezimaltrenn- und
Tausenderzeichen richtet sich nach Windowseinstellung
Komma: wie numerisch, jedoch mit einem Komma als Tausendertrennund Punkt als Dezimaltrennzeichen
Punkt: wie numerisch, jedoch mit einem Punkt als Tausendertrennund Komma als Dezimaltrennzeichen
Wissenschaftliche Notation: Potenzschreibweise für sehr große und
kleine Zahlen (z.B.: 1,23E+02 = 123)
Datum: Datums- oder Zeitangaben; Datumsangaben werden intern in
Sekunden seit dem 15. Oktober 1582 umgerechnet (Einführung
des Gregorianischen Kalenders); Zeiteingaben in Sekunden seit
00:00 Uhr
Dollar: Zahlen bekommen automatisch den Präfix $
Spezielle Währung: über „Optionen“ lassen sich bis zu 5 verschiedene
spezielle Währungen definieren (Präfix und Suffix frei wählbar)
String: Texteingaben mit max. 255 Zeichen (ab SPSS 13: 31.767
Zeichen); Ziffern werden als Text interpretiert; max. 8 Zeichen,
in statistischen
Prozeduren genutzt werden zu können
Methoden II – um
Stefan
Jahr
26
Labels
Enthält nähere Beschreibung der Variablen
Normen:
• Können maximal 255 Zeichen umfassen
• Alle Zeichen zulässig
• Labels mit Sonderzeichen wie Punkt, Backslash, Semikolon müssen
bei Vergabe über die Syntax in Hochkommas geschrieben werden
• Bleiben nur in der SPSS-Datendatei erhalten (Dateiendung .sav)
• Haben keinerlei statistischen Wert
Methoden II – Stefan Jahr
27
Values
Enthält nähere Beschreibung der Variablenausprägungen
Normen:
• Können maximal 60 Zeichen umfassen (ab SPSS 14: 120 Zeichen)
• Alle Zeichen zulässig
• Labels mit Sonderzeichen wie Punkt, Backslash, Semikolon müssen
bei Vergabe über die Syntax in Hochkommas geschrieben werden
• Bleiben nur in der SPSS-Datendatei erhalten (Dateiendung .sav)
• Haben keinerlei statistischen Wert
Methoden II – Stefan Jahr
28
Missing values
Indizieren SPSS welche Werte bei Analysen ausgelassen
werden sollen
Zwei Möglichkeiten der Wertebereichsangabe:
1. Drei einzelne (diskrete) Werte
2. Einen zusammenhängenden Wertebereich plus einen
Wert außerhalb dieses Wertebereichs
Methoden II – Stefan Jahr
29
Syntaxeditor
Syntaxgrammatik:
• Jeder Befehl muss in einer neuen Zeile beginnen und mit einem Punkt enden, kann sich
aber über beliebig viele Zeilen erstrecken
• Unteranweisungen mit Schrägstrich voneinander trennen; können in einer Zeile stehen
• Jede Befehlszeile darf höchstens 255 Zeichen lang sein
• Dezimaltrennzeichen in Spezifikationen ist der Punkt
• Keine Unterscheidung zwischen Groß- und Kleinschreibung
Syntax-Bausteine:
•
Befehl:
(npar tests)
•
Unteranweisung: Zusatz zu einem Befehl
(m-w; missing; stat)
•
Spezifikationen: Angaben, die einer Anweisung oder
Unteranweisung hinzugefügt werden können
(gebjahr by sex (1 2))
•
Schlüsselwörter: in SPSS vordefiniert und mit dem
Befehl verbunden (analysis; desc)
Methoden II – Stefan Jahr
30
Mittelwerte
• Modus
h = xh = xmax = Modus
• Median
1 1 ⎛n
⎞
−
x50 = x% = xm − +
F
m −1 ⎟
⎜
2 fm ⎝ 2
⎠
• Arithmetisches Mittel
1 n
x = * ∑ fi xi
n i =1
Methoden II – Stefan Jahr
31
Mittelwerte
Datenart
metrisch
singulär
gruppiert
ordinal
kategorial
Voraussetzungen
Mittelwert
symmetrisch und eingipflig verteilt
arithmetisches Mittel
asymmetrisch und eingipflig verteilt
Median
kleine Stichprobe (n<5)
Median
mehrgipflig verteilt
Modalwerte
symmetrisch und eingipflig verteilt
arithmetischer Mittelwert für Häufigkeiten
asymmetrisch und eingipflig verteilt
Median mit Interpolation
besetzte offene Klassen
Median mit Interpolation
mehrgipflig verteilt
Modalwerte
singulär
Median
gruppiert
Median bei Rangklassen
Modalwert(e)
Methoden II – Stefan Jahr
32
Streuungsmaße
– Relativer Informationsgehalt
k
k
n n k
1
h=
* ∑ i ln i = *
ln k i =1 n n n
n * ln k − ∑ n1 * ln ni
i =1
k * ln k
– Interquartilsabstand
Q = Q3 − Q1
– Varianz/(Standardabweichung)
n
1
* ∑ ( xi − x ) 2
s =
n − 1 i =1
2
Methoden II – Stefan Jahr
33
Streuungsmaße
Datenart
metrisch
singulär
gruppiert
ordinal
kategorial
Voraussetzungen
Streuwert
symmetrisch und eingipflig verteilt
Standardabweichung
asymmetrisch und eingipflig verteilt
Mittlerer Quartilsabstand
kleine Stichprobe (n<12)
Variationsbreite
mehrgipflig verteilt
Relativer Informationsgehalt
symmetrisch und eingipflig verteilt
Standardabweichungen für Häufigkeiten
asymmetrisch und eingipflig verteilt
Quartilsabstand mit Interpolation
besetzte offene Klassen
Quartilsabstand mit Interpolation
mehrgipflig verteilt
Relativer Informationsgehalt
singulär
Interquartilsbereich
gruppiert
Unterschied der Quartilsklassen
Relativer Informationsgehalt
Methoden II – Stefan Jahr
34
Verteilungsformen
Methoden II – Stefan Jahr
35
Graphische Beurteilung der
Verteilungsform I
Histogramm
(Balken, Säulen)
Boxplot
Histogram
400
300
Frequency
200
100
Std. Dev = 12,51
Mean = 70,0
N = 1920,00
0
0
0,
10,0
95,0
90,0
85,0
80,0
75,0
70,0
65,0
60,0
55,0
50,0
45,0
40,0
35,0
30,0
25
ALTER
Methoden II – Stefan Jahr
36
Graphische Beurteilung der
Verteilungsform II
Stem & Leaf
Q-Q Plots
Methoden II – Stefan Jahr
37
Maßzahlen zur Beurteilung der
Verteilungsgeometrie I
Lage der Mittelwerte
Getrimmtes arithm. Mittel
Descriptives
Statistic
ALTER Mean
69,9911
95% Confidence Interva Lower Bound
for Mean
Upper Bound
69,4313
5% Trimmed Mean
70,3218
Median
71,0000
Variance
156,484
Std. Deviation
,28549
70,5510
12,50936
Minimum
24,00
Maximum
98,00
Range
74,00
Interquartile Range
Std. Error
18,0000
Skewness
-,367
,056
Kurtosis
-,279
,112
Methoden II – Stefan Jahr
38
Maßzahlen zur Beurteilung der
Verteilungsgeometrie II
• Skewness
• Kurtosis
⎛
x⎞
⎜ xi − ⎟
∑
⎜
s x ⎟⎠
i =1 ⎝
Sch =
n
n
(>0 Â rechtsschief)
3
4
⎛
x⎞
⎜ xi − ⎟
∑
⎜
s x ⎟⎠
i =1 ⎝
−3
St =
n
n
(>0 Â höher als NV)
• Kolmogorov-Smirnov-Test
Tests of Normality
a
Kolmogorov-Smirnov
Statistic
ALTER
,057
df
1920
Shapiro-Wilk
Sig.
,000
Statistic
,987
df
1920
Sig.
,000
a. Lilliefors Significance Correction
• Streuungsparameter
Methoden II – Stefan Jahr
39
Verfahren der Zusammenhangsprüfung –
Kombinierte Häufigkeitsverteilungen (graphisch)
120
100
80
60
3085
3083
3082
3084
40
3897
3391
25
3898
26
1716
3899
3392
3028
6199
3412
6987
3413
6200
6988
3004
6961
3005
6960
3003
4432
4431
5016
5017
1673
1672
4824
30
0
N=
5586
416
MAENNLICH
WEIBLICH
GESCHLECHT
Haushaltsnettoeinkommen (kategorisiert)
ALTER
5487
20
20
10
0
10
20
30
40
50
60
Methoden II – Stefan Jahr
ALTER
70
80
90
40
Verfahren der Zusammenhangsprüfung –
Kombinierte Häufigkeitsverteilungen (Kreuztabellen)
SCHICHT Subjektive Schichteinstufung * SCHULE Alggemeiner Schulabschluß Crosstabulation
SCHULE Alggemeiner Schulabschluß
SCHICHT Subjektive
Schichteinstufung
2 Arbeiterschicht
3 Mittelschicht
4 Obere Mittelschicht
2 Volks-,
Hauptschu
labschluß
3 Mittl. Reife,
Realschulabschl
uß
4
Fachhochs
chulreife
5 Abitur,
Hochschulreife
799
355
31
55
1240
% within SCHICHT
Subjektive Schichteinstufung
64,4%
28,6%
2,5%
4,4%
100,0%
% within SCHULE
Alggemeiner Schulabschluß
54,2%
36,9%
17,7%
11,2%
40,0%
% of Total
25,8%
11,4%
1,0%
1,8%
40,0%
655
534
120
319
1628
% within SCHICHT
Subjektive Schichteinstufung
40,2%
32,8%
7,4%
19,6%
100,0%
% within SCHULE
Alggemeiner Schulabschluß
44,4%
55,5%
68,6%
65,1%
52,5%
% of Total
21,1%
17,2%
3,9%
10,3%
52,5%
21
73
24
116
234
% within SCHICHT
Subjektive Schichteinstufung
9,0%
31,2%
10,3%
49,6%
100,0%
% within SCHULE
Alggemeiner Schulabschluß
1,4%
7,6%
13,7%
23,7%
7,5%
Count
Count
Count
% of Total
Total
Total
,7%
2,4%
,8%
3,7%
7,5%
1475
962
175
490
3102
% within SCHICHT
Subjektive Schichteinstufung
47,5%
31,0%
5,6%
15,8%
100,0%
% within SCHULE
Alggemeiner Schulabschluß
100,0%
100,0%
100,0%
100,0%
100,0%
47,5%
31,0%
5,6%
15,8%
100,0%
Count
% of Total
Methoden II – Stefan Jahr
41
Zusammenhangsprüfung
• Begrifflichkeiten
– Assoziation, Kontingenz, Korrelation
– Kausalität und Korrelation
• Logiken der Zusammenhangsprüfung
– Abweichung von der Indifferenz
– Paarbildung
– Fehlerreduktion bei der Vorhersage der
abhängigen Variable (PRE)
Methoden II – Stefan Jahr
42
Koeffizienten
Koeffizient
Gibt es einen
Zusammenhang?
Wie stark ist der
Zusammenhang?
Welche Richtung
hat der
Zusammenhang?
n.
n.
n.
o.
m.
o.
m.
o.
m.
PRE-Maß
n.
o.
Bemerkungen
m.
Chi-Square nach Pearson
Fishers exakter Test
Phi
Kontingenzkoeffizient C
Cramers’ V
Lambda
Gamma
Kendall’s Tau B
Kendall’s Tau C
Somer’s D
Eta²
Eta
Determinationskoeffizient
R²
P-M-K r (Pearsons r)
Methoden II – Stefan Jahr
43
Variablen und Werte benennen
Benutzte Befehle/Schlüsselwörter:
VARIABLE LABELS
• Benennt eine Variable
• Kurzform: VAR LAB
VALUE LABELS
• Benennt die Ausprägungen einer Variable
• Kurzform: VAL LAB
MISSING VALUE
• Definiert bestimmte Werte in der Variable als fehlende
Werte
• Als „missing value“ definierte Ausprägungen werden
von SPSS in Analysen nicht berücksichtigt
• Nicht auf Variablentyp „String“ anwendbar
• Kurzform: MIS VAL
Methoden II – Stefan Jahr
44
Datensatz speichern und einlesen
Benutzte Befehle/Schlüsselwörter:
SAVE OUTFILE
• Speichert den Datensatz im SPSS-Format
• Unterbefehl DROP ermöglicht das Löschen von Variablen beim Speichern
• Unterbefehl RENAME ermöglicht das Umbenennen von Variablen beim Speichern
GET FILE
• Liest einen SPSS-Datensatz Methoden II – Stefan Jahr
45
Häufigkeiten, Berechnungen
Benutzte Befehle/Schlüsselwörter:
FREQUENCIES
• Ausgabe einer einfachen Häufigkeitsverteilung
• Unterbefehle für Statistiken und Grafiken möglich
• Kurzform: FRE
MEANS
• Mittelwertberechnung
• Schlüsselwort BY ermöglicht Subgruppenbetrachtung
COMPUTE
• Berechnen einer neuen Variable
• Alle mathematischen Operationen denkbar
• Kurzform: COMP
EXECUTE
• Aktualisiert den Dateneditor mit den neu berechneten
Variablen
• Kurzform: EXE
Methoden II – Stefan Jahr
46
Indexbildung mit Compute
Benutzte Befehle/Schlüsselwörter:
COMPUTE
• Schlüsselwort SUM führt eine einfache Addition der in
Klammern genannten Variablen aus
• Schlüsselwort MEAN bildet den Durchschnittswert aus den in
Klammern genannten Variablen. Diese sollten daher in der
gleichen Einheit vorliegen.
Achtung: unterschiedliche Behandlung der fehlenden Werte in
den gezeigten Alternativen
Methoden II – Stefan Jahr
47
Prüfung auf NV –
Variablen umcodieren
Benutzte Befehle/Schlüsselwörter:
EXAMINE
• Gibt verschiedene Kennwerte, Grafiken und Tests aus,
um Grad der Übereinstimmung mit der NV zu prüfen
• Schlüsselwort BY ermöglicht Subgruppenbetrachtung
• Kurzform: EXA
Benutzte Befehle/Schlüsselwörter:
RECODE
• Ersetzt die Werte oder Wertebereiche einer Variable
nach vorgegebenem Muster in entweder eine neue
Variable (Schlüsselwort: INTO) oder in die selbe
Variable (ohne Schlüsselbefehl).
• Kurzform: REC
Methoden II – Stefan Jahr
48
Bedingungen
Benutzte Befehle/Schlüsselwörter:
IF
• Formulieren einer Bedingung für selektive
Variablenberechnungen
DO IF – END IF
• Wenn mehrere Berechnungen für einen selektiven
Personenkreis ausgeführt werden sollen
DO REPEAT – END REPEAT
• Verbindet eine Menge von Variablen mit einem Platzhalter bzw.
Jokervariable (hier „a“)
• Ermöglicht identische Modifikationen für die unter „a“
gebündelten Variablen
• Jokervariable lässt sich nur innerhalb der Befehlsstruktur
ansprechen
• Mehrere Jokervariablen vereinbar
• Kurzform: DO REP
Methoden II – Stefan Jahr
49
Selektion und Auswahl von Fällen
Benutzte Befehle/Schlüsselwörter:
TEMPORARY
• Kann vor Datentransformationen stehen
• Nachfolgende Datentransformationen werden aber nicht
dauerhaft im Dateneditor gespeichert
• Bleibt bis nach der nächsten statistischen Prozedur (z.B.
FREQ) erhalten
• Kurzform: TEMP
SELECT IF
• Selektionsbefehl zur Auswahl von Fällen mit bestimmten
Merkmalen oder Merkmalskombinationen
• Erzeugt ohne vorangestelltes TEMP eine dauerhafte
Selektion im Dateneditor indem alle nicht selektierten
Datenzeilen entfernt werden.
• Kurzform: SEL IF
FILTER BY – FILTER OFF
• Selektionsbefehl zur Auswahl von Fällen die in einer
(beliebigen) Selektionsvariable den Wert 1 haben
• Kurzform: keine
Methoden II – Stefan Jahr
50
Datensatz zur Analyse aufteilen Werte zählen
Benutzte Befehle/Schlüsselwörter:
SPLIT FILE
• gibt Analysen getrennt für alle Kategorien einer
Schlüsselvariable aus
• Schlüsselwort: SEPARATE – trennt die
Ausgabetabellen voneinander
CROSSTABS
• erzeugt Kreuztabelle
• Kurzform: CROS
Benutzte Befehle/Schlüsselwörter:
COUNT
• Zählt die Häufigkeit definierter Values
über bestimmte Variablen
• Kurzform: COU
Methoden II – Stefan Jahr
51
Mittelwertunterschiede analysiert
mit MEANS
Case Processing Summary
Cases
Included
N
income * sex Geschlecht
Excluded
Percent
133
N
Total
Percent
97,1%
4
N
2,9%
Percent
137
100,0%
Report
income
sex Geschlecht
Mean
1,00 männlich
577,0588
N
51
Std. Deviation
427,59646
2,00 weiblich
504,6098
82
235,43219
Total
532,3910
133
323,29592
ANOVA Table
Sum of Squares
income * sex Geschlecht
Between Groups
(Combined)
df
Mean Square
165043,333
1
165043,333
Within Groups
13631630,336
131
104058,247
Total
13796673,669
132
F
1,586
Sig.
,210
Measures of Association
Eta
income * sex Geschlecht
Eta Squared
,109
,012
Methoden II – Stefan Jahr
52
Hypothesen
Hypothesen
Behauptung, die ohne mit Sicherheit vorher als wahr
erkannt zu sein, für bestimmte Zwecke angenommen wird
- sind Zweckgebunden
- haben vorläufigen Charakter (verifiziert/falsifiziert)
- müssen empirisch überprüfbar sein
Forschungshypothese
-
allgemein formuliert
beziehen sich auf die Grundgesamtheit
Wenn - dann oder Je - desto Aussagen
operationale Hypothese
-
beziehen sich ausschließlich auf die
Untersuchungsgesamtheit (Stichprobe)
Zusammenhangshypothese
-
-
Unterschiedshypothese
behauptet Zusammenhang zwischen
mind. zwei Variablen der
Grundgesamtheit
Überprüfung durch Signifikanztests oder
Korrelations- und Regressionsverfahren
-
-
behauptet, dass sich mind. zwei
Gruppen der Grundgesamtheit, sich im
Hinblick auf eine oder mehrere
abhängige Variablen unterscheiden
Überprüfung mittels Signifikanztests
des Unterschieds von Mittelwerten und
Varianzen
Veränderungshypothese
-
-
behauptet, die Veränderung einer oder
mehrerer abhängigen Variablen im
Zeitverlauf
Überprüfung durch Zeitreihenanalyse
und Panelanalysen
(spezielle Form der
Unterschiedshypothesen)
Alternativhypothese HA
-
(entspricht inhaltlich meistens der
Forschungshypothese)
es besteht eine Beziehung zwischen
den untersuchten Variablen
Nullhypothese H0
statistische Hypothese
-
durch formale mathematische Überprüfung von zwei
sich ausschließenden statistischen Entscheidungen
Methoden II – Stefan Jahr
wird zuverlässig eine Aussage über die
Grundgesamtheit getroffen
-
(entspricht inhaltlich meistens nicht
der Forschungshypothese)
es besteht keine Beziehung
zwischen den untersuchten53
Variablen
Einseitige und zweiseitige
Fragestellungen
einseitig
zweiseitig
spezifisch
HA: Es gibt einen positiven Zusammenhang
von mind. der Stärke 0.70.
-
unspezifisch
HA: Es gibt einen positiven
Zusammenhang.
HA: Es gibt einen Zusammenhang.
Methoden II – Stefan Jahr
54
Statistische Hypothesenprüfung
•Sprachliche Regelung
–Ist die Irrtumswahrscheinlichkeit
(graphisches Symbol: *).
–Ist die Irrtumswahrscheinlichkeit
(graphisches Symbol: **).
–Ist die Irrtumswahrscheinlichkeit
signifikant
(graphisches Symbol: ***).
–Ist die Irrtumswahrscheinlichkeit
<5%, dann bezeichnet man das Ergebnis als signifikant
<1%, dann bezeichnet man das Ergebnis als sehr signifikant
<0,1%, dann bezeichnet man das Ergebnis als höchst
≥ 5%, dann bezeichnet man das Ergebnis als nicht signifikant.
•α- und β-Fehler
Methoden II – Stefan Jahr
55
Kreuztabellenanalyse – Teil I
Methoden II – Stefan Jahr
56
Kreuztabellenanalyse – Teil II
Methoden II – Stefan Jahr
57
Korrelationen
Benutzte Befehle/Schlüsselwörter:
cor v1e with v2c v2b.
Benutzte Befehle/Schlüsselwörter:
nonpar cor v1e with v2c v2b
/print both.
Methoden II – Stefan Jahr
58
Regression I
Methoden II – Stefan Jahr
59
Regression II
Methoden II – Stefan Jahr
60
Herunterladen