Deskription und Tests

Werbung
Deskription, Statistische Testverfahren und
Regression
Seminar: Planung und Auswertung klinischer und experimenteller Studien
Deskriptive Statistik
• Deskriptive Statistik: beschreibende Statistik, empirische Statistik
• Daten, die man erhoben hat sollten in einem ersten Schritt immer deskriptiv
beschrieben werden
• Daten werden in geeigneter Weise beschrieben und zusammengefasst mit Hilfe
von Häufigkeitstabellen, grafischen Darstellungen und Maßzahlen
1
Maßzahlen
Die Entscheidung, welche Maßzahlen bestimmt werden, hängt vom Skalenniveau
der Variablen ab.
• Quantitative (stetig und diskret) Merkmale:
– Lagemaße: Mittelwert, Median, Modalwert
– Streuungsmaße: Varianz, Standardabweichung, Spannweite, Variationskoeffizient
• Qualitative Merkmale:
– relative Häufigkeiten, absolute Häufigkeiten
– Modalwert
2
Lagemaße
Seien x1, . . . , xn die Messpunkte eines Datensatzes (z.B. Körpergewicht von
Patienten), dann werden die Lagemaße wie folgt berechnet:
Pn
1
Das arithmetische Mittel:
x̄ := n i=1 xi
Der Median
(
m(x) :=
x( n+1 ),
2
1
n
2 (x( 2 )
falls n ungerade
+ x( n2 +1)), falls n gerade,
dabei ist x(i) die ite Beobachtung des in aufsteigender Reihenfolge geordneten
Datensatzes. Der Median ist also der Wert, bei dem 50% der Beobachtungen
kleiner und 50% der Beobachtungen größer sind.
3
Der Modalwert
Der Wert, welcher am häufigsten auftritt ist der Modalwert (kann bei qualitativen
Merkmalen verwendet werden).
Streuungsmaße
Die Standardabweichung (standard deviation)
v
u
n
p
u 1 X
2
t
(xi − x̄) = V ar(x)
SD(x) :=
n − 1 i=1
Der Variationskoeffizient
V K(x) :=
SD(x)
x̄
4
Der Interquartilsabstand (interquartile range)
Differenz zwischen oberem und unterem Quartil (IQR(x)). Das untere Quartil
ist der Wert, bei dem 25% aller Datenpunkte kleiner sind, das obere Quartil ist
der Wert, bei dem 75% aller Datenpunkte kleiner sind.
x1, x2
...
x25, |x26,
.{z
..
IQR(x)
, x75}, x76
...
x99, x100
5
Häufigkeitstabellen
Erfolg
Therapie
Erfolg
ja
nein
Summe
A
20
10
30
B
40
10
50
Summe
60
20
80
Therapie
ja
nein
Summe
A
0.67
0.33
1
B
0.80
0.20
1
Absolute Häufigkeiten: Anzahlen, z.B. bei jeweils 10 Patienten hatte die Therapie keinen Erfolg.
Relative Häufigkeiten: Anzahlen bezogen auf eine Grundgesamtheit: bei 33%
(bzw. 20%) der Patienten hatte die Therapie A (bzw. B) keinen Erfolg.
6
Grafische Darstellungen
Ausreißer
50
3
Die Verteilung stetiger Variablen lässt sich mit Boxplots oder Histogrammen
darstellen:
35
0
Q75
Alter
40
1
45
2
<Q75 + 1.5*IQR
25
−2
30
−1
Q25
Ausreißer
20
−3
>Q25 − 1.5*IQR
Frauen
Männer
7
Grafische Darstellungen
0.00
0.02
0.04
Density
0.2
0.1
0.0
Density
0.06
0.3
0.08
0.4
Histogramm:
−3
−2
−1
0
1
2
3
0
5
10
15
20
25
8
Grafische Darstellungen
Diskrete oder qualitative Variablen lassen sich mit Kreis- oder Balkendiagrammen
darstellen:
A
B
C
9
10
Balken-/Stabdiagramme:
15
Männer
Frauen
10
5
A
B
C
0
0
0
2
5
4
10
6
8
15
Frauen
Männer
A
B
C
A
B
C
10
Korrelation
Zur Analyse des Zusammenhangs zweier Merkmale lassen sich verschiedene
Korrelationskoeffizienten angeben. Welcher berechnet werden kann, hängt unter
anderem vom Skalenniveau der Variablen ab. Außerdem sollte immer auch das
Streudiagramm betrachtet werden, um den Zusammenhang der Merkmale zu
beschreiben.
135
●
●
●
●
• quantitative Merkmale
130
●
●
●
125
●
120
●
●●
●
●
• linearer Zusammenhang
●
●
●
115
●●
●●
●
●
●
●
●
→ Pearson’s Korrelationskoeffizient
110
Variable 2
●
●
●
●
●
105
110
115
120
125
130
Variable 1
11
0.7
• qualitative Merkmale (ab Ordinalskala,
●
●
d.h. wenn eine natürliche Reihenfolge un-
0.4
ter den Werten besteht)
●
• monoton steigender oder fallender Zu-
●
0.3
Variable 2
0.5
0.6
●
●
0.2
●
●
●
●
● ●
●
●
●
●
●
0.1
sammenhang
●
●
●
●
●
●
●●
●
●
●
0.0
●
●
0.5
1.0
1.5
2.0
2.5
3.0
→ Spearman’s Korrelationskoeffizient
3.5
Variable 1
[Alternative: Kendall’s τ , empfehlenswert bei sehr kleinen Stichprobengrößen]
12
Statistische Tests
Übersicht
Anzahl und Art der
Quantitativ
Qualitativ bzw.
Stichproben
normalverteilt
Verteilung unbekannt
dichotom
Eine
Ein-St.
Ein-St.
Binomial-
Stichprobe
t-Test
Wilcoxon-Test
test
Zwei verbundene
t-Test für
Wilcoxon-
McNemar-
Stichproben
verbundene St.
Vorzeichen-Test
Test
Zwei unverbundene
t-Test für
U-Test von Mann,
χ2-Test
Stichproben
unverbundene St.
Whitney und
Exakter Test
Wilcoxon
von Fisher
13
Stichproben
Stichprobe: untersuchte Gruppe
• eine Stichprobe: interessierendes Merkmal (Zielgröße) soll mit einem theoretischen Wert verglichen werden
Beispiel: Entspricht die tatsächliche Kalorienzufuhr dem empfohlenen
Wert?
• zwei Stichproben: Zielgröße soll in zwei Gruppen verglichen werden
Beispiel: Unterscheidet sich Parameter x zwischen Therapiegruppe und Placebogruppe?
– verbunden/abhängig: in beiden Gruppen sind dieselben Untersuchungsobjekte
– unverbunden/unabhängig: nicht dieselben Objekte in den Gruppen
14
Merkmalsskala
• qualitativ: Werte des Merkmals lassen sich in Kategorien einordnen, die die
Qualität wiedergeben
Beispiele: Krankheitsstadium, Geschlecht, Score
• quantitativ: Werte des Merkmals geben eine Quantität (Ausmaß) an
Beispiele: Gewicht, Größe, Anzahl
15
Merkmalsverteilung
Überprüfung der Normalverteilungsannahme:
• Berechnen von Mittelwert, Median und Modus
z.B. Mittelwert > Median > Modus ⇒ rechtsschiefe Verteilung ⇒ nicht
normalverteilt!
2.0
1.5
Density
1.0
0.2
0.0
0.5
0.1
0.0
Density
0.3
2.5
0.4
• Histogramm erstellen mit eingezeichneter Normalverteilungskurve
−3
−2
−1
0
normalverteilte Variable
1
2
3
0.0
0.2
0.4
0.6
0.8
1.0
nicht−normalverteilte Variable
16
• Q-Q-Plot betrachten
Normal Q−Q Plot
1.0
Normal Q−Q Plot
●
●● ● ● ● ● ● ●
●●●
●●●●●
●
●●
●●
●●
●●
●
●
●
●
●
●●
●●
●
●
●
●
●
●●
●●
●●
●
●
●
●
0.8
2
●
●
●●
●
●●
●
●●
●
●
●●
●
●
●●
0.6
Sample Quantiles
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
0.4
0
●
●●
●●
●●
●●
●●
●●
●●
●
●●
●●
●●
●●●
●●●
●●
●●●●
●●●●●
●
●●
●●
●●●●
●●●●●
●
●●
●
●
●●●
●●●●
●●
●●
●●
●
●●
−1
Sample Quantiles
1
●
●
●●
●●●●
●
●●
−2
●
●●
●
●
0.2
●
●
● ●●
●
●
●
●
●●
0.0
●
● ●●●●
●
−2
−1
0
Theoretical Quantiles
1
2
●
●
●
−2
●●
● ● ●
−1
0
1
2
Theoretical Quantiles
Wichtig: für Zwei-Stichproben-Tests muss die Normalverteilungsannahme in beiden Gruppen separat überprüft werden!
17
Durchführung von Tests in SPSS
• standardmäßige Berechnung von zweiseitigen Tests
• χ2-Test
zu finden unter Analysieren → Deskriptive Statistiken → Kreuztabellen →
Statistiken
• Test auf Varianzgleichheit
– Annahme beim t-Test für zwei unverbundene Stichproben: Varianz ist in
beiden Gruppen gleich
2
2
– SPSS testet automatisch (H0 : σA
= σB
)
18
19
Regression
Die Regressionsanalyse wird verwendet, um den Zusammenhang zwischen einer
abhängigen Variable (Zielgröße) und einer oder mehreren unabhängigen Variablen
(Einflussgrößen) zu beschreiben. Im Gegensatz zur Korrelationsanalyse soll ein
gerichteter Ursache → Wirkung - Zusammenhang untersucht werden.
Allgemeine Formel:
y = β0 + x1β1 + x2β2 + ... + 20
Komponenten des Regressionsmodells
x1, x2, ...: Einflussgrößen (metrisch oder kategorial)
y: Zielgröße:
• metrisch (und approximativ normalverteilt) → klassisches lineares Regressionsmodell
• binär → logistisches Regressionsmodell
• . . . viele weitere Varianten möglich
21
Lineare Regression in SPSS
• Wichtig vor der Berechnung: Messniveau der Variablen in SPSS überprüfen!
• Berechnung über Analysieren → Allgemeines lineares Modell → Univariat
– Abhängige Variable ist y
– Feste Faktoren sind kategoriale xi
– Kovariaten sind metrische xi
22
• Koeffizientenschätzer βi werden von SPSS nicht automatisch ausgegeben!
• Einstellung unter Optionen
• bei kategorialen Einflussgrößen: standardmäßige Verwendung der letzten Kategorie als Referenzkategorie
23
Logistische Regression in SPSS
• Berechnung über Analysieren → Verallgemeinerte lineare Modelle
– Spezifikation der Modellgleichung unter Modell nötig
– Interpretation
tenschätzer
der
Koeffizien-
beim
logistischen
Regressionsmodell: exp(βi) = ORi
– ⇒ exp(βi) kann zusätzlich ausgegeben werden (unter Statistiken
auswählbar)
24
Herunterladen