Deskription, Statistische Testverfahren und Regression Seminar: Planung und Auswertung klinischer und experimenteller Studien Deskriptive Statistik • Deskriptive Statistik: beschreibende Statistik, empirische Statistik • Daten, die man erhoben hat sollten in einem ersten Schritt immer deskriptiv beschrieben werden • Daten werden in geeigneter Weise beschrieben und zusammengefasst mit Hilfe von Häufigkeitstabellen, grafischen Darstellungen und Maßzahlen 1 Maßzahlen Die Entscheidung, welche Maßzahlen bestimmt werden, hängt vom Skalenniveau der Variablen ab. • Quantitative (stetig und diskret) Merkmale: – Lagemaße: Mittelwert, Median, Modalwert – Streuungsmaße: Varianz, Standardabweichung, Spannweite, Variationskoeffizient • Qualitative Merkmale: – relative Häufigkeiten, absolute Häufigkeiten – Modalwert 2 Lagemaße Seien x1, . . . , xn die Messpunkte eines Datensatzes (z.B. Körpergewicht von Patienten), dann werden die Lagemaße wie folgt berechnet: Pn 1 Das arithmetische Mittel: x̄ := n i=1 xi Der Median ( m(x) := x( n+1 ), 2 1 n 2 (x( 2 ) falls n ungerade + x( n2 +1)), falls n gerade, dabei ist x(i) die ite Beobachtung des in aufsteigender Reihenfolge geordneten Datensatzes. Der Median ist also der Wert, bei dem 50% der Beobachtungen kleiner und 50% der Beobachtungen größer sind. 3 Der Modalwert Der Wert, welcher am häufigsten auftritt ist der Modalwert (kann bei qualitativen Merkmalen verwendet werden). Streuungsmaße Die Standardabweichung (standard deviation) v u n p u 1 X 2 t (xi − x̄) = V ar(x) SD(x) := n − 1 i=1 Der Variationskoeffizient V K(x) := SD(x) x̄ 4 Der Interquartilsabstand (interquartile range) Differenz zwischen oberem und unterem Quartil (IQR(x)). Das untere Quartil ist der Wert, bei dem 25% aller Datenpunkte kleiner sind, das obere Quartil ist der Wert, bei dem 75% aller Datenpunkte kleiner sind. x1, x2 ... x25, |x26, .{z .. IQR(x) , x75}, x76 ... x99, x100 5 Häufigkeitstabellen Erfolg Therapie Erfolg ja nein Summe A 20 10 30 B 40 10 50 Summe 60 20 80 Therapie ja nein Summe A 0.67 0.33 1 B 0.80 0.20 1 Absolute Häufigkeiten: Anzahlen, z.B. bei jeweils 10 Patienten hatte die Therapie keinen Erfolg. Relative Häufigkeiten: Anzahlen bezogen auf eine Grundgesamtheit: bei 33% (bzw. 20%) der Patienten hatte die Therapie A (bzw. B) keinen Erfolg. 6 Grafische Darstellungen Ausreißer 50 3 Die Verteilung stetiger Variablen lässt sich mit Boxplots oder Histogrammen darstellen: 35 0 Q75 Alter 40 1 45 2 <Q75 + 1.5*IQR 25 −2 30 −1 Q25 Ausreißer 20 −3 >Q25 − 1.5*IQR Frauen Männer 7 Grafische Darstellungen 0.00 0.02 0.04 Density 0.2 0.1 0.0 Density 0.06 0.3 0.08 0.4 Histogramm: −3 −2 −1 0 1 2 3 0 5 10 15 20 25 8 Grafische Darstellungen Diskrete oder qualitative Variablen lassen sich mit Kreis- oder Balkendiagrammen darstellen: A B C 9 10 Balken-/Stabdiagramme: 15 Männer Frauen 10 5 A B C 0 0 0 2 5 4 10 6 8 15 Frauen Männer A B C A B C 10 Korrelation Zur Analyse des Zusammenhangs zweier Merkmale lassen sich verschiedene Korrelationskoeffizienten angeben. Welcher berechnet werden kann, hängt unter anderem vom Skalenniveau der Variablen ab. Außerdem sollte immer auch das Streudiagramm betrachtet werden, um den Zusammenhang der Merkmale zu beschreiben. 135 ● ● ● ● • quantitative Merkmale 130 ● ● ● 125 ● 120 ● ●● ● ● • linearer Zusammenhang ● ● ● 115 ●● ●● ● ● ● ● ● → Pearson’s Korrelationskoeffizient 110 Variable 2 ● ● ● ● ● 105 110 115 120 125 130 Variable 1 11 0.7 • qualitative Merkmale (ab Ordinalskala, ● ● d.h. wenn eine natürliche Reihenfolge un- 0.4 ter den Werten besteht) ● • monoton steigender oder fallender Zu- ● 0.3 Variable 2 0.5 0.6 ● ● 0.2 ● ● ● ● ● ● ● ● ● ● ● 0.1 sammenhang ● ● ● ● ● ● ●● ● ● ● 0.0 ● ● 0.5 1.0 1.5 2.0 2.5 3.0 → Spearman’s Korrelationskoeffizient 3.5 Variable 1 [Alternative: Kendall’s τ , empfehlenswert bei sehr kleinen Stichprobengrößen] 12 Statistische Tests Übersicht Anzahl und Art der Quantitativ Qualitativ bzw. Stichproben normalverteilt Verteilung unbekannt dichotom Eine Ein-St. Ein-St. Binomial- Stichprobe t-Test Wilcoxon-Test test Zwei verbundene t-Test für Wilcoxon- McNemar- Stichproben verbundene St. Vorzeichen-Test Test Zwei unverbundene t-Test für U-Test von Mann, χ2-Test Stichproben unverbundene St. Whitney und Exakter Test Wilcoxon von Fisher 13 Stichproben Stichprobe: untersuchte Gruppe • eine Stichprobe: interessierendes Merkmal (Zielgröße) soll mit einem theoretischen Wert verglichen werden Beispiel: Entspricht die tatsächliche Kalorienzufuhr dem empfohlenen Wert? • zwei Stichproben: Zielgröße soll in zwei Gruppen verglichen werden Beispiel: Unterscheidet sich Parameter x zwischen Therapiegruppe und Placebogruppe? – verbunden/abhängig: in beiden Gruppen sind dieselben Untersuchungsobjekte – unverbunden/unabhängig: nicht dieselben Objekte in den Gruppen 14 Merkmalsskala • qualitativ: Werte des Merkmals lassen sich in Kategorien einordnen, die die Qualität wiedergeben Beispiele: Krankheitsstadium, Geschlecht, Score • quantitativ: Werte des Merkmals geben eine Quantität (Ausmaß) an Beispiele: Gewicht, Größe, Anzahl 15 Merkmalsverteilung Überprüfung der Normalverteilungsannahme: • Berechnen von Mittelwert, Median und Modus z.B. Mittelwert > Median > Modus ⇒ rechtsschiefe Verteilung ⇒ nicht normalverteilt! 2.0 1.5 Density 1.0 0.2 0.0 0.5 0.1 0.0 Density 0.3 2.5 0.4 • Histogramm erstellen mit eingezeichneter Normalverteilungskurve −3 −2 −1 0 normalverteilte Variable 1 2 3 0.0 0.2 0.4 0.6 0.8 1.0 nicht−normalverteilte Variable 16 • Q-Q-Plot betrachten Normal Q−Q Plot 1.0 Normal Q−Q Plot ● ●● ● ● ● ● ● ● ●●● ●●●●● ● ●● ●● ●● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ●● ●● ●● ● ● ● ● 0.8 2 ● ● ●● ● ●● ● ●● ● ● ●● ● ● ●● 0.6 Sample Quantiles ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● 0.4 0 ● ●● ●● ●● ●● ●● ●● ●● ● ●● ●● ●● ●●● ●●● ●● ●●●● ●●●●● ● ●● ●● ●●●● ●●●●● ● ●● ● ● ●●● ●●●● ●● ●● ●● ● ●● −1 Sample Quantiles 1 ● ● ●● ●●●● ● ●● −2 ● ●● ● ● 0.2 ● ● ● ●● ● ● ● ● ●● 0.0 ● ● ●●●● ● −2 −1 0 Theoretical Quantiles 1 2 ● ● ● −2 ●● ● ● ● −1 0 1 2 Theoretical Quantiles Wichtig: für Zwei-Stichproben-Tests muss die Normalverteilungsannahme in beiden Gruppen separat überprüft werden! 17 Durchführung von Tests in SPSS • standardmäßige Berechnung von zweiseitigen Tests • χ2-Test zu finden unter Analysieren → Deskriptive Statistiken → Kreuztabellen → Statistiken • Test auf Varianzgleichheit – Annahme beim t-Test für zwei unverbundene Stichproben: Varianz ist in beiden Gruppen gleich 2 2 – SPSS testet automatisch (H0 : σA = σB ) 18 19 Regression Die Regressionsanalyse wird verwendet, um den Zusammenhang zwischen einer abhängigen Variable (Zielgröße) und einer oder mehreren unabhängigen Variablen (Einflussgrößen) zu beschreiben. Im Gegensatz zur Korrelationsanalyse soll ein gerichteter Ursache → Wirkung - Zusammenhang untersucht werden. Allgemeine Formel: y = β0 + x1β1 + x2β2 + ... + 20 Komponenten des Regressionsmodells x1, x2, ...: Einflussgrößen (metrisch oder kategorial) y: Zielgröße: • metrisch (und approximativ normalverteilt) → klassisches lineares Regressionsmodell • binär → logistisches Regressionsmodell • . . . viele weitere Varianten möglich 21 Lineare Regression in SPSS • Wichtig vor der Berechnung: Messniveau der Variablen in SPSS überprüfen! • Berechnung über Analysieren → Allgemeines lineares Modell → Univariat – Abhängige Variable ist y – Feste Faktoren sind kategoriale xi – Kovariaten sind metrische xi 22 • Koeffizientenschätzer βi werden von SPSS nicht automatisch ausgegeben! • Einstellung unter Optionen • bei kategorialen Einflussgrößen: standardmäßige Verwendung der letzten Kategorie als Referenzkategorie 23 Logistische Regression in SPSS • Berechnung über Analysieren → Verallgemeinerte lineare Modelle – Spezifikation der Modellgleichung unter Modell nötig – Interpretation tenschätzer der Koeffizien- beim logistischen Regressionsmodell: exp(βi) = ORi – ⇒ exp(βi) kann zusätzlich ausgegeben werden (unter Statistiken auswählbar) 24