Biometrisches Tutorial Grundlagen zur Anwendung statistischer Methoden in klinischen Projekten: Planung - von Beobachtungen zu Daten Testverfahren - P-Wert oder Signifikanz - univariate Testverfahren (Übersicht) - Analyse von Zusammenhängen Auswertung - Hinweise zu Statistikprogrammen Dipl. Inform. J. Hedderich Studienansatz Explorative Studie • gibt Hinweise auf Hypothesen (Pilot-Studien). • entdeckt neue Hypothesen (Modellbildung). • verwendet konfirmatorische Methoden nur deskriptiv, d.h. ohne inferentielle Interpretation einer Signifikanz. • zeigt statistisch auffällige Ergebnisse an (P-Werte). Konfirmatorische Studie • soll eine spezifische Frage (Hypothese) klar und eindeutig beantworten, z.B. in Phase III Studien. • sichert a priori formulierte Hypothesen unter Einhaltung eines Signifikanzniveaus α ab. • muss unter Umständen einen multiplen α-Fehler kontrollieren. • zeigt statistisch signifikante Ergebnisse an. Dipl. Inform. J. Hedderich Statistik für Handball-Fans Nikola Karabatic THW Mannschaft 2006/2007 Dipl. Inform. J. Hedderich Statistik für Handball-Fans Dipl. Inform. J. Hedderich Population und Stichprobe wiederholbare Beobachtungen Population Stichprobe Auswahl Beobachtung Dipl. Inform. J. Hedderich Erkenntniss-Gewinn 1. Fragestellung / Zielsetzung Population 2. Stichprobengewinnung 5. Folgerungen Rückschlüsse Parameter Stichprobe 3. Beobachtungen Messungen 4. Statistischer Test Konfidenzintervall Statistik Dipl. Inform. J. Hedderich Parameter θ Parameter / Schätzung Beobachtungen x1,...,xn Schätzer ) θ( x1 ,..., x n ) π 0,0,1,1,0,1,... π = k /n ˆ μ 1.23,4.81,7.55,... μ ˆ=x Wahrscheinlichkeit Erwartungswert σ2 Varianz 12.4,19.6,20.4,... Anteil Stichprobenmittel 2 σ ˆ =s 2 Stichprobenvarianz Dipl. Inform. J. Hedderich Konfidenzintervall Unsicherheit bei einer Schätzung Umfrage unter 1000 Besuchern: - Wer wird das Spiel gewinnen? - Sind Sie sicher, dass 82% aller Besucher diese Einschätzung teilen? Î THW: 820 Der wahre Wert, - den man bei der Untersuchung aller Fälle erhält, - ist für die Population nicht bekannt. Der wahre Wert liegt vermutlich zwischen 79% und 85% (95%-KI). Konfidenzintervall Dipl. Inform. J. Hedderich Das 95% Konfidenzintervall markiert ein Intervall, das den wahren Anteil mit Wahrscheinlichkeit 0.95 enthalten wird. (in 95% aller unabhängigen Wiederholungen des Experiments) für einen Anteil: π p̂ ± 1 . 96 p̂ (1 − p̂ ) n (unbekannt) Konfidenzintervall Dipl. Inform. J. Hedderich Von 83 operierten Patienten versterben 15 postoperativ (innerhalb von 30 Tagen): p̂ = 15 = 0 . 18 83 ⎡ p̂ ⋅ (1 − p̂ ) ⎤ ⎥ ⎢p̂ ± 1.96 ⋅ n ⎥⎦ ⎢⎣ P(0.098 ≤ π ≤ 0.264 ) = 0.95 Konfidenzintervall Dipl. Inform. J. Hedderich Das 95% Konfidenzintervall markiert ein Intervall, das den wahren Anteil mit Wahrscheinlichkeit 0.95 enthalten wird. (in 95% aller unabhängigen Wiederholungen des Experiments) für einen Erwartungswert: μ x ± 1.96 ⋅ σ n (unbekannt) Konfidenzintervall Dipl. Inform. J. Hedderich Welche Erwartung besteht hinsichtlich der mittleren Dauer einer Schwangerschaft? Die Dauer einer Schwangerschaft ist eine normalverteilte Zufallsvariable mit σ = 20 Tage! 1 n n = 20 Schwangerschaften: x = ∑ x i = 260 Tage n i =1 x ± 1 . 96 σ n P(251.3 ≤ μ ≤ 268.7) = 0.95 Dipl. Inform. J. Hedderich Verteilungsformen Dipl. Inform. J. Hedderich Normalverteilung N(91.1mg/dl, 7.7mg/dl) N(90mg/dl, 10mg/dl) Dipl. Inform. J. Hedderich Kolmogoroff-Smirnoff Test x < x1 ⎧ 0 ⎪ Stichprobe : x i → Fn (x ) = ⎨i n x i ≤ x < x i+1 ⎪ 1 xn ≤ n ⎩ Einige Konfidenzintervalle Dipl. Inform. J. Hedderich Gesamtheit σ ist bekannt Normalverteilung σ ist unbekannt Normalverteilung Parameter μ Erwartungswert μ Erwartungswert Stichprobe n <30 σ ist unbekannt Stichprobe n≥ 30 Binomial-Verteilung μ Erwartungswert x ± zα / 2σ / n x ± t α / 2s / n x ± zα / 2s / n π Anteil Normalverteilung 100(1-α)% Konfidenzinterval σ2 Varianz p̂ ± z α / 2 p̂(1 − p̂) n ⎛ (n − 1)s 2 (n − 1)s 2 ⎞ ⎜ ⎟ , 2 ⎜ χ2 χ1 − α / 2 ⎟⎠ α /2 ⎝ Dipl. Inform. J. Hedderich Konfidenzintervall Hinweise: Halbieren des Intervalls durch vervierfachen des Stichprobenumfangs bei festem Konfidenzniveau. Ein 99%-Konfidenzintervall ist etwa um das 1.3-fache breiter als ein entsprechendes 95%-Intervall bei gleicher Fallzahl. Ein 90%-Konfidenzintervall ist ca. um das 0.8-fache schmaler als ein entsprechendes 95%-Intervall bei gleicher Fallzahl. Dipl. Inform. J. Hedderich Vermutungen Eine bislang unwiderlegte Aussage wird, mit dem Verdacht versehen, dass sie wahr sei, zu einer Vermutung (Null-Hypothese). Diese soll anhand der Beobachtung(en) widerlegt werden (Alternativ-Hypothese). Dipl. Inform. J. Hedderich Null-Hypothesen Eine typische Nullhypothese ist ‘‘... es besteht kein Unterschied zwischen…“ ‘‘… ist unabhängig von...‘‘ Die Nullhypothese behauptet stets das Gegenteil vom dem, was der Untersucher erwartet bzw. beweisen will. Die Entscheidung besteht in der Beibehaltung oder der Ablehnung der Nullhypothese zugunsten der Alternative. Kann die Nullhypothese nicht abgelehnt werden, dann bedeutet dies nicht, dass sie wahr ist. Es liegt unter Umständen lediglich nicht genügend Evidenz gegen die Nullhypothese vor. Beispiel: Es gibt keinen (statistisch signifikanten) Unterschied hinsichtlich des Implantaterfolges zwischen weiblichen und männlichen Patienten. Dipl. Inform. J. Hedderich Komplikationen Annahme: Die Komplikationsrate bei einem speziellen Eingriff ist nicht höher als 4%! H A : π > π 0 = 0 .04 Behauptung: Sie ist größer als 4%! H 0 : π ≤ π 0 = 0 .04 Beobachtung: Unter 20 Behandlungen treten 3 Komplikationen auf ? 3 π= = 0 .15 → π ˆ 20 P(X ≥ 3 | H0 : π = 0.04) = 0.04386 (Binomialtest) Dipl. Inform. J. Hedderich Erfolge Annahme: Die Erfolgsrate bei einem speziellen Eingriff ist nicht niedriger als 90% ! Behauptung: Sie liegt unter 90% ! HA : π < π0 = 0.90 H0 : π ≥ π0 = 0.90 Beobachtung: Unter 400 Behandlungen werden 344 erfolgreiche Therapien beobachtet? 344 π= = 0.86 → π ˆ 400 P( X ≤ 344 | H0 : π = 0.90) = 0.006637 (Binomialtest) Dipl. Inform. J. Hedderich P-Wert und Evidenz P-Wert 1.0 schwache Evidenz gegen die Annahme 0.1 0.01 wachsende der Evidenz gegen die Annahme bei Abnahme des p-Wertes 0.001 strenge Evidenz gegen die Annahme 0.0001 Dipl. Inform. J. Hedderich P-Wert nach A. Fisher Kleinste Fehlerwahrscheinlichkeit, für die anhand vorliegender Beobachtungen die Nullhypothese abgelehnt werden kann. P > 0.10 H0 wird beibehalten P ≤ 0.05 H0 wird abgelehnt P ≤ 0.01 H0 wird deutlich abgelehnt R.A. Fisher, 1890-1962 Dipl. Inform. J. Hedderich p-values Mis/interpretation of P < 0.05 (positive effect): • The effect is (probably) big. • There's a < 5% chance the effect is zero. • There's a < 2.5% chance the effect is < zero. • There's a high chance the effect is > zero. • The effect is publishable. Mis/interpretation of P > 0.05 (positive effect): • The effect is not publishable. • There is no effect. • The effect is probably zero or trivial. Dipl. Inform. J. Hedderich In dubio - pro reo Wie lässt sich mit Recht (?) etwas entscheiden, was mit einer gewissen Wahrscheinlichkeit falsch sein kann? Angeklagter Entscheidung (Gericht) unschuldig schuldig nicht schuldig richtig falsch schuldig falsch richtig Signifikanz Dipl. Inform. J. Hedderich oder Fehler Wie lässt sich zurecht etwas behaupten, was mit einer gewissen Wahrscheinlichkeit auch falsch sein kann? Testentscheidung H0 ist richtig H0 ist falsch H0 1−α β HA α Signifikanzniveau 1−β Teststärke Power Dipl. Inform. J. Hedderich Was ist die Wahrheit? Egon Pearson (1895-1980) Jerzy Neyman (1894-1981) No test based upon the theory of probability can by itself provide any valuable evidence of the truth or falsehood of a hypothesis. Neyman J, Pearson E (1933) Phil Trans R Soc A, 231:289-337 Dipl. Inform. J. Hedderich Statistischer Test - Praxis Ein statistischer Test ist eine Vorschrift, nach der ein Bereich (Intervall) der Teststatistik bestimmt wird, für den die Nullhypothese mit vorher festgelegter Irrtumswahrscheinlichkeit abgelehnt werden kann. Dieser wird Ablehnungsbereich genannt. Eine Zufallsvariable T, berechnet aus den Daten (Beobachtungen) einer Zufallsstichprobe, deren Wert für die Testentscheidung verwendet wird, wird TestStatistik genannt. Dipl. Inform. J. Hedderich Geamtheit σ ist bekannt einige einfache Teststatistiken Null Hypothese Normalverteilung Hypothese 1. μ >μ0 μ= μ0 Normalverteilung σ ist unbekannt Alternativ μ= μ0 2. μ< μ0 σ/ n 1. μ >μ0 X − μ0 2. μ< μ0 3. μ≠ μ0 σ ist unbekannt 1. μ >μ0 Normalverteilung Stichprobe n≥ 30 Binomialverteilung π= π0 X − μ0 3. μ≠ μ0 Stichprobe n <30 μ= μ0 Test Statistik (T) s/ n 2. μ< μ0 X − μ0 3. μ≠ μ0 s/ n 1. π >π0 p̂ − p 0 2. π < π0 3. π≠ π0 p0 (1 − p 0 ) n Regel: Verwerfe H0 wenn T 1. > zα 2. <- zα 3. < -zα/2 or > zα/2 1. > tα 2. <-tα 3. < -tα/2 or > tα/2 1. > zα 2. <- zα 3. < -zα/2 or > zα 1. > zα 2. <- zα 3. < -zα/2 or > zα/2 Ist der diastolische Blutdruck bei Patienten nach Herzinfarkt erhöht? Dipl. Inform. J. Hedderich Bei n=10 Patienten nach Herzinfarkt wurde ein mittlerer diastolischer Blutdruck von 86.88 mmHg beobachtet. HA : μ > μ0 = 80 mmHg H0 : μ ≤ μ0 = 80 mmHg Stichprobe : n = 10 x = 86.88 T = x -μ 0 ⋅ s s = 9.46 n = 2 . 3 > t n − 1 ,1 − α = 1 . 833 Dipl. Inform. J. Hedderich klinische Relevanz / Signifikanz Die klinische Relevanz eines Effekts oder Risikos ist grundsätzlich nicht am P-Wert ablesbar. Die statistische Signifikanz ist eine Wahrscheinlichkeitsaussage, in die neben der Stärke eines möglichen Effekts auch die Variabilität der Daten und die Höhe des Stichprobenumfangs eingeht. Dipl. Inform. J. Hedderich Signifikanzniveau Die Konvention, von einem statistisch signifikanten Resultat zu sprechen, falls P < 0.05 gilt, macht in vielen Fällen durchaus Sinn. Je nach Fragestellung und Aussage kann es jedoch erforderlich sein, einen möglicherweise kleinere P-Wert zu fordern. Umgekehrt gibt es Situationen, in denen man auch mit einem höheren Signifikanzniveau arbeiten kann. Dipl. Inform. J. Hedderich statistische Hypothesen (Alternativen - einseitig oder zweiseitig) Traditionell ist von einer zweiseitigen Hypothesenstellung auszugehen. Ausnahmen hiervon bilden z.B. Aäquivalenzstudien (Nicht-Unterlegenheit). Die Formulierung einseitiger Hypothesen ist grundsätzlich möglich, bedarf jedoch einer genauen Begründung (Annahmen, Vorwissen) statistische Hypothesen Dipl. Inform. J. Hedderich (Alternativen - einseitig oder zweiseitig) E ff ek t Ziel Annahme / Modell HA ungleich (≠) H0 gleich (=) größer (>) höchstens (≤) kleiner (<) mindestens (≥) zweiseitig einseitig 6 Fragen zur Methodenwahl Dipl. Inform. J. Hedderich Daten Teststatistik statistischer Test I. II. III. IV. V. VI. Entscheidung ! Prüfverteilung Fragestellung: Konzept / Studienplan? Einseitige / zweiseitige Hypothesenstellung ? Unabhängige / verbundene Beobachtungen ? Wie viele (Zufalls-) Stichproben ? Welches Skalenniveau ? Liegt eine Normalverteilung vor ? Dipl. Inform. J. Hedderich Einstichproben-Tests Verteilung Häufigkeiten KolmogoroffSmirnoff-Test Binomial-Test χ2 - Test parametrisch nichtparametrisch t-test Wilcoxon Vorzeichenrangtest Dipl. Inform. J. Hedderich Eine neue Therapie für Schlaflosigkeit? t-Test Verum Plazebo Differenz 6.0 6.9 8.7 6.9 9.4 5.9 6.7 5.6 3.9 8.8 5.4 6.5 10.1 7.7 4.9 6.0 6.0 9.0 5.3 7.3 7.0 7.1 4.2 4.4 7.9 6.0 5.8 9.5 6.9 4.2 0.0 0.9 -0.3 1.6 2.1 -1.1 -0.4 1.4 -0.5 0.9 -0.6 0.7 0.6 0.8 0.7 in Stunden Ein neues Schlafmittel wird an n=15 Freiwilligen ausprobiert. H0: μd=0 d = 0.453 HA: μd≠0 s d = 0.907 d T = ⋅ n = 1.934 sd t < t 0.975 ,14 = 2.145 P-Wert = 0.07336 Dipl. Inform. J. Hedderich Eine neue Therapie für Schlaflosigkeit? Wilcoxon-Vorzeichen-Rangtest d Rang (|d|) 0.0 0.9 -0.3 1.6 2.1 -1.1 -0.4 1.4 -0.5 0.9 -0.6 0.7 0.6 0.8 0.7 9.5 1 13 14 11 2 12 3 9.5 4.5 6.5 4.5 8 6.5 ~ H0 : X ≤ 0 ~ HA : X > 0 ∑ R (neg) = 1 + 11 + 2 + 3 + 4.5 = 21.5 ∑ R (pos) = 9.5 + 13 + ... + 8 + 6.5 = 83.5 V = 83 .5 > V0.975 ,14 = 83 V = 83 .5 > V0.950 ,14 = 79 Vergleich mehrerer Stichproben Dipl. Inform. J. Hedderich Parametrische Testverfahren Studien-Design interindividuell 2 Gruppen t-test intraindividuell >2 Gruppen 2 Messungen >2 Messungen Varianzanalyse (ANOVA) t-test (paarweise) Messwiederholungen (ANOVA) Nicht-parametrische Testverf. Dipl. Inform. J. Hedderich Studien-Design interindividuell 2 Gruppen Wilcoxon Rangsummen -Test intraindividuell >2 Gruppen 2 Messungen KruskalWallis Test Wilcoxon VorzeichenRangtest >2 Messungen Friedman Test HDL und sportliche Aktivität Dipl. Inform. J. Hedderich aktiv na=10 nicht aktiv nb=10 42.9 50.2 51.4 59.8 47.2 39.3 38.4 83.5 80.2 60.1 45.3 31.3 40.6 56.0 45.6 72.5 65.3 36.7 58.5 38.4 Beeinflusst regelmäßige sportliche Aktivität den Serum-HDL-Spiegel? H0: μa=μb x = 55.30 a x = 49.02 b HA: μa≠μb s = 15.85 a s = 13.46 b s = 14.68 pooled T = 0.955 < t 0.975 ,18 = 2.101 p-Wert: 0.3522 HDL und sportliche Aktivität Dipl. Inform. J. Hedderich nicht aktiv 45.3 31.3 40.6 56.0 45.6 72.5 65.3 36.7 58.5 38.4 56.0 Ri aktiv Ra 8.0 1.0 6.0 13.0 9.0 18.0 17.0 2.0 14.0 3.5 42.9 50.2 51.4 59.8 47.2 39.3 38.4 83.5 80.2 60.1 7.0 11.0 12.0 15.0 10.0 5.0 3.5 20.0 19.0 16.0 56.0 ∑ R (nicht aktiv) = 91.5 ∑ R (aktiv) = 118.5 R = 118 .5 < W0.975 ,10 ,10 = 76 R = 91 .5 > W0.025 ,10 ,10 = 24 P-Wert = 0.3246 Dipl. Inform. J. Hedderich log(HBDH) INDEX Infarkt (t-Test mit SPSS) 40 Mittelwert 5,7661 Standardab weichung ,4537 40 4,6698 ,4228 N Kontrolle Levene-Test der Varianzgleichheit F Varianzen sind gleich Varianzen sind nicht gleich Signifikanz ,227 ,635 T-Test für die Mittelwertgleichheit T df Sig. (2-seitig) 11,180 78 ,000 11,180 77,617 ,000 Bracket-Haftung Dipl. Inform. J. Hedderich (ANOVA in SPSS) HAFTUNG Test der Homogenität der Varianzena N HAFTUNG Levene-Statistik df1 1,289 df2 3 Mittelwert Standardab weichung 12 15 20,53 6,38 Signifikanz 15 15 22,80 6,07 ,287 23 15 29,47 9,01 26 15 21,20 5,76 Gesamt 60 23,50 7,64 56 a. ZEMENT = Aqua Meron ANOVAa HAFTUNG Quadratsumme Mittel der Quadrate df Zwischen den Gruppen 752,733 3 250,911 Innerhalb der Gruppen 2688,267 56 48,005 Gesamt 3441,000 59 a. ZEMENT = Aqua Meron F 5,227 Signifikanz ,003 Haftung Aqua Meron 50 40 30 20 10 0 12 15 23 Temperatur 26 Problem der Multiplizität Dipl. Inform. J. Hedderich Veränderung der Irrtumswahrscheinlichkeit bei multiplem Vergleich, z.B. von Mittelwerten mit dem t-Test: Gruppen k=2 k=3 k=4 k=5 k=6 k=10 Vergleiche 1 3 6 10 15 45 0.01 0.03 0.06 0.10 0.14 0.36 0.05 0.14 0.26 0.40 0.54 0.90 Niveau α Häufigkeiten Dipl. Inform. J. Hedderich Studien-Design interindividuell intraindividuell 2 Gruppen >2 Gruppen 2 Messungen >2 Messungen χ2 – Test χ2 – Test McNemar Test SymmetrieTest Dipl. Inform. J. Hedderich Pneumonie nach Hüftbruch In einer Studie an 800 Patienten, die einen Hüftbruch erlitten hatten, entwickelten 10% der Männer (40/400) eine Pneumonie, verglichen mit 5% der Frauen (20/400). Hängt die Disposition zur Pneumonie vom Geschlecht ab? Geschlecht Pneumonie gesamt ja nein männlich 40 360 400 weiblich 20 380 400 gesamt 60 740 800 Dipl. Inform. J. Hedderich Pneumonie nach Hüftbruch In einer Studie an 800 Patienten, die einen Hüftbruch erlitten hatten, entwickelten 10% der Männer (40/400) eine Pneumonie, verglichen mit 5% der Frauen (20/400). Hängt die Disposition zur Pneumonie vom Geschlecht ab? Pneumonie Geschlecht gesamt erwartet unter H0 ja nein männlich 40 360 400 30 370 weiblich 20 380 400 30 370 gesamt 60 740 800 χ2 = ∑i =1 ∑ j =1 n m (oij − eij )2 eij = 7.207 > χ1,0.950 = 3.841 Therapie der Endometriose Dipl. Inform. J. Hedderich Therapieerfolg bei der Behandlung der Endometriose (Grad I). (+) (-) Summe chirurgisch 49 20 69 hormonell 10 40 50 Summe 59 60 119 H0: π1 = π2 χ ˆ2 = 30.18 > χ1,0.95 = 3.84 π1 Effektstärke (Odds-Ratio): OR = π2 (1 − π ) ≈ 1 (1 − π ) 49 ⋅ 40 = 9 .8 10 ⋅ 20 2 Die Chance eines Erfolges ist bei der chirurgischen Therapie um das 9.8fache größer als bei hormoneller Therapie (95% VB: [4.1, 23.3]). Dipl. Inform. J. Hedderich Assoziationen Dipl. Inform. J. Hedderich Kausalität "Wissenschaftliches Arbeiten bleibt immer unvollständig - egal ob observational oder experimentell. Jede wissenschaftliche Arbeit läuft Gefahr, durch fortschreitendes Wissen überholt oder überflüssig zu werden. Dies erlaubt es uns aber nicht, derzeitiges Wissen zu ignorieren oder Maßnahmen, die heute ergriffen werden müssen, in die Zukunft zu verschieben." Austin Bradford Hill, “The Environment and Disease: Association or Causation?,” Proceedings of the Royal Society of Medicine, 58 (1965), 295-300. Sir Austin Bradford Hill (1897-1991) Dipl. Inform. J. Hedderich Kausalität-Kriterien Zeitliche Beziehung: Ursache geht Wirkung voran Stärke: starker Zusammenhang – wahrscheinliche Kausalität Dosis-Wirkung: stärkere Exposition erhöht Wirkung (Risiko) Wiederholbarkeit: bei unterschiedlichen Methoden / Umständen Plausibilität: mit derzeitigem Wissen erklärbar Alternativen: Erwägen und verwerfen alternativer Erklärungen Experiment: Wirkung experimentell steuerbar Spezifität: eine einzelne Ursache für die untersuchte Wirkung Kohärenz: vereinbar mit vorliegenden Fakten und Theorien Ursache-Wirkungs-Modell Dipl. Inform. J. Hedderich Variable VariableXX Variable VariableYY Variable VariableXX11 Variable VariableYY Variable VariableXX22 Variable VariableXX Variable VariableXX33 Variable VariableZZ Variable VariableYY Dipl. Inform. J. Hedderich Confounding Störgröße Nikotinkonsum Korrelation Ursache und Confounding Zielgröße Blutdruck Ursache Einflussgröße Koffeinkonsum Störgröße Körpergewicht Miss America 1984 - 2002 Dipl. Inform. J. Hedderich Größe 63” 68” 69” 68” 70” 63” 68” 66” 71” 69” 64” 63” Gewicht 100 120 114 116 131 108 118 110 145 133 118 110 lbs lbs lbs lbs lbs lbs lbs lbs lbs lbs lbs lbs x = 66.8 ” y = 118.6 lbs Dipl. Inform. J. Hedderich Miss America 1984 - 2002 Miss America 1984 - 2002 Dipl. Inform. J. Hedderich 63” 68” 69” 68” 70” 63” 68” 66” 71” 69” 64” 63” 100 120 114 116 131 ∑ n i =1 lbs lbs lbs lbs lbs (x i − x) ⋅ (y i − y) ∑ i =1 b= n 2 ( x − x ) ∑ i =1 i n a = y −b⋅x ( x i − x ) ⋅ ( y i − y ) = 322 .16 2 ( x − x ) = 93 .68 ∑i=1 i n b = 3.44 a = −111 .29 Dipl. Inform. J. Hedderich lineare Regression Die Regressionsgerade geht durch den Schwerpunkt der Punktwolke ( x, y ). Steigung (b): Wenn X um eine Einheit wächst, dann wächst oder fällt Y im Mittel um b Einheiten. Die Extrapolation über den Wertebereich von X und Y hinaus ist in der Regel nicht zulässig. Die grafische Darstellung (Punktwolke) ist zur Kontrolle und Interpretation notwendig. Die Regression von X auf Y erfolgt analog, führt aber zu anderen Ergebnissen. Dipl. Inform. J. Hedderich Miss America 1984 - 2002 Y = a + b⋅x + E Weight = - 111.29 + 3.44 ⋅ Height + Fehler Dipl. Inform. J. Hedderich nichtlineare Regression (enzymatische Reaktion) The Michaelis-Menten equation is a quantitative description of the relationship between the rate of an enzyme catalyzed reaction (V), substrate concentration (S), the M-M rate constant (Km) and maximal velocity (Vmax): Vmax ⋅ S V= Km + S Miss America 1984 - 2002 Dipl. Inform. J. Hedderich 63” 68” 69” 68” 70” 63” 68” 66” 71” 69” 64” 63” 100 120 114 116 131 lbs lbs lbs lbs lbs rXY s XY = 29.3 ”⋅lbs s X = 2.9 ” s Y = 12.4 lbs rXY = +0.81 s XY = sX ⋅ sY Dipl. Inform. J. Hedderich Pearson Korrelationskoeffizient Der Korrelationskoeffizient ist ein Maß für die Stärke eines linearen Zusammenhangs: -1≤r≤+1 Wertebereich r >0 positiver Zusammenhang r <0 negativer Zusammenhang r =0 kein linearer Zusammenhang |r|=1 alle Punkte (Wertepaare) liegen auf einer Geraden mit positiver (negativer Steigung) Dipl. Inform. J. Hedderich Y Pearson Korrelationskoeffizient r ~ 0 Y r ~ 0,8 X Y X Y r ~ -0,8 r ~ 1 X X Dipl. Inform. J. Hedderich 0 Pearson Korrelationskoeffizient ≤ ⏐r⏐ ≤ 0.2 keine / gering Korrelation 0.2 ≤ ⏐r⏐ ≤ 0.5 schwache / mäßige Korrelation 0.5 ≤ ⏐r⏐ ≤ 0.8 Korrelation 0.8 ≤ ⏐r⏐ ≤ 1 hohe / perfekte Korrelation Inhomogenität Dipl. Inform. J. Hedderich y r ≈ 0.0 y r ≈ - 0.7 r ≈ +0.7 r ≈ 0.0 x x Dipl. Inform. J. Hedderich Extremwerte / Ausreisser y r ≈0 oder r ≈ 0.5 x Spearman (Rangkorrelation) Dipl. Inform. J. Hedderich Wine Judge 1 Judge 2 D2 A B C D E 1 2 2 1 3 5 4 3 5 4 1 1 4 1 1 F J G F I 6 6 7 7 8 9 9 8 10 10 0 0 1 1 0 6 (10 ) rs = 1 − =1− = 0.939 2 n(n − 1) 10 (100 − 1) 6∑ D 2 Dipl. Inform. J. Hedderich Spearman (Rangkorrelation) Die Rangkorrelation beschreibt die Stärke eines monotonen Zusammenhangs zwischen X und Y . Die Eigenschaften entsprechen im Wesentlichen denen des Pearson-Korrelationskoeffizienten. Anstelle der Abstände zwischen X und Y gehen nur die Rangdifferenzen in die Berechnung ein - damit ist dieser auch prinzipiell für ordinal skalierte Merkmale verwendbar. Eine Korrekturformel muss benutzt werden, wenn Rangplätze mehrfach besetzt sind. Dipl. Inform. J. Hedderich Übersicht nominal ordinal metrisch Kontingenz Rangdifferenzen Mittelwertdifferenz • U-Test, • t-Test, nominal χ2-Test Pearson Φ • Kruskal-Wallis • ANOVA Rangkorrelation (Rang)korrelation ordinal Spearman ρ Spearman ρ Kendall τ Kendall τ metrisch (Maß-)Korrelation Pearson ρ Dipl. Inform. J. Hedderich Statistische Modellbildung 1. Datenexploration: isolierte Bewertung der möglichen Relevanz jeder einzelnen Einflussgröße (univariat). 2. Modellformulierung: mathematische Modellierung des vielschichtigen Zusammenhangs zwischen Einflussund Zielgrößen unter Berücksichtigung der wissenschaftlichen Plausibilität 3. Modellauswahl: Parameterschätzung ("Regression"), Hypothesentests (z.B. p-Werte, Bestimmtheitsmaß) 4. Modellprüfung: Vergleich der Modellvorhersagen mit den Beobachtungen ("Residuendiagnostik") Dipl. Inform. J. Hedderich Statistische Modellbildung Experimentelle Modellbildung: Bewertung des Einflusses gegebener Einflussgrößen auf eine Zielgröße, einschließlich Randomisierung bzw. Matching ("Kontrolle") für bekannte Störgrößen (z.B. Temperatur und Feuchtigkeit als Determinanten der Klebkraft von Zahnprothesen) Beobachtende Modellbildung: Auf Beobachtungen basierende Analyse des Zusammenhangs zwischen einer Zielgröße und mehreren Einfluss- und Störgrößen (z.B. Geburtsgewicht und -zeitpunkt, mütterliches Alter) Dipl. Inform. J. Hedderich Statistische Modellbildung Analyse eines funktionellen Zusammenhangs zwischen Zielgrößen bzw. abhängigen Variablen und Einflussgrößen bzw. unabhängigen Variablen und unkontrollierbarer Störgrößen zur Adjustierung für. Lineare Modelle Dipl. Inform. J. Hedderich Y: X1,...,Xk: Ε: Zielgröße Einflussgrößen Zufallsfehler Y = a + b1 x1 + b 2 x 2 + ... + bk x k + Ε Multiple lineare (und andere) Modelle erlauben die Berücksichtigung von Störgrößen (Adjustierung), wodurch sich der Bias der geschätzten Effekte der Einflussgrößen reduziert. Für Ε wird im Allgemeinen eine N(0,σ2)-Verteilung mit unbekanntem σ2 unterstellt. multiple lineare Regression Dipl. Inform. J. Hedderich zystische Fibrose age sex height weight bmp fev1 rv frc tlc pemax 7 0 109 13,1 68 32 258 183 137 95 7 1 112 12,9 65 19 449 245 134 85 8 0 124 14,1 64 22 441 268 147 100 8 1 125 16,2 67 41 234 146 124 85 8 0 127 21,5 93 52 202 131 104 95 9 0 130 17,5 68 44 308 155 118 80 11 1 139 30,7 89 28 305 179 119 65 12 1 150 28,4 69 18 369 198 103 110 12 0 146 25,1 67 24 312 194 128 70 13 1 155 31,5 68 23 413 225 136 95 13 0 156 39,9 89 39 206 142 95 110 14 1 153 42,1 90 26 253 191 121 90 14 0 160 45,6 93 45 174 139 108 100 Dipl. Inform. J. Hedderich multiple lineare Regression zystische Fibrose multiple lineare Regression Dipl. Inform. J. Hedderich zystische Fibrose pemax ~ age + height + weight + bmp + fev1 + rv + frc + tlc coefficient (Intercept) stand.error t-value p-value 153,04 198,71 0,77 0,45 age -2,11 4,33 -0,49 0,63 height -0,39 0,85 -0,46 0,65 weight 2,83 1,84 1,54 0,14 bmp -1,74 1,12 -1,55 0,14 fev1 1,27 0,74 1,70 0,11 rv 0,18 0,17 1,02 0,32 frc -0,25 0,41 -0,60 0,56 tlc 0,21 0,48 0,44 0,67 multiple r-squared: 0.6359 adjusted r-squared: 0.4539 Dipl. Inform. J. Hedderich multiple lineare Regression zystische Fibrose Dipl. Inform. J. Hedderich Challenger - Katastrophe On January 28, 1986 America was shocked by the destruction of the space shuttle Challenger, and the death of its seven crew members. Temperatur 66 67 68 70 72 75 76 79 53 58 70 75 67 67 69 70 73 76 78 81 57 63 70 Ausfall 0 0 0 0 0 0 0 0 1 1 1 1 0 0 0 0 0 0 0 0 1 1 1 Dipl. Inform. J. Hedderich e −0.23 ⋅ T +15 .04 P (Ausfall | T ) = 1 + e − 0.23 ⋅ T +15 .04 Dipl. Inform. J. Hedderich Logistische Regression verallgemeinertes lineares Modell mit "logit" als Link-Funktion ⎡ π ⎤ = a + b1 x1 + b 2 x 2 + ... + bk x k log ⎢ ⎥ ⎣1 − π ⎦ ⎡ p ⎤ logit( p) = log ⎢ ⎥ − p 1 ⎣ ⎦