Ao.Prof.DI.Dr Josef Haas [email protected] 1. Datenskalen 2. Deskriptive Statistik 1. Kennzahlen 2. Diagramme & Grafiken 3. Korrelation & Regression 1. Korrelation 2. Lineare Regression 3. Weiterführende Verfahren Statistik – Methoden 5. 6. 7. 8. 9. Konfidenzintervall Logistische Regression Lebensdaueranalysen Software Fallzahlberechnung 4. Hypothesen & Testverfahren 1. 2. 3. 4. Grundlagen t-Test Chi-Quadrat-Test Häufig verwendete Testverfahren J.Haas Page 2 Laplace, 1820 … On peut même dire, à parler en rigueur, que presque toutes nos connaissances ne sont que probables; et dans le petit nombres des choses que nous pouvons savoir avec certitude, dans les sciences mathématiques elle-même, les principaux moyens de parvenir à la vérité, l‘induction et l‘analogie, se fondent sur les probabilités.. Datenskalen Daten, Merkmale & Messungen Beschreibung von Daten und derenVariabilität i …Man kann sogar sagen, dass streng genommen beinahe alle unsere Erkenntnisse nur wahrscheinlich sind; und in den wenigen Fälle, in denen wir etwas mit Sicherheit wissen können, in den mathematischen Wissenschaften, beruhen die wichtigsten Werkzeuge um zur Wahrheit zu gelangen – die Induktion und die Analogie – wiederum nur auf Wahrscheinlichkeiten. Ao.Univ.Prof.DI.Dr. Josef Haas [email protected] J.Haas Page 4 1 Grundbegriffe Merkmale Untersuchungseinheit Merkmalsträger; Personen oder Objekte einer Stichprobe (Patienten, Probanden, Unternehmen…) Beobachtungseinheit kleinste Einheit, bei der Beobachtungen registriert werden. z.B. ein Zahn eines Patienten; häufig identisch mit der Untersuchungseinheit qualitativ quantitativ ohne zahlenmäßige Ordnung zahlenmäßige Ordnung Geschlecht, Haarfarbe Temperatur, Alter, diskret stetig zählbares Merkmal kontinuierliche Skala Geschlecht, Anzahl von Zähnen Körpergewicht, Blutdruck, Alter Merkmal Eigenschaft, Messgröße z.B. Geschlecht, Cholesterin, Umsatz Merkmalsausprägung mögliche Werte eines Merkmals z.B. „weiblich“, „männlich“, „195 mg/100ml“, „1.000.000 €“ Stetige Merkmale werden häufig nur in diskreten Stufen bestimmt (z.B. Körpergewicht in ganzen Kilogramm) Page 5 J.Haas Messniveaus Charakterisierung von Merkmalen Informationsgehalt Einflußgrößen Eingangsgrößen, Input Dosis eines Therapeutikums, Marketingmassnahmen, ... Prozess Faktoren Störgrößen Begleitmerkmale Zeit, Dauer, Verlauf, Pharmakodynamik Output, Outcome, Ergebnis Beobachtete Wirkung, “Produktion” Page 6 J.Haas Nominalskala Ordinalskala qualitativ Rangskala Kardinalskala Intervallskala quantitativ Verhältnisskala Zielgrößen Die Art der zu verwendenden statistischen Verfahren hängt (auch) von der Skalierung der Daten ab. Der Informationsgehalt ist bei der Verhältnisskala am größten J.Haas Page 7 J.Haas Page 8 2 Nominalskala Ordinalskala - Rangskala Klassifikation oder Name (Aufzählung) Rang oder Rating Farben, Kategorien, Postleitzahlen Präferenzen, Schweregrad einer Krankheit (Schul-)Noten, Ratings • männlich / weiblich Kodierung: (ganze) Zahlen, Präferenzskalen (sehr gut,…) • rot / schwarz / grün / ... Kodierung: Zahlen oder Text (0/1, m/f, ja/nein) Größer-kleiner-Relation, natürliche Ordnung kein Abstand definiert, keine natürliche Ordnung Kein Abstand definiert, Größenvergleich möglich Relative Häufigkeiten, Prozentwerte Lagemass: Median (Zentralwert) Lagemass: Modalwert (=häufigster Wert) J.Haas Page 9 J.Haas Intervallskala (Kardinalskala 1) Verhältnisskala (Kardinalskala 2) (Meistens) äquidistante Intervalle. Relative Messungen. Temperatur (Grad Celsius, Grad Fahrenheit) Entfernung in km Grad an Wissen, Karnofsky Index Alter Kodierung: (reelle) Zahlen Kodierung: (reelle) Zahlen Abstand ist definiert Absoluter Nullpunkt (Grad Kelvin) Nullpunkt beliebig gewählt (Grad Celsius: Nullpunkt ist der Gefrierpunkt Verhältnisse können gebildet werden von Wasser) Lagemass: arithmetischer Mittelwert, beim Vergleich von Verhältnissen Lagemass: arithmetischer Mittelwert J.Haas Page 10 auch geometrischer Mittelwert, Page 11 J.Haas Page 12 3 Welche Datenskala soll verwendet werden? Eine Fragestellung = mehrere Skalen ? Umsatz ? Arbeitslosigkeit ? Autotype ? Schuhgröße ? Cholesterin ? Herzschlag ? Blutdruck z.B. Einkommen Zu welcher Gruppe gehören Sie: Ohne eigenes Einkommen,Kleinverdiener, Mittelstand, Millionär? Ist Ihr Einkommen kleiner als € 10.000, 10.000-70.000, oder größer als 70.000? Welche Kategorie beschreibt Ihr Einkommen am besten: 0-10.000, 10.001-20.000,… Wie hoch war Ihr Einkommen im letzten Jahr? z.B. Cholesterin normal / erhöht 195 J.Haas Page 13 Page 14 J.Haas Auswahl von Skalen Besonderheiten Möglichst einfach - (KISS keep it simple stupid). o Die Unterscheidung zwischen ordinal und kardinal skalierten Daten wird nicht immer streng eingehalten. Aufwand und Nutzen-Relation beachten. Bezug zur Fragestellung (Kommastellen,...). o Dichotome Daten sind ein Sonderfall von Nominaldaten Verwenden Sie die höchstmögliche Mess-Skala. o Zensierte Daten – unvollständige Beobachtungen (z.B. Ereignisse, die noch nicht eingetreten sind, also etwa die Beobachtungsdauer kürzer als die Lebensdauer ist) Beobachtungsdauer Lebensdauer J.Haas Page 15 J.Haas Page 16 4 Messen – Kriterien: Allgemeines Messen - Kriterien Objektivität die Messung ist unabhängig vom Beobachtenden Zuverlässigkeit –Reliabilität die Messungen sind reproduzierbar Datenquelle Spezifität, Empfindlichkeit Messung Richtigkeit: Vergleichs- Mischversuche Ist das Messinstrument adäquat? Präzision, Reproduzierbarkeit Erhebung Fragebogen, Interview Validität – Validity Schätzung Gültigkeit der Messung; die Eigenschaft, das zu messen wass gemessen werden soll Systematischer – vs zufälliger Fehler Brauchbarkeit - Ease of Use Primärdaten vs. Sekundärdaten Page 17 J.Haas Zuverlässigkeit -Reliability Gültigkeit - Validity Sind die Messungen wiederholbar? zuverlässig ●● ● ● ●● ●● ● ● J.Haas Page 18 J.Haas Wird gemessen, was gemessen werden sollte? Nicht zuverlässig Valide Nicht Valide ● ● ● ● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ● ● Page 19 J.Haas Page 20 5 Nicht zuverlässig, nicht valide Brauchbarkeit Kann die Messung automatisiert werden? Kann die Person, die die Arbeit durchführt, auch die Messung ● durchführen? Kann die Messung durch eine einfache Form dargestellt werden (eine Zahl, eine Kategorie,...) ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● Page 21 J.Haas J.Haas Page 22 Präzision ~ Ausmaß der Streuung Richtigkeit ~systematische Abweichung Richtigkeit + Präzision + Richtigkeit - Präzision + Richtigkeit + Präzision - Richtigkeit - Präzision - Deskriptive Statistik Beschreibung empirischer Verteilungen mit Kennzahlen & Graphischen Darstellungen J.Haas Page 23 6 Schätzen eines Parameters Absolute Häufigkeit hi Schätzen heißt das Festlegen von Werten von unbekannten Parametern einer Verteilung mittels einen statistischen Experiments bzw. einer Stichprobe Die absolute Häufigkeit beschreibt die Punktschätzung: Der Schätzwert ist die Realisation der Schätzfunktion in einer Stichprobe. Unbekannt ist inwieweit die Schätzung vom wahren Wert abweicht. Die absolute Häufigkeit kann Werte Intervallschätzung: Konstruktion von Intervallen, die den unbekannten Parameter mit einer vorgegebenen Wahrscheinlichkeit enthalten Anzahl der Untersuchungseinheiten mit einer bestimmten Ausprägung zwischen 0 und n annehmen Je nach Bedarf kann damit die Häufigkeit einer einzelnen Ausprägung (Gewicht = 60 kg) oder eines Intervalls (Gewicht zwischen 56 und 60 kg) bestimmt werden Die Summe aller absoluten Häufigkeiten beträgt n Stichprobe: p=7/20=0,35 k ∑h i =1 i =n Intervallschätzung: 95%-Vertrauensbereich von 0,154 bis 0,592 Aussage: Die Punktschätzung beträgt 0,35. Der wahre Wert liegt mit 95%er Sicherheit zwischen 0,154 und 0,592. Page 25 J.Haas J.Haas Page 26 Relative Häufigkeit ri Wahrscheinlichkeit pi Die relative Häufigkeit beschreibt den Wahrscheinlichkeit (probability) ist eine Zahl zwischen 0 und 1, wobei 0 Anteil der Untersuchungseinheiten mit einer bestimmten Ausprägung Die relative Häufigkeit kann Werte zwischen 0 und 1 annehmen Die Summe aller relativen Häufigkeiten beträgt 1 Die relative Häufigkeit kann nach Multiplikation mit 100 als Prozentzahl interpretiert werden ein unmögliches Ereignis und 1 ein sicheres Ereignis beschreibt. Mit zunehmender Fallzahl n strebt die relative Häufigkeit (=Anteilsschätzer) gegen die Wahrscheinlichkeit; d.h. die Wahrscheinlichkeit wird durch die relative Häufigkeit geschätzt. ri = h i / n k ∑r =1 i i =1 J.Haas Page 27 J.Haas Page 28 7 Lagemaße (Lokation) Modus - Modalwert Häufigster Wert einer empirischen Modus, Modalwert häufigster Wert Mittelwert, arithmetisches Mittel Durchschnitt Median, Zentralwert „Zentrum“ Geometrisches Mittel mittlerer Waschstumsfaktor Harmonisches Mittel Durchschnittsgeschwindigkeitt Quantile, Perzentile Min, Max, 90%,… Verteilung Egebnisse einer Umfrage zur Haushaltsgröße: Sinnvoll bei Merkmalen mit wenigen Anzahl der Anzahl der Personen Haushalte 1 15 2 20 3 33 Typische Aussagen: die häufigste 4 18 Ursache für Infektionen ist …. 5 10 6 4 Ausprägungen (Nominalskala, Kategorien, Intervalle,…) Bei quantitativen Merkmal meist nur geringe Aussagekraft Modus=3 Die meisten Haushalte bestehen aus drei Personen. Page 29 J.Haas Arithmetischer Mittelwert Median - Zentralwert Ist die am häufigsten verwendetet statistische Kennzahl (Syn.: Durchschnitt, Mittel, ..) Sinnvoll bei quantitativen Daten Nur eingeschränkt sinnvoll bei x = 1 n n ∑ xi i= Teilt die Verteilung in zwei gleiche Hälften Entspricht dem 50%-Quantil Robust gegenüber Abweichungen vom angenommenen Modell Zu bevorzugen bei Rangdaten, asymmetrischen Verteilungen, wenigen Beobachtungen asymmetrischen Daten und Ausreißern Wird aus den geordneten Daten berechnet Typische Aussage: das mediane Gewicht beträgt …. Typische Aussagen: das mittlere Einkommen beträgt…. das durchschnittliche Gewicht ist …. Der Mittelwert der Zahlen 11, 4,5,1 und 9 beträgt ~ x = x n +1 2 1 30 x = (11 + 4 + 5 + 1 + 9 ) = =6 5 5 J.Haas Page 30 J.Haas Page 31 n ungerade 1 ~ x = x n + x n+ 2 n gerade 2 2 2 J.Haas Der Median der Zahlen 12,5,4,1 und 9 beträgt : ~ x = x(3) = 5 Page 32 8 Harmonisches Mittel Geometrisches Mittel Wird verwendet bei Relationen zB Ist die am häufigsten verwendetet km/h statistische Kennzahl (Syn.: Durchschnitt, Mittel, ..) Sinnvoll bei quantitativen Daten Nur eingeschränkt sinnvoll bei x harm = asymmetrischen Daten und Ausreißern Typische Aussagen: die Durchschnittsgeschwindigkeit beträgt…. n n 1 ∑ i =1 xi = Sinnvoll bei quantitativen Daten n 1 1 1 + +L+ x1 x2 xn Nur eingeschränkt sinnvoll bei Page 33 Rechtsschiefe Verteilung n ∑ xi i= Typische Aussagen: das mittlere 1 30 (11 + 4 + 5 + 1 + 9 ) = = 6 5 5 J.Haas 1 n asymmetrischen Daten und Ausreißern Einkommen beträgt…. das durchschnittliche Gewicht ist …. Der Mittelwert der Zahlen 11, 4,5,1 und 9 beträgt x= x = Der Mittelwert der Zahlen 11, 4,5,1 und 9 beträgt x= J.Haas 1 30 (11 + 4 + 5 + 1 + 9 ) = = 6 5 5 Page 34 Streuungsmaße (Dispersion) Spannweite, Range, Wertebereich Modalwert Median Mittelwert Bei symmetrischen Verteilungen: Quartilsabstand Median=Mittelwert Standardabweichung Varianz Standardfehler SEM Bei rechtschiefen Verteilungen: Variationskoeffizient Modus<Median<Mittelwert Bei einer linksschiefen Verteilung ist dies genau umgekehrt Typische Verteilung bei Wartezeiten, Einkommen, Laborwerten J.Haas Page 35 J.Haas Page 36 9 Spannweite, Quartilsabstand Varianz, Standardabweichung Spannweite: Differenz vom größten zum kleinsten Wert Varianz: normierte Summe der Abweichungsquadrate R = x(n ) − x(1) = xmax − x(min ) 2 s2 = Quartilsabstand: Differenz vom 3. zum 1. Quartil, umfasst die mittleren 50 % der Daten Standardabweichung: Wurzel der Varianz 2 D = x 0 , 75 − x 0 , 25 s= Page 37 J.Haas Standardfehler, Variationskoeffizient Page 38 J.Haas Urliste (Anzahl kariöser Zähne bei 50 Schulkindern) 1,0,0,3,1,5,1,2,2,0,1,0,5,2,1,0,1,0,0,4,0,1,1,3,0,1,1,1,3,1,0,1,4,2,0,3,1,1,7,2,0 ,2,1,3,0,0,0,0,6,1 Anzahl s SEM = n absolute relative Häufigkeit Variationskoeffizient: relative Standardabweichung auch VK oder cv (coefficient of variation) (wird oft auch in % angegeben) J.Haas 1 n ∑ (xi − x ) n − 1 i =1 Häufigkeiten, Urliste, Strichliste Standardfehler = Standardabweichung des Mittelwertes SEM (Standard Error of the Mean) V = s 1 n ∑ (xi − x ) n − 1 i =1 x Page 39 J.Haas 0 IIII IIII IIII I 16 0,32 1 IIII IIII IIII II 17 0,34 2 IIII I 6 0,12 3 IIII 5 0,10 4 5 II II 2 2 0,04 0,04 6 I 1 0,02 7 I 1 0,02 50 1,00 Page 40 10 Graphische Darstellungen Graphische Darstellungen STABDIAGRAMM (syn. BALKENDIAGRAMM) HISTOGRAMM 18 16 14 12 10 8 6 4 2 0 • Häufigkeiten (relativ oder absolut) werden als senkrechte Stecke aufgetragen • besonders für diskrete Daten und Kategorien geeignet 14 • Häufigkeiten (relativ oder absolut) werden als senkrechte Stecke aufgetragen 12 10 • besonders für Daten mit Klasseneinteilung geeignet 8 • die dargestellte Fläche ist proportional zu den Häufigkeiten 6 4 2 Anzahl der kariösen Zähne Einkommen (in 1000$) Page 41 J.Haas <14-16] 7 <12-14] 6 <10-12] 5 <8-10] 4 <6-8] 3 <4-6] 2 <2-4] 1 <0-2] 0 0 Page 42 J.Haas Histogramm / empirische Verteilungsfunktion Cave! Histogramme stellen Sachverhalte durch Flächen, Balkendiagramme durch die Höhe der Säulen dar! (Achtung bei ungleicher Intervalllänge!) Mögliche Verzerrung / Verfälschung bei 3D-Darstellungen (perspektivische Verzerrung) 0,35 Skalierung der Achsen 0,30 1,0 0,8 0,20 0,6 F(x) rel. frequency 0,25 0,15 0,4 0,10 47 50 0,2 90 0,05 46 40 80 45 70 60 0,00 1-1,5 30 44 1,5-2 2-2,5 2,5-3 3-3,5 3,5-4 FT3 50 43 40 30 4-4,5 4,5-5 5-5,5 5,5-6 0,0 1-1,5 1,5-2 2-2,5 2,5-3 3-3,5 3,5-4 4-4,5 4,5-5 5-5,5 5,5-6 FT3 20 42 10 20 41 10 0 40 0 A J.Haas B C D 1970 1980 1990 2000 1970 1980 1990 2000 Page 43 J.Haas Page 44 11 Boxplot Boxplot Beispiel Beschreibt die Lage einer Verteilung mit Quantilen Ausreisser werden gekennzeichnet Q1: 1. Quartil (25% der Daten sind kleiner) Q3: 3. Quartil (75% der Daten sind kleiner) Q1 Q3 FT3 3 ,00 Min 4 ,00 5,0 0 6 ,0 0 Median Max Page 45 J.Haas Graphische Darstellungen Graphische Darstellungen KREISDIAGRAMM STREUDIAGRAMM (syn. SCATTERPLOT) • (Pie chart; Tortendiagramm) Häufigkeiten werden in Kreisanteile umgerechnet (% von 360 Grad [1%=3,5°) Page 46 J.Haas • Beziehung zwischen zwei • geeignet für Intervall- und 30% • besonders für Darstellung von Verhältnisdaten Anteilen geeignet 25% • die dargestellte Fläche ist proportional zu den Häufigkeiten 23% 180 Merkmalen als Punktwolke 17% • Transformationen können die Darstellung verbessern • durch Farb- oder Symbolkodierung können mehrere Subgruppen dargestellt werden 5% Systole 2 ,0 0 160 140 120 100 130 110 Essen Transport 90 70 Wohnen Bekleidung Freizeit,Bildung Diastole Placebo Verum Cave! 3D-Verzerrung das Ablesen der Werte wird erschwert ! J.Haas Page 47 J.Haas Page 48 12 Deskriptive Statistik I Graphische Darstellungen VERLAUFSKURVE Bericht • Darstellung von Merkmalen auf Gewicht_kind 180 der Zeitachse Geschlecht m w Insgesamt 160 • geeignet für Intervall- und Verhältnisdaten 140 • Achtung: Achsen beachten 120 • durch Farb- oder Symbol- 100 kodierung können mehrere Subgruppen dargestellt werden N Standardabweichung 497 500 505 Mittelwert 3535 3351 3455 97 75 172 Median 3570 3350 3460 Minimum 2450 2000 2000 Maximum 4650 4670 4670 80 60 40 20 0 8 6 4 2 0 Systole Diastole Page 49 J.Haas Deskriptive Statistik II Page 50 J.Haas Kontingenztafel Geschlecht männlich weiblich Gesamt Nikotin Kreuztabelle Tumorgröße x Rezeptorstatus Tumor Size <= 2 cm 2-5 cm Streudiagramm Größe x Gewicht von Jugendlichen J.Haas > 5 cm Gesamt Anzahl % von Estrogen Receptor Status Anzahl % von Estrogen Receptor Status Anzahl % von Estrogen Receptor Status Anzahl % von Estrogen Receptor Status Estrogen Receptor Status Negative Positive 211 385 Gesamt 596 63,9% 76,1% 71,3% 112 119 231 33,9% 23,5% 27,6% 7 2 9 2,1% ,4% 1,1% 330 506 836 100,0% 100,0% 100,0% Page 51 Kreuztabelle Vier-Felder-Tafel Nichtraucher 36 69 105 Raucher 6 17 23 Gesamt 42 86 128 χ 2 = 0,575 p = 0,448 Hypothesen H0: Es gibt keinen Zusammenhang zwischen Geschlecht und Nikotin H1: Es gibt einen Zusammenhang zwischen Geschlecht und Nikotin Chi-Quadrat-Test (Test auf Homogenität) J.Haas Page 52 13 Gruppiertes Balkendiagramm Streudiagramm syn. Scatterplot, Punktdiagramm Absolute Häufigkeiten männlich weiblich 40 male female 4000 3500 birth weight [g] Charakterisierung von - Stärke - Art - Richtung des Zusammenhangs Geschlecht 60 3000 2500 20 2000 20 30 40 50 60 70 80 90 100 110 120 % increase [day 70-100] %-Wachstum zwischen Tag 70 und 100 und Geburtsgewicht, geschlechtsbezogen 0 NR Raucher Raucher Page 53 J.Haas Ao.Prof.DI.Dr Josef Haas [email protected] J.Haas Fragestellungen Assoziation: Besteht ein Zusammenhang zwischen zwei metrischen Merkmalen? Prädiktion: Kann ich den Wert einer Messgröße durch eine (mathematische) Funktion vorhersagen? Statistik - Methoden Korrelation & Regression Page 54 Übereinstimmung: Wie gut stimmen zwei Messmethoden überein? J.Haas Korrelation Regression Kappa, ICC, Bland-Altman,.. Page 56 14 Bivariate Datenanalyse Korrelation & Regression Beschreibung eines Zusammenhangs zwischen 2 Merkmalen Untersuchung der Zusammenhänge zwischen zwei (oder mehreren) Variablen auf einer metrischen Skala Risikofaktor und Krankheit Mögliche Fragestellungen sind: Blutdruck vor und nach Therapie Operation und Überleben bei Tumoren Besteht eine Beziehung zwischen den Variablen ? Gewicht und Cholesterin Wie stark ist die Beziehung ? Marketingausgaben und Umsatz Welche Form hat die Beziehung ? Kann der Wert einer Variable aus der Beobachtung anderer Variablen vorhergesagt werden? Methoden (Kennzahlen, Tabellen, Grafiken) Man beobachtet zwei stetige Variablen (x; y) an der selben Assoziationsmaße Beobachtungseinheit, und erhält paarweise Beobachtungen (x1; y1); (x2; y2); …; (xn; yn) Korrelationsanalyse Regressionsanalyse Page 57 J.Haas Page 58 J.Haas Geburtsgewicht & Gewichtszunahme zwischen Tag 70 und Tag 100 Art des Zusammenhangs Der Zusammenhang zweier Merkmale ist um so stärker, je zuverlässiger sich die Ausprägung des einen Merkmals aus der Ausprägung des anderen Merkmals vorhersagen lässt. Offenbar besteht ein 120 perfekt = deterministisch Zusammenhang Negative Richtung: Mehr % Zunahme Tag 70-Tag100 100 Bei einem perfektem Zusammenhang: Beschreibung durch ein mathematisches Modell y=f(x) Geburtsgewicht weniger Zunahme Der Zusammenhang ist nicht 80 perfekt, die Datenpunkte streuen 60 Bei einem nicht deterministischem Zusammenhang: 40 y = f(x) + Zufallskomponente (entspricht Zufallsfehler) 20 2000 2500 3000 3500 4000 Geburtsge wicht [g] J.Haas Page 59 J.Haas Page 60 15 Korrelationsanalyse Kovarianz Mit der Korrelationsanalyse werden Maßzahlen berechnet, um die Stärke eines Maß zur Quantifizierung eines linearen Zusammenhangs zwischen 2 Zusammenhangs zu quantifizieren. Merkmalen Voraussetzungen: Skalierung: Beide Merkmale sind intervallskaliert und stetig ∑ (xi − x )⋅ (y j − y ) ∑ xi y j − nx y n n Normalverteilung: Beide Variable müssen annähernd normalverteilt sein Lineritätsbedingung: Der Zusammenhang ist annähernd linear (Pearson-Korrelation) oder annähernd monoton (Spearman-Korrelation) s xy = Die einzelnen Beobachtungseinheiten sind voneinander unabhängig i =1 n −1 Die Signifikanz einer Korrelation hängt auch vom Stichprobenumfang ab • Bei nichtlinearen Zusammenhängen können die Daten transformiert werden = j =1 n −1 Positiver Zusammenhang s xy > 0 Negativer Zusammenhang s xy < 0 Kein linearer Zusammenhang s xy ≈ 0 Die Stärke des Zusammenhanges kann nicht beurteilt werden Page 61 J.Haas Page 62 J.Haas Korrelationskoeffizient nach Pearson Fehler bei der Interpretation eines Korrelationskoeffizienten Produkt-Moment-Korrelationskoeffizient r Normiertes Maß zur Quantifizierung eines linearen Zusammenhanges Voraussetzungen sind nicht erfüllt Formale Korrelation (die Kovarianz wird durch die beiden Standardabweichungen dividiert.) r= s xy sx ⋅ s y = ∑ (x − x )( y − y ) ∑ (x − x ) ∑ ( y − y ) i Selektionskorrelation i 2 i entsteht häufig beim Vergleich von relativen Häufigkeiten (Indexzahlen, Verhältnisse) wenn die Stichprobe nicht repräsentativ ist 2 Korrelation durch Ausreißer i Ausreißer können einen starken Zusammenhang vortäuschen, sogar die Richtung des Zusammenhangs ändern Korrelation liegt zwischen -1 und +1 , dh die Korrelation normiert die Kovarianz Inhomogenitätskorrelation Je näher |r| bei 1 liegt, desto stärker ist der Zusammenhang Je näher r bei 0 liegt, desto schwächer ist der Zusammenhang r=1 oder r=-1 funktionaler Zusammenhang, bei dem alle Punkte auf der Regressionsgeraden liegen J.Haas Page 63 Beispiel: Schuhgröße und Gehalt korrelieren (inhomogene Gruppen, Klumpen) Gemeinsamkeitskorrelation (Alter - Blutdruck - Cholesterin) ??? Kausale Korrelation ??? J.Haas Page 64 16 Korrelation – Missinterpretation I Korrelation – Missinterpretation II r = 0 bedeutet nicht notwendigerweise fehlender Zusammenhang, sondern nur fehlender linearer Zusammenhang: quadratisch Mischpopulationen – heterogene Gruppen r ~ 0,2 zyklisch r1 ~ 0,75 y r2 ~ -0,8 x x x Page 65 J.Haas Korrelation – Missinterpretation III x Page 66 J.Haas Korrelationskoeffizient nach Spearman Monotoner Zusammenhang Ausreißer „je höher das Alter umso höher das Cholesterin“ Klumpeneffekt Basiert auf den Rängen der Daten r ~ 0,95 r ~ 0,85 n r1 ~ -0,5 r2 ~ -0,05 rs = 1 − 6∑ d i2 i =1 3 n −n wobei di2 = [Rang(x) – Rang(y)]2 x x Charles Spearman (1863-1945) J.Haas Page 67 J.Haas Page 68 17 Beispiel: Monotoner Zusammenhang zwischen Cholesterin - BMI Chol. BMI Rang Chol. Rang BMI Pearson‘scher Korrelationskoeffizient misst linearen di 2 192 22,2 4 5 1 190 22,5 3 7 16 180 20,5 2 2 0 205 24,3 5 10 25 260 24,1 10 9 1 113 19,6 1 1 0 222 22,4 8 6 4 215 22,0 6,5 4 6,25 215 22,7 6,5 8 2,25 225 20,7 9 3 36 J.Haas 6 ⋅ 91,5 rs = 1 − 1000 − 10 Zusammenhang „Liegen die Punkte auf einer Linie?“ Wird stark beeinflusst von extremen Beobachtungen Parametrisch (= die ursprünglich beobachteten Werte werden zur Berechnung herangezogen) = 0,4438 Spearman‘scher Korrelationskoeffizient misst monotonen Zusammenhang „Je höher das Alter umso höher ist das Cholesterin“ Robust gegenüber extremen Beobachtungen Nicht-parametrisch (= die rangtransformierten Werte werden zur Berechnung herangezogen) Page 69 Beispiele J.Haas Unterschied J.Haas Page 70 Beispiele Page 71 J.Haas Page 72 18 Beispiele Korrelation Unabhängigkeitssatz: Sind 2 Variablen voneinander (statistisch) unabhängig, so sind sie unkorreliert. ABER: Unkorreliertheitssatz: Sind 2 Variablen unkorreliert, so sind sie nicht unbedingt unabhängig. Das kann so sein, muss aber nicht so sein. Linearitätssatz: Gibt es zwischen 2 Variablen einen linearen Zusammenhang, so zeigt dies der Korrelationskoeffizient. Aus einem hohen Korrelationskoeffizient darf aber nicht auf einen linearen Zusammenhang geschlossen werden! Transformation: Der Korrelationskoeffizient ändert sich nicht bei linearen Transformationen der Daten J.Haas Page 73 Korrelation – weiterführende & verwandte Methoden Page 74 J.Haas Partielle Korrelation Kendall Rangkorrelation Zusammenhang zwischen Alter, Blutdruck und Cholesterin Intra-Class-Correlation ICC zur Quantifizierung der Übereinstimmung Partielle Korrelation von A mit B (Interrater-Reliabilität) zwischen mehreren Beurteilern A Kreuzkorrelation (Signalverarbeitung) unter Berücksichtigung von C : rAB − rAC ⋅ rBC rAB.C = 2 2 1 − rAC ⋅ 1 − rBC Autokorrelation – Zeitreihen ( Partielle Korrelation zur Ausschaltung von Störgrößen rAB=0,33 rAB.C=0,34 B J.Haas Page 75 J.Haas )( ) rAC=0,50 rAC.D=0,59 rBC=0,25 rBC.A=0,10 C Page 76 19 Regression Regression Sir Francis Galton (1822-1911) Regression Towards Mediocrity in Hereditary Stature. Journal of the Anthropological Institute 15 (1886) 246 „Each peculiarity in a man is shared by his kinsman but on the average in a lesser degree.“ Karl Pearson (1857-1936) Regressionsmethoden, Korrelation Page 77 J.Haas Die Regressionsanalyse J.Haas Page 78 Bezeichnungen Die interessierende Variable (syn. abhängige Variable, Regressand, response, outcome) y-Achse Viele medizinische Studien untersuchen den Einfluss mehrerer verschiedener Faktoren auf eine Zielgröße. Therapie, Dosis Therapieerfolg soll durch eine oder mehrere Tumorgröße, -stadium Überlebenszeit Alter, Gewicht Cholesterin erklärende Variablen (syn. unabhängige Variable(n), Regressor, Predictor, erklärende Variable(n)) x-Achse mit Hilfe eines mathematischen Modells (Regressionsgleichung) beschrieben bzw. vorhergesagt werden. Es geht um die konzise Beschreibung eines statistischen Zusammenhangs Klärung, ob die Wirkung eines Faktors unabhängig von anderen ist Ziel der Regressionsanalyse ist also Vorhersage, Prediction Möglichkeit der Prognose für einen einzelnen Patienten J.Haas Methode: Die Abweichungsquadrate der beobachteten Werte zur Regressionsgeraden sollen minimiert werden Page 79 J.Haas Page 80 20 Geradengleichung Regression - Methode der Kleinsten Quadrate Das einfachste mathematische Modell für eine Regression ist eine lineare Gleichung: (x1,y1),(x2,y2),…,(xn,yn) Geradengleichung: xi ... abhängige / erklärende Variable; Regressor y = k⋅x+d ... Paare von Messungen metrischer Größen yi ... unabhängige Variable; Regressand y Als statistisches Modell Für die Berechnung der abhängigen Variablen soll die Gerade so liegen, k Y = ß0 + ß1 ⋅ X dass die Streuung der beobachteten Werte um diese Gerade möglichst klein ist. Diese Gerade ist die Regressionsgerade. und als empirisches Modell mit Daten (xi;yi) d wobei εi den „Fehler“ beschreibt x Page 81 J.Haas Regression - Methode der Kleinsten Quadrate Page 82 J.Haas Regression Für den Zusammenhang zwischen xi und yi soll folgendes Modell gelten: yi=β0+β1xi+εi β0 und β1 sind die Regressionskoeffizienten Problem: Finde eine Gerade, so das der Abstand zwischen den Datenpunkten und der Geraden minimal wird β0 ist die Konstante (Intercept) in der Regressionsgerade Residuen Min β1 ist die Steigung der Regressionsgeraden Methode der kleinsten Quadrate Die Regressionsgerade verläuft durch den Schwerpunkt (x, y ) 95 90 85 Körpergewicht [kg] yi = ß0 + ß1 ⋅ xi + ε i 80 75 70 65 60 160 165 170 175 180 185 190 195 Körpergröße [cm] J.Haas Page 83 J.Haas Page 84 21 Regression - Voraussetzungen Bestimmtheitsmaß – Güte der Anpassung Maß für die Güte der Anpassung = Bestimmtheitsmaß = Quadrat des Korrelationskoeffizienten Skalierung: Beide Merkmale sind intervallskaliert und stetig Normalverteilung: Die Werte der Outcome-Variablen Y sollten normalverteilt sein für jeden Wert der erklärenden Variablen X Varianzhomogenität: Die Variabilität von Y (entspricht der Varianz bzw. der Standardabweichung) sollte gleich sein für jeden Wert von X. Linearitätsbedingung: Der Zusammenhang ist annähernd linear R 2 ∑ ( yˆ = ∑ (y − y) 2 i − y) 2 i = s yˆ 2 sy 2 = erklärte Varianz Gesamtvari anz Gibt näherungsweise den Anteil der Varianz der Daten an, welche durch das Modell erklärt wird Die einzelnen Beobachtungseinheiten sind voneinander unabhängig 0 ≤ R2 ≤ 1 X ist (üblicherweise) eine feste Variable Cave! bei Extrapolation über den Wertebereich hinaus Cave! Regression ist richtungsabhängig, dh. y=f(x) liefert andere Ergebnisse als x=f(y) Page 85 J.Haas Gegenüberstellung R2=0,45 bedeutet, dass 45% der Varianz durch die Regression erklärt wird und 55% in den εi stecken J.Haas Page 86 Regression – weiterführende Methoden I Exponentielle Regression Korrelation Beschreibt die Stärke des Zusammenhangs von zwei Variablen X und Y sind Zufallsvariable Die Variablen sind « gleichberechtigt » keine Kausalität Regression Y = a ⋅ exp(b ⋅ X ) ≈ ln(Y ) = ln( a) + b ⋅ X Verwendet ein Modell (meistens linear) Y hängt von X ab X ist eine feste Größe, Y eine Zufallsvariable Dient zur Prädiktion (cave!) Kausalität wird vom Modell impliziert Multiple Regression Y = ß0 + ß1 ⋅ X 1 + L + ßn ⋅ X n Multivariate Regression Y1 = F ( ß; X ) Fazit L J.Haas Korrelation und Regression sind vom Methodenapparat sehr ähnlich. Die Voraussetzungen sind identisch, der Unterschied liegt in der Anwendung: Korrelation ist eher deskriptiv - Regression ist eher wertend. Grundregeln für beide Verfahren: univariate Analyse, Scatterplot, Voraussetzungen überprüfen Page 87 Yr = F ( ß; X ) Nichtlineare Regression Y = A ⋅ bT ⋅ exp (− c ⋅ T ) J.Haas Page 88 22 Regression – weiterführende Methoden II Multiples Lineares Regressionsmodell Logistische Regression – Logitmodell Es gibt mehrere unabhängige Variablen p = ß0 + ß1 ⋅ X 1 + L + ßn ⋅ X n log 1− p exp( ß0 + ß1 ⋅ X 1 + L + ßn ⋅ X n ) P (Yi = 1 | X i = x i ) = 1 + exp( ß0 + ß1 ⋅ X 1 + L + ßn ⋅ X n ) y = β 0 + β1 x1 + β 2 x2 + ... + β k xk Modellieren Ziel: systematische Eigenschaften von Zufallsschwankungen trennen Modell soll den beobachteten Daten gut angepasst sein Probitmodell Modell soll einfach sein und damit leicht zu interpretieren Poisson – Regression bei Zählprozessen J.Haas Modell soll Daten möglichst gut erklären und Werte vorhersagen Page 89 Strategie J.Haas Page 90 Überprüfung der Voraussetzungen Wichtig: Inhaltliche und statistische Aspekte berücksichtigen Hypothesen generieren oder überprüfen – Modell suchen oder Modell bestätigen? Wie sind die Daten verteilt? Gibt es Zusammenhänge zwischen den unabhängigen Variablen? Wie kann das Modell vereinfacht werden? Alle Variablen werden ins Modell aufgenommen Wie gut ist mein Modell? Eine Variable wird ins Modell aufgenommen Welche Variablen haben einen Einfluss? Kombination vorwärts/rückwärts Wie ist der zeitliche Ablauf? Wie gut sind meine Schätzer? J.Haas Page 91 J.Haas Page 92 23 Boxplots Test2 IQ Test1 Test1 Box Plot 140,0 Test2 Amount 93,3 46,7 0,0 Test1 Test2 Test3 Test4 Test5 IQ IQ Variables J.Haas Page 93 Probleme bei Modellieren J.Haas Page 94 Logistisches Regressionsmodell Ungünstige Verteilung der Daten: z.B. Therapie 1 wird fast ausschließlich bei jungen und Therapie 2 fast ausschließlich bei älteren Patienten eingesetzt Parameter können nicht berechnet werden Annahme: das Eintreffen eines Ereignisses einer dichotomen Variablen y ist mit 1 codiert, ihr Nicht-Eintreffen mit 0. Output der logistischen Regressionsgleichung sind odds ratios. Schätzung des relativen Risikos. Die Bedeutung einer erklärenden Variablen ist abhängig von der p = β 0 + β1 x1 + β 2 x2 + ... + β k xk log 1− p jeweiligen Ausprägung einer anderen erklärenden Variablen Wechselwirkung Kollinearität Nichtlineare Effekte Fehlende Werte Extreme Werte J.Haas Page 95 J.Haas Page 96 24 Analyse von Lebensdauerdaten Lebensdauer = Zeit zwischen einem Startpunkt (Anfangsdatum) und einem aufgetretenen Ereignis (Enddatum) Startpunkte Diagnose einer Krankheit Beginn einer Behandlung Operation Randomisierung Endpunkte Tod Rezidiv Funktionsende eines Organs Analyse von Lebensdauerdaten Erfolg einer Behandlung Page 98 J.Haas Zensierte Daten Zensierte Daten 9 9 8 18 # 7 #…Ereignis eingetreten # # 7 26 6 l 5 5 # 4 w…abgebrochene Beobachtungen (withdrawn alive) l 84 w 3 42 2 # 1 l… verlorene Fälle (lost cases) w 63 # w 31 0 0 1/1990 1/1991xxxx Kalendarische Zeit der Untersuchung J.Haas 1/1992 0 Studienende 5 10 xxxx 15 20 25 Individuelle Beobachtungszeit nach Aufnahme in die Studie (Monate) Page 99 J.Haas Page 100 25 Kumulierte Überlebensraten Kumulierte Überlebensraten Aber: Abbrechen von Verlaufsbeobachtungen vor diesem Zeitpunkt ohne Beispiel: Angaben über ein späteres Auftreten es Zielereignisses Pilotstudie zur Wirksamkeit eines Raucherentwöhnungsregimes Daher: Zerlegung der Beobachtungszeit in möglichst kleine Zeitintervalle, z.B. in Dauer der Abstinenz die Zeiteinheit, in der man die Verläufe notiert. Kontrollgruppe A, n=10 Berechnung der relative Häufigkeit p(i)=(r(i)-d(i))/r(i), mit der die r(i) Probanden, Verumgruppe B, n=12 die bis zum Beginn des i-ten Intervalls abstinent waren, auch dieses Intervall ohne Rückfall überlebt, für jedes Zeitintervall i. Studiendauer 6 Wochen Die Rate derer, die nach T Zeitintervallen noch ereignisfrei sind, die kumulierte Überlebensrate S(T), wird dann nach der Kaplan-Meier-Methode (product-limit method) als Produkt der p(i) über alle Intervalle geschätzt. Gruppe A: 3, 3, 6, 6*, 9, 13, 16*, 21, 29*, 35* Gruppe B: 4, 7, 12*, 16, 26*, 29*, 31*, 31*, 32*, 35, 39*, 42* Wenn für alle Probanden die Zeit bis zum Rückfall bekannt wäre, könnte man in S (T ) = p (1) ⋅ p (2 ) ⋅ p (3)... p (T − 1) p (T ) jeder Gruppe die Abstinenzrate S(T) zu einem beliebigen Zeitpunkt T als relativen Anteil der erst nach diesem Zeitpunkt auftretenden Rückfälle bestimmen. Page 101 J.Haas Überlebensrate Page 102 J.Haas Beispiel Im Beispiel = Abstinenzrate: Gruppe A Abstinenzraten in Abhängigkeit von der Zeit nach Therapiebeginn in Gruppe Alle 10 Probanden sind in den ersten 2 Tagen nach Therapiebeginn abstinent A (kumulierte Überlebensraten) Überlebensrate = 100 % Tag Fallzahl unter Risiko ri IntervallÜberlebens-rate pi (Kumulierte) Überlebens-rate Si Standardfehler se(Si) d 3 1 10 0,90 0,90 0,09 3 1 9 0,89 0,80 0,12 6 1 8 0,88 0,70 0,14 6 0 7 1,00 Dritter Tag: 2 Probanden werden rückfällig; die übrigen 8 „überleben“ diesen Rückfall Tag ohne Rückfall, daher: S (3) = p (1) ⋅ p (2 ) ⋅ p (3) = (10 10 ) ⋅ (10 10 ) ⋅ (8 10 ) = 0,8 Vierter und fünfter Tag: Keine Rückfälle, die Überlebensrate bleibt konstant bei 80 %. Sechster Tag: Ein Rückfall und ein Patient schied aus. J.Haas Page 103 J.Haas 9 1 6 0,83 0,58 0,15 13 1 5 0,80 0,47 0,15 16 0 4 1,00 21 1 3 0,67 0,31 0,15 29 0 2 1,00 35 0 1 1,00 Page 104 26 Standardfehler der kumulierten Überlebensrate S(T) Konfidenzintervalle se (S (T )) = S (T ) (1 − S (T )) r (T ) S (T ) ± 1,96 ⋅ se(S (T )) 95%-Konfidenzintervall für S(21) 0,31 − 1,96 ⋅ 0,15 = 0,02 Untere Schranke 0,31 + 1,96 ⋅ 0,15 = 0,67 Obere Schranke Im Beispiel nach 3 Wochen: se(S (21)) = S (21) (1 − S (21)) r (21) = 0,31 ⋅ (1 − 0,31) 3 = 0,15 Da die Anzahl der unter Risiko stehenden Probanden nach und nach abnimmt, wird der Standardfehler für die Überlebensraten mit der Zeit größer, d.h. die Schätzungen der Überlebensraten verlieren zunehmend an Präzision. Page 105 J.Haas Überlebenskurve Page 106 J.Haas Hazardfunktion Hazard-Funktion 1,2 1,0 1,0 0,8 Kum Hazard Kumulierte Nichtraucherrate Überlebensfunktionen 0,6 0,4 0,8 0,6 0,4 0,2 0,2 0,0 0,0 0 7 14 21 28 35 42 0 Tage Gruppe A B J.Haas 7 14 A-zensiert B-zensiert A B Page 107 J.Haas 21 28 35 42 Tage Gruppe A-zensiert B-zensiert Page 108 27 Vergleich von Überlebenszeiten Cox-Modell Log-Rank-Test Modell nach Cox (1972) Vergleich des „gesamten“ Kurvenverlaufs H 0 : S A (T ) = S B (T ) Auch proportional hazard model genannt H 1 : S A (T ) ≠ S B (T ) z= S A (T ) − S B (T ) [se(S A (T ))]2 + [se(S B (T ))]2 z= S A (21) − S B (21) [se(S A (21))]2 + [se(S B (21))]2 = 0,31 − 0,74 (0,15)2 + (0,13)2 Modellierung des Effekts von erklärenden Variablen (unabhängige Variablen) auf die Wahrscheinlichkeit eines Ereignisses (Tod, Rezidiv, Erfolg) das im Zeitverlauf eintreten kann. = − 0,43 = −2,17 0,198 − 2,17 < −1,96 d.h. Unterschied ist signifikant. Page 109 J.Haas Cox-Modell Page 110 Annahmen hi (t , x i ) = h0 (t ) exp(x′i β ) p unbekannte Regressionskoeffizienten β = (β1 , β 2 , K , β p ) p Kovariablen x i = (x i1 , x i2 , K , x ip ) i Individuen ′ ′ Kovariablen sind konstant über die Zeit Proportionale Hazardraten Unabhängige Kovariablen beeinflussen den Hazard multiplikativ h(t , x1 ) h0 (t ) exp(β ′x1 ) = = exp[β ′( x1 − x2 )] h(t , x2 ) h0 (t ) exp(β ′x2 ) Diese Annahmen müssen vor dem Modellieren mit Hilfe graphischer Methoden und verschiedener Tests validiert werden! Hazardrate für 2 beliebige Individuen mit Kovariablenvektoren x1 und x2 J.Haas J.Haas Page 111 J.Haas Page 112 28