Stat_Diss_2 [Kompatibilitätsmodus]

Werbung
Ao.Prof.DI.Dr Josef Haas
[email protected]
1. Datenskalen
2. Deskriptive Statistik
1. Kennzahlen
2. Diagramme & Grafiken
3. Korrelation & Regression
1. Korrelation
2. Lineare Regression
3. Weiterführende Verfahren
Statistik – Methoden
5.
6.
7.
8.
9.
Konfidenzintervall
Logistische Regression
Lebensdaueranalysen
Software
Fallzahlberechnung
4. Hypothesen &
Testverfahren
1.
2.
3.
4.
Grundlagen
t-Test
Chi-Quadrat-Test
Häufig verwendete
Testverfahren
J.Haas
Page 2
Laplace, 1820
… On peut même dire, à parler en rigueur, que presque toutes nos connaissances
ne sont que probables; et dans le petit nombres des choses que nous pouvons
savoir avec certitude, dans les sciences mathématiques elle-même, les
principaux moyens de parvenir à la vérité, l‘induction et l‘analogie, se fondent sur
les probabilités..
Datenskalen
Daten, Merkmale & Messungen
Beschreibung von Daten und derenVariabilität i
…Man kann sogar sagen, dass streng genommen beinahe alle unsere
Erkenntnisse nur wahrscheinlich sind; und in den wenigen Fälle, in
denen wir etwas mit Sicherheit wissen können, in den mathematischen
Wissenschaften, beruhen die wichtigsten Werkzeuge um zur Wahrheit zu
gelangen – die Induktion und die Analogie – wiederum nur auf
Wahrscheinlichkeiten.
Ao.Univ.Prof.DI.Dr. Josef Haas
[email protected]
J.Haas
Page 4
1
Grundbegriffe
Merkmale
Untersuchungseinheit Merkmalsträger; Personen oder Objekte einer
Stichprobe (Patienten, Probanden, Unternehmen…)
Beobachtungseinheit kleinste Einheit, bei der Beobachtungen registriert
werden. z.B. ein Zahn eines Patienten; häufig identisch mit der
Untersuchungseinheit
qualitativ
quantitativ
ohne zahlenmäßige
Ordnung
zahlenmäßige
Ordnung
Geschlecht, Haarfarbe
Temperatur, Alter,
diskret
stetig
zählbares Merkmal
kontinuierliche Skala
Geschlecht, Anzahl
von Zähnen
Körpergewicht,
Blutdruck, Alter
Merkmal Eigenschaft, Messgröße z.B. Geschlecht, Cholesterin, Umsatz
Merkmalsausprägung mögliche Werte eines Merkmals z.B. „weiblich“,
„männlich“, „195 mg/100ml“, „1.000.000 €“
Stetige Merkmale werden häufig nur in diskreten Stufen
bestimmt (z.B. Körpergewicht in ganzen Kilogramm)
Page 5
J.Haas
Messniveaus
Charakterisierung von Merkmalen
Informationsgehalt
Einflußgrößen
Eingangsgrößen, Input
Dosis eines Therapeutikums,
Marketingmassnahmen, ...
Prozess
Faktoren
Störgrößen
Begleitmerkmale
Zeit, Dauer, Verlauf,
Pharmakodynamik
Output, Outcome, Ergebnis
Beobachtete Wirkung, “Produktion”
Page 6
J.Haas
Nominalskala
Ordinalskala
qualitativ
Rangskala
Kardinalskala
Intervallskala
quantitativ
Verhältnisskala
Zielgrößen
Die Art der zu verwendenden statistischen Verfahren hängt (auch) von der
Skalierung der Daten ab. Der Informationsgehalt ist bei der Verhältnisskala
am größten
J.Haas
Page 7
J.Haas
Page 8
2
Nominalskala
Ordinalskala - Rangskala
Klassifikation oder Name (Aufzählung)
Rang oder Rating
Farben, Kategorien, Postleitzahlen
Präferenzen, Schweregrad einer Krankheit
(Schul-)Noten, Ratings
• männlich / weiblich
Kodierung: (ganze) Zahlen, Präferenzskalen (sehr gut,…)
• rot / schwarz / grün / ...
Kodierung: Zahlen oder Text (0/1, m/f, ja/nein)
Größer-kleiner-Relation, natürliche Ordnung
kein Abstand definiert, keine natürliche Ordnung
Kein Abstand definiert, Größenvergleich möglich
Relative Häufigkeiten, Prozentwerte
Lagemass: Median (Zentralwert)
Lagemass: Modalwert (=häufigster Wert)
J.Haas
Page 9
J.Haas
Intervallskala (Kardinalskala 1)
Verhältnisskala (Kardinalskala 2)
(Meistens) äquidistante Intervalle.
Relative Messungen.
Temperatur (Grad Celsius, Grad Fahrenheit)
Entfernung in km
Grad an Wissen, Karnofsky Index
Alter
Kodierung: (reelle) Zahlen
Kodierung: (reelle) Zahlen
Abstand ist definiert
Absoluter Nullpunkt (Grad Kelvin)
Nullpunkt beliebig gewählt (Grad Celsius: Nullpunkt ist der Gefrierpunkt
Verhältnisse können gebildet werden
von Wasser)
Lagemass: arithmetischer Mittelwert, beim Vergleich von Verhältnissen
Lagemass: arithmetischer Mittelwert
J.Haas
Page 10
auch geometrischer Mittelwert,
Page 11
J.Haas
Page 12
3
Welche Datenskala soll verwendet werden?
Eine Fragestellung = mehrere Skalen
? Umsatz
? Arbeitslosigkeit
? Autotype
? Schuhgröße
? Cholesterin
? Herzschlag
? Blutdruck
z.B. Einkommen
Zu welcher Gruppe gehören Sie: Ohne eigenes
Einkommen,Kleinverdiener, Mittelstand, Millionär?
Ist Ihr Einkommen kleiner als € 10.000, 10.000-70.000, oder größer als
70.000?
Welche Kategorie beschreibt Ihr Einkommen am besten: 0-10.000,
10.001-20.000,…
Wie hoch war Ihr Einkommen im letzten Jahr?
z.B. Cholesterin
normal / erhöht
195
J.Haas
Page 13
Page 14
J.Haas
Auswahl von Skalen
Besonderheiten
Möglichst einfach - (KISS keep it simple stupid).
o Die Unterscheidung zwischen ordinal und kardinal skalierten Daten wird
nicht immer streng eingehalten.
Aufwand und Nutzen-Relation beachten.
Bezug zur Fragestellung (Kommastellen,...).
o Dichotome Daten sind ein Sonderfall von Nominaldaten
Verwenden Sie die höchstmögliche Mess-Skala.
o Zensierte Daten – unvollständige Beobachtungen (z.B. Ereignisse, die
noch nicht eingetreten sind, also etwa die Beobachtungsdauer kürzer als
die Lebensdauer ist)
Beobachtungsdauer
Lebensdauer
J.Haas
Page 15
J.Haas
Page 16
4
Messen – Kriterien: Allgemeines
Messen - Kriterien
Objektivität die Messung ist unabhängig vom Beobachtenden
Zuverlässigkeit –Reliabilität die Messungen sind reproduzierbar
Datenquelle
Spezifität, Empfindlichkeit
Messung
Richtigkeit: Vergleichs- Mischversuche
Ist das Messinstrument adäquat?
Präzision, Reproduzierbarkeit
Erhebung
Fragebogen, Interview
Validität – Validity
Schätzung
Gültigkeit der Messung; die Eigenschaft, das zu messen wass
gemessen werden soll
Systematischer – vs zufälliger Fehler
Brauchbarkeit - Ease of Use
Primärdaten vs. Sekundärdaten
Page 17
J.Haas
Zuverlässigkeit -Reliability
Gültigkeit - Validity
Sind die Messungen wiederholbar?
zuverlässig
●●
● ● ●●
●● ● ●
J.Haas
Page 18
J.Haas
Wird gemessen, was gemessen werden sollte?
Nicht zuverlässig
Valide
Nicht Valide
● ●
● ● ●●
●● ● ●
●
● ● ●
●
●
● ●
●
●
● ●
● ● ●●
●● ● ●
Page 19
J.Haas
Page 20
5
Nicht zuverlässig, nicht valide
Brauchbarkeit
Kann die Messung automatisiert werden?
Kann die Person, die die Arbeit durchführt, auch die Messung
●
durchführen?
Kann die Messung durch eine einfache Form dargestellt werden (eine
Zahl, eine Kategorie,...)
●
●
●
●
●●
● ● ●
●
●
● ●
●
●
●
Page 21
J.Haas
J.Haas
Page 22
Präzision ~ Ausmaß der Streuung
Richtigkeit ~systematische Abweichung
Richtigkeit + Präzision +
Richtigkeit - Präzision +
Richtigkeit + Präzision -
Richtigkeit - Präzision -
Deskriptive Statistik
Beschreibung empirischer Verteilungen mit
Kennzahlen & Graphischen Darstellungen
J.Haas
Page 23
6
Schätzen eines Parameters
Absolute Häufigkeit hi
Schätzen heißt das Festlegen von Werten von unbekannten Parametern
einer Verteilung mittels einen statistischen Experiments bzw. einer
Stichprobe
Die absolute Häufigkeit beschreibt die
Punktschätzung: Der Schätzwert ist die Realisation der Schätzfunktion in
einer Stichprobe. Unbekannt ist inwieweit die Schätzung vom wahren
Wert abweicht.
Die absolute Häufigkeit kann Werte
Intervallschätzung: Konstruktion von Intervallen, die den unbekannten
Parameter mit einer vorgegebenen Wahrscheinlichkeit enthalten
Anzahl der Untersuchungseinheiten
mit einer bestimmten Ausprägung
zwischen 0 und n annehmen
Je nach Bedarf kann damit die
Häufigkeit einer einzelnen
Ausprägung (Gewicht = 60 kg) oder
eines Intervalls (Gewicht zwischen 56
und 60 kg) bestimmt werden
Die Summe aller absoluten
Häufigkeiten beträgt n
Stichprobe: p=7/20=0,35
k
∑h
i =1
i
=n
Intervallschätzung: 95%-Vertrauensbereich von 0,154 bis 0,592
Aussage: Die Punktschätzung beträgt 0,35. Der wahre Wert liegt mit
95%er Sicherheit zwischen 0,154 und 0,592.
Page 25
J.Haas
J.Haas
Page 26
Relative Häufigkeit ri
Wahrscheinlichkeit pi
Die relative Häufigkeit beschreibt den
Wahrscheinlichkeit (probability) ist eine Zahl zwischen 0 und 1, wobei 0
Anteil der Untersuchungseinheiten mit
einer bestimmten Ausprägung
Die relative Häufigkeit kann Werte
zwischen 0 und 1 annehmen
Die Summe aller relativen
Häufigkeiten beträgt 1
Die relative Häufigkeit kann nach
Multiplikation mit 100 als Prozentzahl
interpretiert werden
ein unmögliches Ereignis und 1 ein sicheres Ereignis beschreibt.
Mit zunehmender Fallzahl n strebt die relative Häufigkeit
(=Anteilsschätzer) gegen die Wahrscheinlichkeit; d.h. die
Wahrscheinlichkeit wird durch die relative Häufigkeit geschätzt.
ri = h i / n
k
∑r =1
i
i =1
J.Haas
Page 27
J.Haas
Page 28
7
Lagemaße (Lokation)
Modus - Modalwert
Häufigster Wert einer empirischen
Modus, Modalwert
häufigster Wert
Mittelwert, arithmetisches Mittel
Durchschnitt
Median, Zentralwert
„Zentrum“
Geometrisches Mittel
mittlerer Waschstumsfaktor
Harmonisches Mittel
Durchschnittsgeschwindigkeitt
Quantile, Perzentile
Min, Max, 90%,…
Verteilung
Egebnisse einer Umfrage zur
Haushaltsgröße:
Sinnvoll bei Merkmalen mit wenigen
Anzahl der
Anzahl der
Personen
Haushalte
1
15
2
20
3
33
Typische Aussagen: die häufigste
4
18
Ursache für Infektionen ist ….
5
10
6
4
Ausprägungen (Nominalskala,
Kategorien, Intervalle,…)
Bei quantitativen Merkmal meist nur
geringe Aussagekraft
Modus=3 Die meisten Haushalte
bestehen aus drei Personen.
Page 29
J.Haas
Arithmetischer Mittelwert
Median - Zentralwert
Ist die am häufigsten verwendetet
statistische Kennzahl (Syn.:
Durchschnitt, Mittel, ..)
Sinnvoll bei quantitativen Daten
Nur eingeschränkt sinnvoll bei
x =
1
n
n
∑
xi
i=
Teilt die Verteilung in zwei gleiche Hälften
Entspricht dem 50%-Quantil
Robust gegenüber Abweichungen vom angenommenen Modell
Zu bevorzugen bei Rangdaten, asymmetrischen Verteilungen, wenigen
Beobachtungen
asymmetrischen Daten und
Ausreißern
Wird aus den geordneten Daten berechnet
Typische Aussage: das mediane Gewicht beträgt ….
Typische Aussagen: das mittlere
Einkommen beträgt…. das
durchschnittliche Gewicht ist ….
Der Mittelwert der Zahlen
11, 4,5,1 und 9 beträgt
~
x = x n +1 


 2 
1
30
x = (11 + 4 + 5 + 1 + 9 ) =
=6
5
5
J.Haas
Page 30
J.Haas
Page 31
n ungerade

1
~
x =  x n  + x n+ 2   n gerade
2   2   2  
J.Haas
Der Median der Zahlen
12,5,4,1 und 9 beträgt :
~
x = x(3) = 5
Page 32
8
Harmonisches Mittel
Geometrisches Mittel
Wird verwendet bei Relationen zB
Ist die am häufigsten verwendetet
km/h
statistische Kennzahl (Syn.:
Durchschnitt, Mittel, ..)
Sinnvoll bei quantitativen Daten
Nur eingeschränkt sinnvoll bei
x harm =
asymmetrischen Daten und
Ausreißern
Typische Aussagen: die
Durchschnittsgeschwindigkeit
beträgt….
n
n
1
∑
i =1 xi
=
Sinnvoll bei quantitativen Daten
n
1 1
1
+ +L+
x1 x2
xn
Nur eingeschränkt sinnvoll bei
Page 33
Rechtsschiefe Verteilung
n
∑
xi
i=
Typische Aussagen: das mittlere
1
30
(11 + 4 + 5 + 1 + 9 ) = = 6
5
5
J.Haas
1
n
asymmetrischen Daten und
Ausreißern
Einkommen beträgt…. das
durchschnittliche Gewicht ist ….
Der Mittelwert der Zahlen
11, 4,5,1 und 9 beträgt
x=
x =
Der Mittelwert der Zahlen
11, 4,5,1 und 9 beträgt
x=
J.Haas
1
30
(11 + 4 + 5 + 1 + 9 ) = = 6
5
5
Page 34
Streuungsmaße (Dispersion)
Spannweite, Range, Wertebereich
Modalwert
Median
Mittelwert
Bei symmetrischen
Verteilungen:
Quartilsabstand
Median=Mittelwert
Standardabweichung
Varianz
Standardfehler SEM
Bei rechtschiefen
Verteilungen:
Variationskoeffizient
Modus<Median<Mittelwert
Bei einer linksschiefen
Verteilung ist dies
genau umgekehrt
Typische Verteilung bei Wartezeiten, Einkommen, Laborwerten
J.Haas
Page 35
J.Haas
Page 36
9
Spannweite, Quartilsabstand
Varianz, Standardabweichung
Spannweite: Differenz vom größten zum kleinsten Wert
Varianz: normierte Summe der Abweichungsquadrate
R = x(n ) − x(1) = xmax − x(min )
2
s2 =
Quartilsabstand: Differenz vom 3. zum 1. Quartil, umfasst
die mittleren 50 % der Daten
Standardabweichung: Wurzel der Varianz
2
D = x 0 , 75 − x 0 , 25
s=
Page 37
J.Haas
Standardfehler, Variationskoeffizient
Page 38
J.Haas
Urliste (Anzahl kariöser Zähne bei 50 Schulkindern)
1,0,0,3,1,5,1,2,2,0,1,0,5,2,1,0,1,0,0,4,0,1,1,3,0,1,1,1,3,1,0,1,4,2,0,3,1,1,7,2,0
,2,1,3,0,0,0,0,6,1
Anzahl
s
SEM =
n
absolute
relative
Häufigkeit
Variationskoeffizient: relative Standardabweichung
auch VK oder cv (coefficient of variation) (wird oft auch in
% angegeben)
J.Haas
1 n
∑ (xi − x )
n − 1 i =1
Häufigkeiten, Urliste, Strichliste
Standardfehler = Standardabweichung des Mittelwertes
SEM (Standard Error of the Mean)
V = s
1 n
∑ (xi − x )
n − 1 i =1
x
Page 39
J.Haas
0
IIII IIII IIII I
16
0,32
1
IIII IIII IIII II
17
0,34
2
IIII I
6
0,12
3
IIII
5
0,10
4
5
II
II
2
2
0,04
0,04
6
I
1
0,02
7
I
1
0,02
50
1,00
Page 40
10
Graphische Darstellungen
Graphische Darstellungen
STABDIAGRAMM (syn.
BALKENDIAGRAMM)
HISTOGRAMM
18
16
14
12
10
8
6
4
2
0
• Häufigkeiten (relativ oder
absolut) werden als senkrechte
Stecke aufgetragen
• besonders für diskrete Daten und
Kategorien geeignet
14
• Häufigkeiten (relativ oder
absolut) werden als senkrechte
Stecke aufgetragen
12
10
• besonders für Daten mit
Klasseneinteilung geeignet
8
• die dargestellte Fläche ist
proportional zu den Häufigkeiten
6
4
2
Anzahl der kariösen Zähne
Einkommen (in 1000$)
Page 41
J.Haas
<14-16]
7
<12-14]
6
<10-12]
5
<8-10]
4
<6-8]
3
<4-6]
2
<2-4]
1
<0-2]
0
0
Page 42
J.Haas
Histogramm / empirische Verteilungsfunktion
Cave!
Histogramme stellen Sachverhalte durch Flächen, Balkendiagramme durch
die Höhe der Säulen dar! (Achtung bei ungleicher Intervalllänge!)
Mögliche Verzerrung / Verfälschung bei
3D-Darstellungen (perspektivische Verzerrung)
0,35
Skalierung der Achsen
0,30
1,0
0,8
0,20
0,6
F(x)
rel. frequency
0,25
0,15
0,4
0,10
47
50
0,2
90
0,05
46
40
80
45
70
60
0,00
1-1,5
30
44
1,5-2
2-2,5
2,5-3
3-3,5
3,5-4
FT3
50
43
40
30
4-4,5
4,5-5
5-5,5
5,5-6
0,0
1-1,5
1,5-2
2-2,5
2,5-3
3-3,5
3,5-4
4-4,5
4,5-5
5-5,5
5,5-6
FT3
20
42
10
20
41
10
0
40
0
A
J.Haas
B
C
D
1970
1980
1990
2000
1970
1980
1990
2000
Page 43
J.Haas
Page 44
11
Boxplot
Boxplot Beispiel
Beschreibt die Lage einer Verteilung mit Quantilen
Ausreisser werden gekennzeichnet
Q1: 1. Quartil (25% der Daten sind kleiner)
Q3: 3. Quartil (75% der Daten sind kleiner)
Q1
Q3
FT3
3 ,00
Min
4 ,00
5,0 0
6 ,0 0
Median
Max
Page 45
J.Haas
Graphische Darstellungen
Graphische Darstellungen
KREISDIAGRAMM
STREUDIAGRAMM (syn.
SCATTERPLOT)
• (Pie chart; Tortendiagramm)
Häufigkeiten werden in
Kreisanteile umgerechnet
(% von 360 Grad [1%=3,5°)
Page 46
J.Haas
• Beziehung zwischen zwei
• geeignet für Intervall- und
30%
• besonders für Darstellung von
Verhältnisdaten
Anteilen geeignet
25%
• die dargestellte Fläche ist
proportional zu den Häufigkeiten
23%
180
Merkmalen als Punktwolke
17%
• Transformationen können die
Darstellung verbessern
• durch Farb- oder Symbolkodierung können mehrere
Subgruppen dargestellt werden
5%
Systole
2 ,0 0
160
140
120
100
130
110
Essen
Transport
90
70
Wohnen
Bekleidung
Freizeit,Bildung
Diastole
Placebo
Verum
Cave! 3D-Verzerrung das Ablesen der Werte wird erschwert !
J.Haas
Page 47
J.Haas
Page 48
12
Deskriptive Statistik I
Graphische Darstellungen
VERLAUFSKURVE
Bericht
• Darstellung von Merkmalen auf
Gewicht_kind
180
der Zeitachse
Geschlecht
m
w
Insgesamt
160
• geeignet für Intervall- und
Verhältnisdaten
140
• Achtung: Achsen beachten
120
• durch Farb- oder Symbol-
100
kodierung können mehrere
Subgruppen dargestellt werden
N
Standardabweichung
497
500
505
Mittelwert
3535
3351
3455
97
75
172
Median
3570
3350
3460
Minimum
2450
2000
2000
Maximum
4650
4670
4670
80
60
40
20
0
8
6
4
2
0
Systole
Diastole
Page 49
J.Haas
Deskriptive Statistik II
Page 50
J.Haas
Kontingenztafel
Geschlecht
männlich
weiblich
Gesamt
Nikotin
Kreuztabelle
Tumorgröße x Rezeptorstatus
Tumor
Size
<= 2 cm
2-5 cm
Streudiagramm
Größe x Gewicht
von Jugendlichen
J.Haas
> 5 cm
Gesamt
Anzahl
% von Estrogen
Receptor Status
Anzahl
% von Estrogen
Receptor Status
Anzahl
% von Estrogen
Receptor Status
Anzahl
% von Estrogen
Receptor Status
Estrogen Receptor
Status
Negative
Positive
211
385
Gesamt
596
63,9%
76,1%
71,3%
112
119
231
33,9%
23,5%
27,6%
7
2
9
2,1%
,4%
1,1%
330
506
836
100,0%
100,0%
100,0%
Page 51
Kreuztabelle
Vier-Felder-Tafel
Nichtraucher
36
69
105
Raucher
6
17
23
Gesamt
42
86
128
χ 2 = 0,575
p = 0,448
Hypothesen
H0: Es gibt keinen Zusammenhang zwischen Geschlecht und
Nikotin
H1: Es gibt einen Zusammenhang zwischen Geschlecht und
Nikotin
Chi-Quadrat-Test (Test auf Homogenität)
J.Haas
Page 52
13
Gruppiertes Balkendiagramm
Streudiagramm
syn. Scatterplot, Punktdiagramm
Absolute Häufigkeiten
männlich
weiblich
40
male
female
4000
3500
birth weight [g]
Charakterisierung von
- Stärke
- Art
- Richtung
des Zusammenhangs
Geschlecht
60
3000
2500
20
2000
20
30
40
50
60
70
80
90
100
110
120
% increase [day 70-100]
%-Wachstum zwischen Tag 70 und 100 und Geburtsgewicht, geschlechtsbezogen
0
NR
Raucher
Raucher
Page 53
J.Haas
Ao.Prof.DI.Dr Josef Haas
[email protected]
J.Haas
Fragestellungen
Assoziation: Besteht ein
Zusammenhang zwischen zwei
metrischen Merkmalen?
Prädiktion: Kann ich den Wert einer
Messgröße durch eine
(mathematische) Funktion
vorhersagen?
Statistik - Methoden
Korrelation & Regression
Page 54
Übereinstimmung: Wie gut stimmen
zwei Messmethoden überein?
J.Haas
Korrelation
Regression
Kappa, ICC,
Bland-Altman,..
Page 56
14
Bivariate Datenanalyse
Korrelation & Regression
Beschreibung eines Zusammenhangs zwischen 2 Merkmalen
Untersuchung der Zusammenhänge zwischen zwei (oder mehreren)
Variablen auf einer metrischen Skala
Risikofaktor und Krankheit
Mögliche Fragestellungen sind:
Blutdruck vor und nach Therapie
Operation und Überleben bei Tumoren
Besteht eine Beziehung zwischen den Variablen ?
Gewicht und Cholesterin
Wie stark ist die Beziehung ?
Marketingausgaben und Umsatz
Welche Form hat die Beziehung ?
Kann der Wert einer Variable aus der Beobachtung anderer Variablen
vorhergesagt werden?
Methoden (Kennzahlen, Tabellen, Grafiken)
Man beobachtet zwei stetige Variablen (x; y) an der selben
Assoziationsmaße
Beobachtungseinheit, und erhält paarweise Beobachtungen
(x1; y1); (x2; y2); …; (xn; yn)
Korrelationsanalyse
Regressionsanalyse
Page 57
J.Haas
Page 58
J.Haas
Geburtsgewicht & Gewichtszunahme zwischen Tag
70 und Tag 100
Art des Zusammenhangs
Der Zusammenhang zweier Merkmale ist um so stärker, je zuverlässiger
sich die Ausprägung des einen Merkmals aus der Ausprägung des anderen
Merkmals vorhersagen lässt.
Offenbar besteht ein
120
perfekt = deterministisch
Zusammenhang
Negative Richtung: Mehr
% Zunahme Tag 70-Tag100
100
Bei einem perfektem Zusammenhang:
Beschreibung durch ein mathematisches Modell y=f(x)
Geburtsgewicht weniger
Zunahme
Der Zusammenhang ist nicht
80
perfekt, die Datenpunkte
streuen
60
Bei einem nicht deterministischem Zusammenhang:
40
y = f(x) + Zufallskomponente (entspricht Zufallsfehler)
20
2000
2500
3000
3500
4000
Geburtsge wicht [g]
J.Haas
Page 59
J.Haas
Page 60
15
Korrelationsanalyse
Kovarianz
Mit der Korrelationsanalyse werden Maßzahlen berechnet, um die Stärke eines
Maß zur Quantifizierung eines linearen Zusammenhangs zwischen 2
Zusammenhangs zu quantifizieren.
Merkmalen
Voraussetzungen:
Skalierung: Beide Merkmale sind intervallskaliert und stetig
∑ (xi − x )⋅ (y j − y ) ∑ xi y j − nx y
n
n
Normalverteilung: Beide Variable müssen annähernd normalverteilt sein
Lineritätsbedingung: Der Zusammenhang ist annähernd linear (Pearson-Korrelation)
oder annähernd monoton (Spearman-Korrelation)
s xy =
Die einzelnen Beobachtungseinheiten sind voneinander unabhängig
i =1
n −1
Die Signifikanz einer Korrelation hängt auch vom Stichprobenumfang ab
•
Bei nichtlinearen Zusammenhängen können die Daten transformiert werden
=
j =1
n −1
Positiver Zusammenhang
s xy > 0
Negativer Zusammenhang
s xy < 0
Kein linearer Zusammenhang
s xy ≈ 0
Die Stärke des Zusammenhanges kann nicht beurteilt werden
Page 61
J.Haas
Page 62
J.Haas
Korrelationskoeffizient nach Pearson
Fehler bei der Interpretation eines
Korrelationskoeffizienten
Produkt-Moment-Korrelationskoeffizient r
Normiertes Maß zur Quantifizierung eines linearen Zusammenhanges
Voraussetzungen sind nicht erfüllt
Formale Korrelation
(die Kovarianz wird durch die beiden Standardabweichungen dividiert.)
r=
s xy
sx ⋅ s y
=
∑ (x − x )( y − y )
∑ (x − x ) ∑ ( y − y )
i
Selektionskorrelation
i
2
i
entsteht häufig beim Vergleich von relativen Häufigkeiten (Indexzahlen,
Verhältnisse)
wenn die Stichprobe nicht repräsentativ ist
2
Korrelation durch Ausreißer
i
Ausreißer können einen starken Zusammenhang vortäuschen, sogar die
Richtung des Zusammenhangs ändern
Korrelation liegt zwischen -1 und +1 , dh die Korrelation normiert die
Kovarianz
Inhomogenitätskorrelation
Je näher |r| bei 1 liegt, desto stärker ist der Zusammenhang
Je näher r bei 0 liegt, desto schwächer ist der Zusammenhang
r=1 oder r=-1 funktionaler Zusammenhang, bei dem alle Punkte auf
der Regressionsgeraden liegen
J.Haas
Page 63
Beispiel: Schuhgröße und Gehalt korrelieren (inhomogene Gruppen,
Klumpen)
Gemeinsamkeitskorrelation (Alter - Blutdruck - Cholesterin)
??? Kausale Korrelation ???
J.Haas
Page 64
16
Korrelation – Missinterpretation I
Korrelation – Missinterpretation II
r = 0 bedeutet nicht notwendigerweise fehlender Zusammenhang,
sondern nur fehlender linearer Zusammenhang:
quadratisch
Mischpopulationen – heterogene Gruppen
r ~ 0,2
zyklisch
r1 ~ 0,75
y
r2 ~ -0,8
x
x
x
Page 65
J.Haas
Korrelation – Missinterpretation III
x
Page 66
J.Haas
Korrelationskoeffizient nach Spearman
Monotoner Zusammenhang
Ausreißer
„je höher das Alter umso höher das Cholesterin“
Klumpeneffekt
Basiert auf den Rängen der Daten
r ~ 0,95
r ~ 0,85
n
r1 ~ -0,5
r2 ~ -0,05
rs = 1 −
6∑ d i2
i =1
3
n −n
wobei di2 = [Rang(x) – Rang(y)]2
x
x
Charles Spearman (1863-1945)
J.Haas
Page 67
J.Haas
Page 68
17
Beispiel: Monotoner Zusammenhang zwischen Cholesterin - BMI
Chol.
BMI
Rang
Chol.
Rang
BMI
Pearson‘scher Korrelationskoeffizient misst linearen
di 2
192
22,2
4
5
1
190
22,5
3
7
16
180
20,5
2
2
0
205
24,3
5
10
25
260
24,1
10
9
1
113
19,6
1
1
0
222
22,4
8
6
4
215
22,0
6,5
4
6,25
215
22,7
6,5
8
2,25
225
20,7
9
3
36
J.Haas
6 ⋅ 91,5
rs = 1 −
1000 − 10
Zusammenhang
„Liegen die Punkte auf einer Linie?“
Wird stark beeinflusst von extremen Beobachtungen
Parametrisch (= die ursprünglich beobachteten Werte werden zur
Berechnung herangezogen)
= 0,4438
Spearman‘scher Korrelationskoeffizient misst monotonen
Zusammenhang
„Je höher das Alter umso höher ist das Cholesterin“
Robust gegenüber extremen Beobachtungen
Nicht-parametrisch (= die rangtransformierten Werte werden zur
Berechnung herangezogen)
Page 69
Beispiele
J.Haas
Unterschied
J.Haas
Page 70
Beispiele
Page 71
J.Haas
Page 72
18
Beispiele
Korrelation
Unabhängigkeitssatz:
Sind 2 Variablen voneinander (statistisch) unabhängig, so sind sie
unkorreliert. ABER:
Unkorreliertheitssatz:
Sind 2 Variablen unkorreliert, so sind sie nicht unbedingt unabhängig.
Das kann so sein, muss aber nicht so sein.
Linearitätssatz:
Gibt es zwischen 2 Variablen einen linearen Zusammenhang, so zeigt
dies der Korrelationskoeffizient. Aus einem hohen Korrelationskoeffizient
darf aber nicht auf einen linearen Zusammenhang geschlossen werden!
Transformation:
Der Korrelationskoeffizient ändert sich nicht bei linearen
Transformationen der Daten
J.Haas
Page 73
Korrelation – weiterführende & verwandte Methoden
Page 74
J.Haas
Partielle Korrelation
Kendall Rangkorrelation
Zusammenhang zwischen
Alter, Blutdruck und Cholesterin
Intra-Class-Correlation ICC zur Quantifizierung der Übereinstimmung
Partielle Korrelation von A mit B
(Interrater-Reliabilität) zwischen mehreren Beurteilern
A
Kreuzkorrelation (Signalverarbeitung)
unter Berücksichtigung von C :
rAB − rAC ⋅ rBC
rAB.C =
2
2
1 − rAC
⋅ 1 − rBC
Autokorrelation – Zeitreihen
(
Partielle Korrelation zur Ausschaltung von Störgrößen
rAB=0,33
rAB.C=0,34
B
J.Haas
Page 75
J.Haas
)(
)
rAC=0,50
rAC.D=0,59
rBC=0,25
rBC.A=0,10
C
Page 76
19
Regression
Regression
Sir Francis Galton (1822-1911)
Regression Towards Mediocrity in Hereditary
Stature. Journal of the Anthropological
Institute 15 (1886) 246
„Each peculiarity in a man is shared by his
kinsman but on the average in a lesser
degree.“
Karl Pearson (1857-1936)
Regressionsmethoden, Korrelation
Page 77
J.Haas
Die Regressionsanalyse
J.Haas
Page 78
Bezeichnungen
Die
interessierende Variable (syn. abhängige Variable, Regressand,
response, outcome) y-Achse
Viele medizinische Studien untersuchen den Einfluss mehrerer
verschiedener Faktoren auf eine Zielgröße.
Therapie, Dosis
Therapieerfolg
soll durch eine oder mehrere
Tumorgröße, -stadium
Überlebenszeit
Alter, Gewicht
Cholesterin
erklärende Variablen (syn. unabhängige Variable(n), Regressor, Predictor,
erklärende Variable(n)) x-Achse
mit Hilfe eines mathematischen Modells (Regressionsgleichung)
beschrieben bzw. vorhergesagt werden.
Es geht um die
konzise Beschreibung eines statistischen Zusammenhangs
Klärung, ob die Wirkung eines Faktors unabhängig von anderen ist
Ziel der Regressionsanalyse ist also Vorhersage, Prediction
Möglichkeit der Prognose für einen einzelnen Patienten
J.Haas
Methode: Die Abweichungsquadrate der beobachteten Werte zur
Regressionsgeraden sollen minimiert werden
Page 79
J.Haas
Page 80
20
Geradengleichung
Regression - Methode der Kleinsten Quadrate
Das einfachste mathematische Modell für
eine Regression ist eine lineare Gleichung:
(x1,y1),(x2,y2),…,(xn,yn)
Geradengleichung:
xi ... abhängige / erklärende Variable; Regressor
y = k⋅x+d
... Paare von Messungen metrischer Größen
yi ... unabhängige Variable; Regressand
y
Als statistisches Modell
Für die Berechnung der abhängigen Variablen soll die Gerade so liegen,
k
Y = ß0 + ß1 ⋅ X
dass die Streuung der beobachteten Werte um diese Gerade möglichst
klein ist. Diese Gerade ist die Regressionsgerade.
und als empirisches Modell mit Daten (xi;yi)
d
wobei εi den „Fehler“ beschreibt
x
Page 81
J.Haas
Regression - Methode der Kleinsten Quadrate
Page 82
J.Haas
Regression
Für den Zusammenhang zwischen xi und yi soll folgendes Modell
gelten:
yi=β0+β1xi+εi
β0 und β1 sind die Regressionskoeffizienten
Problem: Finde eine Gerade, so das
der Abstand zwischen den
Datenpunkten und der Geraden
minimal wird
β0 ist die Konstante (Intercept) in der Regressionsgerade
Residuen Min
β1 ist die Steigung der Regressionsgeraden
Methode der kleinsten Quadrate
Die Regressionsgerade verläuft durch den Schwerpunkt
(x, y )
95
90
85
Körpergewicht [kg]
yi = ß0 + ß1 ⋅ xi + ε i
80
75
70
65
60
160
165
170
175
180
185
190
195
Körpergröße [cm]
J.Haas
Page 83
J.Haas
Page 84
21
Regression - Voraussetzungen
Bestimmtheitsmaß – Güte der Anpassung
Maß für die Güte der Anpassung
= Bestimmtheitsmaß = Quadrat des Korrelationskoeffizienten
Skalierung: Beide Merkmale sind intervallskaliert und stetig
Normalverteilung: Die Werte der Outcome-Variablen Y sollten
normalverteilt sein für jeden Wert der erklärenden Variablen X
Varianzhomogenität: Die Variabilität von Y (entspricht der Varianz
bzw. der Standardabweichung) sollte gleich sein für jeden Wert von
X.
Linearitätsbedingung: Der Zusammenhang ist annähernd linear
R
2
∑ ( yˆ
=
∑ (y
− y)
2
i
− y)
2
i
=
s yˆ
2
sy
2
=
erklärte Varianz
Gesamtvari anz
Gibt näherungsweise den Anteil der Varianz der Daten an, welche durch
das Modell erklärt wird
Die einzelnen Beobachtungseinheiten sind voneinander unabhängig
0 ≤ R2 ≤ 1
X ist (üblicherweise) eine feste Variable
Cave! bei Extrapolation über den Wertebereich hinaus
Cave! Regression ist richtungsabhängig, dh. y=f(x) liefert andere
Ergebnisse als x=f(y)
Page 85
J.Haas
Gegenüberstellung
R2=0,45 bedeutet, dass 45% der Varianz durch die Regression erklärt wird
und 55% in den εi stecken
J.Haas
Page 86
Regression – weiterführende Methoden I
Exponentielle Regression
Korrelation
Beschreibt die Stärke des
Zusammenhangs von zwei
Variablen
X und Y sind Zufallsvariable
Die Variablen sind
« gleichberechtigt »
keine Kausalität
Regression
Y = a ⋅ exp(b ⋅ X ) ≈ ln(Y ) = ln( a) + b ⋅ X
Verwendet ein Modell (meistens
linear)
Y hängt von X ab
X ist eine feste Größe, Y eine
Zufallsvariable
Dient zur Prädiktion (cave!)
Kausalität wird vom Modell
impliziert
Multiple Regression
Y = ß0 + ß1 ⋅ X 1 + L + ßn ⋅ X n
Multivariate Regression
Y1 = F ( ß; X )
Fazit
L
J.Haas
Korrelation und Regression sind vom Methodenapparat sehr ähnlich. Die
Voraussetzungen sind identisch, der Unterschied liegt in der Anwendung:
Korrelation ist eher deskriptiv - Regression ist eher wertend.
Grundregeln für beide Verfahren:
univariate Analyse, Scatterplot, Voraussetzungen überprüfen
Page 87
Yr = F ( ß; X )
Nichtlineare Regression
Y = A ⋅ bT ⋅ exp (− c ⋅ T )
J.Haas
Page 88
22
Regression – weiterführende Methoden II
Multiples Lineares Regressionsmodell
Logistische Regression – Logitmodell
Es gibt mehrere unabhängige Variablen
 p 
 = ß0 + ß1 ⋅ X 1 + L + ßn ⋅ X n
log 
1− p 
exp( ß0 + ß1 ⋅ X 1 + L + ßn ⋅ X n )
P (Yi = 1 | X i = x i ) =
1 + exp( ß0 + ß1 ⋅ X 1 + L + ßn ⋅ X n )
y = β 0 + β1 x1 + β 2 x2 + ... + β k xk
Modellieren
Ziel: systematische Eigenschaften von Zufallsschwankungen trennen
Modell soll den beobachteten Daten gut angepasst sein
Probitmodell
Modell soll einfach sein und damit leicht zu interpretieren
Poisson – Regression bei Zählprozessen
J.Haas
Modell soll Daten möglichst gut erklären und Werte vorhersagen
Page 89
Strategie
J.Haas
Page 90
Überprüfung der Voraussetzungen
Wichtig: Inhaltliche und statistische Aspekte berücksichtigen
Hypothesen generieren oder überprüfen – Modell suchen oder Modell
bestätigen?
Wie sind die Daten verteilt?
Gibt es Zusammenhänge zwischen den unabhängigen Variablen?
Wie kann das Modell vereinfacht werden?
Alle Variablen werden ins Modell aufgenommen
Wie gut ist mein Modell?
Eine Variable wird ins Modell aufgenommen
Welche Variablen haben einen Einfluss?
Kombination vorwärts/rückwärts
Wie ist der zeitliche Ablauf?
Wie gut sind meine Schätzer?
J.Haas
Page 91
J.Haas
Page 92
23
Boxplots
Test2
IQ
Test1
Test1
Box Plot
140,0
Test2
Amount
93,3
46,7
0,0
Test1
Test2
Test3
Test4
Test5
IQ
IQ
Variables
J.Haas
Page 93
Probleme bei Modellieren
J.Haas
Page 94
Logistisches Regressionsmodell
Ungünstige Verteilung der Daten: z.B. Therapie 1 wird fast ausschließlich
bei jungen und Therapie 2 fast ausschließlich bei älteren Patienten
eingesetzt
Parameter können nicht berechnet werden
Annahme: das Eintreffen eines Ereignisses einer dichotomen Variablen
y ist mit 1 codiert, ihr Nicht-Eintreffen mit 0.
Output der logistischen Regressionsgleichung sind odds ratios.
Schätzung des relativen Risikos.
Die Bedeutung einer erklärenden Variablen ist abhängig von der
 p 
 = β 0 + β1 x1 + β 2 x2 + ... + β k xk
log
1− p 
jeweiligen Ausprägung einer anderen erklärenden Variablen
Wechselwirkung
Kollinearität
Nichtlineare Effekte
Fehlende Werte
Extreme Werte
J.Haas
Page 95
J.Haas
Page 96
24
Analyse von Lebensdauerdaten
Lebensdauer = Zeit zwischen einem Startpunkt (Anfangsdatum) und
einem aufgetretenen Ereignis (Enddatum)
Startpunkte
Diagnose einer Krankheit
Beginn einer Behandlung
Operation
Randomisierung
Endpunkte
Tod
Rezidiv
Funktionsende eines Organs
Analyse von Lebensdauerdaten
Erfolg einer Behandlung
Page 98
J.Haas
Zensierte Daten
Zensierte Daten
9
9
8
18
#
7
#…Ereignis
eingetreten
#
#
7
26
6
l
5
5
#
4
w…abgebrochene
Beobachtungen
(withdrawn alive)
l
84
w
3
42
2
#
1
l… verlorene Fälle
(lost cases)
w
63
#
w
31
0
0
1/1990
1/1991xxxx
Kalendarische Zeit der Untersuchung
J.Haas
1/1992
0
Studienende
5
10
xxxx
15
20
25
Individuelle Beobachtungszeit nach Aufnahme in die Studie
(Monate)
Page 99
J.Haas
Page 100
25
Kumulierte Überlebensraten
Kumulierte Überlebensraten
Aber: Abbrechen von Verlaufsbeobachtungen vor diesem Zeitpunkt ohne
Beispiel:
Angaben über ein späteres Auftreten es Zielereignisses
Pilotstudie zur Wirksamkeit eines Raucherentwöhnungsregimes
Daher: Zerlegung der Beobachtungszeit in möglichst kleine Zeitintervalle, z.B. in
Dauer der Abstinenz
die Zeiteinheit, in der man die Verläufe notiert.
Kontrollgruppe A, n=10
Berechnung der relative Häufigkeit p(i)=(r(i)-d(i))/r(i), mit der die r(i) Probanden,
Verumgruppe B, n=12
die bis zum Beginn des i-ten Intervalls abstinent waren, auch dieses Intervall
ohne Rückfall überlebt, für jedes Zeitintervall i.
Studiendauer 6 Wochen
Die Rate derer, die nach T Zeitintervallen noch ereignisfrei sind, die kumulierte
Überlebensrate S(T), wird dann nach der Kaplan-Meier-Methode (product-limit
method) als Produkt der p(i) über alle Intervalle geschätzt.
Gruppe A: 3, 3, 6, 6*, 9, 13, 16*, 21, 29*, 35*
Gruppe B: 4, 7, 12*, 16, 26*, 29*, 31*, 31*, 32*, 35, 39*, 42*
Wenn für alle Probanden die Zeit bis zum Rückfall bekannt wäre, könnte man in
S (T ) = p (1) ⋅ p (2 ) ⋅ p (3)... p (T − 1) p (T )
jeder Gruppe die Abstinenzrate S(T) zu einem beliebigen Zeitpunkt T als
relativen Anteil der erst nach diesem Zeitpunkt auftretenden Rückfälle
bestimmen.
Page 101
J.Haas
Überlebensrate
Page 102
J.Haas
Beispiel
Im Beispiel = Abstinenzrate: Gruppe A
Abstinenzraten in Abhängigkeit von der Zeit nach Therapiebeginn in Gruppe
Alle 10 Probanden sind in den ersten 2 Tagen nach Therapiebeginn abstinent
A (kumulierte Überlebensraten)
Überlebensrate = 100 %
Tag
Fallzahl unter
Risiko ri
IntervallÜberlebens-rate pi
(Kumulierte)
Überlebens-rate
Si
Standardfehler se(Si)
d
3
1
10
0,90
0,90
0,09
3
1
9
0,89
0,80
0,12
6
1
8
0,88
0,70
0,14
6
0
7
1,00
Dritter Tag: 2 Probanden werden rückfällig; die übrigen 8 „überleben“ diesen
Rückfall
Tag ohne Rückfall, daher:
S (3) = p (1) ⋅ p (2 ) ⋅ p (3) = (10 10 ) ⋅ (10 10 ) ⋅ (8 10 ) = 0,8
Vierter und fünfter Tag: Keine Rückfälle, die Überlebensrate bleibt konstant bei
80 %.
Sechster Tag: Ein Rückfall und ein Patient schied aus.
J.Haas
Page 103
J.Haas
9
1
6
0,83
0,58
0,15
13
1
5
0,80
0,47
0,15
16
0
4
1,00
21
1
3
0,67
0,31
0,15
29
0
2
1,00
35
0
1
1,00
Page 104
26
Standardfehler der kumulierten Überlebensrate S(T)
Konfidenzintervalle
se (S (T )) = S (T ) (1 − S (T )) r (T )
S (T ) ± 1,96 ⋅ se(S (T ))
95%-Konfidenzintervall für S(21)
0,31 − 1,96 ⋅ 0,15 = 0,02
Untere Schranke
0,31 + 1,96 ⋅ 0,15 = 0,67 Obere Schranke
Im Beispiel nach 3 Wochen:
se(S (21)) = S (21) (1 − S (21)) r (21)
= 0,31 ⋅
(1 − 0,31) 3 = 0,15
Da die Anzahl der unter Risiko stehenden Probanden nach und nach
abnimmt, wird der Standardfehler für die Überlebensraten mit der Zeit
größer, d.h. die Schätzungen der Überlebensraten verlieren zunehmend
an Präzision.
Page 105
J.Haas
Überlebenskurve
Page 106
J.Haas
Hazardfunktion
Hazard-Funktion
1,2
1,0
1,0
0,8
Kum Hazard
Kumulierte Nichtraucherrate
Überlebensfunktionen
0,6
0,4
0,8
0,6
0,4
0,2
0,2
0,0
0,0
0
7
14
21
28
35
42
0
Tage
Gruppe
A
B
J.Haas
7
14
A-zensiert
B-zensiert
A
B
Page 107
J.Haas
21
28
35
42
Tage
Gruppe
A-zensiert
B-zensiert
Page 108
27
Vergleich von Überlebenszeiten
Cox-Modell
Log-Rank-Test
Modell nach Cox (1972)
Vergleich des „gesamten“ Kurvenverlaufs
H 0 : S A (T ) = S B (T )
Auch proportional hazard model genannt
H 1 : S A (T ) ≠ S B (T )
z=
S A (T ) − S B (T )
[se(S A (T ))]2 + [se(S B (T ))]2
z=
S A (21) − S B (21)
[se(S A (21))]2 + [se(S B (21))]2
=
0,31 − 0,74
(0,15)2 + (0,13)2
Modellierung des Effekts von erklärenden Variablen
(unabhängige Variablen) auf die Wahrscheinlichkeit eines
Ereignisses (Tod, Rezidiv, Erfolg) das im Zeitverlauf
eintreten kann.
=
− 0,43
= −2,17
0,198
− 2,17 < −1,96
d.h. Unterschied ist signifikant.
Page 109
J.Haas
Cox-Modell
Page 110
Annahmen
hi (t , x i ) = h0 (t ) exp(x′i β )
p unbekannte Regressionskoeffizienten
β = (β1 , β 2 , K , β p )
p Kovariablen
x i = (x i1 , x i2 , K , x ip )
i Individuen
′
′
Kovariablen sind konstant über die Zeit
Proportionale Hazardraten
Unabhängige Kovariablen beeinflussen den Hazard
multiplikativ
h(t , x1 ) h0 (t ) exp(β ′x1 )
=
= exp[β ′( x1 − x2 )]
h(t , x2 ) h0 (t ) exp(β ′x2 )
Diese Annahmen müssen vor dem Modellieren mit Hilfe
graphischer Methoden und verschiedener Tests validiert
werden!
Hazardrate für 2 beliebige Individuen mit
Kovariablenvektoren x1 und x2
J.Haas
J.Haas
Page 111
J.Haas
Page 112
28
Herunterladen