Grundlagen der Statisik - Zidek

Werbung
Grundbegriffe und
Grundlagen der Statistik
Vortragender: Thomas Zidek
Allgemeinmediziner
1
Was werden wir behandeln ?
•
•
•
•
Grundbegriffe der Statistik
2 wesentliche Themen bereits behandelt
Wissenschaftliche Studien
Bias
1
Was frage ich mich zu Beginn ?
• Warum wurde die Studie durchgeführt ?
Welche therapeutische Fragestellung wurde
behandelt ?
• Welche Art von Studie wurde durchgeführt ?
• Ist das Studiendesign passend zur Fragestellung
?
1
Welche Studien wofür ?
(Pyramid of evidence)
1. Systematic reviews and metaanalyses
2. (Randomised) controlled trials
3. Cohort studies
4. Case-control studies
5. Cross sectional study
6. Fallbeschreibungen
1
Grundlegende methodische
Fragen I
• Frage 1: Ist der Inhalt der Studie neu?
• Frage 2: Wer sind die StudienpatientInnen?
• Frage 3: Passt das Studiendesign zur
Fragestellung ?
1
Grundlegende methodische
Fragen II
• Frage 4: Wurde der systematische Fehler
(Bias) soweit als möglich vermieden ?
• Frage 5: Wurde der Erfolg „blind“ gemessen?
• Frage 6: Wurden grundlegende statistische
Fragen behandelt ?
– Sample-grösse
– Follow-up Zeit
– Vollständigkeit des follow up
1
"Signifikante"
Zusammenhänge
•
Zwischen 2 Variablen besteht
möglicherweise ein kausaler
Zusammenhang wenn er
1.
2.
3.
4.
5.
6.
stark ist
konsistent ist
spezifisch ist
plausibel ist
in einer zeitliche Reihenfolge ist
evtl eine Dosiswirkungskurve hat
1
Variable? Daten?
• Was ist eine Variable ?
Die Variable ist ein Attribut oder Ereignis, das in einer
wissenschaftliche Studie gemessen wird und das deren
Grundlage bildet.
• Was ist ein Datum (Einzahl von Daten)?Die
Ausprägung die eine Variable für eine bestimmte
Versuchseinheit (Werkstück, Versuchstier,...)
annimmt.
1
Welche Daten ?
Welche Daten werden beschrieben und
wurde der richtige statistische Test
verwendet ?
2. Sind die Daten ausgewertet worden wie im
ursprünglichen Protokoll angegeben ?
3. Sind die Gruppen in anderen gesundheitlich
wesentlichen Einflussfaktoren vergleichbar;
wurden diese Unterschiede korrigiert ?
1.
1
Daten
Qualitativ
• Nominal (Haarfarbe,
Augenfarbe,
Geschlecht,
Bildung)
• Ordinal Daten
haben eine
natürliche Ordnung:
(Lebensqualität,
Schweregrad einer
Krankheit)
Quantitativ
• Diskret (Anzahl
Menschen in der UBahn, Leukozytenzahl, Kinderzahl)
• Stetig (Grösse,
Gewicht, Hundertmeter Laufzeit)
1
Deskriptive Statistik I/1
Lagemaße
• Mittelwert
Summe der
• Messwerte/ n
• Median
• Messwerte reihen – der
Wert unter dem 50%
der Werte liegen
• Minimum
• Maximum
Lagemaße 2
• Modus
Wert der am häufigsten
vorkommt
• Quantile
Werte unter denen ein
bestimmter Prozentsatz der
Messungen liegt
1
Deskriptive Statistik I/2
Streuungsmaße
• Varianz
Summe (Messungen –
Mittelwert)2/Anzahl
Streuungsmaße 2
• Interquartilsabstand
Abstandzwischen 25%
und 75% Quartil
• Standardabweichung • Spannweite
Wurzel(Varianz)
Maximum - Minimum
1
Deskriptive Statistik II
Beschreibung des Zusammenhanges
zweier Variablen
• Korrelation
– Blutdruck SystoleDiastole
• Kreuztabelle
– Zeilenprozent
– Spaltenprozent
• Lineare Regression
– Blutdruck –Gewicht
– Lungenfunktion
Anzahl tgl gerauchte
Zigaretten
1
Mit wem würden sie am liebsten psychologische Probleme besprechen * Geschlecht Kreuztabelle
Mit wem würden sie am
liebsten psychologische
Probleme besprechen
Hausarzt
andere Person
weiss nicht
Gesamt
Anzahl
Erwartete Anzahl
% von Mit wem würden
sie am liebsten
psychologische
Probleme besprechen
% von Geschlecht
Anzahl
Erwartete Anzahl
% von Mit wem würden
sie am liebsten
psychologische
Probleme besprechen
% von Geschlecht
Anzahl
Erwartete Anzahl
% von Mit wem würden
sie am liebsten
psychologische
Probleme besprechen
% von Geschlecht
Anzahl
Erwartete Anzahl
% von Mit wem würden
sie am liebsten
psychologische
Probleme besprechen
% von Geschlecht
Geschlecht
männlich
weiblich
3
9
4,5
7,5
Gesamt
12
12,0
25,0%
75,0%
100,0%
3,6%
58
66,0
6,6%
117
109,0
5,5%
175
175,0
33,1%
66,9%
100,0%
69,9%
22
12,5
85,4%
11
20,6
66,7%
33,3%
100,0%
26,5%
83
83,0
8,0%
137
137,0
15,0%
220
220,0
37,7%
62,3%
100,0%
100,0%
100,0%
100,0%
79,5%
33
33,0
1
Korrelationskoeffizient
Korrelation zwischen systolischem und
diastolischem Blutdruck
200
180
RR-ysystolisch
• Zeigt die gleichzeitige
lineare Veränderung
zweier normalverteilter
oder zweier ordinaler
Variablen.
• Sagt nichts über
Zusammenhang aus
160
140
120
100
80
60
70
80
90
100
110
RR-diastolisch
1
Regression
• Die Regression
unterstellt einen
Zusammenhang Richtung der Wirkung
ist eindeutig definiert.
Man kann vorhersagen
über einzelne
abhängige Werte
machen
• Nur abhängige Var
sollte ungefähr
normalverteilt sein
20,00
15,00
10,00
5,00
0,00
0,00
0,20
0,40
0,60
0,80
1,00
1,20
-5,00
-10,00
-15,00
-20,00
-25,00
1
Was ist eine statistische
Verteilung ?
Unter der Verteilung einer Variablen versteht man
die Gesetzmäßigkeit, nach der diese Variable ihre
Werte annimmt. Die Verteilung beschreibt die
Wahrscheinlichkeiten aller mit der Zufallsvariablen
zusammenhängenden Ereignisse durch
Parameter.
Beispiel: Die meisten Männer sind zwischen 1,70
und 1,90 Meter gross. Mittelwert + Standardabw:
1,8 m; 10 cm
In 100 Schulklassen werden in den meisten Klassen
zwischen 30% und 70% Mädchen sein.
1
Grösse Männer
80
60
40
20
Std.abw. = 10,14
Mittel = 180,4
N = 614,00
0
5
2,
22
5
7,
21
5
2,
21
5
7,
20
5
2,
20
5
7,
19
5
2,
19
5
7,
18
5
2,
18
5
7,
17
5
2,
17
5
7,
16
5
2,
16
5
7,
15
5
2,
15
GRÖSSE
1
Mädchen
1
Welche Verteilungen gibt es ?
(Parameter in Klammer)
• Normalverteilung
(Mittelwert, Standardabweichung)
• Binomialverteilung
(Wahrscheinlichkeit, Anzahl)
• Poissonverteilung (Lambda)
1
Was ist der SEM
(Standardirrtum des Mittelwertes)
• Der Standardfehler des Mittelwertes ist die
Standardabweichung dividiert durch die
Quadratwurzel des Stichprobenumfangs n.
• Bsp:Leukozytenzahl Raucher (Anzahl:41,
490)
• Mittelwert: 7800 Leu,Standarabw: 2400 Leu
• SEM (bei Anz:41): 2400/wurzel (41)=374,8
• SEM (bei Anz:490): 2400/wurzel (490)=108,4
1
Statistischer TestWas ist das ?
• Statistischer Test:
Ein statistischer Test liefert nach bestimmten
Regeln eine Entscheidung darüber, ob eine
vorgegebene Hypothese über die zu
untersuchende Grundgesamtheit anhand
von Daten aus einer Stichprobe verworfen
werden muß oder nicht verworfen werden
kann. Man/Frau formuliert eine Ausgangshypothese als Nullhypothese H0 und stellt ihr
als Gegenhypothese die Alternativhypothese
H1 gegenüber.
1
Was ist eine Hypothese ?
•„Eine Hypothese ist eine vermutete
Antwort auf eine (wissenschaftliche)
Frage“ (Huber, 2000).
1
Alpha und Beta Fehler
der „p-Wert“
•
•
Alpha-Fehler. Ablehnung von H0, obwohl H0 richtig ist. Die
Wahrscheinlichkeit für den Fehler 1. Art wird im statistischen
Test durch eine beliebig klein vorgegebene Grenze der
Irrtumswahrscheinlichkeit (z.B. = 0,05) kontrolliert. Dieser Fehler
wird üblicherweise mit Alpha bezeichnet. Er entspricht dem pWert.
Beta-Fehler Fehler 2. Art in der Annahme von H0, obwohl H1
richtig ist. Die Wahrscheinlichkeit für diesen Fehler bezeichnet
man üblicherweise mit Beta .
Die Wahrscheinlichkeit, eine richtige Alternativhypothese im
statistischen Test auch tatsächlich als richtig zu erkennen, ist
dann (1-ß). Man nennt diese Wahrscheinlichkeit auch Macht
(engl.: power) des Tests.
1
Statistischer Test –
Alpha + Betafehler
MW: 7000, 7800
STD: 2000, 2400
Annahmebereich von H0
Ablehnungsbereich von H0
18
16
14
Anzahl
12
10
8
6
4
2
0
6716,58
6869,94
7023,30
7176,66
7330,02
7483,38
7636,74
7790,10
7943,45
8096,81
1
Was ist ein Konfidenzintervall
?
• Ein Konfidenzintervall ist ein
geschätztes Intervall, welches den
wahren Wert eines unbekannten
Parameters (z.B. Erwartungswert) mit
vorgegebener
Wahrscheinlichkeit 1 - α , z.B. 95 %,
überdeckt.
1
Beispiel
• Wenn man hundert Klassen auf ihr
Verhältnis Mädchen zu Buben untersucht so
wird man in ungefähr 95 % der Fälle
feststellen dass die Anzahl zwischen 9 und
20 Mädchen pro Klasse liegt.
1
Welcher Test wofür ?
(ein Kochbuch)
1
Univariate Verfahren
T-Test unabhängig
(gleiche, ungl Var)
Man-Whitney –Test
Vergleicht den MW
2er Stichproben
T-Test gepaart
Wilcoxon matched
pairs
Vergleicht 2
Messungen in
einer Stichprobe
χ2 –Test
Fisher‘s exakter
Test
Beschreibt stat
einer Kreuztabelle
Korrelation (Pearson) Korrelation
(Spearman)
Gibt Zusammenhang
zwischen 2 ordinal od
metrischen Variablen
an
1
Multivariate Verfahren
(eine Auswahl)
Lineare
Regression
Nicht
parametrische
Regression
Eine abhängige –
mehrere Erklärende
Varianzanalyse
Kruskall-Wallis
RangVarianzanalyse
(T-Test für mehr als
2 Gruppen)
Logistische
Regression
Logistische
Regression
Eine 0-1 kodierte
abhängige mehrer
unabhängige
Variablen
1
Mit wem würden sie am liebsten psychologische Probleme besprechen * Geschlecht Kreuztabelle
Mit wem würden sie am
liebsten psychologische
Probleme besprechen
Hausarzt
Kreuztabelle
andere Person
weiss nicht
Gesamt
Anzahl
Erwartete Anzahl
% von Mit wem würden
sie am liebsten
psychologische
Probleme besprechen
% von Geschlecht
Anzahl
Erwartete Anzahl
% von Mit wem würden
sie am liebsten
psychologische
Probleme besprechen
% von Geschlecht
Anzahl
Erwartete Anzahl
% von Mit wem würden
sie am liebsten
psychologische
Probleme besprechen
% von Geschlecht
Anzahl
Erwartete Anzahl
% von Mit wem würden
sie am liebsten
psychologische
Probleme besprechen
% von Geschlecht
Geschlecht
männlich
weiblich
3
9
4,5
7,5
Gesamt
12
12,0
25,0%
75,0%
100,0%
3,6%
58
66,0
6,6%
117
109,0
5,5%
175
175,0
33,1%
66,9%
100,0%
69,9%
22
12,5
85,4%
11
20,6
79,5%
33
33,0
66,7%
33,3%
100,0%
26,5%
83
83,0
8,0%
137
137,0
15,0%
220
220,0
37,7%
62,3%
100,0%
100,0%
100,0%
100,0% 1
Chiquadrattest
Chiquadrat:
Wert
14,156
df
Signif
2
,001
1
Homepages für Statistik in der
Allgemeinmedizin
http://medweb.unimuenster.de/institute/imib/lehre/skripte/biomathe/bio.html
•
How to read a paper:
http://bmj.com/cgi/search?author1=Greenhalgh&author2=&titleabstrac
t=How+to+read+a+paper&fulltext="education+and+debate"&resource
type=1%2C2%2C3%2C4%2C10&fmonth=Jan&fyear=1996&tmonth=
Apr&tyear=2000&hits=10&sendit=Search&volume=&firstpage=&fda
tedef=1+January+1994&tdatedef=20+April+2002
•
EMAIL: [email protected]
Thomas Zidek
Gudrunstr 17/1/7 1100 wien
•
1
Herunterladen