Grundbegriffe und Grundlagen der Statistik Vortragender: Thomas Zidek Allgemeinmediziner 1 Was werden wir behandeln ? • • • • Grundbegriffe der Statistik 2 wesentliche Themen bereits behandelt Wissenschaftliche Studien Bias 1 Was frage ich mich zu Beginn ? • Warum wurde die Studie durchgeführt ? Welche therapeutische Fragestellung wurde behandelt ? • Welche Art von Studie wurde durchgeführt ? • Ist das Studiendesign passend zur Fragestellung ? 1 Welche Studien wofür ? (Pyramid of evidence) 1. Systematic reviews and metaanalyses 2. (Randomised) controlled trials 3. Cohort studies 4. Case-control studies 5. Cross sectional study 6. Fallbeschreibungen 1 Grundlegende methodische Fragen I • Frage 1: Ist der Inhalt der Studie neu? • Frage 2: Wer sind die StudienpatientInnen? • Frage 3: Passt das Studiendesign zur Fragestellung ? 1 Grundlegende methodische Fragen II • Frage 4: Wurde der systematische Fehler (Bias) soweit als möglich vermieden ? • Frage 5: Wurde der Erfolg „blind“ gemessen? • Frage 6: Wurden grundlegende statistische Fragen behandelt ? – Sample-grösse – Follow-up Zeit – Vollständigkeit des follow up 1 "Signifikante" Zusammenhänge • Zwischen 2 Variablen besteht möglicherweise ein kausaler Zusammenhang wenn er 1. 2. 3. 4. 5. 6. stark ist konsistent ist spezifisch ist plausibel ist in einer zeitliche Reihenfolge ist evtl eine Dosiswirkungskurve hat 1 Variable? Daten? • Was ist eine Variable ? Die Variable ist ein Attribut oder Ereignis, das in einer wissenschaftliche Studie gemessen wird und das deren Grundlage bildet. • Was ist ein Datum (Einzahl von Daten)?Die Ausprägung die eine Variable für eine bestimmte Versuchseinheit (Werkstück, Versuchstier,...) annimmt. 1 Welche Daten ? Welche Daten werden beschrieben und wurde der richtige statistische Test verwendet ? 2. Sind die Daten ausgewertet worden wie im ursprünglichen Protokoll angegeben ? 3. Sind die Gruppen in anderen gesundheitlich wesentlichen Einflussfaktoren vergleichbar; wurden diese Unterschiede korrigiert ? 1. 1 Daten Qualitativ • Nominal (Haarfarbe, Augenfarbe, Geschlecht, Bildung) • Ordinal Daten haben eine natürliche Ordnung: (Lebensqualität, Schweregrad einer Krankheit) Quantitativ • Diskret (Anzahl Menschen in der UBahn, Leukozytenzahl, Kinderzahl) • Stetig (Grösse, Gewicht, Hundertmeter Laufzeit) 1 Deskriptive Statistik I/1 Lagemaße • Mittelwert Summe der • Messwerte/ n • Median • Messwerte reihen – der Wert unter dem 50% der Werte liegen • Minimum • Maximum Lagemaße 2 • Modus Wert der am häufigsten vorkommt • Quantile Werte unter denen ein bestimmter Prozentsatz der Messungen liegt 1 Deskriptive Statistik I/2 Streuungsmaße • Varianz Summe (Messungen – Mittelwert)2/Anzahl Streuungsmaße 2 • Interquartilsabstand Abstandzwischen 25% und 75% Quartil • Standardabweichung • Spannweite Wurzel(Varianz) Maximum - Minimum 1 Deskriptive Statistik II Beschreibung des Zusammenhanges zweier Variablen • Korrelation – Blutdruck SystoleDiastole • Kreuztabelle – Zeilenprozent – Spaltenprozent • Lineare Regression – Blutdruck –Gewicht – Lungenfunktion Anzahl tgl gerauchte Zigaretten 1 Mit wem würden sie am liebsten psychologische Probleme besprechen * Geschlecht Kreuztabelle Mit wem würden sie am liebsten psychologische Probleme besprechen Hausarzt andere Person weiss nicht Gesamt Anzahl Erwartete Anzahl % von Mit wem würden sie am liebsten psychologische Probleme besprechen % von Geschlecht Anzahl Erwartete Anzahl % von Mit wem würden sie am liebsten psychologische Probleme besprechen % von Geschlecht Anzahl Erwartete Anzahl % von Mit wem würden sie am liebsten psychologische Probleme besprechen % von Geschlecht Anzahl Erwartete Anzahl % von Mit wem würden sie am liebsten psychologische Probleme besprechen % von Geschlecht Geschlecht männlich weiblich 3 9 4,5 7,5 Gesamt 12 12,0 25,0% 75,0% 100,0% 3,6% 58 66,0 6,6% 117 109,0 5,5% 175 175,0 33,1% 66,9% 100,0% 69,9% 22 12,5 85,4% 11 20,6 66,7% 33,3% 100,0% 26,5% 83 83,0 8,0% 137 137,0 15,0% 220 220,0 37,7% 62,3% 100,0% 100,0% 100,0% 100,0% 79,5% 33 33,0 1 Korrelationskoeffizient Korrelation zwischen systolischem und diastolischem Blutdruck 200 180 RR-ysystolisch • Zeigt die gleichzeitige lineare Veränderung zweier normalverteilter oder zweier ordinaler Variablen. • Sagt nichts über Zusammenhang aus 160 140 120 100 80 60 70 80 90 100 110 RR-diastolisch 1 Regression • Die Regression unterstellt einen Zusammenhang Richtung der Wirkung ist eindeutig definiert. Man kann vorhersagen über einzelne abhängige Werte machen • Nur abhängige Var sollte ungefähr normalverteilt sein 20,00 15,00 10,00 5,00 0,00 0,00 0,20 0,40 0,60 0,80 1,00 1,20 -5,00 -10,00 -15,00 -20,00 -25,00 1 Was ist eine statistische Verteilung ? Unter der Verteilung einer Variablen versteht man die Gesetzmäßigkeit, nach der diese Variable ihre Werte annimmt. Die Verteilung beschreibt die Wahrscheinlichkeiten aller mit der Zufallsvariablen zusammenhängenden Ereignisse durch Parameter. Beispiel: Die meisten Männer sind zwischen 1,70 und 1,90 Meter gross. Mittelwert + Standardabw: 1,8 m; 10 cm In 100 Schulklassen werden in den meisten Klassen zwischen 30% und 70% Mädchen sein. 1 Grösse Männer 80 60 40 20 Std.abw. = 10,14 Mittel = 180,4 N = 614,00 0 5 2, 22 5 7, 21 5 2, 21 5 7, 20 5 2, 20 5 7, 19 5 2, 19 5 7, 18 5 2, 18 5 7, 17 5 2, 17 5 7, 16 5 2, 16 5 7, 15 5 2, 15 GRÖSSE 1 Mädchen 1 Welche Verteilungen gibt es ? (Parameter in Klammer) • Normalverteilung (Mittelwert, Standardabweichung) • Binomialverteilung (Wahrscheinlichkeit, Anzahl) • Poissonverteilung (Lambda) 1 Was ist der SEM (Standardirrtum des Mittelwertes) • Der Standardfehler des Mittelwertes ist die Standardabweichung dividiert durch die Quadratwurzel des Stichprobenumfangs n. • Bsp:Leukozytenzahl Raucher (Anzahl:41, 490) • Mittelwert: 7800 Leu,Standarabw: 2400 Leu • SEM (bei Anz:41): 2400/wurzel (41)=374,8 • SEM (bei Anz:490): 2400/wurzel (490)=108,4 1 Statistischer TestWas ist das ? • Statistischer Test: Ein statistischer Test liefert nach bestimmten Regeln eine Entscheidung darüber, ob eine vorgegebene Hypothese über die zu untersuchende Grundgesamtheit anhand von Daten aus einer Stichprobe verworfen werden muß oder nicht verworfen werden kann. Man/Frau formuliert eine Ausgangshypothese als Nullhypothese H0 und stellt ihr als Gegenhypothese die Alternativhypothese H1 gegenüber. 1 Was ist eine Hypothese ? •„Eine Hypothese ist eine vermutete Antwort auf eine (wissenschaftliche) Frage“ (Huber, 2000). 1 Alpha und Beta Fehler der „p-Wert“ • • Alpha-Fehler. Ablehnung von H0, obwohl H0 richtig ist. Die Wahrscheinlichkeit für den Fehler 1. Art wird im statistischen Test durch eine beliebig klein vorgegebene Grenze der Irrtumswahrscheinlichkeit (z.B. = 0,05) kontrolliert. Dieser Fehler wird üblicherweise mit Alpha bezeichnet. Er entspricht dem pWert. Beta-Fehler Fehler 2. Art in der Annahme von H0, obwohl H1 richtig ist. Die Wahrscheinlichkeit für diesen Fehler bezeichnet man üblicherweise mit Beta . Die Wahrscheinlichkeit, eine richtige Alternativhypothese im statistischen Test auch tatsächlich als richtig zu erkennen, ist dann (1-ß). Man nennt diese Wahrscheinlichkeit auch Macht (engl.: power) des Tests. 1 Statistischer Test – Alpha + Betafehler MW: 7000, 7800 STD: 2000, 2400 Annahmebereich von H0 Ablehnungsbereich von H0 18 16 14 Anzahl 12 10 8 6 4 2 0 6716,58 6869,94 7023,30 7176,66 7330,02 7483,38 7636,74 7790,10 7943,45 8096,81 1 Was ist ein Konfidenzintervall ? • Ein Konfidenzintervall ist ein geschätztes Intervall, welches den wahren Wert eines unbekannten Parameters (z.B. Erwartungswert) mit vorgegebener Wahrscheinlichkeit 1 - α , z.B. 95 %, überdeckt. 1 Beispiel • Wenn man hundert Klassen auf ihr Verhältnis Mädchen zu Buben untersucht so wird man in ungefähr 95 % der Fälle feststellen dass die Anzahl zwischen 9 und 20 Mädchen pro Klasse liegt. 1 Welcher Test wofür ? (ein Kochbuch) 1 Univariate Verfahren T-Test unabhängig (gleiche, ungl Var) Man-Whitney –Test Vergleicht den MW 2er Stichproben T-Test gepaart Wilcoxon matched pairs Vergleicht 2 Messungen in einer Stichprobe χ2 –Test Fisher‘s exakter Test Beschreibt stat einer Kreuztabelle Korrelation (Pearson) Korrelation (Spearman) Gibt Zusammenhang zwischen 2 ordinal od metrischen Variablen an 1 Multivariate Verfahren (eine Auswahl) Lineare Regression Nicht parametrische Regression Eine abhängige – mehrere Erklärende Varianzanalyse Kruskall-Wallis RangVarianzanalyse (T-Test für mehr als 2 Gruppen) Logistische Regression Logistische Regression Eine 0-1 kodierte abhängige mehrer unabhängige Variablen 1 Mit wem würden sie am liebsten psychologische Probleme besprechen * Geschlecht Kreuztabelle Mit wem würden sie am liebsten psychologische Probleme besprechen Hausarzt Kreuztabelle andere Person weiss nicht Gesamt Anzahl Erwartete Anzahl % von Mit wem würden sie am liebsten psychologische Probleme besprechen % von Geschlecht Anzahl Erwartete Anzahl % von Mit wem würden sie am liebsten psychologische Probleme besprechen % von Geschlecht Anzahl Erwartete Anzahl % von Mit wem würden sie am liebsten psychologische Probleme besprechen % von Geschlecht Anzahl Erwartete Anzahl % von Mit wem würden sie am liebsten psychologische Probleme besprechen % von Geschlecht Geschlecht männlich weiblich 3 9 4,5 7,5 Gesamt 12 12,0 25,0% 75,0% 100,0% 3,6% 58 66,0 6,6% 117 109,0 5,5% 175 175,0 33,1% 66,9% 100,0% 69,9% 22 12,5 85,4% 11 20,6 79,5% 33 33,0 66,7% 33,3% 100,0% 26,5% 83 83,0 8,0% 137 137,0 15,0% 220 220,0 37,7% 62,3% 100,0% 100,0% 100,0% 100,0% 1 Chiquadrattest Chiquadrat: Wert 14,156 df Signif 2 ,001 1 Homepages für Statistik in der Allgemeinmedizin http://medweb.unimuenster.de/institute/imib/lehre/skripte/biomathe/bio.html • How to read a paper: http://bmj.com/cgi/search?author1=Greenhalgh&author2=&titleabstrac t=How+to+read+a+paper&fulltext="education+and+debate"&resource type=1%2C2%2C3%2C4%2C10&fmonth=Jan&fyear=1996&tmonth= Apr&tyear=2000&hits=10&sendit=Search&volume=&firstpage=&fda tedef=1+January+1994&tdatedef=20+April+2002 • EMAIL: [email protected] Thomas Zidek Gudrunstr 17/1/7 1100 wien • 1