Einführung in die Biostatistik Planung und Auswertung klinischer Studien Michael Meyer Michael Meyer Biostatistik Überblick Klinische Studien Phase I – IV, Studiendesign, Fragestellungen Randomisierung, Stratifizierung Analysesets per protocol, intent to treat, as treated, safety Zielparameter Endpunkte, Biomarker, Surrogatendpunkte Fehlende Werte Klassifizierung fehlender Werte, einfache Ersetzungstechniken Interimsanalysen, Studienabbruch Subgruppenanalysen Blind data review meeting Metaanalysen Studiendokumente Ethische und gesetzliche Bestimmungen M. Meyer Biostatistik Biostatistik 1 Überblick II Deskriptive Statistik Univariate Statistik - Skalenniveaus, graphische Darstellungen, Kenngrößen Bivariate Statistik - Punktwolken, Korrelation, Regression Wahrscheinlichkeits- und Verteilungstheorie Wahrscheinlichkeit, Binomial-, Normalverteilung, zentraler Grenzwertsatz Schätzungen Grundgesamtheit, Stichprobe, Punktschätzung, Konfidenzintervall, klinische Relevanz Testen von Hypothesen Fehler 1. und 2. Art, Signifikanzniveau, p-Wert, ausgewählte Testverfahren, Fallzahlberechnungen Diagnostische Kennwerte Binäre Klassifikation, ROC-Kurven Qualitätskontrolle Shewhart Plot, Bland-Altman Plot, Intraklassen Korrelationskoeffizient Michael Meyer M. Meyer Biostatistik Biostatistik Biostatistik 2 Klinische Studien M. Meyer Biostatistik Studien in der medizinischen Forschung ja Exposition ausgewählt? nein experimentelle Studie Beobachtungsstudie Randomisierung? ja randomisierte klinische Studie Vergleichsgruppe? nein nicht randomisierte klinische Studie ja analytische Studie nein deskriptive Studie Zeit? prospektiv Exposition -> Ergebnis Kohortenstudie M. Meyer Biostatistik retrospektiv Exposition <- Ergebnis Fall-Kontroll Studie Exposition, Ergebnis simultan Querschnittsstudie Biostatistik 3 Beobachtungsstudien Kohortenstudie Fall-Kontroll-Studie Querschnittstudie Hierarchie M. Meyer Biostatistik Entwicklung von Arzneimitteln Biologie Biossays, Molekularbiologie Analyse der Krankheit, Epidemiologie, Marktanalyse Targetidentifizierung und -validierung Klinische Phase II Studien Hinweis auf Wirksamkeit, Sicherheit, Tolerierbarkeit, Chemie Medizinische Chemie, Analytik Hitsuche Klinische Phase I Studien Dosisfindung, Pharmakokinetik, Sicherheit und Tolerierbarkeit Klinische Phase III Studien Wirksamkeit, Sicherheit und Tolerierbarkeit im Vergleich zu Standard oder Placebo Zulassung, Produktion, Vertrieb Leitstruktursuche Patentwesen Leitstrukturoptimierung Affinität, ADME, nonGLP Toxikologie, Metabolismus Präklinische Studien GLP-Toxikologie, Safety Pharmacology Formulierungsentwicklung, Scale-up der Synthese Klinische Phase IV Studien Langzeitüberwachung (u. a. Neben-, Wechselwirkungen) Optimierung des Produktlebenszyklus Details s. J. F. Pritchard et al., Nat. Rev. Drug Disc. 2, 542 (2003). M. Meyer Biostatistik Biostatistik 4 Phasen der klinischen Studien Präklinik in vitro/vivo Studien zur Dosierung, Pharmakokinetik, Wirksamkeit und Tox Phase 0 (microdosing study, first in human) sub-therapeutische Dosierung in einer sehr kleinen Gruppe von gesunden Freiwilligen erste Abschätzung der Pharmakokinetik im Menschen wird oft übersprungen Phase I (first in human) Zielsetzung dosislimitierende Toxizität (DLT), Dosierungsempfehlung für Phase II, Pharmakokinetik nach einfacher und mehrfacher Dosierung Voraussetzungen hoher medizinischer Bedarf, Plausibilität (valides Target), Nutzen (Aktivität in der Präklinik), Sicherheit (präklinische Tox), sichere Initialdosis M. Meyer Biostatistik Phasen der klinischen Studien II Phase I (Forts.) konventionelles 3+3 Design Behandlung einer Kohorte von 3 Personen und Prüfung auf DLT 0/3 DLT -> Dosissteigerung 1/3 DLT -> Einschluss von 3 weiteren Personen bei gleicher Dosis 1/6 DLT - > Dosissteigerung >1/6 DLT - > Abbruch, wähle nächstniedrigere Dosis Dosiseskalation Vermeidung von Behandlungen mit vielen unwirksamen Dosierungen und von zu hohen Dosierungen konventionelle Dosiseskalation ähnlich der Fibonacchi –Folge 1, 1, 2, 3, 5, 8, 13, … M. Meyer Biostatistik Biostatistik 5 Phasen der klinischen Studien III Phase II Sicherheit und Verträglichkeit in der Zielpopulation erste Untersuchungen zur Wirksamkeit und Dosisfindung Phase III (Zulassungsstudien) Nachweis der Wirksamkeit im Vergleich zur Behandlung mit einem Placebo oder einer anderen Therapieform (konfirmatorische Studie), Arzneimittelsicherheit, Risiko-Nutzen Analyse Phase IV Erfassung seltener Nebenwirkungen nach Marktzulassung Untersuchung von Langzeiteffekten M. Meyer Biostatistik Probleme bei der Entwicklung von Arzneimitteln Gründe des Scheiterns in der Präklinik und Klinik 5% 5% pharmacokinetics 10% 39% animal toxicity lack of efficacy adverse effects in man commercial reasons 30% 11% Phase III failures 2007-2011 Phase II failures 2008-2010 1 19 efficacy 7 strategic 51 29 6 efficacy safety 21 safety 66 pharmacokinetics financial/comercial not disclosed T. Kennedy, Drug. Disc. Today 2, 436 (1997); J. Arrowsmith, Nat. Rev. Drug Disc. 10, 1 (2011) M. Meyer Biostatistik Biostatistik 6 Zielgrößen Endpunkt Parameter, die beschreiben wie der Patient sich fühlt, wie die Körperfunktion abläuft oder ob sich die Lebensdauer verlängert und die den Effekt einer Behandlung eindeutig charakterisieren Biomarker biologisches Merkmal als Indikator für Änderungen physiologischer Prozess im Zuge einer Intervention Surrogatendpunkt Einfach messbare und validierte Ersatzvariable für schwer bestimmbare Endpunkte Osteoporose: Knochendichte – Frakturen Myokardinfarkt: Cholesterin - Mortalität AIDS: CD4 positive Zellen, Viruslast - Mortalität Zeitvorteil Randomisierung Surrogatendpunkt M. Meyer klinischer Endpunkt Biostatistik Studiendesign Parallelstudie Rekrutierung der Patienten Rekrutierung der Patienten Randomisierung Randomisierung Behandlung A Behandlung B Behandlung A Behandlung B Bewertung der Ergebnisse Bewertung der Ergebnisse Wash-out Wash-out M. Meyer Biostatistik Cross-over Studie Behandlung B Behandlung A Bewertung der Ergebnisse Bewertung der Ergebnisse Biostatistik 7 Studiendesign II N of-1 Studie Studie mit einem einzelnen Patienten zur Bestimmung der besten individuellen Behandlung bei mehreren Alternativen Design randomisierte oder systematisch ausgeglichene Behandlungssequenz mit A und B (z. B. ABBA) Berücksichtigung von möglichen Carry-over Effekten (wash-out periode) Verblindung Einsatzbereich chronische Erkrankungen, heterogene Behandlungseffekte M. Meyer Biostatistik Studiendesign III faktorielle Studie Untersuchung von 2 oder mehr Wirkstoffen und deren Kombination auf synergistische oder antagonistische Wirkungen B nein ja AB A- nein -B -- A ja Cluster-randomisierte Studie Randomisierung von Gruppen (z. B. Familie, Arztpraxis, Schulklasse)statt Individuen M. Meyer Biostatistik Biostatistik 8 Studiendesign IV (gruppen)sequenzielle Studie Studie mit vordefinierten Interimsanalysen Rekrutierung wird gestoppt sobald Schlussfolgerungen möglich sind mögliche ethische und ökonomische Vorteile Stoppregeln vorzeitiger vorzeitige Hinweise auf Wirksamkeit der Testmedikation Wirksamkeit ist auch bei Weiterführung der Studie nicht zu erwarten schädliche Wirkungen M. Meyer Biostatistik Fragestellung Überlegenheitsstudie Ist der neue Wirkstoff oder die neue Darreichungsform einer bekannten Behandlung überlegen? Nicht-Unterlegenheitsstudie Ist der neue Wirkstoff oder die neue Darreichungsform besser oder höchstens marginal schlechter als eine bekannten Behandlung? Äquivalenzstudie Ist der neue Wirkstoff oder die neue Darreichungsform zu einer bekannten Behandlung äquivalent ? oftmals cross-over Studie mit pharmakokinetischen Variablen M. Meyer Biostatistik Biostatistik 9 Stratifizierung Rationale Falls der Verdacht besteht, dass Gruppen von Patienten unterschiedlich auf die Behandlung reagieren könnten, werden vor der Randomisierung Strata (Schichten) gebildet, die getrennt blockrandomisiert werden. Mögliche Stratifizierungen Zentrum, Altersgruppe, Geschlecht, (Vor)erkrankungen, … Vorteile Ausbalancierung hinsichtlich der Stratifizierungsvariable genauere Ergebnisse Probleme und Nachteile höhere Komplexität, Überstratifizierung, nicht notwendig bei hoher Patientenzahl und adäquater Randomisierung M. Meyer Biostatistik Randomisierung Zuordnung von Patienten und Behandlungsgruppen auf der Basis des Zufalls Vorteile Minimierung von Verzerrungen (Bias) Minimierung von bekannten und unbekannten Einflussgrößen Validität von statistischen Tests Durchführung unmittelbar vor Behandlungsbeginn zur Vermeidung von drop-outs M. Meyer Biostatistik Biostatistik 10 Randomisierung II Einfache Randomisierung Zuordnung ohne Einschränkungen (wie beim Münzwurf für 2 Gruppen) möglicherweise nicht balanciert hinsichtlich Gruppengröße und Charakteristik Blockrandomisierung Randomisierung in Blöcken von z. B. 2, 4 oder 6 Versuchspersonen Beispiel Permutation von A und B in Blöcke von 4 Patienten 1. AABB 2. ABAB 3. ABBA 4. BBAA 5. BABA 6. BAAB Generierung von Zufallszahlen zur Auswahl der Blöcke Zuordnung der Versuchspersonen entsprechend der zufällig ausgewählten Blöcke M. Meyer Biostatistik Verblindung Ziel Minimierung des Einflusses der Kenntnis der Behandlungsform auf das Resultat Verblindungen einfachblind: Patienten wissen nicht welche Substanz sie erhalten doppelblind: Patienten und Mediziner wissen nicht welcher Patient welche Substanz erhält dreifachblind: Patienten, Mediziner und die Person, die die Studie auswertet, wissen nicht welcher Patient welche Substanz erhält Blind data review meeting Überprüfung und Bewertung der Daten nach Ende der Erhebung und vor Entblindung M. Meyer Biostatistik Biostatistik 11 Bias und Confounding Bias (Verzerrung) ist ein systematischer , d. h. nicht zufälliger, Einfluss auf den Schätzwert eines Behandlungseffektes oder eines anderen Parameters Selektionsbias Selektion kann das Ergebnis über die Gruppenzusammensetzung beeinflussen (z. B. konventionelle vs. minimal-invasive Operation) Verbesserung: Randomisierung Informationsbias Kenntnis des Verfahrens beeinflusst indirekt das Ergebnis Verbesserung: Verblindung Confounder Verzerrende Störgrößen Verbesserung: Geeignete statistische Auswertung M. Meyer Biostatistik Analysen Intention to treat Analyse Auswertung der Daten aller Patienten entsprechend ihrer Randomisierung in Behandlungsgruppen Struktur der Gruppen bleibt erhalten entspricht der Praxis (Einnahme des Medikaments vergessen) Per Protocol Analyse Auswertung der Daten der Patienten, die sich prüfplankonform verhalten haben Behandlungseffekt eventuell deutlicher erkennbar Zufallsprinzip verletzt, Bias möglich Safety data set - as treated Analyse Auswertung der Daten der Patienten entsprechend ihrer tatsächlichen Behandlung M. Meyer Biostatistik Biostatistik 12 Fehlende Daten In klinischen Studien fehlen häufig Daten. Man definiert daher Regeln, wie mit diesen Daten zu verfahren ist. Generell ist es empfehlenswert, den Einfluss fehlender Daten auf das Studienergebnis zu untersuchen (Sensitivitätsanalyse). Fallunterscheidung Missing completely at random (MCAR) Wahrscheinlichkeit des Fehlens hängt nicht von anderen Daten oder von der Behandlung ab (völlig zufällig) Missing at random (MAR) Wahrscheinlichkeit des Fehlens hängt von anderen zuvor beobachteten Daten ab, aber nicht von dem fehlenden Wert selbst Not missing at random (NMAR) Wahrscheinlichkeit des Fehlens hängt von dem fehlenden Wert selbst ab M. Meyer Biostatistik Fehlende Daten II Complete Case Analysis Beschränkung der Auswertung auf vollständige Daten einfach, aber nur unter MCAR unbiased , Datenverlust Ersetzungstechniken (Imputation) Konzentrationen unter dem Limit of Detection (LOD) ersetze fehlende Daten durch LOD/2 oder LOD/√2 einfach, aber fragwürdig wenn viele Daten fehlen longitudinale Studien Last Observation Carried Forward (LOCF) Weiterführung der letzten Beobachtung Baseline Carried Forward (BCF) Weiterführung des Basiswertes einfach, aber fragwürdiges Zeitprofil M. Meyer Biostatistik Biostatistik 13 Interimsanalysen und Studienabbruch Interimsanalyse Zwischenauswertung einer laufenden klinischen Studie Studienabbruch vorzeitiger Behandlungseffekt Behandlungseffekt bei Weiterführung der Studie nicht zu erwarten schwerwiegende Nebeneffekte schlechte Datenqualität viel zu langsame Rekrutierung fehlende Ressourcen Zielsetzung der Studie nicht mehr relevant M. Meyer Biostatistik Subgruppenanlyse Zielsetzung Aufteilung von Studienteilnehmern in einzelne Gruppen für Therapieentscheidungen oder zur Untersuchung der Konsistenz der Studienergebnisse Probleme Zufallsbefunde durch kleine Stichproben und eine Vielzahl von statistischen Tests „Aufhübschen“ von Studien mit negativen Ergebnissen Empfehlung Subgruppen sollten vor der Datenauswertung klar definiert werden M. Meyer Biostatistik Biostatistik 14 Metaanlyse Definition Systematische statistische Auswertung und Zusammenfassung einzelner klinischer Studien mit einer gemeinsamen Fragestellung Zielsetzung Stichproben der einzelnen Studien zu klein sein Ergebnisse zu unpräzise methodische Abweichungen der einzelnen Studien Probleme Unterschiedliche Qualität der zugrundeliegenden Studien Publikationsbias M. Meyer Biostatistik Studiendokumente Studienprotokoll (Prüfplan) Detaillierte Darstellung der geplanten klinischen Studie Datenmanagementplan Validierung der erhobenen Daten Statistischer Analyseplan Details der statistischen Auswertung Studienreport detaillierte Darstellung der Studienergebnisse M. Meyer Biostatistik Biostatistik 15 Studienprotokoll Wissenschaftlicher Hintergrund Studienziel primäre und sekundäre Zielparameter Patienten Anzahl, Einschlusskriterien, Ausschlusskriterien Prüfmedikation Pharmakologische, toxikologische Eigenschaften, Dosierung Studienablauf Zeitplan, Untersuchungen, Risiko-Nutzen Einschätzung, unerwünschte Ereignisse, Interimsanalysen, Studienabbruch Biometrie Studiendesign, Fallzahl, Datenqualität, statistische Methoden Ethische und juristische Aspekte Stellungnahme der Ethikkommission, Versicherungen, Einverständniserklärungen, Datenschutz M. Meyer Biostatistik Präsentation der Studienergebnisse CONSORT – Statement (Consolidated Standards for Reporting of Clinical Trials) Flussdiagramm - Anzahl der Patienten in jedem Behandlungsarm Checkliste - Titel, Abstract, Methoden, Ergebnisse, Diskussion http://www.consort-statement.org/ STROBE-Statement (Strengthening the Reporting of Observational Studies in Epidemiology) http://www.strobe-statement.org/ SAMPL-Guidelines - Statistical Analyses and Methods in the Published Literature http://www.equator-network.org/reporting-guidelines/sampl/ M. Meyer Biostatistik Biostatistik 16 Ethische und gesetzliche Bestimmungen zur Durchführung von klinische Studien Deklaration von Helsinki http://www.bundesaerztekammer.de/fileadmin/user_upload/ downloads/DeklHelsinki2013.pdf Deklaration des Weltärztebundes (World Medical Association) über ethischen Prinzipien der medizinischen Forschung am Menschen Verabschiedung 1964 in Helsinki, danach verschiedene Revisionen WMA akzeptiert nur die jeweils aktuelle Revision M. Meyer Biostatistik Ethische und gesetzliche Bestimmungen zur Durchführung von klinische Studien II Arzneimittelgesetz (AMG) http://www.gesetze-im-internet.de/amg_1976/index.html Sechster Abschnitt Schutz des Menschen in der klinischen Forschung § 40 Allg. Voraussetzungen § 41 Spez. Voraussetzungen § 42 Verfahren bei der Ethikkommission, Genehmigungsverfahren bei der Bundesoberbehörde §42a Rücknahme, Widerruf und Ruhen der Genehmigung oder zustimmenden Bewertung §42b Veröffentlichung der Ergebnisse klinischer Forschung M. Meyer Biostatistik Biostatistik 17 Ethische und gesetzliche Bestimmungen zur Durchführung von klinische Studien III International Conference on Harmonization (ICH) of Technical Requirements for the Registration of Pharmaceuticals for Human Use 60 Guidelines E – Efficacy, Q – Quality, S – Safety, M - Multidisciplinary http://www.ich.org/products/guidelines ICH E3 - Structure and content of clinical study reports ICH E6 - Good clinical practice ICH E8 - General considerations for clinical trials ICH E9 - Statistical principles of clinical trials ICH E10 - Choice of control group ICH Q2 - Validation of analytical procedures M. Meyer Biostatistik Ethische und gesetzliche Bestimmungen zur Durchführung von klinische Studien IV E6 – Good Clinical Practice (GCP) Inhalt Planung, Durchführung, Erfassung der Daten und Darstellung der Ergebnisse klinischer Studien Ziel Einheitliche Standards für klinischer Studien in der EU, USA und Japan zur Vereinfachung der Zulassung Inhalt Ethikkomission, Prüfer, Sponsor Prüfplan Investigator Brochure Essential Documents M. Meyer Biostatistik Biostatistik 18 Ethische und gesetzliche Bestimmungen zur Durchführung von klinische Studien VI European Medicines Agency (EMA) http://www.ema.europa.eu/ema Leitlinien des Ausschusses für Humanarzneimittel (CHMP): Missing data in confirmatory clinical trials Investigation of bioequivalence Switching from superiority to non-inferiority Choice of non-inferiority margin Multiplicity issues in clinical trials Clinical trials in small populations Requirements for first in man clinical trials M. Meyer Biostatistik Ethische und gesetzliche Bestimmungen zur Durchführung von klinische Studien VII European Medicines Agency (EMA) Leitlinien des Ausschusses für Tierarzneimittel (CVMP) Guideline on statistical principles for clinical trials for veterinary medicinal products (pharmaceuticals) DIN-Normen DIN EN ISO 14155: Klinische Prüfung von Medizinprodukten an Menschen M. Meyer Biostatistik Biostatistik 19 Deskriptive Statistik M. Meyer Biostatistik Skalenniveau Qualitativ (nicht metrisch) Nominalskala – Merkmalsausprägungen unterscheiden sich nur begrifflich aber nicht durch Rangfolge Geburtsort (Berlin, Hamburg, München), Religion (evangelisch, katholisch, muslimisch), Blutgruppe (A, B, AB, 0) dichotom – nominal mit 2 Kategorien Geschlecht (m/w), Behandlung (Placebo, Verum) Ordinalskala – Merkmalsausprägungen lassen sich ordnen Schmerz (klein, mittel, groß), Verträglichkeit (schlecht, mittel, gut) Quantitativ (metrisch) stetig oder diskret Intervallskala – willkürlicher Nullpunkt, Differenz definiert Datum, Temperatur in Celsius Verhältnisskala – absoluter Nullpunkt, Differenz und Verhältnis definiert Preis, Größe, Gewicht, Temperatur in Kelvin M. Meyer Biostatistik Biostatistik 20 Lagemaße Modalwert (Modus) häufigster Wert Gewicht von 5 Patienten 80, 76, 84, 84, 86 kg Modalwert 84 kg Arithmetisches Mittel für kontinuierliche Daten Anzahl der Patienten n Messwerte x1, x2, x3, …, xn xar xar n 1 x1 x2 x3 ... xn 1 xi n n 1 1 80 76 84 84 86 82kg 5 Limitierungen empfindlich auf Ausreißer ungeeignet für schiefe oder mehrgipflige Verteilungen M. Meyer Biostatistik Lagemaße II Geometrisches Mittel für positive kontinuierliche Daten Anzahl der Patienten n Messwerte x1, x2, x3, …, xn ̅ = log x geo ̅ ≦ ̅ ̅ = … n 1 log x1 log x2 log x3 ... log xn 1 log xi n n 1 Beispiel 2 8=4 ̅ = =5 für log-transformierte Daten, Wachstumsraten, Verhältnisse M. Meyer Biostatistik Biostatistik 21 Lagemaße III Median 50% der aufsteigend geordneten Messwerte liegen unterhalb und 50% oberhalb des Medians Beispiel Gewicht von 5 Patienten 76, 80, 84, 84, 86 kg Median 84 kg Mittelwert 82 kg Gewicht von 5 Patienten 76, 80, 84, 84, 126 kg Median 84 kg Mittelwert 90 kg im Gegensatz zum Mittelwert unempfindlich auf Ausreißer M. Meyer Biostatistik Ordnungsstatistiken Quartile 1. Quartil (Q1) 25% der Werte sind kleiner oder gleich Q1, der Rest größer oder gleich Median (2. Quartil) 50% der Werte sind kleiner oder gleich Q2, der Rest größer oder gleich 3. Quartil (Q3) 75% der Werte sind kleiner oder gleich Q3, der Rest größer oder gleich Perzentile x% der Werte sind kleiner oder gleich dem Perzentil x Minimum, Maximum M. Meyer Biostatistik Biostatistik 22 Streuungsmaße für Stichproben Spannweite Maximum - Minimum Interquartilabstand (IQR) IQR = 3. Quartil – 1. Quartil Stichprobenvarianz Summe der quadratischen Abweichungen der Einzelwerte xi vom Mittelwert dividiert durch n-1 Var n 1 x x1 2 x x 2 2 x x3 2 ... x x n 2 1 x xi 2 n 1 n 1 1 Standardabweichung s Var positive Wurzel aus der Varianz Variationskoeffizient CV s Quotient aus Standardabweichung und Mittelwert x ar M. Meyer Biostatistik Charakterisierung von univariaten Stichproben Deskriptive Statistik Skala Lage Streuung graphische Darstellung nominal Modalwert Balkendiagramm ordinal Median Interquartilbereich Balkendiagramm Modalwert Histogramm kontinu- Mittelwert Standardabweichung ierlich Median Interquartilbereich Boxplot M. Meyer Biostatistik Biostatistik 23 Charakterisierung von univariaten Stichproben II Nominale und ordinale Daten 50 Erfolgreich behandelte Patienten 0 Balkendiagramm 10 Zusammenfassung Anzahl, Verhältnis, Prozentsatz, Bruchteil 20 Anzahl 30 40 Beispiel Anzahl von Patienten oder Beobachtungen in jeder Gruppe Placebo Verum Behandlung M. Meyer Biostatistik Charakterisierung von univariaten Stichproben III Metrische Daten Zusammenfassung Mittelwert und Standardabweichung für normalverteilte Daten Median und Interquartilbereich für nicht normalverteilte Daten Minimum, Maximum Histogramm Ausreißer 1.85 1.80 Q3 Median Q1 0 1.70 1.75 5 Anzahl 10 Körpergröße (m) 1.90 1.95 15 2.00 Boxplot 1.70 1.75 1.80 1.85 1.90 1.95 2.00 Körpergröße (m) M. Meyer Biostatistik Biostatistik 24 Charakterisierung von univariaten Stichproben IV Gepaarte Daten Zusammenfassung wie unabhängige metrische Daten, zusätzlich Mittelwert und Standardabweichung oder Median und Interquartilbereich der Änderungen 1500 0 500 1000 Variable 2000 2500 Gepaarte Daten vorher nachher Behandlung M. Meyer Biostatistik Ereigniszeitanalyse (Survivalanalysis) Beispiele für Ereigniszeit-Daten Zeit bis zum Auftreten eines positiven HIV-Test nach Transfusion mit kontaminiertem Blut Zeit bis zum Auftreten von Metastasen Zeit bis zum Auftreten von Asthma-Exazerbationen zensierte Daten nicht alle Werte einer Variablen sind bekannt Zeit bis zum Auftreten eines Ereignisses kann nicht vollständig verfolgt werden (rechts zensiert) Ereignis trat an unbekanntem Zeitpunkt in der Vergangenheit auf (links zensiert) Konzentration eines Markers liegt unter der Nachweisgrenze (links zensiert) M. Meyer Biostatistik Biostatistik 25 Ereigniszeitanalyse II zensierte Daten 2006 2008 2010 2012 2014 2016 Eintritts- und Überlebenszeit von 10 Patienten verstorben zensiert M. Meyer Biostatistik Ereigniszeitanalyse III 0 1 2 3 4 5 6 7 8 Eintritts- und Überlebenszeit von 10 Patienten verstorben zensiert M. Meyer Biostatistik Biostatistik 26 Ereigniszeitanalyse IV Kaplan-Meier Kurven Wahrscheinlichkeit für das Überleben an einem bestimmten Zeitpunkt 8 6 7 7 1 3 2 1 1 1 0.8 1 1 0 0 1 1 1 1 0 1 0.6 Studienjahr 0.4 Ereignis Überlebenswahrscheinlichkeit Letze Beobachtung 2013 2011 2016 2017 2011 2013 2014 2015 2014 2015 0.2 1 2 3 4 5 6 7 8 9 10 Beginn der Beobachtung 2005 2005 2009 2010 2010 2010 2012 2014 2013 2014 0.0 Patient 1.0 Kaplan Meier Plot 0 zensiert, 1 Ereignis tritt ein 0 2 4 6 8 Zeit(Jahre) M. Meyer Biostatistik Charakterisierung von bivariaten Stichproben Streudiagramm 80 Variable y 60 75 70 20 55 60 40 65 Gewicht (kg) 80 100 85 120 90 Streudiagramm 1.6 1.7 1.8 1.9 2.0 1.6 Größe (m) 1.7 1.8 1.9 2.0 Variable x Streudiagramme (Punktwolke, Scatterplot) können mögliche Zusammenhänge zweier Variablen aufzeigen positiv: mit x steigt auch y an negativ: mit steigendem x verringert sich y unkorreliert: kein Zusammenhang zwischen x und y linearer oder nichtlinearer Zusammenhang M. Meyer Biostatistik Biostatistik 27 Charakterisierung von bivariaten Stichproben II Pearson Korrelationskoeffizient r Quantifizierung des Zusammenhanges von normalverteilten kontinuierlichen Variablen bei linearem Zusammenhang dimensionslose Zahl -1 ≤ r ≤ 1 negativer Zusammenhang r < 0 positiver Zusammenhang r > 0 Spearmans Korrelationskoeffizient ρ Quantifizierung des Zusammenhanges von nicht normalverteilten kontinuierlichen Variablen Kendalls Korrelationskoeffizient τ Quantifizierung des Zusammenhanges von ordinalen Variablen Achtung: Korrelation ist nicht Kausalität M. Meyer Biostatistik Lineare Regression Modell zur Vorhersage der Werte einer Variable y aus den Werten einer Variablen x yi b0 b1 xi i i 2 i Minimum x y b0 b1 εi unabhängige Variable abhängige Variable Achsenabschnitt Steigung Fehler Methode der kleinsten Quadrate x N ( x x )( y y ) i b1 i 1 i N (x x) i 2 b0 y mx i 1 M. Meyer Biostatistik y 1 N x 1 N y N i 1 i N i 1 i Biostatistik 28 Lineare Regression II Regressionsdiagnostik Bestimmtheitsmaß R2 Anteil der Variation der abhängigen Variable y, die durch das Modell erklärt werden kann. Damit ist R2 ein Maß für die Güte der Anpassung des Modells an die Daten. R2 = 0: kein linearer Zusammenhang R2 = 1: perfekter linearer Zusammenhang RMSE – root mean square error mittlere quadratische Abweichung zwischen gemessenen und berechneten Werten F-Statistik , t-Statistik M. Meyer Biostatistik Wahrscheinlichkeits- und Verteilungstheorie M. Meyer Biostatistik Biostatistik 29 Wahrscheinlichkeit Eintrittswahrscheinlichkeit eines Ereignisses Unmögliches Ereignis Sicheres Ereignis p=0 p=1 Es gilt immer 0 ≤ p ≤ 1. Für unwahrscheinliche Ereignisse ist p nahe 0, für wahrscheinliche ist p nahe 1. Beispiele Münzwurf Die Wahrscheinlichkeit für Kopf beträgt bei einem einmaligen Wurf p=1/2 und für Zahl 1-p=1/2. Die Summe der Wahrscheinlichkeiten beträgt 1. Würfel Die Wahrscheinlichkeit für jede Zahl beträgt bei einem einmaligen Wurf 1/6. M. Meyer Biostatistik Binomialverteilung Serie von gleichartigen und unabhängigen Versuchen mit den zwei möglichen Ergebnissen Erfolg und Misserfolg, die jeweils mit der Wahrscheinlichkeit p und 1-p auftreten. Wahrscheinlichkeitsdichte = = 1− ! Michael Meyer Biostatistik ! ! y = 0, 1, 2, 3, …, n p Erfolgswahrscheinlichkeit 0 ≤ p ≤ 1 n Anzahl der Versuche Mittelwert np Varianz np(1-p) n! = 1 2 3 … Biostatistik 30 Binomialverteilung II Beispiel Die Spontanheilungsrate einer bestimmten Krankheit beträgt 20%. Nach der Behandlung mit einer Testmedikation sind 3 von 10 Patienten geheilt. Wie groß ist die Wahrscheinlichkeit, dass dieses Ergebnis auch durch eine Selbstheilung zu auftritt? p(Heilung) = 0.2 p(keine Heilung) = 1 – p(Heilung) = 0.8 =3 = 10 0.2 3 =3 = ! =3 = 1 − 0.2 10 0.2 0.8 3 = 3 = 0.20 ! ! 0.2 0.8 M. Meyer Biostatistik Binomialverteilung III Mit welcher Wahrscheinlichkeit werden mehr als 3 von 10 Patienten spontan geheilt? >3 = =4 + = 5 + …+ =0 + =1 + =1 − >3 =1− =9 + =2 + = 10 =3 10 10 0.2 1 − 0.2 0.2 1 − 0.2 + 0 1 10 + =3 + 0.2 1 − 0.2 2 > 3 = 1 − 1 0.8 + 10 0.2 0.8 + 0.2 0.8 + =3 > 3 = 1 − 0.107 + 0.268 + 0.301 + 0.201 = 1 − 0.877 = 0.123 M. Meyer Biostatistik Biostatistik 31 Binomialverteilung IV Beispiel Die Fallzahl wird jetzt von 10 auf 100 Patienten erhöht. Nach der Behandlung mit der Testmedikation sind jetzt 30 von 100 Patienten geheilt. Wie groß ist die Wahrscheinlichkeit, dass dieses Ergebnis durch eine Selbstheilung zu auftritt? p(Heilung) = 0.2 = 30 = = 30 = = 30 = p(keine Heilung) = 1 – p(Heilung) = 0.8 100 0.2 30 100 0.2 30 ! ! ! = 30 = 0.0052 1 − 0.2 0.8 0.2 0.8 M. Meyer Biostatistik Binomialverteilung V Beispiel In einer zweiarmigen Parallelstudie wird eine einfache Randomisierung von 100 Patienten durchgeführt. Die Wahrscheinlichkeit für die Behandlung A beträgt p=0.5. Wie groß ist die Wahrscheinlichkeit, dass 52 Patienten mit A und 48 Patienten mit B behandelt werden ? p(A) = 0.5 = 48 = = 48 = M. Meyer Biostatistik p(B) = 1 – p(A) = 0.5 100 0.5 48 100 0.5 48 0.5 = 0.0735 ≈ 7% Biostatistik 32 Risiko unerwünschter Ereignisse Rule of 3 Wie groß ist das maximale Risiko des Auftretens eines unerwünschten Ereignisses (adverse event AE) wenn es vorher in einer Studie mit n Patienten nicht aufgetreten ist? p Wahrscheinlichkeit für das Auftreten eines AE bei einer Behandlung eines Patienten 1-p Wahrscheinlichkeit dass ein AE bei einer Behandlung eines Patienten nicht auftritt (1-p)n Wahrscheinlichkeit dass das AE bei einer Behandlung von n Patienten nicht auftritt (1-pmax)n = 0.05 1-pmax = (0.05)1/n ≈ 1- 3/n pmax Fehlerwahrscheinlichkeit 5% Näherung für n > 30 ≈ 3/n Beispiel n=100 - es sind maximal 3 AE´s in 100 Patienten zu erwarten M. Meyer Biostatistik Normalverteilung Viele Messdaten folgen einer Normalverteilung. Body Mass Index = BMI BMI 18.5 -25 kg/m2 Mittelwert Standardabweichung 23.5 kg/m2 2.1kg/m2 0 500 BMI in einer Stichprobe aus 10 000 Marathonläufern 1000 Haufigkeit 1500 Normalbereich l Köpergröße, m Körpergewicht 15 20 25 30 2 BMIkg m M. Meyer Biostatistik Biostatistik 33 Normalverteilung II Wahrscheinlichkeitsdichte - ≤ y ≤ + = Mittelwert Varianz 2 Dichtefunktion 0.1 =0 2 = 1 0.0 Mittelwert Varianz Dichte Standardnormalverteilung 0.2 0.3 Y ~ N(,2) Y ~ N(0,1) -4 -2 0 2 4 z Jede beliebige Normalverteilung kann durch die Transformation Z= (Y-µ)/σ in eine Standardnormalverteilung überführt werden. M. Meyer Biostatistik Normalverteilung III Ausgewählte Werte der Fläche der Standardnormalverteilung 1-Φ (z) 0,5 0,3086 0,1587 0,05 0,025 0,00135 0.2 Dichte 0.3 0.4 Dichtefunktion der Standardnormalverteilung 0.1 Φ (z) 0,5 0,6915 0,8413 0,95 0,975 0,99865 0.0 z 0,0 0,5 1,0 1,645 1,960 3,0 -3 -2 -1 0 1 2 3 rechter Spitz 1-Φ (z) = 0.025 z Beispiel Ein Laborwert y sei normalverteilt mit dem Mittelwert 1000 und der Standardabweichung 100. Wie wahrscheinlich ist es, dass der Wert von 1196 überschritten wird? Y ~ N(1000,1002) P(Y >1196)=1−P(Y ≤1196)=1−Φ M. Meyer Biostatistik 1196 − 1000 = 1−Φ 1.96 = 0.025 100 Biostatistik 34 Normalverteilung IV Normalverteilte Messwerte 68.3 % der Messwerte liegen im Intervall µ ± σ 95.5 % der Messwerte liegen im Intervall µ ± 2σ 99.7 % der Messwerte liegen im Intervall µ ± 3σ 90 % der Messwerte liege im Intervall µ ± 1.645σ 95 % der Messwerte liege im Intervall µ ± 1.960σ 99 % der Messwerte liege im Intervall µ ± 2.575σ Quelle: Wikipedia Zentraler Grenzwertsatz Der zentrale Grenzwertsatz besagt, dass sich die Verteilung des Mittelwerts von n unabhängigen Zufallszahlen aus einer beliebigen Verteilung mit endlichem Mittelwert μ und einer Standardabweichung σ mit steigendem n einer Normalverteilung mit Mittelwert μ und Standardabweichung σ/√n annähert (üblicherweise n > 30). Der zentrale Grenzwertsatz ist Normalverteilung in der Statistik M. Meyer der Grund für die Bedeutung der Biostatistik Statistische Parameterschätzungen M. Meyer Biostatistik Biostatistik 35 Methodik und Ziel der Auswertung klinischer Studien Charakterisierung der Grundgesamtheit Charakterisierung der Stichprobe Deskriptive Statistik Verallgemeinerung Induktive Statistik erkrankt Definierte Patientenpopulation Behandlung A gesund Stichprobe Randomisierung erkrankt Behandlung B gesund Zeit M. Meyer Biostatistik Statistischer Vergleich zweier Behandlungsmethoden Behandlung A Behandlung B A-B Behandlungseffekt Varianz Formulierung von Hypothesen Konfidenzintervall des Behandlungseffektes Berechnung der statistischen Prüfgröße und des p-Wertes M. Meyer Biostatistik Biostatistik 36 Punktschätzungen Ziel Schätzung des unbekannten Wertes einer Grundgesamtheit auf der Basis einer Stichprobe. Beispiele Mittelwert Standardabweichung relative Häufigkeit Eigenschaften eines Punktschätzers wünschenswert sind vor allem Erwartungstreue - keine systematischen Fehler Konsistenz - steigende Genauigkeit mit steigendem Stichprobenumfang Effizienz - möglichst geringe Varianz M. Meyer Biostatistik Intervallschätzungen Eigenschaft Das Konfidenzintervall (Vertrauensbereich) gibt Auskunft über die Präzision eines geschätzten Parameters. Es ist der Bereich, der den wahren Wert mit einer Wahrscheinlichkeit von 1- = 0.95 oder 95% (manchmal auch 90% oder 99%) enthält. Das 95% Konfidenzintervall (95%CI) für den Mittelwert wird für hinreichend große wie Stichproben folgendermaßen berechnet. x z/2 n n z/2 Standardabweichung Stichprobengröße 1.645, 1.960, 2.576 für 90, 95, 99%CI Interpretation In 95 von 100 Stichproben enthält das Konfidenzintervall den unbekannten Populationsmittelwert. M. Meyer Biostatistik Biostatistik 37 Intervallschätzungen II Beispiel Der mittlere systolische Blutdruck in einer Stichprobe von Patienten beträgt 120 mm Hg (Standardabweichung der Stichprobe s=20 mm Hg). Wie groß ist das Konfidenzintervall wenn der Stichprobenumfang 36 bzw. 100 Patienten beträgt? 95%CI = 120 1.96 20 20 120 1.96 113.5 bis126.5 6 36 95%CI = 120 1.96 20 20 120 1.96 116.1 bis 123.9 10 100 Die Präzision steigt mit der Stichprobengröße n. Die Standardabweichung s ist ein Maß für die Variabilität des Blutdruckes der Patienten. Der Standarderror of the mean SEM = s /n ist ein Maß für die Präzision des Mittelwertes und gibt einen Bereich von nur 68% der Mittelwerte an. Wegen der Konsistenz mit p-Werten sollten Konfidenzintervalle verwendet werden. M. Meyer Biostatistik Intervallschätzungen III Interpretation von Konfidenzintervallen Behandlungseffekt 0 klinische Relevanz nicht signifikant, klinisch irrelevant nicht signifikant, möglicherweise klinisch relevant signifikant, klinisch irrelevant signifikant, möglicherweise klinisch relevant signifikant, klinisch relevant M. Meyer Biostatistik Biostatistik 38 Testen von Hypothesen M. Meyer Biostatistik Hypothesentests Zielsetzung Schlussfolgerung von der Stichprobe auf die Grundgesamtheit, d. h. das Testen von Hypothesen bezieht sich auf die prinzipiellen Eigenschaften des Produktes und nicht nur auf die Stichprobe der untersuchten Patienten (induktive Statistik) Hypothesen Nullhypothese H0 Placebo und Verum sind gleichwertig, unterschiedlicher Behandlungseffekt ist rein zufällig Alternativhypothese HA es existiert ein Unterschied zwischen Placebo- und Verumbehandlung Ziel ist es zu zeigen, dass die Nullhypothese mit der erhobenen Stichprobe wenig vereinbar ist. Dazu wird eine Prüfgröße berechnet, die mit dem kritischen Wert der entsprechenden Verteilung verglichen wird. M. Meyer Biostatistik Biostatistik 39 p-Wert Bedeutung Der p-Wert ist eine Zahl zwischen 0 und 1, die auf der Basis einer Stichprobe berechnet wird. Mit dem p-Wert wird angeben wie wahrscheinlich das mit Hilfe der Stichprobe gefundene Ergebnis oder ein noch extremeres ist, wenn die Nullhypothese (kein Unterschied) wahr wäre: Je kleiner der p-Wert, desto mehr spricht das Ergebnis gegen die Nullhypothese. Der p-Wert wird beeinflusst von der Größe des Effekts, der Streuung der Daten und der Größe der Stichprobe. Entscheidungsregel p ≥ : Nullhypothese wird beibehalten. p < : Nullhypothese wird abgelehnt und Alternativhypothese wird akzeptiert. Anmerkungen Man kann nicht umgekehrt aus p ≥ folgern dass die Nullhypothese wahr ist. Die Grenze von beispielsweise = 0.05 ist willkürlich. M. Meyer Biostatistik Fehlentscheidungen in Hypothesentests Testentscheidung tatsächlich wahr M. Meyer Biostatistik H0 kein Effekt HA Effekt H0 kein Effekt korrekt Wahrscheinlichkeit 1- Fehler 2. Art Wahrscheinlichkeit β HA Effekt Fehler 1. Art Wahrscheinlichkeit korrekt Wahrscheinlichkeit 1-β (Power) Biostatistik 40 Fallzahlplanung Bedeutung Ziel der Fallzahlplanung ist die Festlegung der optimalen Stichprobengröße zu wenige Patienten → keine validen Aussagen zu viele Patienten → unnötiger Ressourcenbedarf Einflussfaktoren Erwarteter Behandlungseffekt kleine Effekte erfordern eine hohe Fallzahl Streuung eine große Streuung erfordert eine hohe Fallzahl Signifikanzniveau ein niedriges Signifikanznivau erfordert eine große Fallzahl (meist =0.05) Power 1-β eine hohe Power erfordert eine große Fallzahl (meist β =0.2 oder 0.1) M. Meyer Biostatistik Fallzahlplanung II weitere Einflussfaktoren drop-out geplante Fallzahl wird möglicherweise nicht erreicht Compliance Mangel an Akzeptanz der Behandlung durch die Patienten geplante Fallzahl wird möglicherweise nicht erreicht ungleiche Gruppengröße höhere Fallzahl erforderlich multiple Vergleiche niedrigeres Signifikanzlimit und damit höhere Fallzahl erforderlich M. Meyer Biostatistik Biostatistik 41 Fallzahlplanung III Pragmatischer Ansatz für explorative Zwecke n=3 minimale Fallzahl für Trivialstatistik Minimum < Median < Maximum n=4 stellt n=3 bei einem Ausfall sicher n=6 Beginn der Inferenzstatistik und Fallzahlberechnung Minimum < Median / Mittelwert < Maximum Optimale Fallzahlen für den 95%CI des Medians Stichprobe x1, x2, x3, …, xn-2,xn-1, xn n=6 95%CI = (Minimum x1, Maximum xn) n=9 95%CI = (zweitkleinster Wert x2, zweitgrößter Wert xn-1) n=12 95%CI = (drittkleinster Wert x3, drittgrößter Wert xn-2) …. M. Meyer Biostatistik Fallzahlplanung IV Fallzahl für den Mittelwert x z/2 z/2 Mittelwert und Konfidenzintervall n Präzision der Schätzung n n z/2 2 Fallzahl Beispiel Der mittlere systolische Blutdruck von Patienten beträgt 120 mmHg (s = 20 mm Hg). Wie viele Patienten müssen rekrutiert werden, um den Mittelwert mit einer Präzision (95%CI) von 5 mm Hg zu bestimmen? 2 2 20 n Z/2 1.96 7.76 2 60.2 5 M. Meyer Biostatistik Man benötigt 61 Patienten. Biostatistik 42 Fallzahlplanung V Fallzahl für den Vergleich von 2 Mittelwerten Die Fallzahl steigt quadratisch an wenn das Verhältnis von Differenz der Mittelwerte und Standardabweichung sinkt. Die Fallzahl steigt mit der Power. Die klinisch relevante Differenz der Mittelwerte und die Standardabweichung sind möglicherweise schwierig abzuschätzen. M. Meyer Biostatistik Multiple Hypothesentests Beispiele multiple Endpunkte mehrere Variable zur Beschreibung des Behandlungseffektes mehrfache Tests an verschieden Zeitpunkten der Studie Behandlungseffekt nach 1, 2, 3, … Wochen Interimsanalysen vorzeitiger Studienabbruch bei Erfolg / Misserfolg multiple Gruppen mehrere verschieden Dosierungen Subgruppen unterschiedlicher Behandlungseffekt in speziellen Gruppen M. Meyer Biostatistik Biostatistik 43 Multiple Hypothesentests II Problem Anstieg der Wahrscheinlichkeit eines Typ I-Fehlers i. e. fehlerhafte Ablehnung der Nullhypothese Ausweg Absenkung des -Limits Gruppierung der Endpunkte primärer wesentlicher Endpunkt, bestimmt Fallzahl sekundäre weitere Endpunkte Konsequenz Fallzahl steigt bei Absenkung des -Limits an, insbesondere bei einer großen Anzahl von Hypothesentests M. Meyer Biostatistik Häufige statistische Testverfahren Stichprobe Skala Gruppen nominal ≥2 ordinal 2 kontinuierlich ≥3 2 M. Meyer Biostatistik gepaart Mc Nemar Test Wilcoxon Rangsummen Test (Mann-Whitney U Test) Wilcoxon Vorzeichen Rangtest Kruskal-Wallis Test Students t-Test gepaarter t-Test Wilcoxon Rangsummen Test (Mann-Whitney U Test) Wilcoxon Vorzeichen Rangtest ≥3 Ereigniszeit unabhängig 2-Test 2 ANOVA Log-Rang-Test Biostatistik 44 t-Test Einstichproben t-Test unterscheidet sich der Mittelwert einer Stichprobe von einem vorgegebenen Wert zweiseitiger Test rechtsseitiger Test H0: = 0 H0: ≤ 0 HA: 0 HA: > 0 linksseitiger Test H0: ≥ 0 HA: < 0 Zweistichproben t-Test unterscheiden sich die Mittelwerte zweier normalverteilter Stichproben zwei unabhängige Stichproben H0: 1 = 2 HA: 1 2 zweiseitiger Test zwei verbundene Stichproben t-Test für Regressionskoeffizienten sind die einzelnen Koeffizienten einer linearen Regression signifikant unterschiedlich von Null M. Meyer Biostatistik t-Test II Zweiseitiger Einstichproben t-Test Hypothesen H0: = 0 Teststatistik Stichprobengröße Mittelwert Standardabweichung HA: 0 T n | x 0 | ~ t n 1 s n x s 1 n xi n 1 1 n 2 x xi n 1 1 Die Teststatistik T ist t-verteilt mit n-1 Freiheitsgraden. Die Nullhypothese wird abgelehnt wenn T den kritischen Wert tn-1,1-/2 überschreitet. M. Meyer Biostatistik Biostatistik 45 t-Test III Beispiel zum zweiseitigen Einstichproben t-Test Für den optimalen systolische Blutdruck wird häufig ein Maximalwert von 120 mm Hg angegeben. Ein Arzt findet in einer Stichprobe von 25 Patienten einen Mittelwert von 130 mm Hg (s = 20 mm Hg). Ist das Populationsmittel signifikant unterschiedlich von dem akzeptablen Maximalwert? Hypothesen H0: = 120 Die Prüfgröße beträgt T 25 HA: 120 | 130 120 | 5 / 2 2.5 20 Die Prüfgröße 2.5 übersteigt t24,1-0.025 = t24,0.975= 2.064. Daher ist die Nullhypothese abzulehnen. Der mittlere Blutdruck in dieser Patientengruppe ist signifikant größer als 120 mm Hg. Die Werte der t-Verteilung kann man Tabellen entnehmen oder mit Statistikprogrammen berechnen. M. Meyer Biostatistik t-Test IV Beispiel zum Zweistichproben t-Test für abhängige Stichproben Der systolische Blutdruck wird bei 10 Patienten vor und nach einer Behandlung gemessen. Gibt es einen Behandlungsunterschied? Man berechnet für jeden Patienten die Differenz des Blutdrucks post – pre und bestimmt den Mittelwert und die Standardabweichung. Dann verfährt man wie beim Einstichproben t-Test. Hypothesen H0: = 0 Die Prüfgröße beträgt T 10 HA: 0 | 0.6 0 | 0.20 9.3 Die Prüfgröße 0.20 übersteigt nicht den kritischen Wert t9,0.975= 2.262. Daher kann die Nullhypothese nicht abgelehnt werden. Es konnte kein Behandlungseffekt gezeigt werden. M. Meyer Biostatistik Patient 1 2 3 4 5 6 7 8 9 10 systolischer Blutdruck (mmHg) pre post Differenz 125 113 -12 119 115 -4 122 117 -5 119 118 -1 119 122 3 111 127 16 118 131 13 119 114 -5 128 120 -8 119 128 9 Mittelwert der Differenz 0.6 mmHg Standardabweichung 9.3 mmHg Biostatistik 46 Varianzanalyse (ANOVA) Einfaktorielle ANOVA Verallgemeinerung des t-Tests auf 3 oder mehr Gruppen Hypothesen H0: 1 = 2 = 3 = … HA: Mittelwerte i nicht alle gleich Ist die Varianz zwischen den Gruppen größer als innerhalb der Gruppen? Ist die Gruppeneinteilung sinnvoll, gibt es signifikante Unterschiede zwischen den Gruppen? Michael Meyer C 20 11.8 0.9 12 11 10 outcome 7 Behandlung B 20 8.2 0.7 A 20 10.1 0.9 N Mittelwert Standardabweichung 8 9 3 Patientengruppen werden mit 3 unterschiedlichen Medikamenten A, B und C behandelt. Gibt es einen Unterschied in den Behandlungseffekten? 13 Beispiel A B C treatment Biostatistik Varianzanalyse II ANOVA Tabelle Variationsquelle Freiheitsgrade Quadratsumme mittlere Quadratsumme Testgröße p-Wert zwischen innerhalb df SSQ 2 57 135.9 38.5 F = MSzwischen / MSinnerhalb MSq F p 67.9 0.675 100.7 < 2.2·10-16 MSzwischen übersteigt MSinnerhalb wenn HA gilt. Post hoc Analyse p-Werte für Gruppenvergleiche unter Berücksichtigung des multiplen Testens Medikament A B 6.3·10-10 C 1.6·10-08 Michael Meyer Biostatistik B <2.0·10-16 Biostatistik 47 F-Test Prüfung auf unterschiedliche Varianz in zwei normalverteilten Stichproben Hypothesen H0: A = B F Teststatistik Stichprobengröße s s HA: A > B 2 A 2 B m, n Standardabweichung der Stichproben sA 1 m x xi 2 m 1 1 1 n x xi 2 n 1 1 sB Teststatistik ist F-verteilt mit m-1 und n-1 Freiheitsgraden. Die Nullhypothese wird abgeleht wenn die Teststatistik den kritischen Wert der F-Verteilung übersteigt. M. Meyer Biostatistik Normal oder nicht normal ? Graphische Methoden Histogramm, Boxplot oder QQ-plot QQ plot for normal distribution 0.6 0.2 0.4 Sample Quantiles 1 0 -2 0.0 -1 Sample Quantiles 2 0.8 3 1.0 QQ plot for uniform distribution -3 -3 -2 -1 0 1 2 3 -2 -1 0 1 2 3 Theoretical Quantiles Theoretical Quantiles Deskriptive Methoden Übereinstimmung von Mittelwert und Median, Ausreißer, Anzahl der Messwerte im Intervall µ ± σ, Intervall µ ± 2σ im „verbotenen“ Bereich Statistische Tests Shapiro Wilk Test, Kolmogorov-Smirnov Test (K-S Test) Michael Meyer Biostatistik Biostatistik 48 Abweichung von der Normalverteilung Transformation der Daten vielfach sind die Daten nach einer Transformation normalverteilt z. B. log-Transformation für rechts-schiefe Verteilungen Vorteil Standardverfahren können für transformierte Daten genutzt werden Nachteil Interpretation schwieriger nicht-parametrische Tests keine Annahme hinsichtlich der Verteilung der untersuchten Variablen geeignet für Daten denen ein Rang zugeordnet werden kann ersetze parametrische Testverfahren durch verteilungsfreie Tests Zweistichproben t-Test für unabhängige Stichproben -> Wilcoxon Rangsummentest Zweistichproben t-Test für abhängige Stichproben -> Wilcoxon Vorzeichen Rangtest M. Meyer Biostatistik Wilcoxon Vorzeichen Rangtest Idee Die Konzentration eines Biomarkers wird vor und nach einer Behandlung gemessen. Patient 1 2 3 4 5 6 pre 135 102 108 141 131 144 Markerkonzentration Absolute post Differenz Differenz 129 -6 6 120 18 18 112 4 4 152 11 11 135 4 4 163 19 19 Rang 3 5 1.5 4 1.5 6 Summe der Ränge für negative Differenzen T- = 3 Summe der Ränge für positive Differenzen T+ = 18 Die Summe der Ränge für positive und negative Differenzen sollte gleich sein wenn die Nullhypothese gilt. Deutliche Unterschiede der Rangsummen deuten auf eine Verschiebung der der Daten aus den beiden verbundenen Stichproben relativ zu einander hin. M. Meyer Biostatistik Biostatistik 49 Kontingenztafeln Vierfeldertafel Exposition Resultat Summe erkrankt gesund ja a b a+b nein c d c+d a+c b+d a+b+c+d Summe Beispiel Impfung Influenza Summe ja nein ja 14 1056 1070 nein 95 437 532 109 1493 1602 Summe M. Meyer Biostatistik Kontingenztafeln II Kennwerte zum Risiko für 2 x 2 Tafeln Exposition Resultat Summe erkrankt gesund ja a b a+b nein c d c+d a+c b+d n=a+b+c+d Summe Risikodifferenz (attributables Risiko) RD = Risiko der Exponierten – Risiko der Nicht-Exponierten RD > 0 Exposition erhöht das Risiko R RD < 0 Exposition verringert das Risiko R RD = 0 Exposition hat keinen Effekt relatives Risiko = /( /( RR = 1 Exposition hat keinen Effekt M. Meyer Biostatistik = − ) ) Biostatistik 50 Kontingenztafeln III Kennwerte zum Risiko für 2 x 2 Tafeln Odds ist die Wahrscheinlichkeit, dass ein Ereignis eintritt dividiert durch die Wahrscheinlichkeit dass es nicht eintritt: Odds = Wahrscheinlichkeit (krank) / Wahrscheinlichkeit (gesund) Odds Ratio = ⁄ ⁄ = Bei OR = 1 hat die Exposition keinen Effekt Kennwerte für therapeutische Behandlungen Absolute Risikoreduktion A = Number Needed to Treat − = Anzahl der Patienten die behandelt werden müssen, um ein Krankheitsereignis zu verhindern. M. Meyer Biostatistik Kontingenztafeln IV Impfung Beispiel Influenza Summe ja nein ja 14 (1,3 %) 1056 (98,7 %) 1070 nein 95 (17.9 %) 437 (82,1 %) 532 109 1493 1602 Summe Risikodifferenz relatives Risiko = = /( /( = ⁄ − ) ) = = . . − = 0.013 − 0.179 = −0.166 = 0.073 Es ist 0.079 mal weniger wahrscheinlich dass geimpfte Personen erkranken Odds Ratio ⁄ = = = 0.061 Die odds ratio und das relative Risiko sind ähnlich wenn die Erkrankungswahrscheinlichkeit klein ist M. Meyer Biostatistik Biostatistik 51 Kontingenztafeln V Beispiel Absolute Risikoreduktion = − = 0.179 − 0.013 = 0.166 Number Needed to Treat = ⁄ = . =6 Es müssen 6 Personen geimpft werden um eine Erkrankung zu verhindern. M. Meyer Biostatistik Kontingenztafeln VI Χ2-Unabhängigkeitstest beobachtete Häufigkeiten Impfung Influenza Summe ja nein ja 14 (1,3 %) 1056 (98,7 %) nein 95 (17.9 %) 437 (82,1 %) 532 109 1493 1602 Summe 1070 erwartete Häufigkeiten bei Unabhängigkeit Impfung Influenza nein ja 72.8 997.2 1070 nein 36.2 495.8 532 109 1493 1602 Summe M. Meyer Biostatistik Summe ja Biostatistik erwartete Anzahl der erkrankten Personen, die nicht geimpft sind , = , = 532 = 0.332 1602 = 109 = 0.068 1602 = 1602 0.332 0.068 = 36.2 52 Kontingenztafeln VII Χ2-Unabhängigkeitstest Man berechnet den Quotienten (beobachtet – erwartet)2 / erwartet aus den Häufigkeiten jeder Zelle und summiert über alle Zellen: 2 O E 2 E ~12 Teststatistik ist 2 verteilt mit einem Freiheitsgrad Die Nullhypothese der Unabhängigkeit beider Merkmale wird verworfen, wenn der kritische Wert 3.841 der 2 Verteilung mit einem Freiheitsgrad für =0.05 überschritten wird. Beispiel 2 O E 2 14 72.82 1056 997.22 95 36.22 437 495.82 153.4 E 72.8 997.2 36.2 495.8 Die Wahrscheinlichkeit, dass derartige Unterschiede zwischen beobachteten und berechneten Werten zufällig auftreten, wenn die Nullhypothese wahr ist, liegt unterhalb des Limits von =0.05. M. Meyer Biostatistik Diagnostische Kennzahlen M. Meyer Biostatistik Biostatistik 53 Diagnostische Tests Richtige und falsche Klassifikation Testergebnis positiv negativ Krankheit ja nein richtig positiv falsch positiv falsch negativ richtig negativ Kennzahlen Sensitivität Wahrscheinlichkeit eines positiven Testergebnisses bei Kranken Sensitivität = a / (a + c) Spezifität Wahrscheinlichkeit eines negativen Testergebnisses bei Gesunden Spezifität = d / (b + d) M. Meyer Testergebnis positiv negativ Summe ja a c a+c Krankheit nein b d b+d Summe a+b c+d a+b+c+d Diagnose bakterieller Infektionen durch die Leukozytenzahl (WBC) Schwellwert (109/L) 5 10 12 15 17 20 22 25 Sensitivität (%) 100 100 75 50 38 0 0 0 Spezifität (%) 2 31 53 74 89 93 97 98 A. Akobeng, Act. Paed. 96, 644 (2007). Biostatistik Diagnostische Tests II Falsch negativ Rate Kranke die als gesund diagnostiziert werden FNR = c / (a + c) = 1- Sensitivität Falsch positive Rate Gesunde die positiv diagnostiziert werden FPR = b / (b + d) = 1- Spezifität Prävalenz Anteil der Kranken Prävalenz = (a + c) / (a + b + c + d) Positiver Vorhersagewert Wahrscheinlichkeit der Erkrankung bei positivem Testergebnis PPV = a / (a + b) Negativer Vorhersagewert Wahrscheinlichkeit der Gesundheit bei negativem Testergebnis NPV = d / (c + d) M. Meyer Biostatistik Biostatistik 54 Receiver Operating Curves ROC-Kurve Graphische Darstellung der Sensitivität und Spezifität für verschiedene mögliche Schwellwerte 0.8 Spezifität 98 % 0.2 0.6 98% area under the curve 0.99 0.4 Sensitivität 0.0 Sensitivity optimaler Schwellwert liegt möglichst weit links oben in der ROC-Grafik 1.0 Identifizierung von Schwellenwerten und Charakterisierung der ROC-Kurve 1.0 0.8 0.6 0.4 0.2 0.0 Specificity Michael Meyer Biostatistik Diagnostische Tests – Beispiel MOMP-Test (major outer membrane protein) für ChlamydienInfektionen Sensitivität 96.7% Spezifität 99.7 % Die Prävalenz von Chlamydien-Infektion beträgt bei jungen Erwachsen ca. 5%. Wie groß ist PPV und NPV? Testergebnis ja 484 16 500 = = 0.945 M. Meyer Biostatistik Infektion nein 28 9 472 9 500 positiv negativ Summe Summe 512 9488 10 000 = = 0.998 Biostatistik 55 Diagnostische Tests – Beispiel II Ist ein flächendeckender HIV-Test in Deutschland sinnvoll? Bevölkerung 80 000 000 Einwohner HIV Rate 0.1% 80 000 Personen Sensitivität 99.9 %, Spezifität 99.8 % Richtig Positive = Sensitivität * 80 000 = 0.999 * 80 000 = 79 920 Falsch Negative = 80 000 – 79 920 = 80 Anzahl Gesunde = 80 000 000 - 80 000 = 79 920 000 Richtig Negative = Spezifität * Anzahl Gesunde = 0.998 * 79 920 000 = 79 760 160 Falsch Positive = 79 920 000 – 79 760 160 = 159 840 PPV = 79 920 / (79 920 + 159 840) = 0.33 Flächendeckende HIV-Tests würden zu einer unakzeptabel hohen falsch-positiv Rate führen. Die Wahrscheinlichkeit dass eine positiv getestete Person wirklich HIV-positiv ist, beträgt lediglich 33 %. M. Meyer Biostatistik Diagnostische Studien Phase 1 technische / methodische Untersuchungen (Analytik, Reproduzierbarkeit, Verzerrungen, Implementierung des Verfahrens) Phase 2 Evaluierung in ausgewählten Personen mit bekanntem Krankheitszustand Sensitivität in erkrankten und Spezifität in gesunden Personen Phase 3 Evaluierung in der klinischen Praxis bei unbekanntem Krankheitszustand Sensitivität, Spezifität, Prävalenz und prädiktive Werte Phase 4 Evaluierung der Wirksamkeit, Beitrag zum Therapieerfolg, Risiko-Nutzen-Verhältnis, Kosten GMDS, J. Clin. Chem. Clin. Biochem. 28, 873 (1990). M. Meyer Biostatistik Biostatistik 56 Diagnostische Studien II Fall-Kontroll Studie Studienteilnehmer mit genau definiertem Krankheitszustand Resultat abhängig von den eingeschlossenen Personen kein Zugang zu prädiktiven Werten limitierter Aufwand explorativ Anwendung in Phase 2 Kohortenstudie Studienteilnehmer mit unbekanntem Krankheitszustand vollständige Evaluierung der diagnostischen Güte hoher Aufwand konfirmativ Anwendung in Phase 3 M. Meyer Biostatistik Qualitätskontrolle Michael Meyer Biostatistik Biostatistik 57 Shewhart Regelkarte Ziel Qualitätsregelkarte zum Studium der Stabilität eines Prozesses (zufällige Streuung und Variation aufgrund spezieller Vorfälle) New data in MRSA[7:18] 40 50 60 UCL 30 CL 10 20 Kalibrierung: Monat 1- 6 Neue Daten: Monat 7 – 18 xbar.one Chart for MRSA[1:6] and MRSA[7:18] Calibration data in MRSA[1:6] monthly MRSA isolates Beispiel Neue Methicillin-resistente staphylococcus aureus (MRSA) Isolate in einem Krankenhaus LCL 1 2 3 4 5 6 7 8 9 10 12 14 16 18 month Number of groups = 18 Center = 35.5 StdDev = 9.042553 Michael Meyer LCL = 8.37234 UCL = 62.62766 Number beyond limits = 0 Number violating runs = 0 Biostatistik Bland Altman Plot Zielsetzung Übereinstimmung zwischen 2 experimentellen Methoden S1 und S2 oder Daten von 2 verschiedenen Zeitpunkten Methode Streudiagramm Mittelwert vs. Differenz S(x,y) = {(S1 + S2) / 2, S1 - S2 } Ergebnis Streuung, Bias, Trend Limitierung nicht quantitativ, nur für 2 Messungen Beispiele FEV1 (oben) and Neutrophilenzahl( unten) im induzierten Sputum Michael Meyer Biostatistik Biostatistik 58 Intraklassen Korrelationskoefficient (ICC) Ziel Quantifizierung der Übereinstimmung / Konsistenz von quantitativen Messungen mehrerer Beurteiler ICC 0 ≤ ICC ≤ 1 0: keine Übereinstimmung, 1: perfekte Übereinstimmung Vor / Nachteil quantitativ, nicht begrenzt auf 2 Beurteiler/Messungen Hinweis Pearsons Korrelationskoeffizient ist in diesem Zusammenhang nicht sinnvoll Beispiel ICC(FEV1)= 0.9 ICC(Neutrophilenzahl)= 0.5 Ein hoher ICC zeigt dass die wiederholten Messwerte von Proben eines Patienten (=Cluster) einander ähnlicher sind als die Proben vierschiedener Patienten. Michael Meyer Biostatistik Auswertung und Validierung von Screening Assays Screening window coefficient (Z-Faktor) frequency Variabilitäts- Separierungs- Variabilitätsbereich bereich bereich 3s 3c μs Z Daten Assay 1 SD=0 ideal 1 ≥ Z ≥ 0.5 große Trennung exzellent 0.5 > Z > 0 kleine Trennung machbar 0 keine Trennung, yes/no Berührung der Variabilitätsbereiche <0 keine Trennung, Screening Überlappung der nicht Variabilitätsbereiche möglich μc Probe Kontrolle assay signal Probe und Kontrolle Positiv- und Negativkontrolle Michael Meyer Biostatistik Z s c (3 s 3 c ) (3 s 3 c ) 1 s c s c Z ´ 1 Zhang, J. Biomol. Screen. 4, 67 (1999). Sui, J. Biomol. Screen. 12, 227 (2007). (3 c 3 c ) c c Biostatistik 59 Literatur W. Gaus, R. Muche, Medizinische Statistik: Angewandte Biometrie für Ärzte und Gesundheitsberufe, Schattauer, Stuttgart 2014. F. Bärlocher, Biostatistik, Thieme, Stuttgart 2007. J. Bortz, G. A. Lienert, Kurzgefasste Statistik für die klinische Forschung, Springer Medizin, Heidelberg 2008. W. Köhler, G. Schachtel, P. Voleske, Biostatistik, Springer, Berlin 2007. T. A. Lang, M. Secic, How to report statistics in medicine, Amer. College of Physicians, Philadelphia 2006. S. Pintadosi, Clinical trials, Wiley, Hoboken 2005. M. Meyer Biostatistik Biostatistik 60