Statistische Überlegungen: Eine kleine Einführung in das 1 x 1 PD Dr. Thomas Friedl Klinik für Frauenheilkunde und Geburtshilfe, Universitätsklinikum Ulm München, 23.11.2012 PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Inhaltsübersicht • Allgemeine Bemerkungen • Begriffsklärungen: Testhypothesen, Prüfgröße, p-Wert, Signifikanzniveau, Fehler 1. und 2. Art • Fallzahlberechnung • Beispiel einer einfachen Fallzahlberechnung Statistische Überlegungen: Inhaltsübersicht PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Zu empfehlen: Statistische Überlegungen PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Allgemeine Bemerkungen • Statistische Tests machen meist Aussagen zum Vergleich zwischen zwei oder mehr Stichproben • Diese Aussagen werden aufgrund der Daten der Stichproben getroffen, sollen aber für die Grundgesamtheiten gelten Stichprobe: Menge aller Beobachtungseinheiten, die im Versuch tatsächlich beobachtet werden Grundgesamtheit: Menge der Beobachtungseinheiten, über die anhand der Ergebnisse eines Versuchs Aussagen gemacht werden sollen • Mit Hilfe der schließenden Statistik sollen anhand einer Stichprobe Aussagen über die Grundgesamtheit gemacht werden. Die berechneten Parameter der Stichprobe liefern dabei eine Schätzung für die wahre Verteilung in der Grundgesamtheit Statistische Überlegungen: Allgemeine Bemerkungen PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Formulieren von Hypothesen • Diejenige Hypothese, auf Grund derer eine Untersuchung überhaupt durchgeführt wird, bezeichnet man als Alternativhypothese H1 (meist ein postulierter Unterschied bzw. Behandlungseffekt, welcher mit der Studie belegt werden soll) • Die dazu komplementäre Hypothese (kein Unterschied, kein Behandlungseffekt) bezeichnet man als Nullhypothese H0 Statistische Überlegungen: Formulieren von Hypothesen PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Prüfgröße und p-Wert Berechnen der Prüfgröße aus den vorliegenden Daten mit einem für die Fragestellung und die Daten geeigneten statistischen Test Bestimmung des durch die Prüfgröße gegebenen p-Werts (anhand von Tabellen oder mit einer Statistiksoftware) p-Wert Irrtumswahrscheinlichkeit (Die Wahrscheinlichkeit, mit der man einem Irrtum unterliegt, wenn man die Nullhypothese ablehnt) Statistische Überlegungen: Prüfgröße und p-Wert PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Signifikanzniveau α Legt fest, ab welchem p-Wert (also ab welcher Irrtumswahrscheinlichkeit) die Nullhypothese abgelehnt werden kann („Wenn die Wahrscheinlichkeit gering ist, mich zu irren, wenn ich die Nullhypothese ablehne, kann ich sie ablehnen und damit die Alternativhypothese annehmen.“) In Biologie und Medizin legt man normalerweise das Signifikanzniveau auf α = 0.05 (bzw. α = 5%) fest. das Risiko einer Fehlentscheidung bei der Ablehnung der Nullhypothese beträgt dann 5% Statistische Überlegungen: Signifikanzniveau α PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Testentscheidung Wirklichkeit Testentscheidung H0 richtig H1 richtig für H0 Richtige Entscheidung 1-α Falsch negativ Fehler 2. Art β für H1 Falsch positiv Fehler 1. Art α Richtige Entscheidung 1-β Statistische Überlegungen: Testentscheidung PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Fehler 1. und 2. Art Fehler 1. Art (α – Fehler, falsch positive Entscheidung): Annahme der Alternativhypothese (d.h. Postulierung eines Unterschieds bzw. Effekts) wenn in Wirklichkeit die Nullhypothese richtig ist (also kein Unterschied bzw. Effekt existiert) Fehler 2. Art (β – Fehler, falsch negative Entscheidung): Beibehaltung der Nullhypothese (kein Unterschied bzw. Effekt) obwohl in Wirklichkeit die Alternativhypothese richtig ist (also tatsächlich ein Unterschied bzw. Effekt existiert); Teststärke („Power“) = 1 - β Statistische Überlegungen: Fehler 1. und 2. Art PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Fallzahlberechnungen Internationale Standards zur Durchführung von klinischen Studien mit Medikamenten/Medizinprodukten schreiben Fallzahlplanungen vor. Gesucht wird jeweils die notwendige Fallzahl (= Stichprobengröße), um einen vorher bestimmten medizinisch relevanten Unterschied auf einem vorher bestimmten Signifikanzniveau (α) mit einer vorher bestimmten Teststärke (1 - β) nachweisen zu können. Statistische Überlegungen: Fallzahlberechnungen PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Fallzahlberechnungen - Beispiel In einer zweiarmigen klinischen Studie soll an Patienten mit akutem Herzinfarkt eine neue Therapie mit der Standardtherapie verglichen werden (zwei unabhängigen Gruppen: Patienten mit Standardtherapie oder mit neuer Therapie) Zielkriterium ist die Hospitalmortalität nach 28 Tagen (dichotomes Merkmal – gestorben ja / nein) χ2-Vierfelder-Test Statistische Überlegungen: Fallzahlberechnungen - Beispiel PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Exkurs - Prinzip des χ2-Vierfelder-Tests: Vergleich der beobachteten Häufigkeiten mit den unter der Nullhypothese H0 zu erwartenden Häufigkeiten Tod innerhalb von 28 Tagen ja nein Randsummen Standardtherapie a b n1 = a + b Neue Therapie c d n2 = c + d Randsummen a+c b+d n=a+b+c+d Statistische Überlegungen: Exkurs χ2-Vierfelder-Test PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Statistische Überlegungen: Fallzahlberechnungen - Beispiel PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Fallzahlberechnungen - Beispiel Mortalität unter Standardtherapie 20% P2 = 0.2 Medizinisch relevanter Unterschied, den man mit der Studie nachweisen will: Senkung der Hospitalmortalität um 8% P2 - P1 = 0.08 P1 = 0.12 Q1 = 1 – P1 Q1 = 0.88 Q2 = 1 – P2 Q2 = 0.8 P = (P1+ P2)/2 P = 0.16 Q = 1 – P Q = 0.84 Statistische Überlegungen: Fallzahlberechnungen - Beispiel PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Fallzahlberechnungen - Beispiel Statistische Überlegungen: Fallzahlberechnungen - Beispiel PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Fallzahlberechnungen - Beispiel Formulierung dieser Fallzahlkalkulation für das Studienprotokoll: „Es wird angenommen, dass die Hospitalmortalität nach einem Herzinfarkt bei Behandlung mit der Standardtherapie bei etwa 20% liegt (Referenz). In dieser Studie soll mit einem vorgegebenen Signifikanzniveau von α = 5% eine Verringerung der Hospitalmortalität bei Behandlung mit der neuen Therapie um 8% auf 12% mit einer Teststärke von 80% entdeckt werden können. Zur Überprüfung der Hypothese mittels eines χ2-Vierfelder-Tests ist eine Fallzahl von ca. 328 Patienten pro Behandlungsarm erforderlich.“ Statistische Überlegungen: Fallzahlberechnungen - Beispiel PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Fallzahlberechnungen Folgende Faktoren beeinflussen den Stichprobenumfang: • Signifikanzniveau α: Je kleiner α desto größer n (meist α = 0.05 bzw. 0.01) • Teststärke 1 - β: Je größer die Teststärke 1 - β desto größer n (meist 0.8 bzw. 0.9) • Mittelwertsunterschied: je kleiner der klinisch relevante Unterschied desto größer n. Statistische Überlegungen: Fallzahlberechnungen PD Dr. Thomas Friedl, Klinik für Frauenheilkunde und Geburtshilfe Fallzahlberechnungen P1 P2 (Wahrscheinlichkeit für Ereignis nach neuer Therapie) (Wahrscheinlichkeit für Ereignis nach Standardtherapie) 0.05 0.10 ≈ 435 0.08 0.10 ≈ 3210 0.10 0.20 ≈ 200 0.12 0.20 ≈ 328 0.15 0.20 ≈ 904 0.18 0.20 ≈ 6032 0.80 0.90 ≈ 200 0.85 0.90 ≈ 686 0.88 0.90 ≈ 3840 Statistische Überlegungen: Fallzahlberechnungen Benötigtes n pro Gruppe