Bedingte Wahrscheinlichkeiten Fehlschlüsse und Irritationen Hauke Morisse 19. März 2009 Zusammenfassung Diese Ausarbeitung soll einen Einstieg bieten in das weitläufige Feld der möglichen Fehlerquellen bei der Interpretation von und in der Beweisführung mit bedingten Wahrscheinlichkeiten. Die Beispiele basieren auf dem Text ’How to confuse with statistics or: The use and misuse of conditional probabilities’ von Walter Krämer und Gerd Gigerenzer [1]. Zusätzlich habe ich mich auf das Buch ’Stochastik für Einsteiger’ von Norbert Henze [2] bezogen, insbesondere bei der Behandlung des Simpson-Paradoxons. Ich werde die verschiedenen ’Fallen’ bei der der Interpretation von und bei dem Umgang mit bedingten Wahrscheinlichkeiten vorstellen und diese kategorisieren. Hier sind zu nennen: Die Vertauschung von bedingenden und bedingten Ereignissen, Fehlschlüsse aus ’begünstigenden Ereignissen’ sowie das Kaigh-Paradoxon und das Simpson-Paradoxon. Abschließend werde ich das Konzept der bedingten Wahrscheinlichkeiten bei der Beschreibung gleicher Sachverhalte mit den von Krämer und Gigernezer [1] so genannten ’natural frequencies’ gegenüberstellen. 1 1 Fehlschlüsse bei der Interpretation statistischer Daten Aus Informationen über Abläufe können je nach Umfang der Erhebung und deren Gestaltung unterschiedliche Fehlschlüsse naheliegen. Am Beispiel von Erhebungen zu Unfällen an festgelegten Orten zu gewissen Uhrzeiten lässt sich dies exemplarisch umreißen. Anzahl der Autos, die am 1.Tag um am 2.Tag um am 3.Tag um am 4.Tag um am 5.Tag um in Unfällen auf der Autobahn A24 verwickelt sind: 7 Uhr morgens: 03 | um 7 Uhr abends: 12 7 Uhr morgens: 02 | um 7 Uhr abends: 11 7 Uhr morgens: 03 | um 7 Uhr abends: 09 7 Uhr morgens: 05 | um 7 Uhr abends: 12 7 Uhr morgens: 01 | um 7 Uhr abends: 12 Die gewonnenen Daten legen fehlerhafte Schnellschlüsse nahe. Ein Fehlschluss ist die Verwechslung von BEDINGENDEN und BEDINGTEN Ereignissen. Die oben genannten Daten können als absolute Häufigkeiten festgehalten werden. Aufgrund der Verteilung der Autounfälle lassen sich folgende Werte für Wahrscheinlichkeiten vermuten: P(7 Uhr abends | Unfall) = 4 P(7 Uhr morgens | Unfall) Dies bedeutet, dass im Falle eines Unfalles auf dieser Straße die Wahrscheinlichkeit, dass er um 7 Uhr abends stattfindet 4 mal höher ist, als dass er um 7 Uhr morgens stattfindet, da die Absolutzahl der Unfälle abends viermal so groß ist wie die Absolutzahl der Unfälle morgens. Dies sollte keinesfalls verwechselt werden mit P(Unfall | 7 Uhr abends) = 4 P(Unfall | 7 Uhr morgens) dass also quasi Autofahren abends gefährlicher sei als morgens. Dies wäre eine fehlinterpretierte Aussage, die sich aus den obigen Daten nicht unmittelbar ergibt. Die Größe von P(Unfall) ist hier in keiner Hinsicht vorgegeben und somit lässt sich weder über die Größe von P(Unfall | 7 Uhr abends) etwas sagen, noch über die Größe von P(Unfall | 7 Uhr morgens). Es fehlen in diesem Fall die Absolutzahlen der Autos, die um 7 Uhr morgens bzw. 7 Uhr abends auf dieser Straße fahren. Anders formuliert: Daten, die auf die Wahrscheinlichkeiten, dass ein Auto um 7 Uhr morgens bzw. 7 Uhr abends fährt, schliessen lassen, fehlen, um die bedingten Wahrscheinlichkeiten in Relation zueinander zu setzen. Die Bezugsgrössen sind in diesem Beispiel: Menge der Unfallautos morgens ⊆ Menge der Autos morgens Menge der Unfallautos abends ⊆ Menge der Autos abends. 2 Ebenfalls lässt sich die ’Intuition’, dass die Wahrscheinlichkeit für einen Unfall abends erhöht ist, nicht belegen. Aus einem hohen Wert für P (A|B) kann nicht geschlossen werden, dass P (B|A) > P (B). Die Wahrscheinlichkeit, in einen Unfall verwickelt zu werden unter der Bedingung, abends mit dem Auto zu fahren, ist nicht notwendig höher als zu einer beliebigen Zeit. An dieser Erhebung lassen sich zwei mögliche Fehlinterpretationen ausmachen: Erstens die Verwechslung von bedingenden und bedingten Ereignissen und zweitens die vermeintlich positive, begünstigende Auswirkung von gewissen Wahrscheinlichkeiten für andere Wahrscheinlichkeiten. Insbesondere die zweite Form der Fehlinterpretation soll im folgenden Kapitel genauer betrachtet werden. 3 2 Bedingende und bedingte Wahrscheinlichkeit, begünstigende Ereignisse Ein weiteres, meiner Ansicht nach sehr anschauliches Beispiel, an dem offensichtlich ist, dass P (A|B) 6= P (B|A) gilt, aber manchmal die bedingten und bedingenden Wahrscheinlichkeiten nicht genau genug getrennt werden, beschreibe ich im Folgenden. ’Ein Mensch spricht französisch’ sei Ereignis A und ’Ein Mensch kommt aus Frankreich’ sei Ereignis B. Die zu betrachtenden bedingten Wahrscheinlichkeiten seien nun ’Wie hoch ist die Wahrscheinlichkeit, dass ein Mensch, der aus Frankreich kommt, französisch spricht?’, also P (A|B) und ’Wie hoch ist die Wahrscheinlichkeit, dass ein Mensch, der französisch spricht, aus Frankreich kommt?’, also P (B|A). Beide bedingten Wahrscheinlichkeiten sind unterscheidbar, aber auf den ersten Blick sehr ähnlich. Hier könnte schnell die eine Wahrscheinlichkeit mit der Anderen verwechselt werden. Nun läßt sich aus der Voraussetzung, dass P (A|B) ’groß’ ist, eine Begünstigung von A durch B vermuten. Begünstigende Ereignisse treten genau dann auf, wenn die Wahrscheinlichkeit für ein weiteres Ereignis unter ihrer Bedingung wächst. Formal bedeutet dies: Ereignis B begünstigt Ereignis A, wenn P (A|B) > P (A) gilt. Nun ist aber neben der Voraussetzung, dass P (A|B) ’groß’ ist, keine weitere Information über P (A) gegeben. Ein häufiger Fehlschluss bei der Argumentation mit bedingten Wahrscheinlichkeiten und begünstigenden Ereignissen ist auch, aus P (A|B) ’groß’ zu schließen, dass dann auch P (B|A) ’groß’ sein muss. Fehlende Größen sind hier P (A) und P (B), ohne die dieser Schluss nicht zu rechtfertigen ist. Im Beispiel soll dies über die Absolutzahlen verdeutlicht werden. P (A|B) ist ’gross’, wohingegen P (B|A) nicht vergleichbar groß ist, da P (A) erheblich größer ist als P (B). Es existieren bei Weitem mehr Menschen, die französisch sprechen, als Menschen, die in Frankreich leben. Also ist auch die Wahrscheinlichkeit höher, dass ein Mensch französisch spricht, als dass er aus Frankreich kommt. Die im Basistext [1] benannten Zeitungsmeldungen belegen die Häufigkeit dieser Art von Fehlschlüssen und Falschinterpretationen durch den Tausch von bedingendem und bedingtem Ereignis. Im Text wird beschrieben, dass diese Fehlerquelle möglicherweise sogar die häufigste überhaupt bei der Interpretation von statistischen Daten ist. Ein weiteres Beispiel zu diesem Fehler4 typ ist folgende Zeitungsmeldung: ’Jungen sind auf dem Fahrrad gefährdeter als Mädchen’. Diese Fehlinterpretation ergibt sich daraus, dass empirisch Jungen einen größeren Anteil an Beteiligten von Fahrradunfällen stellen als Mädchen. Die Studie legt demnach statistisch nur die Annahme nahe, dass mit dem Ereignis, dass ein Fahrradunfall stattfand, die Wahrscheinlichkeit hoch ist, dass ein Junge darin verwickelt ist, jedoch nicht, dass die Eigenschaft ein Junge zu sein die Unfallwahrscheinlichkeit begünstigt. Möglicherweise ergäbe sich aus weiteren Informationen tatsächlich eine Berechtigung für eine solche Annahme. Beispielsweise ist die Annahme berechtigt, wenn der Anteil der Jungen der zugrundegelegten Gruppe sehr gering ist, aber der Anteil der in einen Unfall verwickelten Personen der Gruppe überwiegend Jungen sind. Möglichweise fahren aber mehr Jungen als Mädchen mit dem Fahrrad. Formalisiert ausgedrückt bedeutet dies: Sei A das Ereignis, dass es sich bei dem Fahrradfahrer um einen Jungen handelt. B sei das Ereignis, dass ein Unfall verursacht wird. Aus P (A|B) ’groß’ lässt sich keine Information über die Größe von P (B|A) gewinnen. Gäbe es die zusätzliche Informationen, dass P (A) < P (Ac ), wäre der Schluss zulässig, dass aus P (A|B) ’groß’ folgt P (B|A) > P (B|Ac ). Denn es gilt P (A|B) = P (A∩B) P (B) ’groß’, daher gilt auch P (Ac |B) = P (Ac ∩B) P (B) ’klein’ und somit P (A ∩ B) > P (Ac ∩ B). Gleichzeitig gilt P (A) < P (Ac ), also kann für P (B|A) gefolgert werden, dass P (B|A) = P (B∩A) P (A) P (B|Ac ) = P (B∩Ac ) P (Ac ) im Vergleich zu sowohl im Zähler größer als auch im Nenner kleiner ist. Im Gegensatz hierzu kann ohne die Relation von P (A) zu P (Ac ) keine solche Aussage getroffen werden. Weitere Schlagzeilen, die auf solchen Fehlschlüssen basieren sind: ’Gefährliche Haushalte’ als Interpretation daraus, dass statistisch jeder 3.Unfall im Haushalt stattfindet und ’Vorsicht vor deutschen Touristen’ als Interpretation daraus, dass Skiunfälle von TouristInnen in der Schweiz laut Statistik überwiegend von Deutschen verursacht werden, ohne dass die Gesamtzahl der Deutschen unter den TouristInnen genannt wird. 5 3 Kaighs Paradoxon Aus der Bedingung, dass ein Ereignis B ein Ereignis A begünstigt, kann gefolgert werden, dass B das Ereignis Ac weniger wahrscheinlich macht. Was aber nicht ohne weiteres gesagt werden kann, ist, dass auch alle Ereignisse aus Untermengen von Ac durch B weniger wahrscheinlich werden. Formal geschrieben: P (A|B) > P (A) ⇔ 1 − P (Ac |B) > 1 − P (Ac ) ⇔ −P (Ac |B) > −P (Ac ) ⇔ P (Ac |B) < P (Ac ) Somit gilt: P (A|B) > P (A) ⇒ P (Ac |B) < P (Ac ) Aber wenn C Teilmenge von A ist, macht das Eintreten von B nicht notwendig das Ereignis C c weniger wahrscheinlich. Aus P (A|B) > P (A) und somit P (Ac |B) < P (Ac ) sowie C c ⊆ Ac kann nicht ohne weiteres P (C c |B) < P (C c ) gefolgert werden. Möglich ist hier ebenfalls, dass P (C c |B) > P (C c ) gilt. Sei P (Ac |B) < P (Ac ) sowie C c ⊆ Ac . Zerlege Ac in Ac = C c ∩ X mit C c ∪ X = ∅, also Ac = C c + X Dann gilt auch: P (C c |B) + P (X|B) = P (Ac |B) < P (Ac ) = P (C c ) + P (X) Es folgt P (C c |B) < P (C c ) + P (X) − P (X|B) (X|B) erfüllt, so liegt das Kaight Ist P (X) > P (X|B) und P (C c ) ≤ P (X)−P 2 c c Paradoxon mit P (C |B) > P (C ) vor. Ein typisches Beispiel, wo das Kaight Paradoxon auftritt, ist folgende Situation: Es findet eine Auswahl von Personen aus einer Gruppe statt, beispielsweise werden aus einer Menge BewerberInnen eine Anzahl an Personen eingestellt. Diese Menge der BewerberInnen lässt sich dabei aber noch spezieller in Untergruppen klassifizieren. Dies spielt in der Statistik beispielsweise bei der Erforschung von Diskriminierungsaspekten eine Rolle. Sei ’Gruppe 1’ eine dieser Untergruppen mit dem Merkmal ’Person hat weisse Hautfarbe’ und ’Gruppe 2’ das Komplement von ’Gruppe 1’, also die Untergruppe mit dem Merkmal ’Hat nicht weisse Hautfarbe’. Auch wenn Personen aus Gruppe 1 relativ gesehen stärker in der Auswahl vorhanden sind, als die Personen aus Gruppe 2, so sind nicht notwendig alle Teilmengen aus Gruppe 6 2 relativ gesehen schwächer in der Auswahl als Personen der Gruppe 1. Mit konkret gewählten Zahlen ergibt sich beispielhaft folgendes Bild. Sei 158 die Anzahl der ausgewählten Personen und 1000 die Gesamtzahl. 600 Personen sind aus der Gruppe 1 und 400 demnach aus der Gruppe 2. Nun werden 120 Personen aus Gruppe 1 gewählt. Die Bedingung, zur Gruppe 1 zu gehören, scheint also das Ereignis, ausgewählt zu werden zu begünstigen. Es darf aber nicht gefolgert werden, dass eine Diskriminierung von allen Personen der Gruppe 2 vorliegt. Es kann sein, dass eine Untermenge Gruppe 2’ aus Gruppe 2, die beispielsweise aus 100 Personen besteht und aus der 32 Personen gewählt werden, existiert. Die restlichen 6 gewählten Personen aus Gruppe 2 gehören nicht zur Untermenge Gruppe 2’, wohl aber zur Gruppe 2 . Im Textbeispiel werden schlicht ’Hispanics’ und ’Black people’ als Untermengen von ’Not white’ verwendet. Die Gruppe 2’ als Untergruppe von Gruppe 2 begünstigt ebenfalls das Ereignis ausgewählt zu werden, denn es gilt: 7 P(Ausgewählt|Gruppe2’) > P(Ausgewählt), in Zahlen: P(Ausgewählt|Gruppe2’) = 0,32 und P(Ausgewählt) = 0,158 Diese Begünstigung kann wie in diesem Beispiel sogar stärker sein, als die der vormals ermittelten Klasse der ausgewählten Personen der Gruppe 1. Denn hier gilt: P(Ausgewählt|Gruppe1) = 0,20 also P(Ausgewählt|Gruppe2’) > P(Ausgewählt|Gruppe1) > P(Ausgewählt) 8 4 Simpsons Paradoxon Im Folgenden soll die statistische Analyse von Diskriminierungsaspekten in Zulassungsverfahren am Standard - Beispiel der männlichen und weiblichen BewerberInnen an der Universität Berkeley betrachtet werden. Hierbei sind die unten aufgeführten Zahlen nicht die Originaldaten, aber sie verdeutlichen wie diese den Teilaspekt der Betrachtung, der als Simpsons Paradoxon bekannt geworden ist. Verglichen werden im Folgenden, wieviele männliche bzw. weibliche BewerberInnen es auf einzelne Fächer und in der Summe gegeben hat und wieviele dieser BewerberInnen dann auch tatsächlich zugelassen wurden.(Angelehnt an: [2] ’Stochastik für Einsteiger’, auf den Seiten 108 bis 110) Fach1 Fach2 Summe Frauen Bewerberinnen 900 100 1000 davon zugelassen 720 20 740 Männer Bewerber 200 800 1000 davon zugelassen 180 240 420 Aus den gegebenen Beispieldaten ist zu erkennen, dass in der Summe gesehen mehr Frauen als Männer zugelassen wurden, aber auf beide Fächer einzeln bezogen jeweils mehr Männer relativ zur Zahl der Bewerber als Frauen relativ zur Zahl der Bewerberinnen zugelassen wurden. Hier stellt sich die Frage, ob nun eine tatsächliche Diskriminierung der Männer bei der Zulassung stattgefunden hat, oder nicht. Zudem stellt sich die Frage, ob nicht sowohl die Argumentation in der Summe als auch in den einzelnen Fächern jeweils verkürzt ist, wenn Diskriminierungsaspekte aufgedeckt und kategorisiert werden sollen. Die Wahrscheinlichkeit, als Bewerberin überhaupt zugelassen zu werden, liegt nach dieser einfachen Datenerhebung bei 0,74, als Bewerber überhaupt zulgelassen zu werden bei 0,42. Diese Wahrscheinlichkeiten ergeben sich aus den relativen Häufigkeiten der Zulassungen in der Summe der Fächer und der Annahme, dass die Stichprobe und somit die gewonnenen Daten repräsentativ sind für die Gesamtzahl der BewerberInnen. Als Bewerberin im Fach 1, wo sich 90 Prozent der Bewerberinnen beworben haben, liegt die Wahrscheinlichkeit zugelassen zu werden bei 0,8, da ja die 900 Bewerberinnen zugrundegelegt werden und es sich demnach um eine bedingte Wahrscheinlichkeit handelt. Diese bedingte Wahrscheinlichkeit ließe sich folgendermassen formulieren: ’Unter der Bedingung, dass sich eine Frau auf Fach 1 bewirbt, liegt die Wahrscheinlichkeit ihrer Zulassung zu diesem Fach bei 0,8’. Analog sind auch die anderen jeweiligen fachbezogenen Zulassungen als bedingte Wahrscheinlichkeiten zu interpretieren. 9 Sei A das Ereignis ’ist zugelassen’, B das Ereignis ’ist männlich’, B c das Ereignis ’ist weiblich’ und F1 ’beworben für Fach1’ sowie F2 ’beworben für Fach2’. Für die oben genannten Wahrscheinlichkeiten ergibt sich dann: P (A|B c ) = 0, 74 P (A|B) = 0, 42 P (A|B c ∩ F1 ) = 0, 8 P (A|B c ∩ F2 ) = 0, 2 P (A|B ∩ F1 ) = 0, 9 P (A|B ∩ F2 ) = 0, 3 P (F1 |B c ) = 0, 9 P (F2 |B c ) = 0, 1 P (F1 |B) = 0, 2 P (F2 |B) = 0, 8 In dieser formalisierten Darstellung über bedingte Wahrscheinlichkeiten wird deutlich, wie sich die Begünstigungen im Einzelnen zueinander verhalten und dass es sich keineswegs um eine paradoxe Situation handelt. Es gilt: P (A|B c ) = 0, 74 > 0, 42 = P (A|B) und gleichzeitig gilt: P (A|B c ∩ F1 ) = 0, 8 < 0, 9 = P (A|B ∩ F1 ) sowie P (A|B c ∩ F2 ) = 0, 2 < 0, 3 = P (A|B ∩ F2 ). Die Wahrscheinlichkeit, als Frau für Fach 1 zugelassen zu werden, ist geringer als die Wahrscheinlichkeit, als Mann zugelassen zu werden (0,8 bzw. 0,9). Ebenso verhält es sich mit Fach 2, in dem ebenfalls die Wahrscheinlichkeit, als Mann zugelassen zu werden, höher ist als die Wahrscheinlichkeit, als Frau zugelassen zu werden (0,2 bzw. 0,3). Dabei wird deutlich, dass sowohl für die Bewerberinnen auf Fach 1 als auch für die Bewerber auf Fach 1 die Wahrscheinlichkeit einer Zulassung erheblich höher ist als in Fach 2. Zu der ’paradoxen’ Situation kommt es, da gerade in dem Fach, in dem die Zulassungsquote gering ausfällt, nämlich im Fach 2 besonders viele Bewerber existieren, während umgekehrt besonders viele der Bewerberinnen sich in Fach 1 beworben haben, in dem die Zulassungsquote recht hoch ist. Wird nun die Summe der Zulassungen in ihre Einzelaspekte zerlegt, zeigt sich diese Verteilung der Wahrscheinlichkeiten besonders deutlich: 10 P (A|B c ) = P (F1 |B c ) · P (A|B c ∩ F1 ) + P (F2 |B c ) · P (A|B c ∩ F2 ) 0, 74 = 0, 9 · 0, 8 + 0, 1 · 0, 2 P (A|B) = P (F1 |B) · P (A|B ∩ F1 ) + P (F2 |B) · P (A|B ∩ F2 ) 0, 42 = 0, 2 · 0, 9 + 0, 8 · 0, 3 Bei Henze ([2], S.109) wird diese Darstellung über ’gewichtete Mittel’ eingeführt, um den ’verwirrenden Sachverhalt’ zu entzerren. Diese Darstellung verdeutlicht, dass die Wahrscheinlichkeiten der Bewerbungen für eines der Fächer bei Frauen und Männern in diesem Beispiel stark unterschiedlich sind und die Zulassung zu den jeweiligen Fächern ebenso. In der Summe betrachtet sind daher die Zulassungen unterschiedlich hoch, sogar entgegengesetzt den Zulassungen auf die einzelnen Fächer bezogen, da es gerade für das Fach 1 viele Bewerberinnen gab, in dem viele Personen zugelassen wurden und es für das Fach 2 viele Bewerber gab, in dem wenige Personen zugelassen wurden. Also handelt es sich nicht um eine ’männerfeindliche’ Universität, sondern um eine Situation, in der mehrere sich gegenseitig beeinflussende Umstände aufeinandertreffen. Dieses Phänomen, das als ’Simpson Paradoxon’ bekannt geworden ist, tritt laut Literatur recht häufig in der Auswertung von Statistiken vor, so dass hier eine häufige Fehlerquelle von Interpretationen von Statistiken zu finden ist. Im Weiteren werde ich die mathematischen Konzepte beschreiben, die dem Simpson Paradoxon zugrundeliegen. Zentral ist hier der Satz von der totalen Wahrscheinlichkeit. Dieser besagt: Seien K1 , ..., Kn eine disjunkte Zerlegung des Ergebnisraumes Ω, also K1 ∪ ... ∪ Kn = Ω und Ki ∩ Kj = ∅ für i 6= j und P (K) ≥ 0 für alle i = 1, ..., n Dann gilt für alle Ereignisse A aus Ω: P P (A) = ni=1 P (Ki ) · P (A|Ki ) Für bedingte Wahrscheinlichkeiten ergibt sich analog allgemein: P P (A|B) = nj=1 P (Kj |B) · P (A|B ∩ Kj ) Wobei A das bedingte und B das bedingende Ereignis ist und Kj die Gewichte, die die bedingte Wahrscheinlichkeit P (A|B) in einzelne Wahrscheinlichkeiten zerlegen lässt und dabei diese einzelnen Wahrscheinlichkeiten gewichtet. Das Simpson Paradoxon tritt demnach genau dann auf, wenn neben der Ungleichung P (A|B ∩ Kj ) > P (A|B c ∩ Kj ) für alle j = 1, ..., n auch die Ungleichung 11 P (A|B) < P (A|B c ) erfüllt ist. (vgl.[2]) Dies ist mathematisch kein Paradoxon, sehr wohl aber eine Quelle fehlerhafter Interpretationen bei ungenauen Betrachtungen. 12 5 Ein Beispiel zu logischen Verknüpfungen in bedingten Wahrscheinlichkeiten Wenn mehrere Ereignisse, die untersucht werden, logisch miteinander verknüpft sind, kann es zu Irritationen bei der Interpretation der gewonnenen Daten kommen. Im folgenden Beispiel wurden Daten über Todesfälle und Selbstmordfälle erhoben, die nach Alterskategorien zugeordnet wurden. Untersucht werden soll, ob eine gewisse Alterskategorie die Wahrscheinlichkeit, dass es sich bei einem Todesfall auch um einen Selbstmordfall handelt, begünstigt. Aus der (fiktiven) Erhebung ergibt sich nun eine hohe relative Häufigkeit von selbstmordbedingten Todesfällen bei jungen Menschen, während sie bei älteren Menschen schwächer ausgeprägt sind. Es werden folgende Ereignisse betrachtet: Sei S das Ereignis ’Die Person hat Selbstmord begangen’, J das Ereignis ’Die Person ist zwischen 20 und 25 Jahren alt’ sowie A das Ereignis ’Die Person ist über 70 Jahre alt’. Nun fehlt zur korrekten Modellierung das Ereignis T ’Die Person ist tot’, welches leicht übersehen wird, da es inhaltlich indirekt vorausgesetzt wird. Damit ergibt sich folgender Schluss: P (S|J ∧ T ) > P (S|A ∧ T ) Nun kann fälschlicherweise daraus interpretiert werden, dass auch gelte: P (S|J) > P (S|A) und dass somit das Ereignis J das Ereignis S begünstige. Ohne weiteres lässt sich dies nicht schließen, da nun nicht mehr die Toten der jeweiligen Altersgruppe betrachtet werden, sondern die Gesamtzahl. Nun ist aber P (S|J ∧ T ) möglicherweise eben daher groß, weil P (J ∧ T ) < P (A ∧ T ) gilt, also erheblich mehr Todesfälle im Alter auftreten als bei den 20 bis 25 Jährigen. Aus diesen erhobenen Daten kann somit keine Aussage über Begünstigungen getroffen oder belegt werden. 13 6 Ein Brustkrebs-Testverfahren in verschiedenen Darstellungsformen Im Folgenden sollen zwei gleichwertige Darstellungen zu einer Fragestellung gegenübergestellt und anschließend interpretiert werden. Im Basistext [1] wird hierzu die Auffassung vertreten, dass eine alternative Formulierung gegenüber derjenigen mit bedingten Wahrscheinlichkeiten das Verständnis von Sachverhalten erleichtert und das die Ursachen der Konfusion damit zu beseitigen seien. Dies beschreiben die beiden Autoren an folgendem Beispiel in zwei Varianten: Die erste Variante ist, die Fragestellung über bedingte Wahrscheinlichkeiten auszudrücken: Die Wahrscheinlichkeit, dass eine Frau Brustkrebs hat, liegt bei 0,8 Prozent. Wenn eine Frau Brustkrebs hat, liegt die Wahrscheinlichkeit, dass sie ein positives Testergebnis hat bei 90 Prozent. Wenn eine Frau nicht erkrankt ist, liegt die Wahrscheinlichkeit, dass sie ein positives Testergebnis hat bei 7 Prozent. Nehmen wir nun eine Frau, die ein positives Testergebnis hat, wie hoch ist dann die Wahrscheinlichkeit, dass sie tatsächlich erkrankt ist? Die zweite Variante ist nun die Darstellung über ’natural frequencies’, was sich etwa als ’natürliche Häufigkeiten’ übersetzen lässt: Nach vorliegenden Daten sind 8 von 1000 Frauen an Brustkrebs erkrankt. Von diesen 8 Frauen mit Brustkrebs werden 7 ein positives Testergebnis erhalten. Von den 992 Frauen, die nicht erkrankt sind, werden 70 ein positives Testergebnis erhalten. Nehmen wir nun eine Frau, die ein positives Testergebnis hat, wie hoch ist dann die Wahrscheinlichkeit, dass sie tatsächlich erkrankt ist? Die Darstellung in beiden Varianten ist, wenn Rundungen außer Acht gelassen werden, gleichwertig. Laut Untersuchungen der Autoren haben befragte Ärzte je nach Variante unterschiedliche Größenordnungen für die gefragte Größe getippt, wobei bei der ersten Variante größere Unsicherheit herrschte als bei der zweiten Variante. Sie gehen davon aus, das 90 Prozent Sensitivität und 7 Prozent Spezifizität als Angaben weniger ’intiutiv’ ist, als wenn ’7 von 8 Personen’ und ’70 von 992 Personen’, also relative Häufigkeiten anstelle von bedingten Wahrscheinlichkeiten angegeben werden. Die Berechnung der gefragten Größe kann nun auf zwei Weisen erfolgen: Über bedingten Wahrscheinlichkeiten: Ereignis A sei ’Person hat Brustkrebs’, Ereignis B sei ’Test ist positiv’. Dann gilt: P (A) = 0, 008 und P (B|A) = 0, 9 sowie P (B|Ac ) = 0, 07. 14 Gesucht ist P (A|B). P (A|B) = P (A∩B) P (B) = P (A)·P (B|A) P (A∩B)+P (Ac ∩B) = P (A)·P (B|A) P (A)·P (B|A)+P (Ac )·P (B|Ac ) = 0,008·0,9 0,008·0,9+0,992·0,07 = 0, 09395 (gerundet) Somit liegt die Wahrscheinlichkeit, bei einem positiven Testergebnis tatsächlich erkrankt zu sein, bei etwa 0,09, also bei 9 Prozent. Über relative Häufigkeiten: 8 von 1000 Frauen haben Brustkrebs. Von diesen 8 Frauen mit Brustkrebs werden 7 positiv getestet (gerundet über 90 Prozent von 8 Personen). Von den anderen 992 Frauen ohne Brustkrebs werden 70 positiv getestet, (gerundet über 7 Prozent von 992 Personen). Die Anzahl der positiv getesteten Frauen ist 77, davon haben nur 7 Brustkrebs, also ist eine von 11 positiv getesteten Frauen tatsächlich krank. Die gesuchte 1 , etwa 9 Prozent. Größe ist somit 11 Nun wurde mit diesem Beispiel zwar dargelegt, dass für eine Schätzung von Größenordnungen relative Häufigkeiten geeigneter Erscheinen, als bedingte Wahrscheinlichkeiten, aber das damit die ’Ursache für Konfusionen’ beseitigt wird, scheint weiterhin fraglich, wenn nicht grundsätzlich präzise interpretiert wird. Am Beispiel wird deutlich, wie Fehlinterpretationen und fehlende Kenntnis über den Zusammenhang von mathematischen Größen und der entsprechende Umgang mit Daten offensichtlich erhebliche Konsequenzen in der Praxis nach sich ziehen kann, da ein Großteil der befragten ExpertInnen erst einmal auf fehlerhafte Schätzungen kamen. 15 7 Ausblick Insgesamt kann festgehalten werden, dass Fehlschlüsse bei der Arbeit mit bedingten Wahrscheinlichkeiten keine Seltenheit darstellen und Sachverhalte häufig durch ’Intuition’ scheinbar klar sind, aber dann eben nicht mehr exakt betrachtet wird, was denn nun bei konkreten Daten in Erhebungen tatsächlich schlüssig ist und was nicht. Die Formalisierung von Bedingungen und Bedingtheiten ist an vielen Stellen unersetzlich, aber die sprachliche ’Anreicherung’ und der Zugang über mehrere Darstellungen, beispielsweise Grafiken, ist meiner Ansicht nach der Schlüssel zum abgerundeten Verständnis von möglichen Fehlschlüssen. Um eine erste Vorstellung von Größenordnungen zu bekommen, ist eine Argumentation mit natürlichen Häufigkeiten hilfreich, die formale Darstellung über bedingte Wahrscheinlichkeiten kann es aber nicht ersetzen. Letztlich ist die Genauigkeit sowohl in mathematischen Formulierungen als auch in der Alltagssprache gefragt. 16 8 Quellen [1] ’How to Confuse with Statistics or: The Use and Misuse of Conditional Probabilities’ von Walter Krämer und Gerd Gigerenzer, publiziert in ’Statistical Science’ Vol.20, 2005 [2] ’Stochastik für Einsteiger’ von Norbert Henze, Vieweg Verlag, 2004 17