Diagnose Statistische Diagnose Einordnung: Kernfrage bzgl. der Modellierung: Diagnose ∈ Problemklasse “Analyse” Wieviel ist bekannt über das zu diagnostizierende System? Begriffe der Diagnose: • System. Black box Gray box White box Ausschnitt aus der realen Welt. Hier: System zeigt Fehlverhalten bzw. einen Fehler. • Symptom. Beobachtbare Ausprägung einer Eigenschaft eines Systems, die durch einen Fehler im System verursacht wird. Wenn wenig bekannt ist, haben wir es mit einem Black-Box-Modell bzw. assoziativem Modell zu tun. Input Output Einfach: Abweichung vom Normalverhalten. ... ... • Diagnose I. Zustand eines Systems, der alle Symptome erklärt. Black box Hier: Diagnose = Fehler(zustand) bzw. Menge von Fehler(zuständen) Modellierung: • Diagnose II. Prozess zur Bestimmung einer Diagnose (im Sinne von I). • statistische Verfahren • neuronale Netze • Methoden der Identifikation • Hypothese. Diagnosekandidat, mögliche Diagnose (im Sinne von I). c STEIN 2000-2004 V-1 Statistical Diagnosis: Bayes • ... c STEIN 2000-2004 V-2 Statistical Diagnosis: Bayes Statistische Diagnose Statistische Diagnose Problemstellung und Rahmen für Modellierung seien vorgegeben. Arzt: “Das Medikament wird Sie mit einer Wahrscheinlichkeit von 90% heilen.” Frage: Welche Problemlösungsmethode ist geeignet? Was könnte damit gemeint sein? Problemlösungsmethoden für Analyseaufgaben 1. Er hat das Medikament bei 20 PatientInnen ausprobiert und 18 wurden geheilt. statistische Diagnose fallbasierte Diagnose assoziative Diagnose funktionsbas. Diagnose verhaltensbas. Diagnose 2. Er glaubt, daß, wenn er immer mehr PatientInnen mit diesem Medikament behandeln würde, sich die relative Häufigkeit der Erfolge bei genügend großer PatientInnen-Zahl bei 0.9 stabilisieren wird. StrukturLogik- Ursache/ Wirkungs- Fehler- modell Verhaltens- 3. Er hält 90 Euro für den fairen Einsatz einer Wette, bei der er 100 Euro bekommt, wenn Sie geheilt werden. Regel- Fuzzy- 4. Ein statistischer Test mit der Irrtums-Wahrscheinlichkeit 10% hat die Wirksamkeit des Medikamentes bewiesen. Black-Box- [Hennig, Univ. Hamburg] V-3 Statistical Diagnosis: Bayes c STEIN 2000-2004 V-4 Statistical Diagnosis: Bayes c STEIN 2000-2004 Statistische Diagnose Entwicklung des Wahrscheinlichkeitsbegriffs Prinzip: Definition 27 (Zufallsexperiment, Zufallsbeobachtung) Aus einer Menge vorhandener Fälle werden mit Hilfe statistischer Methoden Aussagen über die typische Verteilung möglicher Diagnosen abgeleitet. Ein Zufallsexperiment ist ein – im Prinzip – beliebig oft wiederholbarer Vorgang mit folgenden Eigenschaften: • Anordnung. • Aussagen quantifizieren den Zusammenhang zwischen Symptomen und Diagnosen • Aussagen umfassen oft a-Priori-Wahrscheinlichkeiten und bedingte Wahrscheinlichkeiten ➜ Für gegebene Symptomkonstellationen können Wahrscheinlichkeiten möglicher Diagnosen berechnet werden ➜ Wahrscheinlichste Diagnose (= Lösung) kann ausgewählt werden. Durch eine Beschreibung festgelegte reproduzierbare Gegebenheit. • Prozedur. Ein festgelegtes Vorgehen innerhalb der Anordnung zur Durchführung des Experiments. • Unvorhersagbarkeit des Resultats. Werden Anordnung und Prozedur nicht künstlich geschaffen, so spricht man von natürlichen Zufallsexperimenten bzw. von Zufallsbeobachtungen. Grundlage wichtiger statistische Ansätze: 1. Theorem von Bayes Bemerkungen: 2. Dempster-Shafer-Theorie Der Vorgang kann mehrmalig mit demselben System oder einmalig mit gleichartigen Systemen durchgeführt werden. Auch Zufallsexperimente laufen kausal im Sinne von Ursache und Wirkung ab. Die Zufälligkeit des Ergebnisses beruht nur auf dem Fehlen von Informationen über die Ursachenkette. V-5 Statistical Diagnosis: Bayes c STEIN 2000-2004 Entwicklung des Wahrscheinlichkeitsbegriffs V-6 Statistical Diagnosis: Bayes c STEIN 2000-2004 Entwicklung des Wahrscheinlichkeitsbegriffs Definition 28 (Ergebnisraum) Empirisches Gesetz der großen Zahlen: Eine Menge Ω = {ω1, ω2, . . . , ωn } heißt Ergebnisraum eines Zufallsexperiments, wenn jedem Versuchsausgang höchstens ein Element ω ∈ Ω zugeordnet ist. Die Elemente von Ω heißen Ergebnisse. Es gibt Ereignisse, deren relative Häufigkeit nach einer hinreichend großen Anzahl von Versuchen ungefähr gleich einem festen Zahlenwert ist. Motivation zum klassischen Wahrscheinlichkeitsbegriff: Definition 29 (Ereignisraum) • Laplace-Experiment. Jede Teilmenge A eines Ergebnisraums Ω heißt Ereignis. Ein Ereignis A tritt genau dann ein, wenn ein Ergebnis ω vorliegt mit ω ∈ A. Die Menge aller Ereignisse P(Ω) heißt Ereignisraum. Hierunter versteht man ein Zufallsexperiment, bei dem auf Basis einer Analyse der Anordnung und Prozedur angenommen werden kann, daß alle Ergebnisse gleich wahrscheinlich sind. • Laplace-Wahrscheinlichkeiten. Definition 30 (wichtige Ereignistypen) Sei Ω ein Ergebnisraums, A ⊆ Ω und B ⊆ Ω zwei Ereignisse. Dann sei vereinbart: So bezeichnet man die Wahrscheinlichkeiten der Ergebnisse eines Laplace-Experiments. Bei n Ergebnissen beträgt die Wahrscheinlichkeit jedes Ergebnisses 1/n. • ∅ heißt unmögliches Ereignis. • Laplace-Annahme. • Ω heißt sicheres Ereignis. Hierunter versteht man die Annahme, daß es sich bei einem Experiment um ein Laplace-Experiment handelt. • Ω \ A =: A heißt Gegenereignis zu A. • |A| = 1 ⇔ A heißt Elementarereignis. • A ⊆ B ⇔ A heißt Teilereignis von B bzw. “A zieht B nach sich”. • A = B ⇔ (A ⊆ B ∧ B ⊆ A). • A ∩ B = ∅ ⇔ A und B sind unvereinbar (ansonsten vereinbar). V-7 Statistical Diagnosis: Bayes c STEIN 2000-2004 V-8 Statistical Diagnosis: Bayes c STEIN 2000-2004 Entwicklung des Wahrscheinlichkeitsbegriffs Definition 31 (klassischer oder Laplace’scher Wahrscheinlichkeitsbegriff) Wird jedem Elementarereignis aus Ω die gleiche Wahrscheinlichkeit zugeordnet, so gilt für die Wahrscheinlichkeit P (A) eines Ereignisses A: P (A) = |A| Anzahl der für A günstigen Elementarereignisse = |Ω| Anzahl aller möglichen Elementarereignisse Entwicklung des Wahrscheinlichkeitsbegriffs Axiomatische Definition des Wahrscheinlichkeitsbegriffs: 1. Postulierung einer Funktion, die jedem Element des Ereignisraums eine Wahrscheinlichkeit zuordnet. 2. Formulierung grundlegender Eigenschaften dieser Funktion in Form von Axiomen. Definition 32 (Wahrscheinlichkeitsmaß) Bemerkungen: • Strenggenommen handelt es sich hierbei nicht um eine Definition. Warum nicht? • Trifft die Laplace-Annahme nicht zu, so können die Wahrscheinlichkeiten nur als relative Häufigkeiten bei der Durchführung vieler Versuche geschätzt werden. • Motiviert durch das empirische Gesetz der großen Zahlen wurde versucht, den Wahrscheinlichkeitsbegriff frequentistisch, über den (fiktiven) Grenzwert der relativen Häufigkeit zu definieren (hier insbesondere v. Mises, 1951). Dieser Versuch scheiterte, weil dieser Grenzwert – im Gegensatz zu Grenzwerten in der Infinitesimalrechnung – nicht nachweisbar ist. Sei Ω eine Menge, genannt Ergebnisraum, und sei P(Ω) die Menge aller Ereignisse, genannt Ereignisraum. Dann heißt eine Funktion P : P(Ω) → R, die jedem Ereignis A ∈ P(Ω) eine relle Zahl P (A) zuordnet, Wahrscheinlichkeitsmaß, wenn sie folgende Eigenschaften besitzt: 1. P (A) ≥ 0 (Axiom I) 2. P (Ω) = 1 (Axiom II) 3. A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B) (Axiom III) [Kolmogorow 1933] Bemerkungen: • Die drei Axiome heißen auch das Axiomensystem von Kolmogorow. • P (A) wird als “Wahrscheinlichkeit für das Eintreffen von A” bezeichnet. • Es ist nicht definiert, wie die Wahrscheinlichkeiten P verteilt sind. • Allgemein nennt man eine Funktion, welche die drei Bedingungen der Definition erfüllt, ein nicht-negatives, normiertes und additives Maß. c STEIN 2000-2004 V-9 Statistical Diagnosis: Bayes c STEIN 2000-2004 V-10 Statistical Diagnosis: Bayes Entwicklung des Wahrscheinlichkeitsbegriffs Bedingte Wahrscheinlichkeiten Definition 33 (Wahrscheinlichkeitsraum) Definition 34 (bedingte Wahrscheinlichkeit) Sei Ω ein Ergebnisraum, P(Ω) ein Ereignisraum und P : P(Ω) → R ein Wahrscheinlichkeitsmaß. Dann heißt das Paar hΩ, P i bzw. das Tripel hΩ, P(Ω), P i Wahrscheinlichkeitsraum. Seien hΩ, P(Ω), P i ein Wahrscheinlichkeitsraum und A, B ∈ P(Ω) zwei Ereignisse. Die Wahrscheinlichkeit, daß A eintritt, wenn man bereits weiß, daß B eingetreten ist, ist definiert durch P (A | B) = Satz 4 (Folgerungen der Axiome von Kolmogorov) 1. P (A) + P (A) = 1 2. P (∅) = 0 (aus Axiomen II und III) P (A ∩ B) , P (B) falls P (B) > 0 P (A | B) heißt bedingte Wahrscheinlichkeit für A unter der Bedingung B. (aus 1. mit A = Ω) Bemerkung: 3. Monotoniegesetz des Wahrscheinlichkeitsmaßes: A ⊆ B ⇒ P (A) ≤ P (B) Die bedingte Wahrscheinlichkeit P (A | B) erfüllt für variables A und festes B die Axiome von Kolmogorov und stellt ein Wahrscheinlichkeitsmaß dar. (aus Axiomen I und II) 4. P (A ∪ B) = P (A) + P (B) − P (A ∩ B) (aus Axiom III) 5. Seien A1, A2 . . . , Am paarweise unvereinbar, dann gilt: P (A1 ∪ A2 ∪ . . . ∪ Am ) = P (A1) + P (A2) + . . . + P (Am) V-11 Statistical Diagnosis: Bayes c STEIN 2000-2004 V-12 Statistical Diagnosis: Bayes c STEIN 2000-2004 Bedingte Wahrscheinlichkeiten Bedingte Wahrscheinlichkeiten Wichtige Folgerungen aus der Definition der bedingten Wahrscheinlichkeit: 1. P (A ∩ B) = P (B) · P (A | B) Satz 5 (totale Wahrscheinlichkeit) Seien hΩ, P(Ω), P i ein Wahrscheinlichkeitsraum, B1, . . . , Bm disjunkte Ereignisse mit Ω = B1 ∪ . . . ∪ Bm , P (Bi) > 0, i = 1, . . . , m und A ∈ P(Ω). Dann gilt: (Multiplikationsregel) 2. P (A ∩ B) = P (B ∩ A) = P (A) · P (B | A) P (A) = m X i=1 P (Bi) · P (A | Bi) 3. P (B) · P (A | B) = P (A) · P (B | A) ⇔ P (B | A) = P (A ∩ B) P (B) · P (A | B) = P (A) P (A) Beweis 1 4. P (A | B) = 1 − P (A | B) P (A) = P (Ω ∩ A) = P ((B1 ∪ . . . ∪ Bm) ∩ A) Bemerkung: = P ((B1 ∩ A) ∪ . . . ∪ (Bm ∩ A)) Im allgemeinen gilt P (A | B) 6= 1 − P (A | B). = m X i=1 m X = i=1 m X = i=1 P (Bi ∩ A) P (A ∩ Bi ) P (Bi) · P (A | Bi) 2 c STEIN 2000-2004 V-13 Statistical Diagnosis: Bayes c STEIN 2000-2004 V-14 Statistical Diagnosis: Bayes Unabhängigkeit von Ereignissen Satz von Bayes Definition 35 (stochastische Unabhängigkeit von zwei Ereignissen) Satz 6 (Bayes) Seien hΩ, P(Ω), P i ein Wahrscheinlichkeitsraum und A, B ∈ P(Ω) zwei Ereignisse. A und B heißen stochastisch unabhängig (bei P ) genau dann, wenn gilt: Seien hΩ, P(Ω), P i ein Wahrscheinlichkeitsraum, B1, . . . , Bm disjunkte Ereignisse mit Ω = B1 ∪ . . . ∪ Bm , P (Bi) > 0, i = 1, . . . , m und A ∈ P(Ω) mit P (A) > 0. Dann gilt: P (A ∩ B) = P (A) · P (B) “Produktregel” P (Bi | A) = P (Bi) · P (A | Bi) m X i=1 P (Bi) · P (A | Bi) Bemerkung: Mit 0 < P (B) < 1 gelten folgende Äquivalenzen: Beweis 2 P (A ∩ B) = P (A) · P (B) Aus der Multiplikationsregel für P (A | Bi) und P (Bi | A) folgt: ⇔ P (A | B) = P (A | B) ⇔ P (A | B) = P (A) P (Bi | A) = Definition 36 (stochastische Unabhängigkeit von m Ereignissen) Seien hΩ, P(Ω), P i ein Wahrscheinlichkeitsraum und A1, . . . , Am ∈ P(Ω) Ereignisse. A1 , . . . , Am heißen gemeinsam stochastisch unabhängig (bei P ) genau dann, wenn für alle Teilmengen {Ai1 , . . . , Aik } aus {A1, . . . , Am} mit i1 < i2 < . . . < ik und 2 ≤ k ≤ m die Produktregel gilt: P (A ∩ Bi ) P (Bi) · P (A | Bi ) = P (A) P (A) Anwendung des Satzes der totalen Wahrscheinlichkeit für P (A) im Nenner des Bruches gibt die Behauptung. 2 Bemerkungen: • P (Bi ) heißt a-Priori-Wahrscheinlichkeit von B i. • P (Bi | A) heißt a-Posteriori-Wahrscheinlichkeit von B i . P (Ai1 ∩ . . . ∩ Aik ) = P (Ai1 ) · . . . · P (Aik ) V-15 Statistical Diagnosis: Bayes c STEIN 2000-2004 V-16 Statistical Diagnosis: Bayes c STEIN 2000-2004 Satz von Bayes Satz von Bayes Anwendung von Bayes zur Diagnose: Verallgemeinerung auf mehrere Ereignisse. Aus Wahrscheinlichkeiten für Kausalzusammenhänge P (<symptom> | <ursache>) und Ursachen P (<ursache>) kann mittels Bayes die Wahrscheinlichkeit P (<ursache> | <symptom>) in einer “Diagnosesituation” berechnet werden. • Seien B1, . . . , Bm Ereignisse. • Dann bezeichne P (A | B1, . . . , Bm ) die Wahrscheinlichkeit für A unter der Voraussetzung, daß alle Bi eingetreten sind. Schreibweisen auch: P (A | B1 ∧ . . . ∧ Bm), P (A | B1 ∩ . . . ∩ Bm) • P (A | B1, . . . , Bm) heißt bedingte Wahrscheinlichkeit für A unter den Bedingungen Bi. Bemerkungen: • Diagnosen entsprechen Ursachen. • Diagnosen und Symptome werden als Ereignisse aufgefaßt. Ereignisse sind Teilmengen eines Ergebnisraums Ω = {ω1, . . . , ωn }. Wie Ω tatsächlich aussieht, wird in der statistischen Diagnostik oft nicht betrachtet. Grund: Hier ist die wichtigste Begriffsebene (Knowledge level) auf den Konzepten “Diagnose” bzw. “Hypothese” und “Symptom” aufgebaut. Anwendung auf die Diagnose: • Situation des Kausalzusammenhangs S1, . . . , Sk | D : Es wird (wurde in der Vergangenheit) immer wieder festgestellt, daß in der Situation D die Symptome S1, . . . , Sk beobachtet werden können. Man könnte sich den Ergebnisraums Ω als Menge von Vektoren ωi vorstellen, wobei jeder Vektor ωi einer Zufallsbeobachtung des Systems entspricht. Z. B. könnte ωi Informationen über Blutwerte, Herz-Kreislaufwerte etc. beinhalten. • Diagnosesituation D | S1 , . . . , Sk : Umkehrung der Situation des Kausalzusammenhangs. Beobachtet werden die Symptome S1 , . . . , Sk . Gesucht ist die Wahrscheinlichkeit dafür, daß D vorliegt. ➜ Wenn sich Daten zur Berechnung von P (D) und P (S1, . . . , Sk | D) akquirieren lassen, läßt sich P (D | S1, . . . , Sk ) mit dem Satz von Bayes berechnen. c STEIN 2000-2004 V-17 Statistical Diagnosis: Bayes c STEIN 2000-2004 V-18 Statistical Diagnosis: Bayes Satz von Bayes Satz von Bayes Gegeben sind: Wird weiterhin vorausgesetzt: • Menge von Diagnosen: Di, i = 1, . . . , m • • Menge von Symptomen: Sj , j = 1, . . . , k m X i=1 P (Di) = 1 (die Menge der Diagnosen ist vollständig) • P (Di, Dj ) = 0, Mit Bayes folgt: P (Di | S1 , . . . , Sk ) = 1 ≤ i, j ≤ m, i 6= j (die Diagnosen schließen sich gegenseitig aus) P (Di) · P (S1, . . . , Sk | Di) P (S1, . . . , Sk ) dann gilt: • P (S1, . . . , Sk ) = Bemerkungen: 1. Der Aufbau einer Datenbasis, um verläßliche Werte für P (S 1 , . . . , Sk | Di ) schätzen zu können, ist in der Praxis unmöglich. Ausweg durch folgende Annahme (“Naive Bayes Assumption”): P (S1 , . . . , Sk | Di ) = k Y P (Sj | Di ) “Unter dem Ereignis (der Bedingung) Di sind die Ereignisse S1 , . . . , Sk stochastisch unabhängig.” (Satz der totalen Wahrscheinlichkeit) • P (S1, . . . , Sk ) = D∈{Di |i=1,...,m} P (Di ) · k Y m X i=1 P (Di) · k Y j=1 P (Sj | Di) und insgesamt: 2. Die Wahrscheinlichkeit P (S1 , . . . , Sk ) ist eine Konstante und braucht nicht bekannt zu sein, um das unter der “Naive Bayes Assumption” wahrscheinlichste Ereignis DN B aus {Di | i = 1, . . . , m} zu bestimmen: argmax P (Di) · P (S1, . . . , Sk | Di) (“Naive Bayes Assumption”) j=1 DN B = m X i=1 P (Di) · P (Di | S1, . . . , Sk ) = m X i=1 P (Sj | Di ) k Y P (Sj | Di) j=1 k Y P (Di) · j=1 P (Sj | Di) j=1 Bemerkung: Die Formel ermöglicht nicht nur eine Bestimmung der Rangordnung zwischen den Di , sondern auch die Berechnung ihrer a-Posteriori-Wahrscheinlichkeiten. Beachte aber die gemachten Voraussetzungen. V-19 Statistical Diagnosis: Bayes c STEIN 2000-2004 V-20 Statistical Diagnosis: Bayes c STEIN 2000-2004 Diagnose mit Bayes Diagnose mit Bayes Beispiel: Fortsetzung Beispiel. Modellierung: Eine Krankheit D liege bei 0.8% der Bevölkerung vor. Ein Bluttest liefert in 98% aller Fälle ein „positives“ Ergebnis, falls die Krankheit tatsächlich vorliegt. Liegt die Krankheit nicht vor, liefert der Test trotzdem noch zu 3% ein „positives“ Ergebnis. Die Frage ist nun, wie wahrscheinlich es ist, daß ein Patient an D erkrankt ist, wenn der Bluttest „positiv“ ausgeht. • A-Priori-Wahrscheinlichkeit für das Vorliegen der Krankheit: P (D+) = 0.008 • A-Priori-Wahrscheinlichkeit für die Abwesenheit der Krankheit: P (D−) = 0.992 • Bedingte Wahrscheinlichkeit für ein positives Ergebnis, unter der Annahme, daß die Krankheit vorliegt: P (S+ | D+) = 0.98 • Bedingte Wahrscheinlichkeit für ein positives Ergebnis, unter der Annahme, daß die Krankheit nicht vorliegt: P (S+ | D−) = 0.03 P (D i ) · Rangordnung der Diagnosen gemäß fallender Werte k Y P (Sj | Di ). j=1 1. P (D− ) · P (S+ | D− ) = 0.992 · 0.03 = 0.0298 2. P (D+ ) · P (S+ | D+ ) = 0.008 · 0.98 = 0.0078 P (Di ) · A-Posteriori-Wahrscheinlichkeiten gemäß m X i=1 P (S+ ) = m X P (Di ) · i=1 k Y k Y P (Sj | Di ) j=1 k Y P (Di ) · . P (Sj | Di ) j=1 P (Sj | Di ) = 0.0298 + 0.0078 = 0.0376 ≈ 3, 8% j=1 • P (D− | S+ ) = 0.0298/0.0376 ≈ 79% • P (D+ | S+ ) = 0.0078/0.0376 ≈ 21% c STEIN 2000-2004 V-21 Statistical Diagnosis: Bayes c STEIN 2000-2004 V-22 Statistical Diagnosis: Bayes Diagnose mit Bayes Diagnose mit Bayes Für einen Diagnoseansatz nach Bayes müssen umfangreiche, gesicherte Datenmengen vorliegen. Entweder • a-Priori-Wahrscheinlichkeiten für Diagnosen, P (Di), sowie bedingte Wahrscheinlichkeiten P (Sj | Di) oder • eine Menge von Fällen C, die einen Zusammenhang zwischen Diagnosen und Symptomen beschreiben: C = {(Di, S) | i ∈ {1, . . . , m}, S ⊆ {S1, . . . , Sk }} Die Anwendung von Bayes’ Formel zur Verarbeitung von Wissen über Diagnosen und Symptome ist problematisch: • Closed-World-Assumption: Die Menge der Diagnosen Di muß vollständig sein. • Single-Fault-Assumption: Die Diagnosen müssen sich gegenseitig ausschließen, d. h. es darf nur eine Diagnose zutreffen. • Vereinfachtes Modell: Die Symptome Sj dürfen nur von den Diagnosen abhängen und müssen untereinander unabhängig sein. • Welt ändert sich langsam: Die statistischen Daten müssen über einen längeren Zeitraum (relativ) konstant bleiben. Vorgehensweise: 1. Schätzung der a-Priori-Wahrscheinlichkeiten und der bedingten Wahrscheinlichkeiten aus C. 2. Schätzung der a-Posteriori-Wahrscheinlichkeiten für die einzelnen Diagnosen, P (Di | S1, . . . , Sk ), unter der Annahme, daß die gegebenen Symptome S1, . . . , Sk vorliegen. 3. Auswahl der Diagnose mit der höchsten a-PosterioriWahrscheinlichkeit. V-23 Statistical Diagnosis: Bayes Diese Anforderungen sind in den meisten Fällen verletzt. ➜ Der Satz von Bayes ist oft nicht direkt anwendbar. ➜ In vielen Systemen werden Varianten des Satzes von Bayes verwendet. Bemerkung: Je mehr Annahmen verletzt sind, desto fließender die Grenze zwischen statistischen Verfahren und heuristischen Verfahren. c STEIN 2000-2004 V-24 Statistical Diagnosis: Bayes c STEIN 2000-2004 Interpretation des Konzeptes “Wahrscheinlichkeit” Beispiel: “Mit einer Wahrscheinlichkeit von 60% hat ein Patient mit den Symptomen Fieber, Husten und Schwäche eine TBC.” 1. objektivistische Interpretation • Wahrscheinlichkeit ist ein objektives Merkmal materieller Prozesse, die unabhängig vom Beobachter stattfinden. • Ein Wahrscheinlichkeitsurteil entspricht einem Wahrnehmungsurteil und kann mehr oder weniger richtig sein. Es gibt einen “wahren Wert” für die Wahrscheinlichkeit, daß ein Patient mit den Symptomen Fieber, Husten und Schwäche TBC hat. Die Aussage “Mit einer Wahrscheinlichkeit von 60%” kann diesem wahren Wert mehr oder weniger gut entsprechen. 2. frequentistische Interpretation • Wahrscheinlichkeit ist eine Beschreibung von Beobachtungen im Sinne der Angabe der relativen Häufigkeit bezogen auf eine Referenzmenge. • Wahrscheinlichkeit ist der Grenzwert der relativen Häufigkeit des Auftretens eines Ereignisses für n → ∞. Von 100 Patienten, die die Symptome Fieber, Husten und Schwäche gezeigt haben, hatten 60 Patienten eine TBC. Die relative Häufigkeit “60%” nähert sich der tatsächlichen Wahrscheinlichkeit mit zunehmendem n an. Sie wird bei 100.000 Patienten eher der Wahrscheinlichkeit entsprechen als bei 100 Patienten. Subjektivistische Verwendung von Bayes Subjektivistische Deutung als Lernen aus Erfahrung: • Ausgangspunkt sind bedingte Wahrscheinlichkeiten P (Aj | Bi) für das Eintreffen von beobachtbaren Ereignissen (Symptomen) Aj als Folge anderer, nicht beobachtbarer Ereignisse (Systemzustände, Diagnosen) Bi. • Die a-Priori-Wahrscheinlichkeiten P (Bi) der Systemzustände seien unbekannt und sollen zunächst als gleichverteilt angenommen werden. 1. Wird nun Ereignis Aj beobachtet, so lassen sich mit der Formel von Bayes die a-Posteriori-Wahrscheinlichkeiten P (Bi | Aj ) der Systemzustände Bi ausrechnen. 2. Die a-Posteriori-Wahrscheinlichkeiten P (Bi | Aj ) können als neue Schätzung der a-Priori-Wahrscheinlichkeiten P (Bi) der Systemzustände interpretiert werden: Lernen durch Erfahrung. 3. Eventuell weiter bei 1. Bemerkung: 3. subjektivistische Interpretation • Wahrscheinlichkeit ist Ausdruck eines subjektiven Grades an Gewissheit bzw. Sicherheit. • Ein Wahrscheinlichkeitsurteil kann somit nicht “objektiv” richtig oder falsch sein, aber es besitzt subjektive Validität. Je öfter der Zyklus aus Beobachtung eines Ereignisses und Aktualisierung der a-Posteriori-Wahrscheinlichkeiten durchlaufen wird, um so exakter ist das erworbene Wissen über die Welt – hier: Wissen darüber, welcher Systemzustand Bi vorliegen mag. Die Aussage ”Mit einer Wahrscheinlichkeit von 60%” ist ein Maß für die subjektive Sicherheit des Arztes. D. h., in 60% aller vergleichbaren Fälle würde der Arzt die richtige Diagnose TBC stellen. [Sachse 04, TU Berlin] c STEIN 2000-2004 V-25 Statistical Diagnosis: Bayes Subjektivistische Verwendung von Bayes Beispiel: c STEIN 2000-2004 V-26 Statistical Diagnosis: Bayes Subjektivistische Verwendung von Bayes Fortsetzung Beispiel. Gegeben sind drei Würfel, ein Laplace-Würfel W, ein RiemerU-Würfel und ein Riemer-L-Würfel: 1. Beobachtung: “3 fällt”. a-Priori-Wahrscheinlichkeiten: P (W ) = P (L) = P (U ) = 1/3 Es ist bekannt: P (3 | W ) = 0.17, P (3 | L) = 0.21, P (3 | V ) = 0.1 2 ➜ a-Posteriori-Wahrscheinlichkeiten (nach Bayes): 4 6 4 4 4 W 6 2 2 U P (W | 3) = L = Es wird gewürfelt, die Zahlen genannt, aber nicht der verwandte Würfel gezeigt. Angenommen, es wird dreimal gewürfelt, zuerst 3, dann 1 und schließlich 5. Welche Hypothesen sind zu entwickeln? Aufgrund von Experimenten mit U- und L-Würfeln sind folgende Wahrscheinlichkeitsverteilungen für die 3 Würfel bekannt: W L U Laplace-Würfel L-Würfel U-Würfel 1 0.17 0.01 0.24 2 0.17 0.14 0.06 P (W ) · P (3 | W ) P (W ) · P (3 | W ) + P (L) · P (3 | L) + P (U ) · P (3 | U ) 3 0.17 0.21 0.10 4 0.17 0.40 0.10 5 0.17 0.14 0.06 6 0.17 0.10 0.44 0.33 · 0.17 ≈ 0.35 0.33 · 0.17 + 0.33 · 0.21 + 0.33 · 0.1 P (L | 3) = . . . ≈ 0.35 P (U | 3) = . . . ≈ 0.21 2. Beobachtung: “1 fällt”. Neue a-Priori-Wahrscheinlichkeiten sind die alten a-Posteriori-Wahrscheinlichkeiten: P (W ) = 0.35, P (L) = 0.44, P (U ) = 0.21 Es ist bekannt: P (1 | W ) = 0.17, P (3 | L) = 0.01, P (3 | V ) = 0.21 ➜ a-Posteriori-Wahrscheinlichkeiten: P (W | 1) ≈ 0.52, P (L | 1) ≈ 0.04, P (U | 1) ≈ 0.44 3. Beobachtung: “5 fällt”. [LearnLine NRW 2002] a-Priori-Wahrscheinlichkeiten: P (W ) = 0.52, P (L) = 0.04, P (U ) = 0.44 ➜ a-Posteriori-Wahrscheinlichkeiten: P (W | 5) ≈ 0.73, P (L | 5) ≈ 0.05, P (U | 5) ≈ 0.22 V-27 Statistical Diagnosis: Bayes c STEIN 2000-2004 V-28 Statistical Diagnosis: Bayes c STEIN 2000-2004