Bayessche Netzwerke und ihre Anwendungen 1. Kapitel: Grundlagen Zweiter Schwerpunktanteil einer Vorlesung im Rahmen des Moduls „Systemplanung und Netzwerktheorie“ (Modul-Nr.: 1863) Fakultät für Informatik Universität der Bundeswehr München FT 2010 Dozent: Dr. Max Krüger Inhalt 0 Literatur 1.1 Diskrete endliche Zufallsvariablen und Zufallsvektoren 1.2 Bedingte Wahrscheinlichkeiten FT 2010 Bayessche Netzwerke und ihre Anwendungen 2 Literatur (Auswahl) • Finn v. Jensen & Thomas D. Nielsen: Bayesian Networks and Decision Graphs (2. ed.). Springer Science + Business Media, 2007. • Adnan Darwiche: Modeling and Reasoning with Bayesian Networks. Cambridge University Press, 2009. • Stuart Russel & Peter Norvig: Künstliche Intelligenz – Ein moderner Ansatz (2. Aufl.). Pearson Education, 2004. • Judea Pearl: Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference (revised second printing). Morgan Kaufmann Publishers Inc., 1988. FT 2010 Bayessche Netzwerke und ihre Anwendungen 3 Abschnitt 1.1: Diskrete endliche Zufallsvariablen und Zufallsvektoren FT 2010 Bayessche Netzwerke und ihre Anwendungen 4 Diskrete endliche Zufallsvariablen Definition: (informell; für Details vgl. Vorlesung W-Theorie) Eine diskrete endliche Zufallsvariable (auch: Variable, Zufallsgröße, Zustandsvariable) ist eine Funktion, die jedem Ausgang eines zugrunde liegenden Zufallsexperiments genau einen Zustand (Ergebnis) (Schreibeweise: ) aus einer endlichen Zustandsmenge (Ergebnismenge) zuordnet. Die endlich vielen verschiedenen Zustände schließen sich gegenseitig aus und sind erschöpfend. Wir bezeichnen Zufallsvariablen mit Großbuchstaben (insb. ) und Zustände mit Kleinbuchstaben (z. B. ). FT 2010 Bayessche Netzwerke und ihre Anwendungen 5 Wahrscheinlichkeitsfunktion einer endlichen Zufallsvariablen Definition: Für eine diskrete endliche Zufallsvariable mit ordnet die Wahrscheinlichkeitsfunktion mit für und jedem Zustand eine durch eine Wahrscheinlichkeit ausgedrückte Unsicherheit zu. Wir schreiben für die Wahrscheinlichkeitsfunktion auch bzw. kurz . Abkürzend wird für zudem notiert, sofern aus dem Kontext klar ist, zu welcher Variable der Zustand gehört. FT 2010 Bayessche Netzwerke und ihre Anwendungen 6 Wahrscheinlichkeitsmaß einer endlichen Zufallsvariablen Definition: Eine Wahrscheinlichkeitsfunktion diskrete endliche Zufallsvariable Wahrscheinlichkeitsmaß auf für eine wird zu einem diskreten erweitert: für alle FT 2010 Bayessche Netzwerke und ihre Anwendungen . 7 Diskrete endliche Zufallsvektoren Definition: (informell; für Details vgl. Vorlesung W-Theorie) Die diskreten endlichen Zufallsvariablen einem -dimensionalen Zufallsvektor der Zustandsmenge zusammengesetzt. werden zu mit Bemerkung: Sofern im Kontext nicht extra als vektorwertig herausgestellt werden muss, werden wir ebenfalls einfach als Zufallsvariable bezeichnen. FT 2010 Bayessche Netzwerke und ihre Anwendungen 8 Gemeinsame Wahrscheinlichkeitsfunktion Definition: Für mit hat die gemeinsame Wahrscheinlichkeitsfunktion die Form mit und . Bemerkung: Wie bei Zufallsfallsvariablen kann auch für Zufallsvektoren das zur gemeinsamen Wahrscheinlichkeitsfunktion gehörende gemeinsame Wahrscheinlichkeitsmaß auf definiert werden. FT 2010 Bayessche Netzwerke und ihre Anwendungen 9 Schreibweisen für die gemeinsame Wahrscheinlichkeitsfunktion Schreibweisen: (1) Wir vereinbaren als Bezeichner für die gemeinsame Wahrscheinlichkeitsfunktion des Zufallsvektors . (2) Die Reihenfolge der Zufallsvariablen sei irrelevant, d.h. wir setzen für jede Permutation . (3) Es sei . (4) Die Schreibweisen (1), (2) und (3) sind kombinierbar, wobei dann in der gemeinsamen Wahrscheinlichkeitsfunktion die aus (3) übernommenen Zufallsvariablen mit gegebenem Zustand als Argument in festgehalten werden. Z.B. ist der Ausdruck zulässig. FT 2010 Bayessche Netzwerke und ihre Anwendungen 10 Marginalisierung Satz: Sei mit Zufallsvektor mit Verteilungsfunkton Für eine fest gewählte Zufallsvariable . ist die Funktion eine gemeinsame Wahrscheinlichkeitsfunktion des (reduzierten) Zufallsvektors . Dieser Vorgang zur Reduktion des Zufallsvektors heißt Marginalisierung bezüglich der Variable (auch: Aussummierung). FT 2010 Bayessche Netzwerke und ihre Anwendungen 11 Rekursive und simultane Marginalisierung Eigenschaften der Marginalisierung: • Marginalisierung kann rekursiv durchgeführt werden, d.h. hintereinander für mehrere Variablen. • Marginalisierung kann simultan durchgeführt werden, d.h. für mehrere Variablen gleichzeitig. Dabei wird dann während der Marginalisierung über alle möglichen Zustandskombination der auszusummierenden Variablen summiert. • Rekursive Marginalisierung bezüglich mehrerer Variablen mit beliebiger Marginalisierungsreihenfolge und simultane Marginalisierung bezüglich der gleichen Zufallsvariablen ergeben immer die gleiche (reduzierte) gemeinsame Wahrscheinlichkeitsfunktion. FT 2010 Bayessche Netzwerke und ihre Anwendungen 12 Übungsaufgabe 1.1: Sei ein Zufallsvektor gegeben mit den Zustandsmengen , und . Die gemeinsame Wahrscheinlichkeitsfunktion des Zufallsvektors ist durch die folgende gemeinsame Wahrscheinlichkeitstabelle festgelegt: 0.3 0.1 0.05 0.0 0.0 0.1 0.04 0.15 0.1 0.1 0.01 0.05 Berechnen bzw. bestimmen Sie bitte: (1.) (2.) (3.) FT 2010 Bayessche Netzwerke und ihre Anwendungen (4.) 13 Abschnitt 1.2: Bedingte Wahrscheinlichkeiten FT 2010 Bayessche Netzwerke und ihre Anwendungen 14 Bedingte Wahrscheinlichkeit und Wahrscheinlichkeitsfunktion Definition: Sei ein (1) Für die Elementarergebnisse -dim. Zufallsvektor. und heißt der Ausdruck mit für für die bedingte Wahrscheinlichkeit von unter der Bedingung . (2) Durch Teil (1) wird die bedingte Wahrscheinlichkeitsfunktion elementweise definiert. Vorsicht: Nur FT 2010 ist Wahrscheinlichkeitsfunktion! Bayessche Netzwerke und ihre Anwendungen 15 Satz von Bayes (in bekannter Formulierung) Satz: (Satz, Regel bzw. Theorem von Bayes) Sei ein diskreter Wahrscheinlichkeitsraum, eine Partition von mit für alle und sei ein Ereignis mit , dann gilt: . FT 2010 Bayessche Netzwerke und ihre Anwendungen 16 Satz von Bayes für Zufallsvariablen (1.Formulierung) Satz: (Satz von Bayes für Zustände von Zufallsvariablen) Sei ein Für die Elementarergebnisse ( ) mit -dim. Zufallsvektor. und gilt: . FT 2010 Bayessche Netzwerke und ihre Anwendungen 17 Satz von Bayes für Zufallsvariablen (2.Formulierung) Satz: (Satz von Bayes für Wahrscheinlichkeitsfunktionen) Sei dann gilt: ein -dim. Zufallsvektor, . Diese Formulierung mittels (bedingter ) Wahrscheinlichkeitsfunktionen ist ungenau, da der Fall für einen Zustand nicht abgefangen wird. Trotzdem ist sie im Kontext Bayesscher Netzwerke üblich. FT 2010 Bayessche Netzwerke und ihre Anwendungen 18 Übungsaufgabe 1.2 1. Bestimmen Sie bitte ausgehend vom Zufallsvektor aus Übungsaufgabe 1.1: a) b) und c) und zur Erinnerung: 2. Beweisen Sie bitte den Satz von Bayes! FT 2010 Bayessche Netzwerke und ihre Anwendungen 19 Bedingte Wahrscheinlichkeitstabellen Bemerkung: Sei ein -dim. Zufallsvektor. Eine bedingte Wahrscheinlichkeitsfunktion kann in einer bedingten Wahrscheinlichkeitstabelle (Conditional Probability Table CPT) dargestellt werden: … … … … … … FT 2010 Bayessche Netzwerke und ihre Anwendungen 20 A-priori und A-posteriori Wahrscheinlichkeiten Bezeichnungen: Sei ein -dim. Zufallsvektor und ein zugehöriges gemeinsames Ereignis. • heißt die A-priori Wahrscheinlichkeit (oder auch unbedingte Wahrscheinlichkeit) des Ereignisses . • heißt die A-posteriori Wahrscheinlichkeit (oder auch bedingte Wahrscheinlichkeit) des Ereignisses gegeben das Ereignis . FT 2010 Bayessche Netzwerke und ihre Anwendungen 21 Multiplikationsregel Satz: (Multiplikationsregel, Kettenregel) Sei ein -dimensionaler Zufallsvektor, dann lässt sich die gemeinsame Wahrscheinlichkeitsfunktion wie folgt darstellen: Beweisidee: Anwendung der Definition für die bedingten Wahrscheinlichkeiten und anschließendes Kürzen. FT 2010 Bayessche Netzwerke und ihre Anwendungen 22 Unabhängigkeit und bedingte Unabhängigkeit Definition: Zwei Zufallsvariablen (Zufallsvektoren) und heißen… (1) … (paarweise) unabhängig, falls ... bzw. (2) ... bedingt unabhängig gegeben die Zufallsvariable (Zufallsvektor) , falls ... … jeweils für , und ggf. gilt. Als Kurzschreibweise wird auch werden kanonisch auf variablen erweitert: bzw. FT 2010 bzw. verwendet. Diese Definitionen voneinander total unabhängige Zufalls- Bayessche Netzwerke und ihre Anwendungen . 23 Übungsaufgabe 1.3: 1. Alternative Darstellung (bedingter) Unabhängigkeit: Zeigen Sie bitte, dass für (bzw. ) die Zufallsvariablen und genau dann (bedingt) unabhängig sind, wenn (bzw. ) gilt. Hinweis: Die Schreibweise bzw. bedeutet, dass die Funktionen jeweils für alle Argumente größer als Null sind. 2. Sind die Zufallsvariablen FT 2010 total unabhängig? Bayessche Netzwerke und ihre Anwendungen 24 Spam-Filterung mittels Naive-Bayes-Filter (1): Voraussetzungen • Die Zugehörigkeit einer Email E zu Klasse Ham oder Spam wird als Zufallsvariable modelliert: mit . • Für jedes in der Email E enthaltene Wort gibt es eine Zufallsvariable mit die angibt, ob dass Wort in der Email enthalten ist. Wir setzen die Kurznotation . • Aus der Auswertung früherer, bereits klassifizierter Emails sind folgende Wahrscheinlichkeiten bekannt: , sowie und . • Das Auftreten der Wörter in der Email wird als bedingt unabhängig modelliert: . FT 2010 Bayessche Netzwerke und ihre Anwendungen 25 Spam-Filterung mittels Naive-Bayes-Filter (2): Berechnung Die Email E soll als Spam klassifiziert werden, falls gilt: . Mittels des Satzes von Bayes berechnet man: und analog . Somit wird die Email E als Spam klassifiziert, falls gilt: . FT 2010 Bayessche Netzwerke und ihre Anwendungen 26 Ende Vielen Dank für Ihre Mitarbeit ! FT 2010 Bayessche Netzwerke und ihre Anwendungen 27