Bayessche Netzwerke und ihre Anwendungen 1. Vorlesung

Werbung
Bayessche Netzwerke und ihre Anwendungen
1. Kapitel: Grundlagen
Zweiter Schwerpunktanteil einer Vorlesung im Rahmen des Moduls
„Systemplanung und Netzwerktheorie“ (Modul-Nr.: 1863)
Fakultät für Informatik
Universität der Bundeswehr München
FT 2010
Dozent: Dr. Max Krüger
Inhalt
0 Literatur
1.1 Diskrete endliche Zufallsvariablen und Zufallsvektoren
1.2 Bedingte Wahrscheinlichkeiten
FT 2010
Bayessche Netzwerke und ihre Anwendungen
2
Literatur (Auswahl)
• Finn v. Jensen & Thomas D. Nielsen: Bayesian Networks and
Decision Graphs (2. ed.). Springer Science + Business Media,
2007.
• Adnan Darwiche: Modeling and Reasoning with Bayesian
Networks. Cambridge University Press, 2009.
• Stuart Russel & Peter Norvig: Künstliche Intelligenz – Ein
moderner Ansatz (2. Aufl.). Pearson Education, 2004.
• Judea Pearl: Probabilistic Reasoning in Intelligent Systems:
Networks of Plausible Inference (revised second printing).
Morgan Kaufmann Publishers Inc., 1988.
FT 2010
Bayessche Netzwerke und ihre Anwendungen
3
Abschnitt 1.1:
Diskrete endliche Zufallsvariablen und Zufallsvektoren
FT 2010
Bayessche Netzwerke und ihre Anwendungen
4
Diskrete endliche Zufallsvariablen
Definition: (informell; für Details vgl. Vorlesung W-Theorie)
Eine diskrete endliche Zufallsvariable (auch: Variable, Zufallsgröße, Zustandsvariable) ist eine Funktion, die jedem Ausgang
eines zugrunde liegenden Zufallsexperiments genau einen
Zustand (Ergebnis)
(Schreibeweise:
) aus einer
endlichen Zustandsmenge
(Ergebnismenge) zuordnet. Die endlich vielen verschiedenen Zustände
schließen sich gegenseitig aus und sind erschöpfend. Wir
bezeichnen Zufallsvariablen mit Großbuchstaben (insb.
) und Zustände mit Kleinbuchstaben
(z. B.
).
FT 2010
Bayessche Netzwerke und ihre Anwendungen
5
Wahrscheinlichkeitsfunktion einer endlichen Zufallsvariablen
Definition:
Für eine diskrete endliche Zufallsvariable mit
ordnet die Wahrscheinlichkeitsfunktion
mit
für
und
jedem Zustand eine durch eine Wahrscheinlichkeit ausgedrückte
Unsicherheit zu.
Wir schreiben für die Wahrscheinlichkeitsfunktion
auch
bzw. kurz
. Abkürzend wird für
zudem
notiert, sofern aus dem Kontext klar
ist, zu welcher Variable der Zustand
gehört.
FT 2010
Bayessche Netzwerke und ihre Anwendungen
6
Wahrscheinlichkeitsmaß einer endlichen Zufallsvariablen
Definition:
Eine Wahrscheinlichkeitsfunktion
diskrete endliche Zufallsvariable
Wahrscheinlichkeitsmaß auf
für eine
wird zu einem diskreten
erweitert:
für alle
FT 2010
Bayessche Netzwerke und ihre Anwendungen
.
7
Diskrete endliche Zufallsvektoren
Definition: (informell; für Details vgl. Vorlesung W-Theorie)
Die diskreten endlichen Zufallsvariablen
einem -dimensionalen Zufallsvektor
der Zustandsmenge
zusammengesetzt.
werden zu
mit
Bemerkung:
Sofern
im Kontext nicht extra als vektorwertig herausgestellt werden muss, werden wir ebenfalls einfach als
Zufallsvariable bezeichnen.
FT 2010
Bayessche Netzwerke und ihre Anwendungen
8
Gemeinsame Wahrscheinlichkeitsfunktion
Definition:
Für
mit
hat die gemeinsame Wahrscheinlichkeitsfunktion die Form
mit
und
.
Bemerkung: Wie bei Zufallsfallsvariablen kann auch für Zufallsvektoren
das zur gemeinsamen Wahrscheinlichkeitsfunktion gehörende gemeinsame Wahrscheinlichkeitsmaß auf
definiert werden.
FT 2010
Bayessche Netzwerke und ihre Anwendungen
9
Schreibweisen für die gemeinsame Wahrscheinlichkeitsfunktion
Schreibweisen:
(1) Wir vereinbaren
als Bezeichner für die
gemeinsame Wahrscheinlichkeitsfunktion des Zufallsvektors
.
(2) Die Reihenfolge der Zufallsvariablen sei irrelevant, d.h. wir
setzen
für jede
Permutation
.
(3) Es sei
.
(4) Die Schreibweisen (1), (2) und (3) sind kombinierbar, wobei
dann in der gemeinsamen Wahrscheinlichkeitsfunktion die
aus (3) übernommenen Zufallsvariablen mit gegebenem
Zustand
als Argument in festgehalten werden.
Z.B. ist der Ausdruck
zulässig.
FT 2010
Bayessche Netzwerke und ihre Anwendungen
10
Marginalisierung
Satz:
Sei
mit
Zufallsvektor mit Verteilungsfunkton
Für eine fest gewählte Zufallsvariable
.
ist die Funktion
eine gemeinsame Wahrscheinlichkeitsfunktion des (reduzierten)
Zufallsvektors
. Dieser Vorgang
zur Reduktion des Zufallsvektors heißt Marginalisierung bezüglich der Variable
(auch: Aussummierung).
FT 2010
Bayessche Netzwerke und ihre Anwendungen
11
Rekursive und simultane Marginalisierung
Eigenschaften der Marginalisierung:
• Marginalisierung kann rekursiv durchgeführt werden, d.h.
hintereinander für mehrere Variablen.
• Marginalisierung kann simultan durchgeführt werden, d.h. für
mehrere Variablen gleichzeitig. Dabei wird dann während der
Marginalisierung über alle möglichen Zustandskombination
der auszusummierenden Variablen summiert.
• Rekursive Marginalisierung bezüglich mehrerer Variablen mit
beliebiger Marginalisierungsreihenfolge und simultane Marginalisierung bezüglich der gleichen Zufallsvariablen ergeben
immer die gleiche (reduzierte) gemeinsame Wahrscheinlichkeitsfunktion.
FT 2010
Bayessche Netzwerke und ihre Anwendungen
12
Übungsaufgabe 1.1:
Sei ein Zufallsvektor
gegeben mit den Zustandsmengen
,
und
.
Die gemeinsame Wahrscheinlichkeitsfunktion des Zufallsvektors
ist durch die folgende gemeinsame Wahrscheinlichkeitstabelle
festgelegt:
0.3
0.1
0.05
0.0
0.0
0.1
0.04
0.15
0.1
0.1
0.01
0.05
Berechnen bzw. bestimmen Sie bitte:
(1.)
(2.)
(3.)
FT 2010
Bayessche Netzwerke und ihre Anwendungen
(4.)
13
Abschnitt 1.2:
Bedingte Wahrscheinlichkeiten
FT 2010
Bayessche Netzwerke und ihre Anwendungen
14
Bedingte Wahrscheinlichkeit und Wahrscheinlichkeitsfunktion
Definition:
Sei
ein
(1) Für die Elementarergebnisse
-dim. Zufallsvektor.
und
heißt der Ausdruck
mit
für
für
die bedingte Wahrscheinlichkeit von
unter der Bedingung
.
(2) Durch Teil (1) wird die bedingte Wahrscheinlichkeitsfunktion
elementweise definiert.
Vorsicht: Nur
FT 2010
ist Wahrscheinlichkeitsfunktion!
Bayessche Netzwerke und ihre Anwendungen
15
Satz von Bayes (in bekannter Formulierung)
Satz: (Satz, Regel bzw. Theorem von Bayes)
Sei
ein diskreter Wahrscheinlichkeitsraum,
eine Partition von
mit
für alle
und sei
ein Ereignis mit
,
dann gilt:
.
FT 2010
Bayessche Netzwerke und ihre Anwendungen
16
Satz von Bayes für Zufallsvariablen (1.Formulierung)
Satz: (Satz von Bayes für Zustände von Zufallsvariablen)
Sei
ein
Für die Elementarergebnisse
(
) mit
-dim. Zufallsvektor.
und
gilt:
.
FT 2010
Bayessche Netzwerke und ihre Anwendungen
17
Satz von Bayes für Zufallsvariablen (2.Formulierung)
Satz: (Satz von Bayes für Wahrscheinlichkeitsfunktionen)
Sei
dann gilt:
ein
-dim. Zufallsvektor,
.
Diese Formulierung mittels (bedingter ) Wahrscheinlichkeitsfunktionen ist ungenau, da der Fall
für einen
Zustand
nicht abgefangen wird.
Trotzdem ist sie im Kontext Bayesscher Netzwerke üblich.
FT 2010
Bayessche Netzwerke und ihre Anwendungen
18
Übungsaufgabe 1.2
1. Bestimmen Sie bitte ausgehend vom Zufallsvektor
aus Übungsaufgabe 1.1:
a)
b)
und
c)
und
zur Erinnerung:
2. Beweisen Sie bitte den Satz von Bayes!
FT 2010
Bayessche Netzwerke und ihre Anwendungen
19
Bedingte Wahrscheinlichkeitstabellen
Bemerkung:
Sei
ein
-dim. Zufallsvektor.
Eine bedingte Wahrscheinlichkeitsfunktion kann in einer
bedingten Wahrscheinlichkeitstabelle (Conditional Probability
Table CPT) dargestellt werden:
…
…
…
…
…
…
FT 2010
Bayessche Netzwerke und ihre Anwendungen
20
A-priori und A-posteriori Wahrscheinlichkeiten
Bezeichnungen:
Sei
ein
-dim. Zufallsvektor
und
ein zugehöriges gemeinsames
Ereignis.
•
heißt die A-priori Wahrscheinlichkeit (oder
auch unbedingte Wahrscheinlichkeit) des
Ereignisses
.
•
heißt die A-posteriori Wahrscheinlichkeit (oder auch bedingte Wahrscheinlichkeit) des
Ereignisses
gegeben das Ereignis
.
FT 2010
Bayessche Netzwerke und ihre Anwendungen
21
Multiplikationsregel
Satz: (Multiplikationsregel, Kettenregel)
Sei
ein -dimensionaler Zufallsvektor, dann lässt
sich die gemeinsame Wahrscheinlichkeitsfunktion wie folgt
darstellen:
Beweisidee:
Anwendung der Definition für die bedingten Wahrscheinlichkeiten und anschließendes Kürzen.
FT 2010
Bayessche Netzwerke und ihre Anwendungen
22
Unabhängigkeit und bedingte Unabhängigkeit
Definition:
Zwei Zufallsvariablen (Zufallsvektoren) und heißen…
(1) … (paarweise) unabhängig, falls
...
bzw.
(2) ... bedingt unabhängig gegeben die Zufallsvariable (Zufallsvektor) , falls
...
… jeweils für
,
und ggf.
gilt.
Als Kurzschreibweise wird auch
werden kanonisch auf
variablen erweitert:
bzw.
FT 2010
bzw.
verwendet. Diese Definitionen
voneinander total unabhängige Zufalls-
Bayessche Netzwerke und ihre Anwendungen
.
23
Übungsaufgabe 1.3:
1. Alternative Darstellung (bedingter) Unabhängigkeit:
Zeigen Sie bitte, dass für
(bzw.
) die
Zufallsvariablen und genau dann (bedingt) unabhängig
sind, wenn
(bzw.
)
gilt.
Hinweis: Die Schreibweise
bzw.
bedeutet, dass
die Funktionen jeweils für alle Argumente größer als Null sind.
2. Sind die Zufallsvariablen
FT 2010
total unabhängig?
Bayessche Netzwerke und ihre Anwendungen
24
Spam-Filterung mittels Naive-Bayes-Filter (1): Voraussetzungen
• Die Zugehörigkeit einer Email E zu Klasse Ham oder Spam wird als
Zufallsvariable modelliert: mit
.
• Für jedes in der Email E enthaltene Wort gibt es eine Zufallsvariable
mit
die angibt, ob dass Wort in der
Email enthalten ist. Wir setzen die Kurznotation
.
• Aus der Auswertung früherer, bereits klassifizierter Emails sind folgende
Wahrscheinlichkeiten bekannt:
,
sowie
und
.
• Das Auftreten der Wörter in der Email wird als bedingt unabhängig
modelliert:
.
FT 2010
Bayessche Netzwerke und ihre Anwendungen
25
Spam-Filterung mittels Naive-Bayes-Filter (2): Berechnung
Die Email E soll als Spam klassifiziert werden, falls gilt:
.
Mittels des Satzes von Bayes berechnet man:
und analog
.
Somit wird die Email E als Spam klassifiziert, falls gilt:
.
FT 2010
Bayessche Netzwerke und ihre Anwendungen
26
Ende
Vielen Dank für Ihre Mitarbeit !
FT 2010
Bayessche Netzwerke und ihre Anwendungen
27
Herunterladen