Neuronale Netze und Maschinelles Lernen Probe

Werbung
Neuronale Netze und Maschinelles Lernen
SS 2006
Probe-Klausur
Verständnisfragen
1. Beschreibe das Bias-Variance Dilemma kurz in eigenen Worten.
(7 Punkte)
2. Erläutere den Begriff “Generalisierung”. (3 Punkte)
3. Was sind Trainings-, Test- und Validierungsdaten? (3 Punkte)
4. Erläutere den Begriff “zerschmettern” im Zusammenhang von Klassifikationsaufgaben. (7 Punkte)
5. Welche Grösse minimiert die Trennebene, die eine Stützvektormaschine
findet? Welche wird maximiert? (5 Punkte)
6. Wie hängen VC-Dimension und Trennabstand zusammen? Gib eine
anschauliche Erklärung. (5 Punkte)
7. Wie hängen die folgenden vier Größen qualitativ von der Anzahl der
Trainingsdaten und von der VC-Dimension ab: das empirische Risikofunktional, das wahre Risikofunktional, die obere Schranke für das
√
wahre Risikofunktional und der Komplexitätsterm (in der VL ρ) in
der oberen Schranke des wahren Risikofunktionals? Was bedeuten diese Abhängigkeiten anschaulich. (15 Punkte)
8. Der Kern-Trick erlaubt es, eine explizite nichtlineare Expansion zu
vermeiden. Welche Rolle spielt die Kern-Funktion im expandierten
Raum? (2 Punkte)
9. Nenne zwei Eigenschaften einer Kern-Funktion. (3 Punkte)
Rechenaufgaben
Abschätzung von Wahrscheinlichkeitsdichten (26 Punkte)
Angenommen, eine skalare Zufallsvariable X sei gemäß der Wahrscheinlichkeitsverteilung p0 (X) verteilt. Angenommen, du willst an Hand von N Messungen xi (i ∈ {1, ..., N }) eine Abschätzung p(X) für diese Wahrscheinlichkeitsverteilung finden.
1
Ein geeignetes Risikofunktional hierfür ist gegeben durch:
F (p(X)) = hln p(x)ix
(1)
Nimm an, dass die Wahrscheinlichkeitsverteilung p(X) die Form einer GaussGlocke mit Mittelwert µ und Standardabweichung σ hat:
(x − µ)2
exp −
p(x) = √
2σ 2
2πσ 2
1
(2)
1. Berechne das empirische Risikofunktional F (µ, σ) als Funktion von µ
und σ, indem du den Ansatz (2) in die Fehlerfunktion einsetzt und die
Mittelung über X durch eine Mittelung über die Meßdaten ersetzt.
2. Berechne den Gradienten des Risikofunktionals F (µ, σ).
3. Berechne die optimalen Werte für µ und σ.
Bedingte Unabhängigkeit (6 Punkte)
Angenommen, die Verbundwahrscheinlichkeit für die drei Zufallsvariablen
A, B und C lasse sich folgendermaßen faktorisieren:
P (A, B, C) = P (C|B)P (A|B)P (B)
(3)
Zeige, dass A von C statistisch unabhängig ist, wenn B gegeben ist, d.h.
P (A|B, C) = P (A|B).
Schrödinger’s Warzenschwein (12 Punkte)
Ein Gedankenexperiment: Eine Warzenschwein sitzt in einem Kasten, zusammen mit einer Ampulle, die Gift enthält. Diese Ampulle ist mit einem
Apparat verbunden, der misst, ob ein bestimmtes radioaktives Atom zerfällt.
Wenn das Atom zerfällt, zerbricht der Apparat die Ampulle und setzt das
Gift frei. Im Gegensatz zum Originalexperiment mit der berühmten Katze
schliessen wir die Möglichkeit ein, dass das Warzenschwein gegen das Gift
immun ist. Am Ende des Experiments wird nachgesehen, ob es noch lebt.
Die Wahrscheinlichkeit, dass das Atom bis zum Ende des Experiments zerfällt
sei p und die, dass das Warzenschwein immun ist, sei q. Angenommen, das
Tier überlebt das Experiment. Berechne die Wahrscheinlichkeit, dass das
Atom bis zum Ende des Experiments nicht zerfallen ist.
2
Polynomielle Kernfunktion (6 Punkte)
Betrachte folgende Kernfunktion für Eingangsdaten x ∈ R2 :
k(x, x0 ) = (2 + x · x0 )2
Diese Kernfunktion erzeugt eine nichtlineare Expansion in Polynomen zweiten Grades. Welche Form hat das Skalarprodukt im expandierten Raum in
der Basis B = {1, x1 , x2 , x21 , x1 x2 , x22 }? Bestimme hierzu die Koeffizienten αi
im Ausdruck
0 0
2 02
k(x, x0 ) = α1 + α2 x1 x01 + α3 x2 x02 + α4 x21 x02
1 + α5 x1 x2 x1 x2 + α6 x2 x2 .
3
Herunterladen