Neuronale Netze und Maschinelles Lernen SS 2006 Probe-Klausur Verständnisfragen 1. Beschreibe das Bias-Variance Dilemma kurz in eigenen Worten. (7 Punkte) 2. Erläutere den Begriff “Generalisierung”. (3 Punkte) 3. Was sind Trainings-, Test- und Validierungsdaten? (3 Punkte) 4. Erläutere den Begriff “zerschmettern” im Zusammenhang von Klassifikationsaufgaben. (7 Punkte) 5. Welche Grösse minimiert die Trennebene, die eine Stützvektormaschine findet? Welche wird maximiert? (5 Punkte) 6. Wie hängen VC-Dimension und Trennabstand zusammen? Gib eine anschauliche Erklärung. (5 Punkte) 7. Wie hängen die folgenden vier Größen qualitativ von der Anzahl der Trainingsdaten und von der VC-Dimension ab: das empirische Risikofunktional, das wahre Risikofunktional, die obere Schranke für das √ wahre Risikofunktional und der Komplexitätsterm (in der VL ρ) in der oberen Schranke des wahren Risikofunktionals? Was bedeuten diese Abhängigkeiten anschaulich. (15 Punkte) 8. Der Kern-Trick erlaubt es, eine explizite nichtlineare Expansion zu vermeiden. Welche Rolle spielt die Kern-Funktion im expandierten Raum? (2 Punkte) 9. Nenne zwei Eigenschaften einer Kern-Funktion. (3 Punkte) Rechenaufgaben Abschätzung von Wahrscheinlichkeitsdichten (26 Punkte) Angenommen, eine skalare Zufallsvariable X sei gemäß der Wahrscheinlichkeitsverteilung p0 (X) verteilt. Angenommen, du willst an Hand von N Messungen xi (i ∈ {1, ..., N }) eine Abschätzung p(X) für diese Wahrscheinlichkeitsverteilung finden. 1 Ein geeignetes Risikofunktional hierfür ist gegeben durch: F (p(X)) = hln p(x)ix (1) Nimm an, dass die Wahrscheinlichkeitsverteilung p(X) die Form einer GaussGlocke mit Mittelwert µ und Standardabweichung σ hat: (x − µ)2 exp − p(x) = √ 2σ 2 2πσ 2 1 (2) 1. Berechne das empirische Risikofunktional F (µ, σ) als Funktion von µ und σ, indem du den Ansatz (2) in die Fehlerfunktion einsetzt und die Mittelung über X durch eine Mittelung über die Meßdaten ersetzt. 2. Berechne den Gradienten des Risikofunktionals F (µ, σ). 3. Berechne die optimalen Werte für µ und σ. Bedingte Unabhängigkeit (6 Punkte) Angenommen, die Verbundwahrscheinlichkeit für die drei Zufallsvariablen A, B und C lasse sich folgendermaßen faktorisieren: P (A, B, C) = P (C|B)P (A|B)P (B) (3) Zeige, dass A von C statistisch unabhängig ist, wenn B gegeben ist, d.h. P (A|B, C) = P (A|B). Schrödinger’s Warzenschwein (12 Punkte) Ein Gedankenexperiment: Eine Warzenschwein sitzt in einem Kasten, zusammen mit einer Ampulle, die Gift enthält. Diese Ampulle ist mit einem Apparat verbunden, der misst, ob ein bestimmtes radioaktives Atom zerfällt. Wenn das Atom zerfällt, zerbricht der Apparat die Ampulle und setzt das Gift frei. Im Gegensatz zum Originalexperiment mit der berühmten Katze schliessen wir die Möglichkeit ein, dass das Warzenschwein gegen das Gift immun ist. Am Ende des Experiments wird nachgesehen, ob es noch lebt. Die Wahrscheinlichkeit, dass das Atom bis zum Ende des Experiments zerfällt sei p und die, dass das Warzenschwein immun ist, sei q. Angenommen, das Tier überlebt das Experiment. Berechne die Wahrscheinlichkeit, dass das Atom bis zum Ende des Experiments nicht zerfallen ist. 2 Polynomielle Kernfunktion (6 Punkte) Betrachte folgende Kernfunktion für Eingangsdaten x ∈ R2 : k(x, x0 ) = (2 + x · x0 )2 Diese Kernfunktion erzeugt eine nichtlineare Expansion in Polynomen zweiten Grades. Welche Form hat das Skalarprodukt im expandierten Raum in der Basis B = {1, x1 , x2 , x21 , x1 x2 , x22 }? Bestimme hierzu die Koeffizienten αi im Ausdruck 0 0 2 02 k(x, x0 ) = α1 + α2 x1 x01 + α3 x2 x02 + α4 x21 x02 1 + α5 x1 x2 x1 x2 + α6 x2 x2 . 3