Aufgabe 38 (15 Punkte) Aufgabe 37 (15 Punkte) Gegeben ist die Datenmatrix D bestehend aus 10 Spalten unabhängiger Beobachtungen der Netzwerkvariablen (X1,…,X5). Berechnen Sie für jedes Paar von Variablen (Xi,Xj) (i≠j) den Pearson Korrelationskoeffizienten und die partielle Korrelation. 0.80 0.62 0.81 0.68 D = 0.45 0.47 − 1.18 − 1.06 − 1.12 − 0.73 0.94 − 0.99 0.21 0.24 − 1.01 − 0.74 0.85 − 1.08 0.28 0.10 − 0.89 − 0.66 1.09 0.26 0.27 − 1.00 − 0.89 − 1.07 1.47 0.06 − 1.21 − 0.04 − 1.12 − 1.35 0.89 − 0.17 − 1.34 − 0.65 − 1.79 − 0.88 − 0.13 0.96 − 0.17 0.94 − 0.19 − 0.26 0.95 − 0.26 0.63 1.08 Gegeben die Datenmatrix D aus Aufgabe 37 und das wahre Netzwerk unten, welches ausschließlich aus ungerichteten Kantenverbindungen besteht. Zeichnen sie für Relevance Netzwerke (basierend auf Pearson Korrelationskoeffizienten) und für Gauß‘sche Graphische Modelle (keine Shrinkage Schätzung der Kovarianzmatrix notwendig!!!) die ROC Kurven und berechnen sie die resultierenden AUROC Werte. (Die Ergebnisse von Aufgabe 37 können bzw. sollten genutzt werden.) X2 Aufgabe 39 (5 Punkte) Gegeben die ROC Kurven aus Aufgabe 38. Kennzeichnen Sie in beiden ROC Kurven die (TP|FP=1) Werte, d.h. die Anzahl von true positive (TP) Kanten, die man erhält, wenn man genau eine false positive (FP) Kante „akzeptiert“. Den (TP|FP=1) Wert erhält man, indem man den Diskriminanzwert (threshold) so setzt, dass man genau eine falsch positive (FP) Kante erhält und dann die Anzahl der dazugehörigen true positive (TP) Kanten zählt. Tipp: Für 5 Knoten X1,…,X5 gibt es 10 mögliche ungerichtete Kanten, von denen 3 im wahren Graph vorliegen. Eine false positive Kante entspricht hier im Beispiel also einer inversen Spezifizität von 1/7. Für diese inverse Spezifizität (x-Achse) kann nun die dazugehörige Sensitivität y0 von der y-Achse der ROC Kurve abgelesen werden und es gilt: (TP|FP=1) = 3·y0 Ist der Wert y0 (die Sensitivität, die zur inversen Spezifizität 1/7 gehört) nicht eindeutig, soll das maximale y0 gewählt werden. X4 X1 X3 X5 Letzte Aufgabe (40) (5 Punkte) Es gibt einen Fall, bei dem Relevance Netzwerke (basierend auf Pearson Korrelationen) im Hinblick auf die Rekonstruktion von Netzwerken (theoretisch) besser abschneiden als Gaussian Graphical Models (GGMs). Betrachten Sie eine Domäne mit drei Knoten A,B und C und das gegebene wahre (gerichtete) Netzwerk unten. Welches Problem kann bei GGM Inferenz hier auftreten? 1 Tipp: Knoten 1 und Knoten 2 sind hier offensichtlich stochastisch unabhängig (unkorreliert), aber… 2 3