et al. - Informatik @ Uni Frankfurt - Goethe

Werbung
On the Complexity of
Fundamental Problems in
Pedigree Analysis
Antonio Piccolboni, Dan Gusfield
Seminar „Aktuelle Themen der Bioinformatik“
Martin Löwer
Johann Wolfgang Goethe Universität Frankfurt a.M.
Fachbereich für Biologie und Informatik
Inhalt
1.
2.
3.
4.
5.
6.
7.
8.
9.
Motivation
Stammbäume
Problemstellungen
Einschränkungen des Modells
MaxP ist NP-hart
Approximierung von MaxP
Die Klasse #P
MP ist #P-hart
Diskussion der Ergebnise
Seminar "Aktuelle Themen der
Bioinformatik"
2
1. Motivation
Hohe Beduetung der Analyse von
Stammbaumdaten
 Es ist keine worst-case-effiziente
Methode für die Berechnung von
Wahrscheinlichkeiten in Stammbäumen
bekannt

Seminar "Aktuelle Themen der
Bioinformatik"
3
1.1 Zu Zeigen:
Geringe Abweichungen von den Fällen,
in denen effiziente Berechnungen
möglich sind, führen zur NP-Härte
 Approximation nur bis zu einem
exponentiellen Faktor möglich

Seminar "Aktuelle Themen der
Bioinformatik"
4
2. Stammbäume

Ein Stammbaum ist ein gerichteter, azyklischer
Graph, der Grad der eingehenden Kanten ist bei
jedem Knoten 0 oder 2 und der zugehörige
Heiratsgraph ist bipartit.
 Der Heiratsgraph eines gerichteten Graphen G =
(V,E) ist ein ungerichteter Graph H = (V,E*) mit E* =
{(v,w) : v,w V und  z V : (v,z)  E  (w,z)  E)}
 Zyklen im ungerichteten Stammbaum: Inzucht und
Zwillinge
 Unterscheidung der Individuen in Gründer und
Nichtgründer
Seminar "Aktuelle Themen der
Bioinformatik"
5
2.1 Stammbäume

Bekannte Algorithmen:
– Lander und Green (1987)
– Elston und Steward (1971)

Bisherige Annahme: Inzestzyklen sind
die größte Problemquelle
Seminar "Aktuelle Themen der
Bioinformatik"
6
2.2 Stammbäume
Komplette Probleminstanz beinhaltet
noch zwei Zufallsvariablen pro Knoten:
Phänotyp und Genotyp
 Probleme der Stammbaumanalyse
entstehen durch fehlende Werte für
diese Variablen

Seminar "Aktuelle Themen der
Bioinformatik"
7
2.3 Stammbäume

Verteilung der Zufallsvariablen:
–
–
–

P(gi) Wahrscheinlichkeitsverteilung des
Genotyps von Gründer i
P(gi|gv(i),gm(i)) Wahrscheinlichkeitsverteilung des
Genotyps von Nichtgründer i
P(yi|gi) Wahrscheinlichkeitsverteilung des
Phänotyps von Individuum i
P(gi|gv(i),gm(i)) muß genetische Realität
wiederspiegeln, wird daher oft durch
einfache Regeln der Mendelgenetik
beschrieben
Seminar "Aktuelle Themen der
Bioinformatik"
8
2.4 Stammbäume

Gesamtwahrscheinlichkeit eines
Stammbaums, bzw. der Score:
P(G,Y) = Gründer i P(gi) P(yi|gi) Nichtgründer i P(gi|gv(i),gm(i)) P(yi|gi)
Seminar "Aktuelle Themen der
Bioinformatik"
9
3. Die Probleme

MaxP - Maximale
Wahrscheinlichkeit:

MP - Marginale
Wahrscheinlichkeit:
Gegeben sei ein Stammbaum
mit Ws‘keitsverteilungen und
einer Teilmenge G* der
Genotypen G bzw. Y*
Phänotypen Y.
Gegeben sei ein Stammbaum
mit Ws‘keitsverteilungen und
einer Teilmenge G* der
Genotypen G bzw. Y*
Phänotypen Y.
Berechne max G\G*,Y\Y* P(G,Y)
Berechne
P(G*,Y*) =  G\G*,Y\Y* P(G,Y)
Seminar "Aktuelle Themen der
Bioinformatik"
10
4. Einschränkungen des Modells

Beschränkung auf Spezialfälle, die in allen
anderen Modellen enthalten sind:
–
–
–
–
Ein Locus
Zwei Chromosomen
Zwei Allele (A und a)
Phänotyp wird vernachlässigt, da 1 zu 1 vom Genotyp
abhängig
– Einfaches Mendel‘sches Verebungsmodell ohne Mutationen
– Keine Inzestzyklen
Seminar "Aktuelle Themen der
Bioinformatik"
11
5. MaxP ist NP-hart

Beweis durch Reduktion von 3-MIS (Garey et
al., 1976)
 3-MIS: Maximale unabhänige Knotenmenge
in einem Graphen G = (V,E), wobei der
maximale Grad eines Knotens drei ist
 Im Folgenden sei e = |E| und v = |V|, die
Elemente von V werden mit 1,2,....,v
benannt, die Lösung von 3-MIS(G) sei s
Seminar "Aktuelle Themen der
Bioinformatik"
12
5.1 Reduktion G  MAXP(G)
Für jeden Knoten i  V:
5i, aa
5i+2 5i+4, AA
5i+1, Aa
5i+3
Für jede Kante {i, j}  E:
5i+2
5j+3
5i+3
{i, j}, Aa
5j+2
{i, j}*, Aa
Insgesamt l = 5v + 2e Individuen
Seminar "Aktuelle Themen der
Bioinformatik"
13
5.2 Wahrscheinlichkeitsverteilung
in MAXP(G)

Verteilung für die Gründer:
– P(a) = 1/3
– P(aa) = 1/9
– P(Aa) = P(AA) = 4/9
– Wahrscheinlichkeiten stimmen mit dem
Hardy-Weinberg-Gesetz überein
Seminar "Aktuelle Themen der
Bioinformatik"
14
5.3 Beobachtungen


Eine Lösung von MAXP(G), die den Wert 0
annimmt, heißt degeneriert
Wenn eine Lösung von MAXP(G) einen Score von
größer als 0 hat, gilt folgendes:
1.
2.
3.
 i  V : weder 5i+2 noch 5i+3 hat den Genotyp aa
 (i, j)  E : 5i+2 und 5j+3 können nicht beide den
Genotyp AA annehmen
 i  V : wenn 5i+2 den Genotyp AA hat, muß 5i+3 auch
AA haben
Seminar "Aktuelle Themen der
Bioinformatik"
15
5.4 Der Score von MAXP(G)

Eine degenerative Belegung kann nicht
optimal sein, denn:
Score(MAXP(G)) 
1
36v
22e-2v
Seminar "Aktuelle Themen der
Bioinformatik"
>0
16
5.5 Der Score von MAXP(G)

Sei s = |{i  V: 5i+2 ist mit AA belegt}|, dann hat MAXP(G)
genau folgenden Score:
1
36v 22e-2v-2s

Es gilt dann folgendes:
1.
2.
3.
Wenn s die Größe des MIS in G ist, dann hat die optimale
Lösung von MAXP(G) mindestens den Wert des obigen Bruchs
Wenn eine Lösung von MAXP(G) einen Score von größer 0 hat,
dann ist {i  V: 5i+2 ist mit AA belegt} eine unabhängige
Knotenmenge
Wenn die optimale Lösung von MAXP(G) obigen Score hat,
dann ist die Größe der maximalen unabhänigen Knotenmenge in
G mindestens s
Seminar "Aktuelle Themen der
Bioinformatik"
17
5.6 Der Score von MAXP(G)

Werden die vorherigen Beobachtungen
kombiniert, gilt:
Genau dann wenn der Score von
1
MAXP(G) gleich 3 2
ist, ist s die
Größe der maximalen unabhängigen
Knotenmenge in G.
6v
2e-2v-2s
Seminar "Aktuelle Themen der
Bioinformatik"
18
6. Approximieren von MAXP
3-MIS ist von einem PolynominalzeitAlgorithmus nur bis zu einem Faktor
von 1,0005 approximierbar, d.h wenn s*
die optimale Lösung ist, ist ist s*/s
größer als c = 1,0005 (Berman und
Karpinski, 1999)
 Wir betrachten zuerst den negativen
Logarithmus zur Basis 2 von MAXP

Seminar "Aktuelle Themen der
Bioinformatik"
19
6.1 Approximieren von MAXP
Durch die Beschränkung des Grades
der Knoten gilt: s* > v/4 und e  3v/2
 Die Approximationsrate R von logMAXP ist dann 1.000071393

Seminar "Aktuelle Themen der
Bioinformatik"
20
6.2 Approximieren von MAXP

Durch die vorherigen Ergebnisse kann
man den Score von MAXP(G)
folgendermaßen abschätzen:
Score(MAXP(G)) <
l = 5v+2e
1
2/8(R-1)l-2R+2
 = 6 ld 3 -2
Seminar "Aktuelle Themen der
Bioinformatik"
21
6.3 Approximieren von MAXP

Das bedeutet: Das Verhältnis vom
optimalen Score zu dem besten durch
einen eff. Algorithmus berechenbaren
wächst exponentiell mit l, der
Stammbaumgröße
Seminar "Aktuelle Themen der
Bioinformatik"
22
7. Die Klasse #P
Ein Sprache gehört zur Klasse #P, wenn
die Anzahl ihrer Lösungen von einer
NTM in polynomineller Zeit berechnet
werden kann
 #P-Härte ist analog zur NP-Härte durch
die polynominelle Reduktion definiert

Seminar "Aktuelle Themen der
Bioinformatik"
23
8. MP ist #P-hart

Beweis durch Reduktion von #IS (Dyer und
Greenhill, 2000)
 #IS: Berechne die Anzahl der unabhänigen
Knotenmengen in einem Graphen G = (V,E)
mit einem maximalen Knotengrad von 3
 Im Folgenden sei e = |E| und v = |V|, die
Elemente von V werden mit 1,2,....,v
benannt, die Lösung von #IS sei S
Seminar "Aktuelle Themen der
Bioinformatik"
24
8.1 Reduktion G  MP(G)
Für jeden Knoten i  V:
3i, AA
3i+2, Aa
3i+1
Seminar "Aktuelle Themen der
Bioinformatik"
25
8.2 Reduktion G  MP(G)
Für jede Kante {i, j}  E:
({i, j},0), AA
({i, j},1)
3i+1
({i, j},3), Aa
({i, j},6), Aa
({i, j},2)
3j+1
({i, j},7)
({i, j},9), AA
({i, j},8)
({i, j},4), AA
({i, j},5), Aa
Insgesamt 3v + 10e Individuen
Seminar "Aktuelle Themen der
Bioinformatik"
26
8.3 Wahrscheinlichkeitsverteilung
in MP(G)

Verteilung für die Gründer wie im vorherigen
Beweis
 P(AA3i+1)= P(Aa3i+1)=1/2, i  {1,...,v}
 Marginale Wahrscheinlichkeiten für das
Kantengadget in Abängigkeit von 3i+1 und
3j+1:
3i+1
3j+1
P
AA
AA
0
AA
Aa
3/32
Aa
AA
3/32
Aa
Aa
3/32
Seminar "Aktuelle Themen der
Bioinformatik"
27
8.4 Marginale Wahrscheinlichkeiten
für die Vorfahren von ({i, j},4)
3i+1
3j+1
({i,j},2)
P2
({i,j},7)
P7
P4

AA
Aa
AA
½
AA
1/4
1
1/8
AA
Aa
AA
½
Aa
½
½
1/8
AA
Aa
Aa
½
AA
1/4
½
1/16
AA
Aa
Aa
½
Aa
½
1/4
1/16
Summe
3/8
Aa
Aa
AA
¼
AA
1/4
1
1/16
Aa
Aa
AA
1/4
Aa
½
½
1/16
Aa
Aa
Aa
½
AA
1/4
½
1/16
Aa
Aa
Aa
½
Aa
½
1/4
1/16
Summe
1/4
Seminar "Aktuelle Themen der
Bioinformatik"
28
8.5 Marginale Wahrscheinlichkeiten
für die Vorfahren von ({i, j},5)
3i+1
3j+1
({i,j},1)
P1
({i,j},8)
P8
P5

AA
Aa
AA
1
AA
½
0
0
AA
Aa
AA
1
Aa
½
½
1/4
Summe
1/4
Aa
Aa
AA
½
AA
½
0
0
Aa
Aa
AA
½
Aa
½
½
1/8
Aa
Aa
Aa
½
AA
½
½
1/8
Aa
Aa
Aa
½
Aa
½
½
1/8
Summe
3/8
Seminar "Aktuelle Themen der
Bioinformatik"
29
8.6 Beobachtungen

1.
2.
Falls der Score von MP(G) größer als
Null ist, gilt:
 i  V: Genotyp von 3i+1 ist nicht aa
 {i,j}  E: Genotyp von 3i+1 und 3j+1
ist nicht bei beiden AA
Seminar "Aktuelle Themen der
Bioinformatik"
30
8.7 Der Score von MP(G)
Score(MP(G)) = S 
3e
2v + 5e
S = Lösung von #IS(G)
Seminar "Aktuelle Themen der
Bioinformatik"
31
9. Diskussion der Ergebnisse





NP-Härte gilt auch für komplexere Modelle
Beschränkung der Worst-Case Laufzeit von
Algorithmen
Ausschluß der Spezialfälle beim
Algorithemndesign
Auch der Ausschluß von Inzestzyklen kann zu
hoher Komplexität führen
Bei MaxP sind die Ergebnisse von effizienten
Algoryithmen teilweise unbrauchbar (solange
P  NP)
Seminar "Aktuelle Themen der
Bioinformatik"
32
Herunterladen