Theoretical Analysis of Protein-Protein Interactions Proseminar SS 2004 Virtual Screening: Predicting Pairs from Sequence Übersicht Einleitung 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Zusammenfassung SS 2004 Anna Hobler 3/29 Einleitung Protein-Protein-Interaktionen spielen eine entscheidende Rolle bei biologischen Prozessen Ziel: Verständnis der physiologischen Funktion eines Proteins → Identifikation von Interfaces SS 2004 Anna Hobler 4/29 Einleitung Spezifisches Problem: Gegeben die Struktur eines Proteins und die Tatsache, dass es einen Komplex mit einem anderen, unbekannten Protein bildet. Sage die Residuen des ersten Proteins voraus, die im Interface mit dem zweiten Protein liegen. SS 2004 Anna Hobler 5/29 Merkmale von Interfaces unterscheiden sich in Homo- und Heteromeren, sowie in permanent und transient interagierenden Proteinen Unterschiedliche Interface-Arten haben unterschiedliche Merkmale große Anzahl von hydrophoben Residuen im Vergleich zur gesamten Proteinoberfläche Protein-Interfaces sind segmentiert SS 2004 Anna Hobler 6/29 Merkmale von Interface-Residuen Segmente fassen oft Residuen zusammen, die in der 3D-Struktur geclustert sind und in der Aminosäuresequenz aufeinanderfolgen andere Aminosäure-Zusammensetzung als der Rest des Proteins nicht-polare Residuen häufiger in Interfaces als geladene und polare Residuen (Ausnahme: Arginin) mutieren weniger häufig als andere Stellen der ProteinOberfläche SS 2004 Anna Hobler 7/29 Definitionen Oberflächen-Residue: relative MASA (ASA im ungebundenen Molekül) wenigsten 25% der Gesamtfläche Interface-Residue: 1. Basierend auf der Reduktion der ASA: ASAMonomer - ASAKomplex <1 Å2 2. SS 2004 Abstands-basiert: Residue (oder Atom) in anderem Molekül mit Abstand <6Å zur Target-Residue Anna Hobler 8/29 1.Modell: Vorhersage von Protein-Interfaces aus Sequenzprofilen und Residue Neighbor Listen durch neuronale Netzwerke Ziel: Entwicklung eines genauen Predictors für InterfaceResiduen Input: Sequenzprofil und ASA einer Oberflächen-Residue und das Gleiche für die 19 räumlich am nähesten Oberflächen-Residuen Sammlung von Komplexen: Kettenpaare mit 20 Residuen/Kette, die einen Interface-Kontakt mit der anderen Kette bilden SS 2004 Anna Hobler 9/29 Architektur der neuronalen Netzwerke 2 aufeinanderfolgende neuronale Netzwerke → 2. Netzwerk soll Genauigkeit verbessern 1.Netzwerk: 420 Input-Knoten führen zu einem Hidden Layer mit 75 Knoten, die zu 2 Output-Knoten führen Zielwerte: (1,0) wenn die Residue unter der Vorhersage eine Interface-Residue ist (0,1) sonst 2. Netzwerk: Input-Knoten, ein Hidden Layer mit 30 Knoten und 2 Output-Knoten Die Werte der 2. Output-Knoten sind entscheidend SS 2004 Anna Hobler 10/29 Neural Network Predictor Input-Layer Hidden Layer Output-Layer Quelle: Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336-343. Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List. Vorherzusagende Residue: L79 2 nächste räumliche Nachbarn: F78, V80 Input-Knoten: enthalten Substitutions-Werte aus Sequenzprofil (PSI-BLAST) bzw. letzter Knoten enthält relative ASA Vergleich der beiden Output-Knoten: Interface-Residue ↔ x1>x2 SS 2004 Anna Hobler 11/29 Performance der Methode Training Set: 615 Paare von nicht-homologen komplexbildenden Proteinen 225.139 Oberflächen- Residuen (42.797 IR, 182.342 NIR) Test Set: 129 Paare 58.890 Residuen, davon 40.914 an der Oberfläche (11.805 mit wenigstens einem Interface-Kontakt) 11.004 Vorhersagen von IR 70% (7732) richtig, d.h. Genauigkeit 65% der 11.805 Residuen die die 129 Interfaces bilden SS 2004 Anna Hobler 12/29 Neighbor Listen und ASA relativ unempfindlich gegenüber strukturellen Änderungen → NN für gebundene und ungebundene Strukturen etwa gleiche Genauigkeit: Suche nach ungebundenen Formen für die 129 Paare von Proteinketten → 35 solcher Proteine als Test Set : Genauigkeit von 69% SS 2004 Anna Hobler 13/29 2.Modell: Vorhersage von Protein-Interfaces aus der Aminosäuresequenz mithilfe einer Support Vector Machine Ziel: Predictor zur Vorhersage von Interfaces durch Nutzung einer Support Vector Machine → Vorhersage, ob Oberflächen-Residue = InterfaceResidue, basierend auf der Identität der Ziel-Residue und ihrer 10 Sequenznachbarn einzige Strukturinformation: ASA der Residuen zur Identifizierung von Oberflächen-Residuen des TargetProteins Vorhersage korrekt: Residue oder eine ihrer 4 nächsten Nachbarn haben wenigstens einen Interface-Kontakt SS 2004 Anna Hobler 14/29 Input: abgeleitet aus der Identität der Target-Residue und den Residuen die sie in der Primärsequenz umgeben →11-Residue-Fenster besteht aus der Residue und ihren 10 Sequenznachbarn (5 auf jeder Seite) Output: +1 wenn Target Residue als Interface-Residue vorhergesagt wurde -1 sonst SS 2004 Anna Hobler 15/29 Support Vector Machine Residue repräsentiert durch Vektor mit 20 Elementen (Elemente entsprechen den AS) → Jede Target-Residue assoziiert mit 220-elementigen Vektor Wert eines Elementes im Vektor: Häufigkeit, mit der die entsprechende AS in dieser Position im Alignment vorkommt Learning Algorithmus generiert Klasse mit 220elementigen Vektor als Input und gibt Klassenlabel aus SS 2004 Anna Hobler 16/29 SVM wählt eine Hyperfläche im euklidischen Raum aus, die den Trennungsrand zwischen den beiden Klassen maximiert Quelle: http://lectures.molgen.mpg.de/statistik/docs/Kapitel_16.pdf SS 2004 Anna Hobler 17/29 Maßstäbe für die Beurteilung der Methode TP (true positives) = # vorhergesagte IR, die wirklich welche sind TN (true negatives) = # vorhergesagte NIR, die wirklich keine sind FP (false postitives) = # vorhergesagte IR, die aber NIR sind FN (false negatives) = # vorhergesagte NIR, die aber IR sind N = TP + TN + FP + FN = # aller Vorhersagen → IR = TP + FN NIR = TN + FP SS 2004 Anna Hobler 18/29 Maßstäbe für die Beurteilung der Methode TP 1 - False Alarm Rate TP FN TN 1 - False Alarm Rate Sensitivit ät - TN FP TP Spezifität TP FP TN Spezifität - TN FN FN False Alarm Rate FP TN FN False Alarm Rate - FN TP Sensitivit ät SS 2004 Anna Hobler 19/29 Erklärungen Sensitivität: wie viel Prozent aller IR wurden richtig vorhergesagt Spezifität: wie viel Prozent aller vorhergesagten IR wurden richtig vorhergesagt False positive rate: wie viel Prozent aller NIR wurden als IR vorhergesagt SS 2004 Anna Hobler 20/29 Genauigkei t TP TN N Gesamtwahrscheinlichkeit, dass eine Vorhersage korrekt ist TP * TN - FP * FN r (TP FN)(TP FP)(TN FP)(TN FN) Maßstab dafür, wie gut Vorhersagen den aktuellen Daten entsprechen 1 bei positiver Korrelation -1 bei negativer Korrelation Zufallsvorhersagen: Korrelationskoeffizient von 0 (keine K.) SS 2004 Anna Hobler 21/29 Performance der Methode 115 Proteine aus 70 Heterokomplexen (unterteilt in 6 Kategorien) 12.676 Oberflächen-Residuen (3727 IR, 8949 NIR) 115 jack-knife Experimente Training Set: je 1250 zufällig gewählte IR und NIR aus 114 der 115 Proteine SVM klassifizierte Oberflächen-Residuen in IR und NIR: SS 2004 Spezifität 71% Sensitivität von 67% False Alarm Rate von 35,9% Korrelationskoeffizient von 0.29 Anna Hobler 22/29 SS 2004 Anna Hobler 23/29 SS 2004 Anna Hobler 24/29 SS 2004 Anna Hobler 25/29 SS 2004 Anna Hobler 26/29 SS 2004 Anna Hobler 27/29 Zusammenfassung Direkter Vergleich beider Methoden nicht gut möglich Aber beide Methoden relativ gut, NN etwas besser sichere Identifizierung Interfaces kann Exerimente untersützen Ergebnisse und „einzigartige“ Kompositionen der interagierenden Residuen → Interfaces allein aus der Sequenz bestimmbar SS 2004 Anna Hobler 28/29 Quellen Ofran, Y. and Rost, B., (2003) FEBS Let, 544, 236-239. Predicted Protein-Protein Interaction Sites from Local Sequence Information. Zhou, H.X. and Shan, Y.B., (2001) Proteins, 44, 336-343. Prediction of Protein Interaction Sites from Sequence Profile and Residue Neighbor List. Yan, C., Honavar, V., and Dobbs, D., (2002) . Predicting Protein-Protein Interaction Sites from Amino Acid Sequence. SS 2004 Anna Hobler 29/29