MM 29.06.2011 Sequenzanalyse Michael Meyer Vorlesung XVI Michael Meyer Molecular Modelling Allgemeines Der Vergleich von unbekannten Sequenzen mit Sequenzen bekannter Funktion (und ggf. bekannter Struktur) ist ein zentrales Ziel der Bioinformatik. • Problemstellung Wo findet man Sequenzinformationen? Wie vergleicht und bewertet man Sequenzen? • Datenbanken Archivierung bekannter Protein- und DNA Sequenzen verlinkte Abfragesysteme • Suchmöglichkeiten Datenbankindex Text (Autor, Stichwort, Literaturstellen, Annotierung) Sequenz (identische oder ähnliche Sequenzabschnitte) Michael Meyer Sequenzen Molecular Modelling 1 MM 29.06.2011 Sequenzdatenbanken • Sequenzdatenbanken Proteine: Swiss-Prot, UniProt Nucleinsäuren: Genbank ... • Abfragesysteme Verknüpfung verschiedener Datenbanken DBGET ENTREZ ... Michael Meyer Molecular Modelling UniProt Michael Meyer Sequenzen Molecular Modelling 2 MM 29.06.2011 NCBI National Center for Biotechnological Information PubMed Gene NukleinsäureSequenzen Elektronische Publikationen Biopolymerstrukturen Proteinsequenzen http://www.ncbi.nlm.nih.gov/ Michael Meyer Molecular Modelling NCBI Michael Meyer Sequenzen Molecular Modelling 3 MM 29.06.2011 DBGET Michael Meyer Molecular Modelling Sequenzalignment • Zielsetzung Zuordnung von Sequenzen • Modelle globales Alignment Geeignet für die Zuordnung von Sequenzen mit einer Ähnlichkeit über die gesamte Länge. Eine typische Anwendung ist die Untersuchung von evolutionären Veränderungen in funktional gleichen Proteinen. Man nimmt an, dass funktionell wichtige Aminosäuren eines Proteins konserviert sind. Globales Alignment Michael Meyer Sequenzen Molecular Modelling 4 MM 29.06.2011 Sequenzalignment II lokales Alignment Geeignet für Sequenzen mit ähnlichen Aminosäuren in isolierten Regionen. Die Anwendung liegt in der Suche nach gemeinsamen Sequenzfragmenten oder funktionellen Gruppen in Datenbanken. Lokales Alignment multiples Alignment Verallgemeinerung des Sequenzalignments von 2 Sequenzen auf eine Vielzahl N von Sequenzen. Michael Meyer Molecular Modelling Vergleich von Sequenzen Operationen Substitution In der Sequenz B wird an der Stelle i ein Buchstabe aus A ersetzt Deletion Aus der Sequenz A wird an der Stelle i ein Buchstabe gelöscht um B zu erzeugen. In der Sequenz B steht dann ein „-“ Insertion An der Stelle i der Sequenz B wird ein Buchstabe eingefügt. In der Sequenz A steht dann ein „-“. Distanzmatrix Zum Vergleich zweier Proteinsequenzen wird ein Verfahren benötigt, das die einander zugeordneten AS-Paare bewertet. Dabei sind 20 x 19 = 380 / 2 = 190 unterschiedliche AS-Paare zu berücksichtigen. Allgemein werden die Distanzen nach biologischen oder chemischen Gesichtspunkten ausgewählt, z. B. identische Kosten, physikochemisch orientierte Kosten, Mutationswahrscheinlichkeit (BLOSUM, Dayhoff) Michael Meyer Sequenzen Molecular Modelling 5 MM 29.06.2011 Beispiel für Kosten Hypothetische Distanzwerte Substitutionen = 2 (z. B. d(F,Q)=2) Indels =3 (z. B. d(-,D) Insertion, d(C,-) Deletion) Beispielsequenzen Sequenz A = A C F C G S T Sequenz B = A C Q - A S T D Kosten aller Operationen: 2+3+2+3=10 Sequenz A = - A C F C G S T Sequenz B = A C Q - A S T D Kosten aller Operation: 3+2+2+3+2+2+2+2=18 Michael Meyer Molecular Modelling Globales Sequenzalignment Globales Alignment von 2 Strings Sequenz A = Sequenz B = a1 ... an b1 ... bm Di,j=d(a1...ai, b1...bj) Distanz zwischen a1 ... ai und b1 ...bj Dn,m Kosten des optimalen globalen Alignments D0,0 = 0 j D0,j = Σ d(-,bk) k=1 i Di,0 = Σ d(ak,-) k=1 Di,j = min { Di-1,j + d(ai,-), Di-1,j-1 + d(ai, bj), Di,j-1 + d(-,bj)} Michael Meyer Sequenzen Molecular Modelling 6 MM 29.06.2011 Beispiel zum globalen Sequenzalignment Sequenz A = WRITERS Sequenz B = VINTNER V I N T N E R 0 1 2 3 4 5 6 7 d(ai, bj) = 0 d(ai, bj) = 1 für ai = bj sonst W R I T E R S 1 1 2 3 4 5 6 7 2 2 2 3 4 5 6 6 3 3 2 3 4 5 6 7 4 4 3 3 3 4 5 6 5 5 4 4 4 4 4 5 6 6 5 5 5 5 5 4 7 7 6 6 6 6 6 5 T T N E E R R S - Optimales globales Alignment W - R V I I N Michael Meyer Molecular Modelling Ergebnisse eines Sequenzalignments • organisatorische Unterteilung der Sequenz Domänenstruktur von Proteinen • familiäre Zusammenhänge • Lokalisierung möglicher funktioneller Aminosäuren sequenzielle Nähe heißt nicht notwendigerweise auch räumliche Nähe • Erweiterung der in der Sequenz vorhandenen Informationen Sekundärstruktur-Vorhersage Homologie-Modellierung Identifizierung der möglichen Lage von Aminosäuren (vergraben oder an der Oberfläche) Michael Meyer Sequenzen Molecular Modelling 7 MM 29.06.2011 Basic Local Alignment Search Tool (BLAST) • Heuristisches lokales Alignmentverfahren zur effektiven Suche von Protein- oder Nukleinsäuresequenzen in Datenbanken • Suche von Regionen lokaler Ähnlichkeit mit kleinen Sequenzfragmenten • anschließendeVerlängerung des Alignments falls möglich • liefert üblicherweise multiple Treffer • keine Garantie für biologische Signifikanz http://blast.ncbi.nlm.nih.gov/ Michael Meyer Molecular Modelling BLAST Michael Meyer Sequenzen Molecular Modelling 8 MM 29.06.2011 prosite Zusammenstellung von Sequenzmustern, die einer definierten Funktion zugeordnet werden können oder in Proteinfamilien konserviert sind. M. A. S. Saqi, Identification of protein sequence motifs, in: Protein Structure Prediction (Ed. M. J. E. Sternberg), Oxford University Press, Oxford 1996. N. Hulo et al., Nucleic Acid Res. 32, D134 (2004) Michael Meyer Molecular Modelling prosite II • Syntax Jede Sequenzposition im Motiv ist durch einen Bindestrich getrennt ein Buchstabe symbolisiert eine Aminosäure, die in dieser Position vorkommt x steht für eine beliebige Aminosäure {...} steht für einen Satz von verbotenen Aminosäuren [...] steht für einen Satz von erlaubten Aminosäuren (n) steht für eine n-fache Wiederholung (n,m) steht für eine n bis m-fache Wiederholung • Beispiel [AG]-x(4)-G-K-[ST] Michael Meyer Sequenzen Molecular Modelling 9 MM 29.06.2011 prosite III • Signifikanz der Prosite Resultate [YA]-x-D-T-D-S-[LIVM] Relative Häufigkeit der Aminosäuren Y Tyr 0.032 D Asp 0.052 S Ser 0.071 I Ile 0.054 M Met 0.023 in Sequenzdatenbanken A Ala 0.077 T Thr 0.058 L Leu 0.091 V Val 0.065 Die Wahrscheinlichkeit für das zufällige Auftreten dieses Motivs beträgt (0.032+0.077) 0.052 0.058 0.052 0.071 (0.091 + 0.054 + 0.065 + 0.023) =2.8310-7 Wenn man eine Datenbank mit 109 Sequenzen durchsucht, beträgt die erwartete Anzahl von Treffern 283. Michael Meyer Molecular Modelling NPS@ Network Protein Sequence Analysis Michael Meyer Sequenzen Molecular Modelling 10 MM 29.06.2011 Beispiel zur Sequenzanalyse Gegeben sei eine „unbekannte“ Sequenz GIEASLLTDPKDVSGRTVDYIIAGGGLTGLTTAARLTENPNISVLVIESGSYESDRGPIIEDLNAYGDIFGSSVDHAYETV ELATNNQTALIRSGNGLGGSTLVNGGTWTRPHKAQVDSWETVFGNEGWNWDNVAAYSLQAERARAPNAKQI AAGHYFNASCHGVNGTVHAGPRDTGDDYSPIVKALMSAVEDRGVPTKKDFGCGDPHGVSMFPNTLHEDQVR SDAAREWLLPNYQRPNLQVLTGQYVGKVLLSQNGTTPRAVGVEFGTHKGNTHNVYAKHEVLLAAGSAVSPTILE YSGIGMKSILEPLGIDTVVDLPVGLNLQDQTTATVRSRITSAGAGQGQAAWFATFNETFGDYSEKAHELLNTKLEQ WAEEAVARGGFHNTTALLIQYENYRDWIVNHNVAYSELFLDTAGVASFDVWDLLPFTRGYVHILDKDPYLHHFAYD PQYFLNELDLLGQAAATQLARNISNSGAMQTYFAGETIPGDNLAYDADLSAWTEYIPYHFRPNYHGVGTCSMMP KEMGGVVDNAARVYGVQGLRVIDGSIPPTQMSSHVMTVFYAMALKISDAILEDYASMQ • Fragestellungen Welche Funktion hat das Protein? Gehört es zu einer bestimmten Familie von Proteinen? Um welches Protein handelt es sich? Michael Meyer Molecular Modelling Beispiel für eine Sequenzmuster Suche mit prosite N-glycosylation site. N-{P}-[ST]-{P}. Randomized probability: 5.138e-03 . Site : 43 to 46 NISV. Identity. Site : 89 to 92 NQTA. Identity. Site : 161 to 164 NASC. Identity. Site : 168 to 171 NGTV. Identity. Site : 258 to 261 NGTT. Identity. Site : 355 to 358 NETF. Identity. Site : 388 to 391 NTTA. Identity. Site : 473 to 476 NISN. Identity. ------------------------------------------------------Protein kinase C phosphorylation site. [ST]-x-[RK]. Randomized probability: 1.423e-02 . Casein kinase II phosphorylation site. [ST]-x(2)-[DE]. Randomized probability: 1.482e-02 . ------------------------------------------------------N-myristoylation site. G-{EDRKHPFYW}-x(2)-[STAGCN]-{P}. Randomized probability: 1.397e-02 . -------------------------------------------------------- Michael Meyer Sequenzen Molecular Modelling 11 MM 29.06.2011 Beispiel für eine Sequenzmuster Suche mit prosite Regulator of chromosome condensation (RCC1) signature 2. [LIVMFA]-[STAGC](2)-G-x(2)-H-[STAGLI]-[LIVMFA]-x-[LIVM]. Randomized probability: 1.710e-06 . --------------------------------------------------------------------------GMC oxidoreductases signature 1. Prosite access number: PS00623 Prosite documentation access number: PDOC00543 [GA]-[RKN]-x-[LIV]-G(2)-[GST](2)-x-[LIVM]-N-x(3)-[FYWA]-x(2)-[PAG]-x(5)-[DNESH]. Randomized probability: 8.116e-11 . Site : 97 to 120 GNGLGGSTLVNGGTWTRPHKAQVD. Identity. --------------------------------------------------------------------------GMC oxidoreductases signature 2. Prosite access number: PS00624 Prosite documentation access number: PDOC00543 [GS]-[PSTA]-x(2)-[ST]-P-x-[LIVM](2)-x(2)-S-G-[LIVM]-G. Randomized probability: 1.087e-09 . Site : 290 to 304 GSAVSPTILEYSGIG. Identity. --------------------------------------------------------------------------7 different patterns found. Michael Meyer Molecular Modelling GMC-Oxidoreduktasen Glucose Oxidase Glucose + O2 -> Gluconolacton + H2O2 Methanol Oxidase Methanol + O2 -> CH3OH Formaldehyd + H2O2 HCHO Cholin Dehydrogenase Cholin + ? -> +N(CH ) -(CH ) -OH 3 3 2 2 Betain Acetaldehyd + ? -CH2-CHO +N(CH ) 3 3 Glucose Dehydrogenase Glucose + ? Michael Meyer Sequenzen -> Gluconolacton + ? Molecular Modelling 12 MM 29.06.2011 BLAST-Suche mit unbekannter Sequenz Michael Meyer Molecular Modelling BLAST-Ergebnis für die unbekannte Sequenz Michael Meyer Sequenzen Molecular Modelling 13 MM 29.06.2011 Glucose Oxidase • Katalysierte Reaktion O O OH HO HO HO OH OH beta-D-Glucose OH COOH O HO HO HO OH OH OH OH delta-Gluconolacton Gluconsäure Flavinadenindinucleotid (FAD) und die Enzymumgebung können als Wasserstoffakzeptor wirken. R N N O NH N O • Reduktive Halbreaktion E-FAD + Glucose -> E-FADH2 + Gluconolacton • Oxidative Halbreaktion E-FADH2 + O2 -> E-FAD + H2O2 Michael Meyer Molecular Modelling Globales Sequenzalignment der Glucose Oxidasen aus verschieden Spezies …. Alignment length : 588 Identity (*) : 379 is 64.46 % Strongly similar (:) : 101 is 17.18 % Weakly similar (.) : 48 is 8.16 % Different : 60 is 10.20 % Sequence 0001 : UNK_295990 ( 583 residues). Sequence 0002 : UNK_295991 ( 587 residues). Michael Meyer Sequenzen Molecular Modelling 14 MM 29.06.2011 Sekundärstrukturvorhersage • Ziel Vorhersage der Sekundärstruktur aus der Sequenz ohne Kenntnis der 3D-Struktur • Bedeutung Vorhersage der Struktur im Protein Design Erkennung einer strukturellen oder funktionellen Verwandtschaft von Proteinen Unterstützung von Sequenzalignments Unterstützung von der experimentellen Strukturbestimmung von Proteinen Michael Meyer Molecular Modelling Sekundärstrukturvorhersage nach Chou & Fasman Tendenz zur Ausbildung von Sekundärstrukturen Helix Faltblatt stark mittel Glu, Ala, Leu His, Met, Gln, Trp, Val, Phe schwach indifferent störend stark störend Lys, Ile Asp, Thr, Ser, Arg, Cys Asn, Tyr Pro, Gly Met, Val, Ile Cys, Tyr, Phe, Gln, Leu, Thr, Trp Ala Arg, Gly, Asp Lys, Ser, His, Asn, Pro Glu Klassifizierung von Aminosäuren nach bevorzugten Sekundärstrukturelementen. Vorteil Einfach Nachteil Statistisch fragwürdig, etwas willkürliche Regeln, kein Zusammenhang mit grundlegenden physikalischen Theorien. P. Y. Chou, G. D. Fasman, Biochemistry 13, 222 (1974). Michael Meyer Sequenzen Molecular Modelling 15 MM 29.06.2011 Relative Häufigkeit von Aminosäuren in Sekundärstrukturelementen Ala Cys Leu Met Glu Gln His Lys Val Ile Phe Tyr Trp Thr Gly Ser Asp Asn Pro Arg Häufigkeit (%) Helix Faltblatt Turn 7.8 1.9 9.1 2.2 6.3 4.3 2.3 5.9 6.6 5.3 3.9 3.2 1.4 5.9 7.2 6.8 5.3 4.3 5.2 5.1 1.29 1.11 1.30 1.47 1.44 1.27 1.22 1.23 0.91 0.97 1.07 0.72 0.99 0.82 0.56 0.82 1.04 0.90 0.52 0.96 0.90 0.74 1.02 0.97 0.75 0.80 1.08 0.77 1.49 1.45 1.32 1.25 1.14 1.21 0.92 0.95 0.72 0.76 0.64 0.99 0.78 0.80 0.59 0.39 1.00 0.97 0.69 0.96 0.47 0.51 0.58 1.05 0.75 1.03 1.64 1.33 1.41 1.28 1.91 0.88 Michael Meyer Molecular Modelling Sekundärstrukturvorhersage nach Garnier Statistisches Modell zur Sekundärstrukturvorhersage N S gesamte Anzahl aller Aminosäuren in der Datenbank Art der Sekundärstruktur (Helix, Faltblatt, Turn, Coil) P(R) = fR / N P(R) fR Wahrscheinlichkeit für das Auftreten der Aminosäure R Anzahl der Aminosäuren R P(S) = fS / N P(S) fS Wahrscheinlichkeit für das Auftreten der Sekundärstruktur S gesamte Anzahl der Aminosäuren mit der Sekundärstruktur S P(R,S) = fR,S /N P(R,S) Wahrscheinlichkeit für das Auftreten der Aminosäure R mit der Sekundärstruktur S gesamte Anzahl der Aminosäuren R mit der Sekundärstruktur S fR,S P(S|R) = P(R,S)/P(R) bedingte Wahrscheinlichkeit für das Auftreten der Sekundärstruktur S, wenn die Aminosäure R vorhanden ist I(S;R) = log [P(S|R)/P(S)] Informationsfunktion J. Garnier, D. J. Osguthorpe, B. Robson, J. Mol. Biol. 120, 97 (1978) . Michael Meyer Sequenzen Molecular Modelling 16 MM 29.06.2011 Sekundärstrukturvorhersage nach Garnier II Information über die Konformation Sj der Aminosäure j: I(Sj=Helix;R1,...RN), I(Sj=Faltblatt;R1,...RN), I(Sj=Coil;R1,...RN) Die Berechnung erfolgt näherungsweise mit einem Sequenzfenster von ±8 Aminosäuren 8 I ( S j ; R1 ,..., RN ) ≅ ∑ I (S ; R j j+m ) m = −8 I(Sj;Rj+m) ist der Beitrag der Aminosäure an der Position j+m zur Informationsfunktion Man unterscheidet Beiträge einer Aminosäure über ihre eigene Sekundärstruktur (m=0) Beiträge einer Aminosäure über die Sekundärstruktur einer anderen (m≠0) Der Aminosäure j wird die Sekundärstruktur zugeordnet, die das Maximum der Informationsfunktion liefert. Vorteil Robust, statistisch fundiert Nachteil Nicht physikochemisch fundiert, Berücksichtigung von Sequenznachbarn, aber nicht von räumlichen Nachbarn Michael Meyer Molecular Modelling Beispiel zur Sekundärstrukturvorhersage berechneter Sekundärstrukturanteil mit verschiedenen Methoden Glucose Oxidase Bereich (%) Bereich (%) Helix 21-36 31-51 Faltblatt 15-27 2-18 Schleife 0-12 0-12 31-59 31-60 Coil Michael Meyer Sequenzen CDK2 Molecular Modelling 17 MM 29.06.2011 Kennzahlen zur Qualität von Vorhersagen Gegeben sei ein Satz von Sekundärstrukturvorhersagen und den entsprechenden experimentellen Sekundärstrukturen Vorhersage Experiment (tatsächlich) ja nein Summe ja a b a+b nein c d c+d Summe a+c b+d a+b+c+d Genauigkeit = (a+d) / (a+b+c+d) accuracy Sensitivität = a / (a+c) sensitivity Spezifität = d / (b+d) specificity Michael Meyer Molecular Modelling Bewertung der Sekundärstrukturvorhersage • Sekundärstrukturvorhersagen aus der Sequenz erreichen eine Genauigkeit von maximal 70%. • Eine einzelne optimale Methode existiert zur Zeit nicht. • Empfehlenswert ist ein Vorhersage mit verschiedenen Verfahren und ein Vergleich mit bekannten Strukturen homologer Proteine. Michael Meyer Sequenzen Molecular Modelling 18