Verbesserung der dotplot Methode • • • • • binäre Information: "x" oder " " besser: "mehr" oder "weniger" ähnlich Gruppen von Aminosäuren mit ähnlichen Eigenschaften bilden bestes Alignment: optimiere Häufigkeit hoher Ähnlichkeit PAM (Percent Accepted Mutation; Dayhoff 1978) - Matrizen: Wahrscheinlichkeit, daß eine Aminosäure eine andere ersetzen kann, wird statistisch berechnet; dies unter Berücksichtigung der Häufigkeit, mit der eine Aminosäure vorkommt. Berücksichtigt wurden 1572 Austausche in 71 Gruppen von Proteinsequenzen, die mindestens 85% identische Aminosäuren besitzen. • Henikoff & Henikoff (1992): Amino Acid substitution matrices from protein blocks. PNAS 89, 10915-10919 . Berücksichtigt wurden 2000 Blöcke (alignte Stretches ohne gaps) aus 500 unterschiedlichen Gruppen von Proteinen: BLOSUM-Matrizen 79 Berechnung der Elemente der PAM1-Matrix am Beispiel Phe: •Dayhoff verwendete alle manuellen Alignments über 85% Identität: diese wiesen 1572 Austausche auf (der Rest identisch) •bestimmte für jede Aminosäure die Häufigkeit der Mutation zu einer anderen Aminosäure (z.B. Phe zu Tyr: 260 von den 1572) •Normiert auf Häufigkeiten der Aminosäuren – dies ergibt Spalte 1 von Table 3.2 •diese Zahlen wurden als relative Mutationsraten interpretiert • im Mittel gilt: etwa 99% ist die Wahrscheinlichkeit, dass sich die Aminosäure nicht ändert, und 1%, dass sie sich ändert •Eichung gegen andere Daten: in 10 Mio Jahren ist die Wahrscheinlichkeit für die Änderung einer Aminosäure im Mittel 1% •über 20 Mio Jahre: PAM2 = PAM1 * PAM1 80 woher kommen die BLOSUM62-Werte? • 2000 Blöcke (alignte Stretches ohne gaps) aus 500 unterschiedlichen Gruppen von Proteinen • BLOSUM62 bedeutet: keine Sequenzen ähnlicher als 62% • a) absolute Häufigkeiten der Aminosäuren bestimmen="Randhäufigkeiten" • b) aus Randhäufigkeiten die zu erwartende zufällige Häufigkeit von Austauschen berechnen • c) Quotienten von beobachteten/erwartete Häufigkeiten • d) Logarithmen zur Basis 2, dann mit 2 multiplizieren 81 und runden zur nächsten ganzen Zahl Blosum62 (http://www.embl- heidelberg.de/~seqanal/courses/predoc97/blosum62.cmp ) A B C D E 4 -2 0 -2 -1 6 -3 6 2 9 -3 -4 6 2 5 F -2 -3 -2 -3 -3 6 G 0 -1 -3 -1 -2 -3 6 H -2 -1 -3 -1 0 -1 -2 8 I -1 -3 -1 -3 -3 0 -4 -3 4 K -1 -1 -3 -1 1 -3 -2 -1 -3 5 L -1 -4 -1 -4 -3 0 -4 -3 2 -2 4 M -1 -3 -1 -3 -2 0 -3 -2 1 -1 2 5 N -2 1 -3 1 0 -3 0 1 -3 0 -3 -2 6 P -1 -1 -3 -1 -1 -4 -2 -2 -3 -1 -3 -2 -2 7 Q -1 0 -3 0 2 -3 -2 0 -3 1 -2 0 0 -1 5 R -1 -2 -3 -2 0 -3 -2 0 -3 2 -2 -1 0 -2 1 5 S 1 0 -1 0 0 -2 0 -1 -2 0 -2 -1 1 -1 0 -1 4 T 0 -1 -1 -1 -1 -2 -2 -2 -1 -1 -1 -1 0 -1 -1 -1 1 5 V 0 -3 -1 -3 -2 -1 -3 -3 3 -2 1 1 -3 -2 -2 -3 -2 0 4 W -3 -4 -2 -4 -3 1 -2 -2 -3 -3 -2 -1 -4 -4 -2 -3 -3 -2 -3 11 X -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 Y -2 -3 -2 -3 -2 3 -3 2 -1 -2 -1 -1 -2 -3 -1 -2 -2 -2 -1 2 -1 7 Z -1 2 -4 2 5 -3 -2 0 -3 1 -3 -2 0 -1 2 0 0 -1 -2 -3 -1 -2 5 * -4 A -4 B -4 C -4 D -4 E -4 F -4 G -4 H -4 I -4 K -4 L -4 M -4 N -4 P -4 Q -4 R -4 S -4 T B = either D or N -4 V -4 W X = undetermined -4 X Z = either Q or E -4 Y -4 Z * = minimum column score -4 * Sean R Eddy (2004) Where did the BLOSUM62 alignment score matrix come from? Nature Biotechnology 22, 1035 - 1036 82 1. Algorithmus (=Rechenverfahren) D. Boyd, C. Schierle, J. Beckwith (1998) How many membrane proteins are there? Protein Science 7, 201-205 Problem: "subzelluläre Lokalisation" Lösung: a) Experiment b) "per Auge" Hydrophobizität c) Algorithmus, Lernen, Anwendung (aufbauend auf Klein et al (1985) The detection and classification of membranespanning proteins. Biochim Biophys Acta 815:468-476) 83 Hausaufgabe 27.5. fällt aus! Das paper lesen und sich dazu Gedanken machen! 84 Bestandteile der (gram-negativen) Membran Quelle: Wikipedia Biochemistry (Mathews, van Holde,85Ahern) Bis Dezember 1998 komplett sequenzierte Genome (außer Viren). Organismus Phylum Caenorhabditis elegans Saccharomyces cerevisiae Escherichia coli K-12 Mycobacterium tuberculosis Bacillus subtilis Synechococcus sp. Archaeoglobus fulgidus Haemophilus influenzae Pyrococcus horikoshii Methanobacterium thermoautotrophicum Helicobacter pylori Methanococcus jannaschii Aquifex aeolicus Borrelia burgdorferi Treponema pallidum Rickettsia prowazekii Chlamydia trachomatis Mycoplasma pneumoniae Mycoplasma genitalium Eucaryota Eucaryota Bacteria Bacteria Bacteria Bacteria Archaea Bacteria Archaea Archaea Bacteria Archaea Bacteria Bacteria Bacteria Bacteria Bacteria Bacteria Bacteria Größe (Millionen Basenpaare) 97 13 4.60 4.40 4.20 3.57 2.18 1.83 1.80 1.75 1.66 1.66 1.50 1.44 1.14 1.10 1.05 0.81 0.58 Proteine 19000 6034 4288 ca. 4300 4100 3168 2471 1740 ca. 1800 1855 1590 1692 ca. 1400 863 1041 ca. 1000 ca. 900 677 470 86 Hydropathie • • • • Biophysik: Verteilungskoeffizient Freie Energie Bestimmung der Hydropathie von Aminosäuren "Hydropathy analysis": Kyte & Doolittle (1982) A simple method for displaying the hydropathic character of a protein. J Mol Biol 157, 105-132 • Hydropathie-Skalen • JTT2 = Häufigkeits-Skala: wie oft tritt Aminosäure in einer Transmembran (TM)-Helix auf, verglichen mit Vorkommen in Datenbank aller Proteine? 87 88 maxH • "Fenster" über Sequenz "schieben": (Beispiel für Länge des "Fensters"=5) ... ACDEFHILWYAGHVMPQRST (Pos. 4) ACDEFHILWYAGHVMPQRST (Pos. 5) ACDEFHILWYAGHVMPQRST (Pos. 6) ... ACDEFHILWYAGHVMPQRST (Pos. 18) 89 Berechnung von maxH • wähle Hydropathie-Skala (JTT2, GvH, ...); aus dieser stammen die h-Werte • wähle Protein • wähle Länge=7, 9, 11, ..., 21 mit 2*l+1=Länge • H(i):=(Summe der hj in Fenster an Pos. i) / (2*l+1), j=i-l, i-l+1,...,i+l • maxH = Maximum der H(i) 90 Datenbasis • SwissProt 34 (1996) • E.coli • ausschliessen: "putative", "hypothetical", "possible" • 397 proteins: 171 cytoplasmic + 66 periplasmic (=non-MP) , 160 inner membrane proteins (=MP) 91 Algorithmus • aufteilen in Training- und Test-Set (random) • maxH für Trainingset berechnen (Länge, Skala) -> Histogramm • Schwelle festlegen (hängt von h-Skala ab!): Gaussfunktionen an Verteilung anfitten, Schwellenwert = (z.B.) x-Wert des Schnittpunktes • Fehlzuordnungen ("mis-allocations") anhand Test-Set untersuchen und damit beste Länge und Skala bestimmen 92 (Beispiel-Histogramm) bimodal! 93 94 Auswahl von Skala und Länge • • • • beste Separation JTT2 Länge = 19 Länge einer TM-Helix 95 Fig. 1. Calculation of maxH values using the JTT2 scale and a window of 19 residues was performed for sets of proteins from the organisms indicated. Proteins of E. coli, Methanococcus jannaschii, the two Mycoplasma species, and yeast represent complete or nearly complete genomes. Histograms for each species have the maxH values divided into 100 or 150 groups on the horizontal axis and the number of proteins that fall in the group on the vertical axis. The area under the curve is proportional to the number of proteins analyzed. The hatch mark below the horizontal axis shows the position of the discriminator value, 1.505, determined for known E. coli proteins. 96 Hausaufgabe • Bei welchen Organismen „funktioniert“ der maxH-Algorithmus am besten? • Warum ist das so? • In wiefern wird das Ergebnis von den Eigenschaften der Membran beeinflusst? • Wie könnte man für die Eukaryonten zu einem besseren Ergebnis kommen? 97