Softwarewerkzeuge der Bioinformatik Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen für I Sequenzanalyse II Analyse von Proteinstruktur und Ligandenbindung III Zell- bzw. Netzwerksimulationen www.cellzome.com www.accelrys.com 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 1 „Lernziele“ Lerne aktuelle und bewährte Programme und Datenbanken der Bioinformatik kennen und erfolgreich einzusetzen um - Tools kennenzulernen, mit denen man bioinformatische Fragen bearbeiten kann - zu wissen, was auf dem Markt ist („das Rad nicht zweimal erfinden“) - ein Gefühl dafür zu bekommen, wie erfolgreiche Softwareprodukte aussehen (sollen) - 3 Mini-Forschungsprojekte zu bearbeiten Wir werden in der Vorlesung anhand von „Case-studies“ typische Fragestellungen in Pharma- oder Biotech-Unternehmen behandeln. Q: Wie stellen Sie sich den Arbeitsalltag als Bioinformatiker in einer Pharma-Firma vor? 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 2 Organisatorisches Jede Woche zweistündige Vorlesung Dozent: Prof. Helms Freitag 9-11, Hörsaal 1, Geb. 45 Übungen „hands-on“ im CIP-Pool Bioinformatik Raum R 104 im Geb. 45 Freitag 11-13 Uhr. Die Teilnahme an der Vorlesung ist nicht obligatorisch, jedoch die Teilnahme an den Übungen. Betreuer der Übungen Sequenz-Analyse Barbara Hutter, Peter Walter Proteinstruktur Dr. Michael Hutter Zellsimulationen Dr. Tihamer Geyer 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 3 Historische Entwicklung der Bioinformatik 1960‘er Jahre: Entwicklung phylogenetischer Methoden 1960‘er Jahre: Methoden zum Vergleich von DNA- und Proteinsequenzen 1976: erste MD-Simulation eines Proteins 1981: Smith-Waterman Algorithmus 1992: Sekundärstrukturvorhersage mit Neuronalen Netzwerken, PHD 1996: Vergleich von Proteinstrukturen mit DALI 2000: Durchbruch bei Sequenz-Assemblierung aus Shotgun-Daten (E. Myers) 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 4 Organisatorisches Jeder Teilnehmer an den Übungen benötigt einen Rechneraccount für den CIPPool. Diese Accounts werden von der Rechnerbetriebsgruppe des FB Informatik eingerichtet. - Haben Sie bereits einen Account auf Uni-Rechnern? Dann muss dieser lediglich für den CIP-Pool freigeschaltet werden. Zugang zum CIP-Pool: Für Bioinformatik-Studenten 24/7, für alle anderen während der Übungsstunden. Bitte melden Sie sich nach dieser Stunde im Sekretariat des Zentrums für Bioinformatik bei Frau Karin Jostock an. Der Beginn der Übungen ist diese Woche im Anschluss an die Vorlesung. 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 5 Organisatorisches: Scheinvergabe - Bewertung: Vorlesung zählt 2V + 2P = 9 Leistungspunkte - Curriculum: Pflichtvorlesung für die Vertiefung „Bioinformatics“ - kann natürlich auch für CMB-Bachelor eingebracht werden - Wahlfach Pharmazie/Diplom, M.Sc. Biotechnologie - Benotung der Scheine: 50% der Benotung ergibt sich aus der mittleren Benotung von drei praktischen Aufgaben, die während des Semesters von jedem Studenten einzeln zu bearbeiten sind. Die Aufgaben werden etwa alle 4 Wochen ausgegeben und sind innerhalb von 2 Wochen zu bearbeiten und durch ein mindestens 5-seitiges Protokoll zu dokumentieren. Jeder Student muss mindestens zwei der drei praktischen Aufgaben mit einer Note von 4 und besser bestehen. Am 9.2.2007 wird eine 2-stündige Klausur über die Inhalte der Vorlesung und der Übungen geschrieben. Die Klausurnote geht ebenfalls mit 50% in die Scheinnote mit ein. Die Klausur muss mit einer Note von 4 und besser bestanden werden. 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 6 Übersicht über Vorlesungsinhalt I Sequenz II Proteinstruktur 1 Einführung 6 Proteinstruktur 2 Paarweises Sequenzalignment 7 Proteinstrukturvorhersage 3 Multiples Sequenzalignment 8 Proteinstruktur II 4 Phylogenie 9 Protein-Liganden-Wechselwirkung 5 Techniken der Sequenzanalyse 10 Protein-Protein-Docking Genvorhersage, Transkriptionsfaktorbindungsstellen, Identifizierung von Repeats, CpG-Inseln, Assemblierung und Alignment von Genomen III Zellsimulationen/Netzwerke 11 E-Cell 12 Virtual Cell 13 Systembiologie eines photosynthetischen Vesikels 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 7 Was fange ich mit diesen Daten an? Sequenz des menschlichen Genoms wurde 2001 entschlüsselt. 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 8 Sequenzanalyse 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 9 Ziele (0) Identifiziere alle menschlichen Gene/Proteine (ORFs) und ihre Funktion Sind dies alle Proteine? Nein: post-translationelle Modifikationen möglich wie Methylierung, Phosphorylierung, Glykosilierung … (1) Identifiziere Gen-Netzwerke. Welche Proteine wechselwirken miteinander? (2) Identifiziere Module: abgeschlossene Einheiten (3) Identifiziere Sequenz-Abschnitte, in denen Mutationen für Krankheiten codieren 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 10 Sequenzen sind verwandt • Evolution findet auf vielen verschiedenen Ebenen statt : Mutationen einzelner Aminosäuren, Domänen-Shuffling, Genduplikation, Genom-Rearrangement … • verwandte Moleküle besitzen in verschiedenen Organismen ähnliche Funktionen (“Homologe”) Phylogenetischer Baum für ribosomale RNA: Drei Bereiche des Lebens 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 11 Sequenzalignment Der Zweck eines Sequenzalignments ist, all die Residuen einer beliebigen Anzahl von Sequenzen untereinander anzuordnen, die von der gleichen Residuenposition in einem Gen- oder Protein-Vorfahren abstammen. gap = Insertion oder Deletion Wie soll dies ein Computerprogramm entscheiden? 1. Vorlesung WS 2006/07 J.Leunissen Software-Werkzeuge der Bioinformatik J.Leunissen 12 Sequenzvergleiche: PAM250 Matrix Für Sequenzvergleiche werden Bewertungsmatrizen für den Austausch von Aminosäuren verwendet. Q: Warum sind manche Werte positiv, manche negativ? Q: Macht es Sinn, separate Austauschmatrizen für Membranproteine zu konstruieren? 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 13 Proteinstruktur Sequenz Was hat nun Sequenz-Konservierung mit Proteinstrukturen zu tun? sehr viel! Die Twilight zone kennzeichnet das Mass an Sequenzidentität, bis zu der zwei Proteinstrukturen mit hoher Wkt. die gleiche Struktur besitzen. Richtlinien von Doolittle: • Sequenzen mit > 150 Residuen und wahrscheinlich verwandt 25% Sequenzidentität sind • mit 15-20% Sequenzidentität können sie verwandt sein • bei <15% Sequenzidentität ist es schwierig zu sagen ob sie verwandt sind oder nicht ohne weitere strukturelle oder funktionelle Hinweise TWILIGHT ZONE 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 14 1 2 Analyse einer unbekannten Sequenz Experimentelle Daten vorhanden? Input: neue Proteinsequenz Multiples Sequenzalignment Gibt es ähnliche Nein Sequenz mit bekannter 3D-Struktur? Ja Analyse dieses Folds, Nachbarn? Ja Alignment der Sequenz mit einer Target-Struktur 3D-Proteinstruktur Kann man Funktion zuordnen? 1. Vorlesung WS 2006/07 Zuordnung eines Protein-Folds Vorhersage der Sekundärstruktur Alignment der Sekundärstrukturen. Modellierung der Proteinstruktur durch Homologiemodellierung Erkenne Domänen Suche in Sequenzdatenbanken nach identischer Sequenz bzw. ähnlichen Sequenzen Software-Werkzeuge der Bioinformatik Fold erkannt? Nein Ab inito Vorhersage der Tertiärstruktur Nach Rob Russell, http://speedy.embl-heidelberg.de/ gtsp/flowchart2.html 15 Definition: Super-Sekundärstruktur Die Anordnung (packing) von Sekundärstrukturelemente zu stabilen Einheiten wie -barrels, Einheiten, Greek keys, usw. 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 16 Definition: Tertiärstruktur • Die gesamte Faltung einer Kette, die sich aus der Packung der Sekundärstrukturelemente ergibt. Grün Fluoreszierendes Protein. Seine zylindrische Architektur wird durch 11 -Stränge gebildet. (1emb.pdb Brejc et al. 1997) 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 17 Einleitung: Proteinstruktur cAMP-abhängige Proteinkinase (katalytische Untereinheit) 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik Ca2+ Pumpe (TM Protein) 18 Definition: Quartäre Struktur Die Anordnung mehrerer Ketten eines Proteins, das mehrere Untereinheiten besitzt. Beispiel Hämoglobin 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 19 Proteinstruktur Sequenz - Konservierung von Residuen sind Indizien für den Verwandtschaftsgrad von Proteinen, für die Evolution und für die Verwandtschaft von Organismen Q: aus welchen Gründen können bestimmte Bereiche der Proteinsequenz konserviert sein? - Konservierung von Residuen im aktiven Zentrum - Konservierung von Residuen, die die Architektur der Proteinstruktur stabilisieren - Konservierung von Residuen, die während Faltung des Proteins wichtig sind - Konservierung von Residuen an Bindungsschnittstellen für Liganden und andere Proteine 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 20 Bedeutung von Sequenzanalyse • >900,000 Sequenzen in öffentlichen Datenbanken zugänglich – Millionen mehr in proprietären dbs – Anstieg wird mit Sequenzierung von weiteren Genomen weitergehen – Was kann man diesen Informationen anfangen? • In den Sequenzen steckt eine grosse Menge an strukturellen, funktionellen und evolutionären Informationen – Sie sind eine sehr wichtige Datenquelle • Im Gegensatz dazu gibt es nur etwa 2000 unabhängige Proteinstrukturen 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 21 Sequenz-Struktur Missverhältnis 800 700 600 500 400 300 200 100 1988 2002 Anzahl an nicht-redundanten Sequenzen 1988-2002 ( Entsprechende Zunahme der Zahl an Proteinstrukturen ( 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik ) ). 22 Der “holy grail” der strukturellen Bioinformatik Q: Wo stehen wir im Bereich der Strukturvorhersage? - Homologiemodellierung - Threading - Ab initio Strukturvorhersage 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 23 Eigenschaften der Aminosäuren Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften. Q: müssen Bioinformatiker die Eigenschaften von Aminosäuren kennen? 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 24 Einleitung: Aminosäuren Aminosäuren sind die Bausteine von Proteinen: Aminogruppe H N H O H R OH Carboxylsäure Aminosäuren unterscheiden sich hinsichtlich ihrer - Größe - elektrischen Ladung - Polarität - Form und Steifigkeit 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 25 Einleitung: hydrophobe Aminosäuren Proteine sind aus 20 verschiedenen natürlichen Aminosäuren aufgebaut H H H N 5 sind hydrophob. Sie sind vor allem Im Proteininneren. N O H OH H N O H CH 3 OH HC CH3 CH 3 OH Alanine Valine H H N H O H H Glycine O H N O CH OH H H CH 2 CH3 OH H3C CH3 Leucine 1. Vorlesung WS 2006/07 H H Software-Werkzeuge der Bioinformatik CH 2 CH 3 Isoleucine 26 Einleitung: aromatische Aminosäuren Es gibt drei voluminöse aromatische Aminosäuren. Tyrosin und Tryptophan liegen bei Membranproteinen vor allem in der Interface-region. H H H N N O OH N CH 2 CH 2 OH O 1. Vorlesung WS 2006/07 O H N Phenylalanin H O H H CH 2 H H H Tyrosin Software-Werkzeuge der Bioinformatik OH CH H Tryptophan 27 Einleitung: Aminosäuren Es gibt 2 Schwefel enthaltende Aminosäuren und das ungewöhnliche Prolin. Cysteine können Disulfidbrücken bilden. Prolin ist ein “Helixbrecher”. H H H N H H OH CH2 N H CH2 CH2 H Methionin Prolin N O O H H CH 2 S H OH CH 2 O OH CH 2 S CH 3 Cystein 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 28 Einleitung: Aminosäuren Es gibt zwei Aminosäuren mit terminalen polaren Hydroxlgruppen: H H H N O H CH 2 CH2 O Serin 1. Vorlesung WS 2006/07 N O H H H OH CH 2 OH HC CH3 O H Threonin Software-Werkzeuge der Bioinformatik 29 Einleitung: Aminosäuren Es gibt 3 positiv geladene Aminosäuren. Sie liegen vor allem auf der Proteinoberflächen und in aktiven Zentren. Thermophile Organismen besitzen besonders viele Ionenpaare auf den Proteinoberflächen. H H H N H H N O CH 2 OH 1. Vorlesung WS 2006/07 OH H CH 2 N H NH2 H N + + Lysin CH 2 OH CH2 CH2 NH3 O H CH 2 CH2 CH 2 N O H H H + N H H NH2 Arginin Software-Werkzeuge der Bioinformatik Histidin 30 Einleitung: Aminosäuren Es gibt 2 negativ geladene Aminosäuren und ihre zwei neutralen Analoga. Asp und Glu haben pKa Werte von 2.8. Das heisst, erst unterhalb von pH=2.8 werden ihre Carboxylgruppe protoniert. H H H N N O CH 2 OH - O N CH 2 OH CH2 OH O CH 2 Asparagin OH CH2 NH 2 - Software-Werkzeuge der Bioinformatik N H CH 2 O H O H O O Asparaginsäure Glutaminsäure 1. Vorlesung WS 2006/07 H H O H H O H H O NH2 Glutamin 31 Buchstaben-Code der Aminosäuren • Ein- und Drei-Buchstaben-Codes der Aminosäuren G A L M F W K Q E S Glycin Alanin Leucin Methionin Phenylalanin Tryptophan Lysin Glutamin Glutaminsäure Serin Gly Ala Leu Met Phe Trp Lys Gln Glu Ser Zusätzliche Codes B Asn/Asp Z Gln/Glu P V I C Y H R N D T Prolin Pro Valin Val Isoleucin Ile Cystein Cys Tyrosin Tyr Histidin His Arginin Arg Asparagin Asn Asparaginsäure Threonin Thr Asp X Irgendeine Aminosäure Kenntnis dieser Abkürzungen ist essentiell für Sequenzalignments und für Proteinstrukturanalyse! 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 32 Transmembrandomänen: Hydrophobizitätsskalen http://blanco.biomol.uci.edu/mpex/ Stephen White group, UC Irvine 1. Vorlesung WS 2006/07 TM Helices sind 20 Residuen lange Abschnitte aus vorwiegend hydrophoben Resiuden. Software-Werkzeuge der Bioinformatik 33 Faltung von TM Proteinen wird durch Translokon unterstützt Modell: Die neu synthesierte Polypeptidkette eines Membranproteins gelangt vom Ribosom durch den Translokonkomplex in die Membran (EM Abbildung). Erster Eindruck: Die Faltung eines Membranproteins ist ein hochkomplizierter Prozess. White, FEBS Lett. 555, 116 (2003) 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 34 Detektion der Membraninsertion via Glykosylierung Integration of H-segments into the microsomal membrane a, Wild-type Lep has two N-terminal TM segments (TM1 and TM2) and a large luminal domain (P2). H-segments were inserted between residues 226 and 253 in the P2-domain. Glycosylation acceptor sites (G1 and G2) were placed in positions 96–98 and 258–260, flanking the H-segment. For H-segments that integrate into the membrane, only the G1 site is glycosylated (left), whereas both the G1 and G2 sites are glycosylated for H-segments that do not integrate in the membrane (right). b, Membrane integration of H-segments with the Leu/Ala composition 2L/17A, 3L/16A and 4L/15A. Bands of unglycosylated protein are indicated by a white dot; singly and doubly glycosylated proteins are indicated by one and two black dots, respectively. Hessa et al., Nature 433, 377 (2005) 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 35 Translocon-assisted folding of TM proteins? c, Gapp values for H-segments with 2–4 Leu residues. Fragmente mit mehr als 4 Leucinen werden in Membran eingefügt. d, Mean probability of insertion (p) for H-segments with n = 0–7 Leu residues. For n = 0, 1, 5–7, only single H-segments with the following compositions were used (flanked by GGPG…GPGG in all cases): (A)19, (A)9L(A)9, (A)4LALAALAALAL(A)4, (A)4(LA)5L(A)4, ALAALALAALAALALAALA. Hessa et al., Nature 433, 377 (2005) 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 36 Vergleich von biologischen und Peptid G-Skalen a, Gapp aa scale derived from H-segments with the indicated amino acid placed in the middle of the 19-residue hydrophobic stretch. c, Correlation between the Gapp aa scale and the Wimley–White water/octanol free energy scale. Fazit: Insertion in Membran hängt nur von Hydrophobizität der Aminosäuresequenz ab! Bioinformatiker sollten die Eigenschaften der Aminosäuren kennen Hessa et al., Nature 433, 377 (2005) 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 37 Helikale Räder Helikale Räder dienen zur Darstellung von Helices. Man kann so leicht erkennen, welche Seite der Helix dem Solvens zugewandt ist und welche ins Proteininnere zeigt. http://cti.itc.Virginia.EDU/~cmg/Demo/wheel/wheelApp.html. 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 38 Analyse einer unbekannten Sequenz Experimentelle Daten vorhanden? Input: neue Proteinsequenz Multiples Sequenzalignment Gibt es ähnliche Nein Sequenz mit bekannter 3D-Struktur? Ja Erkenne Domänen Suche in Sequenzdatenbanken nach identischer Sequenz bzw. ähnlichen Sequenzen Zuordnung eines Protein-Folds Vorhersage der Sekundärstruktur Analyse dieses Folds, Nachbarn? Ja Alignment der Sekundärstrukturen. Modellierung der Proteinstruktur durch Homologiemodellierung 3D-Proteinstruktur 1. Vorlesung WS 2006/07 Alignment der Sequenz mit einer Struktur. Kann man Funktion transferieren? Software-Werkzeuge der Bioinformatik Fold erkannt? Nein Vorhersage der Tertiärstruktur Nach Rob Russell, http://speedy.embl-heidelberg.de/ gtsp/flowchart2.html 39 Software In den Tutorials vorgestellte Software: 0 Datenbankennavigation I Sequenzanalyse: BLAST, PSI-BLAST, CLUSTALW II Proteinstruktur: III Zellsimulationen: Virtual Cell, FluxAnalyzer, Cytoscape SRS VMD, Swissmodel Datenbanken: Sequenzdatenbanken Proteinstrukturbanken Metabolische Datenbanken 1. Vorlesung WS 2006/07 Software-Werkzeuge der Bioinformatik 40