Software

Softwarewerkzeuge der Bioinformatik
Inhalt dieser Veranstaltung: Softwarewerkzeuge kennenlernen für
I
Sequenzanalyse
II
Analyse von Proteinstruktur
und Ligandenbindung
III
Zell- bzw. Netzwerksimulationen
www.cellzome.com
www.accelrys.com
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
1
„Lernziele“
Lerne aktuelle und bewährte Programme und Datenbanken der Bioinformatik
kennen und erfolgreich einzusetzen um
- Tools kennenzulernen, mit denen man bioinformatische Fragen
bearbeiten kann
- zu wissen, was auf dem Markt ist („das Rad nicht zweimal erfinden“)
- ein Gefühl dafür zu bekommen, wie erfolgreiche Softwareprodukte
aussehen (sollen)
- 3 Mini-Forschungsprojekte zu bearbeiten
Wir werden in der Vorlesung anhand von „Case-studies“ typische Fragestellungen
in Pharma- oder Biotech-Unternehmen behandeln.
Q: Wie stellen Sie sich den Arbeitsalltag als
Bioinformatiker in einer Pharma-Firma vor?
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
2
Organisatorisches
Jede Woche zweistündige Vorlesung
Dozent: Prof. Helms
Freitag 9-11, Hörsaal 1, Geb. 45
Übungen „hands-on“ im CIP-Pool Bioinformatik Raum R 104 im Geb. 45
Freitag 11-13 Uhr. Die Teilnahme an der Vorlesung ist nicht obligatorisch,
jedoch die Teilnahme an den Übungen.
Betreuer der Übungen
Sequenz-Analyse
Barbara Hutter, Peter Walter
Proteinstruktur
Dr. Michael Hutter
Zellsimulationen
Dr. Tihamer Geyer
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
3
Historische Entwicklung der Bioinformatik
1960‘er Jahre:
Entwicklung phylogenetischer Methoden
1960‘er Jahre:
Methoden zum Vergleich von DNA- und Proteinsequenzen
1976: erste MD-Simulation eines Proteins
1981: Smith-Waterman Algorithmus
1992: Sekundärstrukturvorhersage mit Neuronalen Netzwerken, PHD
1996: Vergleich von Proteinstrukturen mit DALI
2000: Durchbruch bei Sequenz-Assemblierung aus Shotgun-Daten (E. Myers)
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
4
Organisatorisches
Jeder Teilnehmer an den Übungen benötigt einen Rechneraccount für den CIPPool. Diese Accounts werden von der Rechnerbetriebsgruppe des FB Informatik
eingerichtet.
- Haben Sie bereits einen Account auf Uni-Rechnern? Dann muss dieser lediglich
für den CIP-Pool freigeschaltet werden.
Zugang zum CIP-Pool: Für Bioinformatik-Studenten 24/7,
für alle anderen während der Übungsstunden.
Bitte melden Sie sich nach dieser Stunde im Sekretariat
des Zentrums für Bioinformatik bei Frau Karin Jostock an.
Der Beginn der Übungen ist diese Woche im Anschluss an die Vorlesung.
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
5
Organisatorisches: Scheinvergabe
- Bewertung: Vorlesung zählt 2V + 2P = 9 Leistungspunkte
- Curriculum: Pflichtvorlesung für die Vertiefung „Bioinformatics“
- kann natürlich auch für CMB-Bachelor eingebracht werden
- Wahlfach Pharmazie/Diplom, M.Sc. Biotechnologie
- Benotung der Scheine:
50% der Benotung ergibt sich aus der mittleren Benotung von drei praktischen Aufgaben, die während des
Semesters von jedem Studenten einzeln zu bearbeiten sind.
Die Aufgaben werden etwa alle 4 Wochen ausgegeben und sind innerhalb von 2 Wochen zu bearbeiten
und durch ein mindestens 5-seitiges Protokoll zu dokumentieren. Jeder Student muss mindestens zwei der
drei praktischen Aufgaben mit einer Note von 4 und besser bestehen.
Am 9.2.2007 wird eine 2-stündige Klausur über die Inhalte der Vorlesung und der Übungen geschrieben.
Die Klausurnote geht ebenfalls mit 50% in die Scheinnote mit ein. Die Klausur muss mit einer Note von 4
und besser bestanden werden.
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
6
Übersicht über Vorlesungsinhalt
I Sequenz
II Proteinstruktur
1
Einführung
6
Proteinstruktur
2
Paarweises Sequenzalignment
7
Proteinstrukturvorhersage
3
Multiples Sequenzalignment
8
Proteinstruktur II
4
Phylogenie
9
Protein-Liganden-Wechselwirkung
5
Techniken der Sequenzanalyse
10
Protein-Protein-Docking
Genvorhersage, Transkriptionsfaktorbindungsstellen,
Identifizierung von Repeats, CpG-Inseln, Assemblierung
und Alignment von Genomen
III Zellsimulationen/Netzwerke
11
E-Cell
12
Virtual Cell
13
Systembiologie eines
photosynthetischen Vesikels
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
7
Was fange ich mit diesen Daten an?
Sequenz des menschlichen Genoms wurde 2001 entschlüsselt.
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
8
Sequenzanalyse
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
9
Ziele
(0) Identifiziere alle menschlichen Gene/Proteine (ORFs) und ihre Funktion
Sind dies alle Proteine?
Nein: post-translationelle Modifikationen möglich wie Methylierung,
Phosphorylierung, Glykosilierung …
(1) Identifiziere Gen-Netzwerke. Welche Proteine wechselwirken miteinander?
(2) Identifiziere Module: abgeschlossene Einheiten
(3) Identifiziere Sequenz-Abschnitte, in denen Mutationen für Krankheiten
codieren
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
10
Sequenzen sind verwandt
• Evolution findet auf vielen verschiedenen Ebenen statt :
Mutationen einzelner Aminosäuren, Domänen-Shuffling, Genduplikation,
Genom-Rearrangement …
• verwandte Moleküle besitzen in verschiedenen Organismen ähnliche Funktionen
(“Homologe”)
Phylogenetischer Baum für
ribosomale RNA:
Drei Bereiche des Lebens
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
11
Sequenzalignment
Der Zweck eines Sequenzalignments ist, all die Residuen einer beliebigen
Anzahl von Sequenzen untereinander anzuordnen, die von der gleichen
Residuenposition in einem Gen- oder Protein-Vorfahren abstammen.
gap = Insertion oder Deletion
Wie soll dies ein Computerprogramm entscheiden?
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
12
Sequenzvergleiche: PAM250 Matrix
Für Sequenzvergleiche werden
Bewertungsmatrizen für den
Austausch von Aminosäuren
verwendet.
Q: Warum sind manche Werte positiv, manche negativ?
Q: Macht es Sinn, separate Austauschmatrizen für Membranproteine zu
konstruieren?
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
13
Proteinstruktur  Sequenz
Was hat nun Sequenz-Konservierung mit Proteinstrukturen zu tun?
sehr viel!
Die Twilight zone kennzeichnet das Mass an Sequenzidentität, bis zu der zwei
Proteinstrukturen mit hoher Wkt. die gleiche Struktur besitzen.
Richtlinien von Doolittle:
• Sequenzen mit > 150 Residuen und  25% Sequenzidentität sind
wahrscheinlich verwandt
• mit 15-20% Sequenzidentität können sie verwandt sein
• bei <15% Sequenzidentität ist es schwierig zu sagen ob sie verwandt
sind oder nicht ohne weitere strukturelle oder funktionelle Hinweise
TWILIGHT ZONE
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
14
1  2 Analyse einer unbekannten Sequenz
Input: neue
Proteinsequenz
Multiples
Sequenzalignment
Gibt es ähnliche
Nein
Sequenz mit
bekannter 3D-Struktur?
Ja
Experimentelle
Daten
vorhanden?
Suche in Sequenzdatenbanken
nach identischer Sequenz bzw.
ähnlichen Sequenzen
Erkenne
Domänen
Vorhersage der
Sekundärstruktur
Zuordnung eines
Protein-Folds
Analyse dieses
Folds, Nachbarn?
Ja
Alignment der
Sekundärstrukturen.
Modellierung der
Proteinstruktur durch
Homologiemodellierung
Alignment der Sequenz
mit einer Target-Struktur
3D-Proteinstruktur
Kann man Funktion
zuordnen?
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
Fold erkannt?
Nein
Ab inito Vorhersage
der Tertiärstruktur
Nach Rob Russell,
http://speedy.embl-heidelberg.de/
gtsp/flowchart2.html
15
Definition: Super-Sekundärstruktur
Die Anordnung (packing) von Sekundärstrukturelemente zu stabilen Einheiten
wie b-barrels, bab Einheiten, Greek keys, usw.
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
16
Definition: Tertiärstruktur
•
Die gesamte Faltung einer Kette, die sich aus der Packung der
Sekundärstrukturelemente ergibt.
Grün Fluoreszierendes
Protein. Seine
zylindrische Architektur
wird durch 11 b-Stränge
gebildet. (1emb.pdb Brejc
et al. 1997)
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
17
Einleitung: Proteinstruktur
cAMP-abhängige Proteinkinase
(katalytische Untereinheit)
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
Ca2+ Pumpe
(TM Protein)
18
Definition: Quartäre Struktur
Die Anordnung mehrerer Ketten eines Proteins, das mehrere Untereinheiten
besitzt. Beispiel Hämoglobin
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
19
Proteinstruktur  Sequenz
- Konservierung von Residuen sind Indizien für den Verwandtschaftsgrad von
Proteinen, für die Evolution und für die Verwandtschaft von Organismen
Q: aus welchen Gründen können bestimmte Bereiche der Proteinsequenz
konserviert sein?
- Konservierung von Residuen im aktiven Zentrum
- Konservierung von Residuen, die die Architektur der Proteinstruktur stabilisieren
- Konservierung von Residuen, die während Faltung des Proteins wichtig sind
- Konservierung von Residuen an Bindungsschnittstellen für Liganden und
andere Proteine
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
20
Bedeutung von Sequenzanalyse
•
>900,000 Sequenzen in öffentlichen Datenbanken zugänglich
– Millionen mehr in proprietären dbs
– Anstieg wird mit Sequenzierung von weiteren Genomen weitergehen
– Was kann man diesen Informationen anfangen?
•
In den Sequenzen steckt eine grosse Menge an strukturellen,
funktionellen und evolutionären Informationen
– Sie sind eine sehr wichtige Datenquelle
•
Im Gegensatz dazu gibt es nur etwa 2000 unabhängige Proteinstrukturen
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
21
Sequenz-Struktur Missverhältnis
800
700
600
500
400
300
200
100
1988
2002
Anzahl an nicht-redundanten Sequenzen 1988-2002 (
Entsprechende Zunahme der Zahl an Proteinstrukturen (
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
)
).
22
Der “holy grail” der strukturellen Bioinformatik
Q: Wo stehen wir im Bereich der Strukturvorhersage?
- Homologiemodellierung
- Threading
- Ab initio Strukturvorhersage
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
23
Eigenschaften der Aminosäuren
Aminosäuren unterscheiden sich in ihren physikochemischen Eigenschaften.
Q: müssen Bioinformatiker die Eigenschaften von Aminosäuren kennen?
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
24
Einleitung: Aminosäuren
Aminosäuren sind die Bausteine von Proteinen:
Aminogruppe
H
N
H
O
H
Carboxylsäure
R
OH
Aminosäuren unterscheiden sich hinsichtlich ihrer
- Größe
- elektrischen Ladung
- Polarität
- Form und Steifigkeit
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
25
Einleitung: hydrophobe Aminosäuren
Proteine sind aus 20 verschiedenen natürlichen
Aminosäuren aufgebaut
H
H
H
N
5 sind hydrophob.
Sie sind vor allem
Im Proteininneren.
N
O
OH
H
H
N
O
H
OH
HC
CH3 CH 3
OH
CH 3
Alanine
Valine
H
H
N
H
O
H
H
Glycine
O
H
N
O
CH
OH
H
H
CH 2
CH3
OH
H3C
CH3
Leucine
1. Vorlesung WS 2006/07
H
H
Software-Werkzeuge der Bioinformatik
CH 2
CH3
Isoleucine
26
Einleitung: aromatische Aminosäuren
Es gibt drei voluminöse aromatische Aminosäuren. Tyrosin und Tryptophan
liegen bei Membranproteinen vor allem in der Interface-region.
H
H
H
N
N
O
OH
N
CH 2
CH 2
OH
O
1. Vorlesung WS 2006/07
O
H
N
Phenylalanin
H
O
H
H
CH 2
H
H
H
Tyrosin
Software-Werkzeuge der Bioinformatik
OH
CH
H
Tryptophan
27
Einleitung: Aminosäuren
Es gibt 2 Schwefel enthaltende Aminosäuren und das ungewöhnliche Prolin.
Cysteine können Disulfidbrücken bilden.
Prolin ist ein “Helixbrecher”.
H
H
H
N
H
H
OH
CH2 N H
CH2
CH2 H
Methionin
Prolin
N
O
O
H
H
CH 2
S
H
OH
CH 2
O
OH
CH 2
S
CH 3
Cystein
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
28
Einleitung: Aminosäuren
Es gibt zwei Aminosäuren mit terminalen polaren Hydroxlgruppen:
H
H
H
N
O
H
CH 2
CH2
O
Serin
1. Vorlesung WS 2006/07
N
O
H
H
H
OH
OH
CH 2
HC
CH3
O
H
Threonin
Software-Werkzeuge der Bioinformatik
29
Einleitung: Aminosäuren
Es gibt 3 positiv geladene Aminosäuren. Sie liegen vor allem auf der
Proteinoberflächen und in aktiven Zentren.
Thermophile Organismen besitzen besonders viele Ionenpaare auf den Proteinoberflächen.
H
H
H
N
H
H
N
O
CH 2
OH
1. Vorlesung WS 2006/07
OH
H
CH 2
+
N H
+
Lysin
CH 2
OH
CH2
CH2
NH3
O
H
CH 2
CH2
CH 2
N
O
H
H
H
H N
N
H
H
NH2
+
NH2
Arginin
Software-Werkzeuge der Bioinformatik
Histidin
30
Einleitung: Aminosäuren
Es gibt 2 negativ geladene Aminosäuren und ihre zwei neutralen Analoga.
Asp und Glu haben pKa Werte von 2.8. Das heisst, erst unterhalb von pH=2.8
werden ihre Carboxylgruppe protoniert.
H
H
H
N
N
O
OH
CH 2
-
O
N
OH
CH 2
CH2
OH
O
Asparagin
OH
CH 2
CH2
NH 2
-
Software-Werkzeuge der Bioinformatik
N
H
CH 2
O
H
O
H
O
O
Asparaginsäure
Glutaminsäure
1. Vorlesung WS 2006/07
H
H
O
H
H
O
H
H
O
NH2
Glutamin
31
Buchstaben-Code der Aminosäuren
•
Ein- und Drei-Buchstaben-Codes der Aminosäuren
G
A
L
M
F
W
K
Q
E
S
Glycin
Alanin
Leucin
Methionin
Phenylalanin
Tryptophan
Lysin
Glutamin
Glutaminsäure
Serin
Gly
Ala
Leu
Met
Phe
Trp
Lys
Gln
Glu
Ser
Zusätzliche Codes
B Asn/Asp Z Gln/Glu
P
V
I
C
Y
H
R
N
D
T
Prolin
Pro
Valin
Val
Isoleucin
Ile
Cystein
Cys
Tyrosin
Tyr
Histidin
His
Arginin
Arg
Asparagin
Asn
Asparaginsäure
Threonin
Thr
Asp
X Irgendeine Aminosäure
Kenntnis dieser Abkürzungen ist essentiell für Sequenzalignments
und für Proteinstrukturanalyse!
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
32
Transmembrandomänen: Hydrophobizitätsskalen
http://blanco.biomol.uci.edu/mpex/
Stephen White group, UC Irvine
1. Vorlesung WS 2006/07
TM Helices sind  20 Residuen lange
Abschnitte aus vorwiegend hydrophoben
Resiuden.
Software-Werkzeuge der Bioinformatik
33
Faltung von TM Proteinen wird durch Translokon unterstützt
Modell:
Die neu synthesierte Polypeptidkette
eines Membranproteins gelangt vom
Ribosom durch den Translokonkomplex in die Membran
(EM Abbildung).
Erster Eindruck:
Die Faltung eines Membranproteins ist ein
hochkomplizierter Prozess.
White, FEBS Lett. 555, 116 (2003)
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
34
Detektion der Membraninsertion via Glykosylierung
Integration of H-segments into the microsomal membrane
a, Wild-type Lep has two N-terminal TM segments (TM1 and TM2) and a large luminal domain
(P2). H-segments were inserted between residues 226 and 253 in the P2-domain.
Glycosylation acceptor sites (G1 and G2) were placed in positions 96–98 and 258–260,
flanking the H-segment. For H-segments that integrate into the membrane, only the G1 site is
glycosylated (left), whereas both the G1 and G2 sites are glycosylated for H-segments that do
not integrate in the membrane (right).
b, Membrane integration of H-segments with the Leu/Ala composition 2L/17A, 3L/16A and
4L/15A. Bands of unglycosylated protein are indicated by a white dot; singly and doubly
glycosylated proteins are indicated by one and two black dots, respectively.
Hessa et al., Nature 433, 377 (2005)
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
35
Translocon-assisted folding of TM proteins?
c, Gapp values for H-segments with 2–4 Leu residues.
 Fragmente mit mehr als 4 Leucinen werden in Membran eingefügt.
d, Mean probability of insertion (p) for H-segments with n = 0–7 Leu residues.
For n = 0, 1, 5–7, only single H-segments with the following compositions were used
(flanked by GGPG…GPGG in all cases): (A)19, (A)9L(A)9, (A)4LALAALAALAL(A)4,
(A)4(LA)5L(A)4, ALAALALAALAALALAALA.
Hessa et al., Nature 433, 377 (2005)
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
36
Vergleich von biologischen und Peptid G-Skalen
a, Gapp aa scale derived from H-segments with the indicated amino acid placed
in the middle of the 19-residue hydrophobic stretch.
c, Correlation between the Gapp aa scale and the Wimley–White water/octanol
free energy scale.
Fazit: Insertion in Membran hängt nur von Hydrophobizität der
Aminosäuresequenz ab!
 Bioinformatiker sollten die Eigenschaften der Aminosäuren kennen 
Hessa et al., Nature 433, 377 (2005)
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
37
Helikale Räder
Helikale Räder dienen
zur Darstellung von
Helices.
Man kann so leicht
erkennen, welche Seite
der Helix dem Solvens
zugewandt ist und
welche ins Proteininnere
zeigt.
http://cti.itc.Virginia.EDU/~cmg/Demo/wheel/wheelApp.html.
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
38
Analyse einer unbekannten Sequenz
Experimentelle
Daten
vorhanden?
Input: neue
Proteinsequenz
Multiples
Sequenzalignment
Gibt es ähnliche Nein
Sequenz mit
bekannter 3D-Struktur?
Ja
Suche in Sequenzdatenbanken
nach identischer Sequenz bzw.
ähnlichen Sequenzen
Erkenne
Domänen
Vorhersage der
Sekundärstruktur
Zuordnung eines
Protein-Folds
Analyse dieses
Folds, Nachbarn?
Ja
Alignment der
Sekundärstrukturen.
Modellierung der
Proteinstruktur durch
Homologiemodellierung
3D-Proteinstruktur
1. Vorlesung WS 2006/07
Alignment der Sequenz
mit einer Struktur.
Kann man Funktion
transferieren?
Software-Werkzeuge der Bioinformatik
Fold erkannt?
Nein
Vorhersage der
Tertiärstruktur
Nach Rob Russell,
http://speedy.embl-heidelberg.de/
gtsp/flowchart2.html 39
Software
In den Tutorials vorgestellte Software:
SRS
0
Datenbankennavigation
I
Sequenzanalyse: BLAST, PSI-BLAST, CLUSTALW
II
Proteinstruktur:
III
Zellsimulationen: Virtual Cell, FluxAnalyzer, Cytoscape
VMD, Swissmodel
Datenbanken:
Sequenzdatenbanken
Proteinstrukturbanken
Metabolische Datenbanken
1. Vorlesung WS 2006/07
Software-Werkzeuge der Bioinformatik
40