Biologie und Informatik = Bioinformatik???

Biologie + Informatik
=
Bioinformatik???
Dr. Ursula Rost
Bioinformatics and Computational Biochemistry
European Media Laboratory
Heidelberg
Zur Person
 Ursula Rost
− Studium Diplom-Informatik, TU Clausthal & Uni Karlsruhe (TH)
− Promotion im FB Elektrotechnik, Uni Hannover
− Wissenschaftlerin am EML,
Gruppe: Bioinformatics and Computational Biochemistry
 European Media Laboratory (EML)
− gegründet 1997, finanziert durch Klaus-Tschira-Stiftung
− http://www.eml.org
− Anwendungsnahe Forschung im IT-Bereich
Gruppen und Projekte am EML
 Personal Memory
− Intelligente Benutzer-Schnittstellen
− z.B. Touristenführer Heidelberg
 Natural Language Processing
 Storage Technology
− holographische Datenspeicherung (tesa-ROM)
 Scientific Databases and Visualization
− Integration von Datenbanken zur Analyse und
Visualisierung biochemischer Pfade
 Bioinformatics and Computational Biochemistry
− Modellierung biochemischer Pfade
− Funktionale Netzwerke
− Simulation
 Molecular and Cellular Modelling
 IT in the Health Sector
− nicht-invasive Überwachung von Lebensdaten
− IT für den Dialog zwischem Arzt und Patient
BioParc Dresden
 Klaus Tschira Stiftung + Wirtschaftsministerium Sachsen:
− Renovierung+Ausbau des Lingner Schlößchens
− Doppelhelix-Gebäude als Standort für Startup-Firmen im
Bereich Bioinformatik
− Fertigstellung ca. 2004
− www.bioparc.de
Übersicht





Bioinformatik: Was ist das?
Teilgebiete der Bioinformatik
Algorithmen zum Sequenzvergleich
Bioinformatik in Deutschland
Zusammenfassung
Biologie : Informatik
 Biologie
− Wissenschaft vom Lebendigen
• Erscheinungsformen lebender Systeme,
• ihre Beziehungen untereinander
• Vorgänge, die sich in ihnen abspielen
− in der Bioinformatik
• Molekularbiologie
• Biochemie
 Informatik
− “Systematisches Studium von informationsbeschreibenden
und -transformierenden Prozessen in Bezug auf deren
Theorie, Analyse, Entwurf, Implementierung und
Anwendung .“ (ACM)
− Datenstrukturen, Algorithmen, Rechnerarchitektur,
Rechnernetze, Kryptographie, Betriebssysteme, ...
− In der Bioinformatik z.B.
• Algorithmen
• KI
• Datenbanken
• Bildverarbeitung
Zellbestandteile
Vom Gen zum Protein
Gen
© Geo 9/2000
Sequenzen
DNA
{A,T,G,C}*
RNA
{A,U,C,G}*
Protein
{A,C,D,...,Y}*
Genetischer Code
P1
G
A
C
U
Position 2
P3
G
Gly
Gly
A
Glu
Glu
C
Ala
Ala
U
Val
Val
Gly
Gly
Arg
Arg
Asp
Asp
Lys
Lys
Ala
Ala
Thr
Thr
Val
Val
Met
Ile
C
U
G
A
Ser
Ser
Arg
Arg
Asn
Asn
Gln
Gln
Thr
Thr
Pro
Pro
Ile
Ile
Leu
Leu
C
U
G
A
Pro
Pro
Ser
Ser
Leu
Leu
Leu
Leu
C
U
G
A
Ser
Ser
Phe
Phe
C
U
Arg
His
Arg
His
Trp STOP
STOP STOP
Cys
Cys
Tyr
Tyr
G
A
A
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
Ala
Cys
Asp
Glu
Phe
Gly
His
Ile
Lys
Leu
Met
Asn
Pro
Gln
Arg
Ser
Thr
Val
Trp
Tyr
Alanin
Cystein
Aspartat
Glutatmat
Phenyalanin
Glycin
Histidin
Isoleucin
Lysin
Leucin
Methionin
Asparagin
Prolin
Glutamin
Arginin
Serin
Threonin
Valin
Tryptophan
Tyrosin
Genetischer Code
 Genetischer Code: Abbildung von Basen-Tripletts
(Codone) auf Aminosäuren
{XYZ | X,Y,Z ∈ {A,C,G,U} → {Ala, Cys, Asp, ...,
Tyr}
 Eigenschaften des Genetischen Codes:
− redundant (64 Codone werden auf 20
Aminosäuren und drei STOP-Codone abgebildet)
− wird bei allen bekannten Lebewesen verwendet
( mit leichten Abweichungen z.B. in Mitochondrien
und in Prokaryonten, bisher 15 Code Tabellen
bekannt)
− fehlertolerant (gehört zu den 0.02 % Codierungen
mit der höchsten Fehlertoleranz, d.h.
Punktmutationen führen zu gleichen oder ähnlichen
Aminosäuren)
Das Biochemische Netzwerk
MFKPVDFSETSPVPPDIDLAPTQSPHHVAPSQDSSYDLLS…………..
……….
SMLKNKSFLLHGKDYPNNADNNDNEDIRAKTMNRSQSHV
gatccagctg taccattatg taatataata agacacggac gcac……...
Metabolische Pfade
Warum Informatik in der Biologie?
 Experimente liefern enorme Datenmengen
− Das menschliche Genom enthält ≈ 2 900 000 000
Basenpaare, die ca. 100 000 Gene bilden (momentane
Schätzung)
− Die EMBL Sequenz-Datenbank enthält z.Z mehr als
10.2 Millionen Gensequenz-Einträge mit mehr als
11.1 Mrd. Basenpaaren (Stand 9.1.2001)
− Die SWISS-PROT Datenbank enthält z.Z. über 91 000
Protein-Einträge
− Trotzdem sind Datenbank sehr unvollständig: bisher
publizierte vollständig sequenzierte Genome:
• 31 Bakterien
• 8 Archaea
• 3 Eukaryonten
 Daten sind sehr komplex
− Proteine enthalten Teilstrukturen mit unterschiedlicher
Bedeutung, die für ihre Funktion wesentlich sind
− Aktivitäten in der Zelle sind durch vielfältige
Abhängigkeiten geprägt, die z.Z. nur in sehr geringem
Umfang bekannt sind
Ziele der Bioinformatik
 Verständnis über die Abläufe in der Zelle erhöhen
 Informationen bereitstellen, mit denen Genetic
Engineering ermöglicht wird
− Entwicklung von Medikamenten (z.B. um bestimmte
Reaktionen in der Zelle zu ermöglichen oder zu
verhindern)
− heilen von genetischen Defekten (bis jetzt noch nicht
gelungen)
 Fragen beantworten wie z.B.
− Welche funktionale Bedeutung hat eine bestimmte
Gensequenz?
− Welche Moleküle können an ein gegebenes Protein
binden?
− Wie wird ein metabolisches Netzwerk reguliert?
Versuch einer Definition
In der Bioinformatik werden mit Hilfe von Methoden
aus der Mathematik und Informatik biochemische (und
hierbei insbesondere genetische) Abläufe in der Zelle
untersucht.
Daneben gibt es weitere Gebiete in der Biologie, die
Methoden der Mathematik und Informatik einsetzen,
z.B.
− Biostatistik
− Populationsdynamik (Theoretische Biologie)
Vorgehensweise
1. Ansatz:
C
Probleme:
− ineffiziente Verfahren
− schwer zu bedienende Programme
− nicht wiederverwertbare Programme
2. Ansatz:
Probleme:
− Ergebnisse haben keine biologische Bedeutung
− Modelle oft zu simpel
Vorgehensweise
 Bioinformatik erfordert interdisziplinäre
Zusammenarbeit zwischen
− Naturwissenschaftlern (aus der Biologie, Biochemie und
Biophysik) und
− “anderen” Wissenschaftlern (aus der Informatik und
Mathematik)
Biologische
Experimente
Hypothesen
Datenanalyse- und
Verarbeitung
Daten
Übersicht
 Bioinformatik: Was ist das?
 Teilgebiete der Bioinformatik
− Fallstudie
− Auftretende Probleme und Lösungsansätze
 Algorithmen zum Sequenzvergleich
 Bioinformatik in Deutschland
 Zusammenfassung
Fallstudie
Schritt 1:
...G A G A A C T G T T T A G A T G C A A A A T C C A C A A G T...
Schritt 2:
E N C L D A K S T S ...
Schritt 3:
Mensch
... E N C L D A K S T S ...
Drosophila
... E N C L D A Q S T H ...
C. elegans
... E N C L D A G A T E ...
Hefe
... E N C I D A N A T M ...
E. coli
... E N C L D A G A T R ...
Fallstudie
Schritt 5:
Schritt 6:
Fallstudie
© Geo 9/2000
Schritt 6:
Bioinformatik
 Teilgebiete der Bioinformatik
− Sequenzanalyse (DNA, Proteine)
• Assembling
• Primer-Design
• Genefinding
• Sequenzvergleich
• Phylogenie
− Strukturanalyse, Molecular Modelling und Molecular
Dynamics
• 3D-Struktur von Proteinen
• Molekülbewegungen
− Expressionsdatenanalyse
− Simulation
 Weitere relevante Diziplinen, die sich u.a. mit
Bioinformatik beschäftigen
− Datenbanken
− Visualisierung
Sequenzanalyse: Assembling
...G A G A A C T G G A G A G A T T T A G A T G C ...
 Problem:
− Gene sind zu lang, um am Stück sequenziert zu werden
(k ∗ 10 000 bp)
− Sequenzierverfahren liefern viele kleine Stücke
(k ∗ 1 000 bp), die zusammengefügt werden müssen
− Whole Genome Shotgun Sequencing bringt heutzutage
neue Herausforderungen mit sich
Sequenzanalyse: Assembling
 Lösungsansätze:
− Verfahren zur Lösung des Shortest Common Superstring
Problems
− Abbildung auf Graphen und Suche nach dem kürzesten
Hamilton Pfad
• Fragmente stellen Knoten dar
• Überlappung von zwei Fragmenten wird durch Kante
zwischen diesen Fragmenten repräsentiert
• Länge der Überlappung kann in Distanz umgesetzt
werden
− Consensus-String aus Hamilton-Pfad ergibt gesuchte
Sequenz
Sequenzanalyse: Primer-Design
...G A G A A C T...
... T A G A T G C ...
 Problem:
− Füllen von Lücken
 Biologischer Lösungsansatz:
− Design von sog. Primern (ca 20-25 Nukleotide), die in der
Nähe der Endstücke binden und mit denen diese
schrittweise verlängert werden können
− Primer müssen bestimmte Eigenschaften aufweisen, z.B.
sollen sie ausschließlich an den gewünschten Stellen
binden, aber nicht mit sich selbst
 Lösungsansatz aus der Informatik:
− Qualitätsfunktion für die Bewertung eines spezifischen
Primers
− gerichtete Suchverfahren
Sequenzanalyse: Genefinding
...G A G A A C T G G A G A G A T T T A G A T G C ...
G A G A A C T G T T T A G A T G C
E N C L D A...
 Probleme:
− Suche nach Promotoren (Startregion eines Gens)
− Suche nach Introns/Exons
 Lösungsansätze:
− Ausnutzung statistischer Eigenschaften in
unterschiedlichen Regionen (z.B. Verhältnis bestimmter
Codone)
− Generalisierte HMMs
Sequenzanalyse: Vergleich
 Ziele:
... E N C L D A K S T S ...
... E N C L D A Q S T H ...
− Paarweiser Vergleich von Sequenzen, um
Verwandtschaftsgrad zu ermitteln
− Vergleich mehrerer (relativ ähnlicher) Sequenzen zur
Erstellung eines Profils für Familien von Proteinen
− Suche nach wiederkehrenden Motiven, die funktionale
Bedeutung haben
 Eingesetzte Methoden
−
−
−
−
Stringverarbeitungsalgorithmen (Suche, Distanzmaße,...)
statistische Auswertungsverfahren
Clustering-Verfahren
Optimierungsverfahren
 Anwendung
− funktionale Annotation
− Identifikation eines Gens durch eindeutigeTeilsequenz
Phylogenie
 Ziel:
− Analyse der evolutionsgeschichtlichen Beziehung von
Organismen: Tree of Life
Phylogenie
 Ansatz:
− Aufbau eines phylogenetischen Baums durch Vergleich
von einander entsprechenden DNA-, RNA- oder
Proteinsequenzen verschiedener Organismen
• Blätter sind Sequenzen
• Kanten sind gewichtet: ihre Länge ist proportional zu
einer evolutionären Distanz (Pfadmetrik)
• innere Knoten repräsentieren unbekannte
gemeinsame Vorfahren
− Einsatz von mathematischen Optimierungsverfahren zur
Konstruktion eines Baums
Strukturanalyse, Molecular Modelling und Molecular
Dynamics
 Ziele:
−
−
−
−
Bestimmung der 3D-Struktur von Proteinen
Analyse des Faltungsprozesses
Suche nach Liganden
Analyse der Bewegungen eines Moleküls
 Verwendete Techniken:
− [Kristallographie und NMR (sehr aufwendig)]
− Strukturvorhersage aus Strukturvergleich
− Strukturvorhersage aus Sequenz mit
Optimierungsverfahren
• Energieminimierung
• Berücksichtigung physikalisch-chemischer
Eigenschaften
− Ab Initio Vorhersage (auf Atomebene, extrem aufwendig)
 Potentielle Anwendungen
− Drug Design
− Vorhersage der Interaktion von Molekülen in der Zelle
Expressionsdatenanalyse
 Ziel:
− Vollständige Kenntnis
eines Genoms ist wünschenswert, aber unzureichend
− Genauere Kenntnis über die Abläufe in der Zelle erfordert die
Analyse der wechselseitigen Beziehungen bzw. dem
Zusammenspiel der Gene
 Verw. Technik: Microarrays
− Messung der Expression von
bis zu 10000 (bekannten)
Genen gleichzeitig
− Auswertung des
Transkriptoms
− welche Gene werden unter
welchen Bedingungen
exprimiert
− welche Gene sind koreguliert
unter verschiedenen
Bedingungen
Expressionsdatenanalyse
 Analyse-Methoden
− Klassische Mustererkennungsverfahren (Statistik)
− Maschinelle Lernverfahren (NN, induktive Lernverfahren)
 Potentielle Anwendungen:
− Identifikation komplexer genetischer Krankheiten
− Spezifische Entwicklung von Medikamenten (die auf den
Genotyp bezogen sind)
− Suche nach Mutationen
− Zeitreihen zur Analyse verschiedener Krankheits-Stadien
Simulation
 Ziel:
− Modellierung biochemischer Prozesse in der Zelle
 Ansatz
− Aufstellung mathematischer Modelle
− Komponenten des Modells repräsentieren Moleküle bzw.
Konzentrationen davon
− Einsatz von numerischen und stochastischen
Simulationsverfahren, sowie Prozeßalgebren
 Anwendungsgebiete
− Aufklärung von Mechanismen des Stoffwechsels
− Verständnis der Regulierungsmechanismen
allgemein
− Verifizierung von Expressionsdaten
Simulation
Beispiel: Calcium-Konzentration in Leberzellen
Daten aus Experiment
Daten aus Simulation
Datenbanken
 Ziele:
− Speicherung und Organisation großer Datenmengen
− zielgerichteter Zugriff auf einzelne Daten
 Beispiele
− Sequenzdatenbanken
− Strukturdatenbanken
− Datenbanken für
bestimmte Organismen
Visualisierung
 Ziele:
− Interaktive Exploration großer Datenmengen
− Sichtbarmachung von Zusammenhängen
 Beispiel:
− Analyse großer Bäume (z.B. Proteinbäume,
phylogenetische Bäume)
Übersicht
 Bioinformatik: Was ist das?
 Teilgebiete der Bioinformatik
 Algorithmen zum Sequenzvergleich
− paarweiser Vergleich
− Vergleich mehrerer Sequenzen
− Datenbanksuche
 Bioinformatik in Deutschland
 Zusammenfassung
Sequenzanalyse
Zentrales Dogma der Bioinformatik
 Wenn zwei Sequenzen sehr ähnlich sind, haben sie auch
− eine ähnliche Funktion,
− eine ähnliche Struktur,
und sie haben einen gemeinsamen Vorfahren
Vorsicht: das stimmt nicht immer !!!
 Das impliziert, daß
− die Sequenz eine Syntax bildet, die eine Funktion codiert
− es gibt auch Redundanz, da einige Elemente ausgetauscht
werden können, ohne daß sich die Funktion ändert (robuste
Semantik)
 Zentrale Vorgehensweise ist daher
− Vergleich von Sequenzen, deren Funktion unbekannt ist, mit
Sequenzen, deren Funktion aus Experimenten bekannt ist
 Je nach Organismus, können daher heute zwischen 10
und 70% der Proteinsequenzen annotiert werden.
Annotation
Sequenzanalyse
 Problem:
− geg.: Sequenz mit unbekannter Funktion
− ges.: ähnlichste Sequenz mit bekannter Funktion
 Ansatz:
− Ähnlichkeitsmaß
− Algorithmus zur Bestimmung der Ähnlichkeit
R N I
R V
R N I L L
R N I L V
N I L V
R D I S L V
Konventionen
 Paarweiser Vergleich von je einem Buchstaben aus
zwei Sequenzen, d.h. keine Betrachtung statistischer
Abhängigkeiten innerhalb einer Sequenz
 Ähnlichkeit von zwei Sequenzen ergibt sich als Summe
aus den Einzelähnlichkeiten (Markov-Modell)
 Aufstellung von sogenannten Scoring-Matrizen:
Ähnlichkeitswert bezieht sich immer nur auf das
dahinterliegende Modell
 Verfahren hauptsächlich für den Vergleich von
Aminosäuresequenzen (Proteinen)
R N I
L L
R N I L V
Ähnlichkeitsmaß
 Einfachste Vergleichsmöglichkeit: Identitäts-Matrix
− gleiche Buchstaben = 1,
− ungleiche Buchstaben = 0
 Ähnlichkeitsmaße, die über = / ≠ Vergleiche
hinausgehen, nutzen
− chemische oder strukturelle Eigenschaften: polar/unpolar,
Form, Größe, Ladung
− genetische Eigenschaften: minimale Anzahl
ausgetauschter Basen in der dazugehörigen DNA
− evolutionäre Distanz: beobachtete AustauschHäufigkeiten von Aminosäuren (in bekannten
Proteinfamilien)
PAM
 basiert auf evolutionärem Modell
− ähnliche Proteine haben einen gemeinsamen Vorfahren,
aus dem beide Sequenzen durch genetische
Veränderungen wie z.B. Punktmutationen
hervorgegangen sind ( Edit-Distanz)
 empirisch aus Vorkommen von Aminosäuren in
ähnlichen (mindestens 85% identischen), homologen
Proteinen abgeschätzt
 PAM : Accepted Point Mutation
 PAM 1 - Matrix
− 1 evolutionärer Schritt
− 1 Mutation pro 100 Residuen erlaubt (1% Unterschied)
− wie hoch ist Wahrscheinlichkeit, daß sich ein Residuum
ändert?
 PAM 250 - Matrix
− entspricht 80 % Unterschied
Dayhoff Matrix
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
4
2
-2
0
0
-2
0
0
1
-1
-1
-2
-1
-1
-4
1
1
1
-6
-3
0
6
0
-1
-4
1
-1
-3
2
-2
-3
3
0
-4
0
0
-1
2
-4
-2
2
2
-4
1
1
0
2
-2
-3
1
-2
-4
-1
1
0
-4
-2
-2
4
-5
2
3
1
1
-2
-4
0
-3
-6
-1
0
0
-7
-4
-2
4
-5
-5
-3
-3
-2
-6
-5
-5
-4
-3
0
-2
-8
0
-2
4
2
-1
3
-2
-2
1
-1
-5
0
-1
-1
-5
-4
-2
4
0
1
-2
-3
0
-2
-5
-1
0
0
-7
-4
-2
5
-2
-3
-4
-2
-3
-5
-1
1
0
-7
-5
-1
6
-2
-2
0
-2
-2
0
-1
-1
-3
0
-2
5
2
-2
2
1
-2
-1
0
-5
-1
4
6
-3
4
2
-3
-3
-2
-2
-1
2
5
0
-5
-1
0
0
-3
-4
-2
6
0
-2
-2
-1
-4
-2
2
A
R
N
D
C
Q
E
G
H
I
L
K
M
MDM78 PAM250
9
-5 6
-3 1 3
-2 0 1 3
0 -6 -2 -5 17
7 -5 -3 -3 0 10
-1 -1 -1 0 -6 -2
F
P
S
T
W
Y
Gaps
 Neben Substitutionen können auch Einfügungen und
Löschungen vorkommen
?
R D
I
S L V K N A G
I
R N
I
L V S D A K N V G
I
 Alignment: zeichenweise Anordnung von Sequenzen
derart, daß
− jeder Buchstabe einer Sequenz entweder einem anderen
Buchstaben aus (je)der anderen Sequenz zugeordnet ist
oder einer Lücke (“-”)
− die relative Ordnung der Buchstaben einer Sequenz
bleibt dabei gewahrt
R D
I
R N
I
S L V
K N A G
I
L V S D A K N V G
I
Gap Penalty
 Gaps in einem Alignment (Paarung einer
Aminosäure mit einer Lücke) werden mit einem
schlechten Wert bestraft, z.B . negativer Wert für
jede
− einzelne Gap, d.h. Funktion linear in der Länge k der
eingefügten bzw. gelöschten Elemente
g k =q⋅k
− oder zusammengesetzter Wert für
Einfügungen/Auslassungen beliebiger Länge
a : Gap Eröffnungsstrafe b: Gap
Ausweitungsstrafe
g k =ab⋅k
affin-lineare Gap Penalty
Beispiel
R D
I
R N
I
S L V
Identitäts-M. :
K N A G
I
L V S D A K N V G
I
1 + 0 + 1 - g(1) + 1 + 1 - g(3) + 1 + 1 + 0 + 1 + 1
PAM250 : 6 + 2 + 5 - g(1) + 6 + 4 - g(3) + 5 + 2 + 0 + 5 + 5
Optimales Paarweises Alignment
 Ziel: Suche nach einem Alignment von zwei
Sequenzen, so daß der Ähnlichkeitswert maximal ist
(oder die Distanz minimal)
 
R D
I
R N
I
S L V
2n = 2n ! ≈ 2 2n
n  n !2  2πn
K N A G
I
L V S D A K N V G
I
Möglichkeiten für zwei
Sequenzen der Länge n
Alignment
x1
x2
x3
x4
x5
y1
y2
y3
x i 1
−
y4
−
y j1
x i1
y j1
Alignment
x1
x2
x3
x4
x5
y1
y2
y3
y4
x1 − x 2 x 3 x 4 x5
y1 y2 y3 − − y4
x1 x2 x3 x 4 x 5
y1 y2 y3 y4−
Dynamische Programmierung
 Problem: Berechnung aller möglichen Alignments und
Vergleich der Scores ist zu aufwendig
 Lösungsansatz: Dynamische Programmierung
− Zerteilung des Problems in unabhängige Teilprobleme,
Lösung der Teilprobleme und Kombination der
Teillösungen zu Gesamtlösung
− Bottom-Up Vorgehensweise mit Speicherung der
Teillösungen
optimal
x
A
optimal
Z
optimal
Globales Alignment
 Needleman-Wunsch Algorithmus
− benutzt Prinzip der dynamischen Programmierung:
optimales Alignment für zwei Sequenzen wird aus
optimalen Alignments von Teilsequenzen bestimmt
− kleinste Einheit: Alignment von zwei Buchstaben
(Aminosäuren) bzw. Wert für eine Gap
− 1. Schritt: Berechnung einer Matrix, die alle möglichen
Alignments der Sequenzen repräsentiert. Mit Ausnahme
der Initialwerte werden alle Einträge der Matrix mit Hilfe
der bereits eingetragenen Werte und einer rekursiven
Formel abgeleitet.
− 2. Schritt: “Ablesen” des besten Alignments aus einem
Pfad durch die Matrix (Verfolgung des besten
Alignments vom Ziel zum Start)
Needleman-Wunsch Algorithmus
Sequenz 1: x 1 x 2 x 3 x m
Sequenz 2: y 1 y 2 y 3  y n
Matrix F wobei F  i , j  den Score für das
optimale Alignment
der Sequenz x 1 x 2  x i mit
der Sequenz y 1 y 2  y j angibt
F
_ x1 x 2 x 3  x m
_
y1
y2
y3
F  2,3
⋮
yn
Rekursionsformel
Fi−1,
j−1
F
i
,
j−1
-g(1)
+ s(x , y )
Fi−1, j F i , j
i
j
-g(1)
{
F i−1, j−1s x i , y j 
F i , j =max F i−1, j −g1
F i , j−1−g 1
Needleman-Wunsch: Beispiel
R D
I
S L V
R N
I
L V
 PAM 250
 Lineare Gap Penalty mit q = -6
Needleman-Wunsch: Beispiel
-
R
D
I
S
L
-
0
-6
-12
-18
-24
-30
R
-6
6
0
N
-12
I
-18
L
-24
V
-30
V
-36
Needleman-Wunsch: Beispiel
-
R
D
I
S
L
V
-
0
-6
-12
-18
-24
-30
-36
R
-6
6
0
-6
-12
-18
-24
N
-12
0
8
2
-4
-10
-16
I
-18
-6
2
13
7
1
-5
L
-24
-12
-4
7
10
13
7
V
-30
-18
-10
1
6
12
17
Needleman-Wunsch: Beispiel
-
R
D
I
S
L
V
-
0
-6
-12
-18
-24
-30
-36
R
-6
6
0
-6
-12
-18
-24
N
-12
0
8
2
-4
-10
-16
I
-18
-6
2
13
7
1
-5
L
-24
-12
-4
7
10
13
7
V
-30
-18
-10
1
6
12
17
Needleman-Wunsch: Beispiel
 Ergebnis-Score: 17
 Alignment
R D
I
S L V
R N
I
L V
Übersicht




Bioinformatik: Was ist das?
Teilgebiete der Bioinformatik
Algorithmen zum Sequenzvergleich
Bioinformatik in Deutschland
− Studiengänge an Hochschulen
− Forschungseinrichtungen
 Zusammenfassung
Studiengänge an Hochschulen
Universitäten:
−Tübingen (seit WS 98/99)
− Bielefeld
− Halle(seit WS 99/00)
− München (seit WS 99/00)
− Berlin (seit WS 00/01)
− Frankfurt (seit WS 00/01)
− Jena (seit WS 00/01)
− Saarbrücken (seit WS 01/02)
− Hamburg (geplant)
− Leipzig (geplant)
+ Lehrstühle in der
Informatik/Biologie/Chemie
Fachhochschulen:
− Bingen (seit WS 00/01)
− Gießen (seit WS 00/01)
− Ostfriesland (seit WS 01/02)
− Weihenstephan
(seit WS 01/02)
− Wildau (seit WS 01/02)
− Rhein-Sieg (geplant)
Curriculum Bioinformatik im Beispiel
Tübingen (Diplom)
Saarbrücken (Bachelor/Master)
Ziel:
Ziel:
− Vollgültiges Informatikstudium
− Vorbereitung auf berufliche Praxis
mit starker Betonung des
als Bioinformatiker
Anwendungsfachs
Bachelor (Semester 1 - 4 + 5 - 6)
Grundstudium
− Informatik : 38 SWS
− Mathematik : 22 SWS
− Biologie + Chemie : 24 SWS
Hauptstudium
− Informatik : 52 SWS
− Anwendungsfach : 28 SWS
Diplomarbeit
− Lösung eines Problems aus
dem Anwendungsfach mit
Informatikmethoden
Besonderheiten
−spez. Algorithmenvorlesung
−einzelne Spezialvorlesungen
− Informatik : 12 + 6 SWS
− Mathematik : 22 + 0 SWS
− Bioinformatik : 12 + 6 SWS
− Biowissenschaften : 24 + 7 SWS
Master (Semester 7 - 8)
− Informatik : 18 SWS
− Bioinformatik : 6 SWS
− Biowissenschaften : 8 SWS
Master-Thesis
Besonderheiten
− umfangreiche Praktika
− Industriepraktikum oder
Forschungsaufenthalt
Forschungseinrichtungen und Forschungsförderung
 Forschungseinrichtungen in Deutschland
−
−
−
−
−
EMBL Heidelberg
DKFZ Heidelberg
Max-Delbrück-Zentrum Berlin
MIPS München
...
 Forschungsförderung aus öffentlicher Hand
− DFG (50 Mio DM über 5 Jahre)
• Bielefeld
• München
• Leipzig
• Saarbrücken
• Tübingen
− BMBF (bis zu 100 Mio DM
über 5 Jahre)
• Berlin*
• Braunschweig*
• Gatersleben*
• Jena*
• Köln*
• München*
* Antragsteller
Zusammenfassung
 Die Bioinformatik untersucht biochemische Prozesse in
der Zelle mit Hilfe von Methoden aus der Mathematik
und Informatik.
 Bioinformatik ≠ Biologie + Informatik
stattdessen
 Bioinformatik ist (idealerweise) eine Symbiose
zwischen der Biologie und der Informatik, die zu neuen
Ansätzen führt
 Bioinformatiker benötigen daher
− Verständnis biologischer Mechanismen
− Wissen über Methoden der Informatik
Beiträge aus der Biologie
Genetik
Biochemie
phänomenologisches Wissen
Beiträge aus der Informatik
Algorithmik
Datenbanken
Visualisierung
abstrakte Modelle