Biologie + Informatik
=
Bioinformatik???
Dr. Ursula Rost
Bioinformatics and Computational Biochemistry
European Media Laboratory
Heidelberg
Zur Person
Ursula Rost
− Studium Diplom-Informatik, TU Clausthal & Uni Karlsruhe (TH)
− Promotion im FB Elektrotechnik, Uni Hannover
− Wissenschaftlerin am EML,
Gruppe: Bioinformatics and Computational Biochemistry
European Media Laboratory (EML)
− gegründet 1997, finanziert durch Klaus-Tschira-Stiftung
− http://www.eml.org
− Anwendungsnahe Forschung im IT-Bereich
Gruppen und Projekte am EML
Personal Memory
− Intelligente Benutzer-Schnittstellen
− z.B. Touristenführer Heidelberg
Natural Language Processing
Storage Technology
− holographische Datenspeicherung (tesa-ROM)
Scientific Databases and Visualization
− Integration von Datenbanken zur Analyse und
Visualisierung biochemischer Pfade
Bioinformatics and Computational Biochemistry
− Modellierung biochemischer Pfade
− Funktionale Netzwerke
− Simulation
Molecular and Cellular Modelling
IT in the Health Sector
− nicht-invasive Überwachung von Lebensdaten
− IT für den Dialog zwischem Arzt und Patient
BioParc Dresden
Klaus Tschira Stiftung + Wirtschaftsministerium Sachsen:
− Renovierung+Ausbau des Lingner Schlößchens
− Doppelhelix-Gebäude als Standort für Startup-Firmen im
Bereich Bioinformatik
− Fertigstellung ca. 2004
− www.bioparc.de
Übersicht
Bioinformatik: Was ist das?
Teilgebiete der Bioinformatik
Algorithmen zum Sequenzvergleich
Bioinformatik in Deutschland
Zusammenfassung
Biologie : Informatik
Biologie
− Wissenschaft vom Lebendigen
• Erscheinungsformen lebender Systeme,
• ihre Beziehungen untereinander
• Vorgänge, die sich in ihnen abspielen
− in der Bioinformatik
• Molekularbiologie
• Biochemie
Informatik
− “Systematisches Studium von informationsbeschreibenden
und -transformierenden Prozessen in Bezug auf deren
Theorie, Analyse, Entwurf, Implementierung und
Anwendung .“ (ACM)
− Datenstrukturen, Algorithmen, Rechnerarchitektur,
Rechnernetze, Kryptographie, Betriebssysteme, ...
− In der Bioinformatik z.B.
• Algorithmen
• KI
• Datenbanken
• Bildverarbeitung
Zellbestandteile
Vom Gen zum Protein
Gen
© Geo 9/2000
Sequenzen
DNA
{A,T,G,C}*
RNA
{A,U,C,G}*
Protein
{A,C,D,...,Y}*
Genetischer Code
P1
G
A
C
U
Position 2
P3
G
Gly
Gly
A
Glu
Glu
C
Ala
Ala
U
Val
Val
Gly
Gly
Arg
Arg
Asp
Asp
Lys
Lys
Ala
Ala
Thr
Thr
Val
Val
Met
Ile
C
U
G
A
Ser
Ser
Arg
Arg
Asn
Asn
Gln
Gln
Thr
Thr
Pro
Pro
Ile
Ile
Leu
Leu
C
U
G
A
Pro
Pro
Ser
Ser
Leu
Leu
Leu
Leu
C
U
G
A
Ser
Ser
Phe
Phe
C
U
Arg
His
Arg
His
Trp STOP
STOP STOP
Cys
Cys
Tyr
Tyr
G
A
A
C
D
E
F
G
H
I
K
L
M
N
P
Q
R
S
T
V
W
Y
Ala
Cys
Asp
Glu
Phe
Gly
His
Ile
Lys
Leu
Met
Asn
Pro
Gln
Arg
Ser
Thr
Val
Trp
Tyr
Alanin
Cystein
Aspartat
Glutatmat
Phenyalanin
Glycin
Histidin
Isoleucin
Lysin
Leucin
Methionin
Asparagin
Prolin
Glutamin
Arginin
Serin
Threonin
Valin
Tryptophan
Tyrosin
Genetischer Code
Genetischer Code: Abbildung von Basen-Tripletts
(Codone) auf Aminosäuren
{XYZ | X,Y,Z ∈ {A,C,G,U} → {Ala, Cys, Asp, ...,
Tyr}
Eigenschaften des Genetischen Codes:
− redundant (64 Codone werden auf 20
Aminosäuren und drei STOP-Codone abgebildet)
− wird bei allen bekannten Lebewesen verwendet
( mit leichten Abweichungen z.B. in Mitochondrien
und in Prokaryonten, bisher 15 Code Tabellen
bekannt)
− fehlertolerant (gehört zu den 0.02 % Codierungen
mit der höchsten Fehlertoleranz, d.h.
Punktmutationen führen zu gleichen oder ähnlichen
Aminosäuren)
Das Biochemische Netzwerk
MFKPVDFSETSPVPPDIDLAPTQSPHHVAPSQDSSYDLLS…………..
……….
SMLKNKSFLLHGKDYPNNADNNDNEDIRAKTMNRSQSHV
gatccagctg taccattatg taatataata agacacggac gcac……...
Metabolische Pfade
Warum Informatik in der Biologie?
Experimente liefern enorme Datenmengen
− Das menschliche Genom enthält ≈ 2 900 000 000
Basenpaare, die ca. 100 000 Gene bilden (momentane
Schätzung)
− Die EMBL Sequenz-Datenbank enthält z.Z mehr als
10.2 Millionen Gensequenz-Einträge mit mehr als
11.1 Mrd. Basenpaaren (Stand 9.1.2001)
− Die SWISS-PROT Datenbank enthält z.Z. über 91 000
Protein-Einträge
− Trotzdem sind Datenbank sehr unvollständig: bisher
publizierte vollständig sequenzierte Genome:
• 31 Bakterien
• 8 Archaea
• 3 Eukaryonten
Daten sind sehr komplex
− Proteine enthalten Teilstrukturen mit unterschiedlicher
Bedeutung, die für ihre Funktion wesentlich sind
− Aktivitäten in der Zelle sind durch vielfältige
Abhängigkeiten geprägt, die z.Z. nur in sehr geringem
Umfang bekannt sind
Ziele der Bioinformatik
Verständnis über die Abläufe in der Zelle erhöhen
Informationen bereitstellen, mit denen Genetic
Engineering ermöglicht wird
− Entwicklung von Medikamenten (z.B. um bestimmte
Reaktionen in der Zelle zu ermöglichen oder zu
verhindern)
− heilen von genetischen Defekten (bis jetzt noch nicht
gelungen)
Fragen beantworten wie z.B.
− Welche funktionale Bedeutung hat eine bestimmte
Gensequenz?
− Welche Moleküle können an ein gegebenes Protein
binden?
− Wie wird ein metabolisches Netzwerk reguliert?
Versuch einer Definition
In der Bioinformatik werden mit Hilfe von Methoden
aus der Mathematik und Informatik biochemische (und
hierbei insbesondere genetische) Abläufe in der Zelle
untersucht.
Daneben gibt es weitere Gebiete in der Biologie, die
Methoden der Mathematik und Informatik einsetzen,
z.B.
− Biostatistik
− Populationsdynamik (Theoretische Biologie)
Vorgehensweise
1. Ansatz:
C
Probleme:
− ineffiziente Verfahren
− schwer zu bedienende Programme
− nicht wiederverwertbare Programme
2. Ansatz:
Probleme:
− Ergebnisse haben keine biologische Bedeutung
− Modelle oft zu simpel
Vorgehensweise
Bioinformatik erfordert interdisziplinäre
Zusammenarbeit zwischen
− Naturwissenschaftlern (aus der Biologie, Biochemie und
Biophysik) und
− “anderen” Wissenschaftlern (aus der Informatik und
Mathematik)
Biologische
Experimente
Hypothesen
Datenanalyse- und
Verarbeitung
Daten
Übersicht
Bioinformatik: Was ist das?
Teilgebiete der Bioinformatik
− Fallstudie
− Auftretende Probleme und Lösungsansätze
Algorithmen zum Sequenzvergleich
Bioinformatik in Deutschland
Zusammenfassung
Fallstudie
Schritt 1:
...G A G A A C T G T T T A G A T G C A A A A T C C A C A A G T...
Schritt 2:
E N C L D A K S T S ...
Schritt 3:
Mensch
... E N C L D A K S T S ...
Drosophila
... E N C L D A Q S T H ...
C. elegans
... E N C L D A G A T E ...
Hefe
... E N C I D A N A T M ...
E. coli
... E N C L D A G A T R ...
Fallstudie
Schritt 5:
Schritt 6:
Fallstudie
© Geo 9/2000
Schritt 6:
Bioinformatik
Teilgebiete der Bioinformatik
− Sequenzanalyse (DNA, Proteine)
• Assembling
• Primer-Design
• Genefinding
• Sequenzvergleich
• Phylogenie
− Strukturanalyse, Molecular Modelling und Molecular
Dynamics
• 3D-Struktur von Proteinen
• Molekülbewegungen
− Expressionsdatenanalyse
− Simulation
Weitere relevante Diziplinen, die sich u.a. mit
Bioinformatik beschäftigen
− Datenbanken
− Visualisierung
Sequenzanalyse: Assembling
...G A G A A C T G G A G A G A T T T A G A T G C ...
Problem:
− Gene sind zu lang, um am Stück sequenziert zu werden
(k ∗ 10 000 bp)
− Sequenzierverfahren liefern viele kleine Stücke
(k ∗ 1 000 bp), die zusammengefügt werden müssen
− Whole Genome Shotgun Sequencing bringt heutzutage
neue Herausforderungen mit sich
Sequenzanalyse: Assembling
Lösungsansätze:
− Verfahren zur Lösung des Shortest Common Superstring
Problems
− Abbildung auf Graphen und Suche nach dem kürzesten
Hamilton Pfad
• Fragmente stellen Knoten dar
• Überlappung von zwei Fragmenten wird durch Kante
zwischen diesen Fragmenten repräsentiert
• Länge der Überlappung kann in Distanz umgesetzt
werden
− Consensus-String aus Hamilton-Pfad ergibt gesuchte
Sequenz
Sequenzanalyse: Primer-Design
...G A G A A C T...
... T A G A T G C ...
Problem:
− Füllen von Lücken
Biologischer Lösungsansatz:
− Design von sog. Primern (ca 20-25 Nukleotide), die in der
Nähe der Endstücke binden und mit denen diese
schrittweise verlängert werden können
− Primer müssen bestimmte Eigenschaften aufweisen, z.B.
sollen sie ausschließlich an den gewünschten Stellen
binden, aber nicht mit sich selbst
Lösungsansatz aus der Informatik:
− Qualitätsfunktion für die Bewertung eines spezifischen
Primers
− gerichtete Suchverfahren
Sequenzanalyse: Genefinding
...G A G A A C T G G A G A G A T T T A G A T G C ...
G A G A A C T G T T T A G A T G C
E N C L D A...
Probleme:
− Suche nach Promotoren (Startregion eines Gens)
− Suche nach Introns/Exons
Lösungsansätze:
− Ausnutzung statistischer Eigenschaften in
unterschiedlichen Regionen (z.B. Verhältnis bestimmter
Codone)
− Generalisierte HMMs
Sequenzanalyse: Vergleich
Ziele:
... E N C L D A K S T S ...
... E N C L D A Q S T H ...
− Paarweiser Vergleich von Sequenzen, um
Verwandtschaftsgrad zu ermitteln
− Vergleich mehrerer (relativ ähnlicher) Sequenzen zur
Erstellung eines Profils für Familien von Proteinen
− Suche nach wiederkehrenden Motiven, die funktionale
Bedeutung haben
Eingesetzte Methoden
−
−
−
−
Stringverarbeitungsalgorithmen (Suche, Distanzmaße,...)
statistische Auswertungsverfahren
Clustering-Verfahren
Optimierungsverfahren
Anwendung
− funktionale Annotation
− Identifikation eines Gens durch eindeutigeTeilsequenz
Phylogenie
Ziel:
− Analyse der evolutionsgeschichtlichen Beziehung von
Organismen: Tree of Life
Phylogenie
Ansatz:
− Aufbau eines phylogenetischen Baums durch Vergleich
von einander entsprechenden DNA-, RNA- oder
Proteinsequenzen verschiedener Organismen
• Blätter sind Sequenzen
• Kanten sind gewichtet: ihre Länge ist proportional zu
einer evolutionären Distanz (Pfadmetrik)
• innere Knoten repräsentieren unbekannte
gemeinsame Vorfahren
− Einsatz von mathematischen Optimierungsverfahren zur
Konstruktion eines Baums
Strukturanalyse, Molecular Modelling und Molecular
Dynamics
Ziele:
−
−
−
−
Bestimmung der 3D-Struktur von Proteinen
Analyse des Faltungsprozesses
Suche nach Liganden
Analyse der Bewegungen eines Moleküls
Verwendete Techniken:
− [Kristallographie und NMR (sehr aufwendig)]
− Strukturvorhersage aus Strukturvergleich
− Strukturvorhersage aus Sequenz mit
Optimierungsverfahren
• Energieminimierung
• Berücksichtigung physikalisch-chemischer
Eigenschaften
− Ab Initio Vorhersage (auf Atomebene, extrem aufwendig)
Potentielle Anwendungen
− Drug Design
− Vorhersage der Interaktion von Molekülen in der Zelle
Expressionsdatenanalyse
Ziel:
− Vollständige Kenntnis
eines Genoms ist wünschenswert, aber unzureichend
− Genauere Kenntnis über die Abläufe in der Zelle erfordert die
Analyse der wechselseitigen Beziehungen bzw. dem
Zusammenspiel der Gene
Verw. Technik: Microarrays
− Messung der Expression von
bis zu 10000 (bekannten)
Genen gleichzeitig
− Auswertung des
Transkriptoms
− welche Gene werden unter
welchen Bedingungen
exprimiert
− welche Gene sind koreguliert
unter verschiedenen
Bedingungen
Expressionsdatenanalyse
Analyse-Methoden
− Klassische Mustererkennungsverfahren (Statistik)
− Maschinelle Lernverfahren (NN, induktive Lernverfahren)
Potentielle Anwendungen:
− Identifikation komplexer genetischer Krankheiten
− Spezifische Entwicklung von Medikamenten (die auf den
Genotyp bezogen sind)
− Suche nach Mutationen
− Zeitreihen zur Analyse verschiedener Krankheits-Stadien
Simulation
Ziel:
− Modellierung biochemischer Prozesse in der Zelle
Ansatz
− Aufstellung mathematischer Modelle
− Komponenten des Modells repräsentieren Moleküle bzw.
Konzentrationen davon
− Einsatz von numerischen und stochastischen
Simulationsverfahren, sowie Prozeßalgebren
Anwendungsgebiete
− Aufklärung von Mechanismen des Stoffwechsels
− Verständnis der Regulierungsmechanismen
allgemein
− Verifizierung von Expressionsdaten
Simulation
Beispiel: Calcium-Konzentration in Leberzellen
Daten aus Experiment
Daten aus Simulation
Datenbanken
Ziele:
− Speicherung und Organisation großer Datenmengen
− zielgerichteter Zugriff auf einzelne Daten
Beispiele
− Sequenzdatenbanken
− Strukturdatenbanken
− Datenbanken für
bestimmte Organismen
Visualisierung
Ziele:
− Interaktive Exploration großer Datenmengen
− Sichtbarmachung von Zusammenhängen
Beispiel:
− Analyse großer Bäume (z.B. Proteinbäume,
phylogenetische Bäume)
Übersicht
Bioinformatik: Was ist das?
Teilgebiete der Bioinformatik
Algorithmen zum Sequenzvergleich
− paarweiser Vergleich
− Vergleich mehrerer Sequenzen
− Datenbanksuche
Bioinformatik in Deutschland
Zusammenfassung
Sequenzanalyse
Zentrales Dogma der Bioinformatik
Wenn zwei Sequenzen sehr ähnlich sind, haben sie auch
− eine ähnliche Funktion,
− eine ähnliche Struktur,
und sie haben einen gemeinsamen Vorfahren
Vorsicht: das stimmt nicht immer !!!
Das impliziert, daß
− die Sequenz eine Syntax bildet, die eine Funktion codiert
− es gibt auch Redundanz, da einige Elemente ausgetauscht
werden können, ohne daß sich die Funktion ändert (robuste
Semantik)
Zentrale Vorgehensweise ist daher
− Vergleich von Sequenzen, deren Funktion unbekannt ist, mit
Sequenzen, deren Funktion aus Experimenten bekannt ist
Je nach Organismus, können daher heute zwischen 10
und 70% der Proteinsequenzen annotiert werden.
Annotation
Sequenzanalyse
Problem:
− geg.: Sequenz mit unbekannter Funktion
− ges.: ähnlichste Sequenz mit bekannter Funktion
Ansatz:
− Ähnlichkeitsmaß
− Algorithmus zur Bestimmung der Ähnlichkeit
R N I
R V
R N I L L
R N I L V
N I L V
R D I S L V
Konventionen
Paarweiser Vergleich von je einem Buchstaben aus
zwei Sequenzen, d.h. keine Betrachtung statistischer
Abhängigkeiten innerhalb einer Sequenz
Ähnlichkeit von zwei Sequenzen ergibt sich als Summe
aus den Einzelähnlichkeiten (Markov-Modell)
Aufstellung von sogenannten Scoring-Matrizen:
Ähnlichkeitswert bezieht sich immer nur auf das
dahinterliegende Modell
Verfahren hauptsächlich für den Vergleich von
Aminosäuresequenzen (Proteinen)
R N I
L L
R N I L V
Ähnlichkeitsmaß
Einfachste Vergleichsmöglichkeit: Identitäts-Matrix
− gleiche Buchstaben = 1,
− ungleiche Buchstaben = 0
Ähnlichkeitsmaße, die über = / ≠ Vergleiche
hinausgehen, nutzen
− chemische oder strukturelle Eigenschaften: polar/unpolar,
Form, Größe, Ladung
− genetische Eigenschaften: minimale Anzahl
ausgetauschter Basen in der dazugehörigen DNA
− evolutionäre Distanz: beobachtete AustauschHäufigkeiten von Aminosäuren (in bekannten
Proteinfamilien)
PAM
basiert auf evolutionärem Modell
− ähnliche Proteine haben einen gemeinsamen Vorfahren,
aus dem beide Sequenzen durch genetische
Veränderungen wie z.B. Punktmutationen
hervorgegangen sind ( Edit-Distanz)
empirisch aus Vorkommen von Aminosäuren in
ähnlichen (mindestens 85% identischen), homologen
Proteinen abgeschätzt
PAM : Accepted Point Mutation
PAM 1 - Matrix
− 1 evolutionärer Schritt
− 1 Mutation pro 100 Residuen erlaubt (1% Unterschied)
− wie hoch ist Wahrscheinlichkeit, daß sich ein Residuum
ändert?
PAM 250 - Matrix
− entspricht 80 % Unterschied
Dayhoff Matrix
A
R
N
D
C
Q
E
G
H
I
L
K
M
F
P
S
T
W
Y
V
4
2
-2
0
0
-2
0
0
1
-1
-1
-2
-1
-1
-4
1
1
1
-6
-3
0
6
0
-1
-4
1
-1
-3
2
-2
-3
3
0
-4
0
0
-1
2
-4
-2
2
2
-4
1
1
0
2
-2
-3
1
-2
-4
-1
1
0
-4
-2
-2
4
-5
2
3
1
1
-2
-4
0
-3
-6
-1
0
0
-7
-4
-2
4
-5
-5
-3
-3
-2
-6
-5
-5
-4
-3
0
-2
-8
0
-2
4
2
-1
3
-2
-2
1
-1
-5
0
-1
-1
-5
-4
-2
4
0
1
-2
-3
0
-2
-5
-1
0
0
-7
-4
-2
5
-2
-3
-4
-2
-3
-5
-1
1
0
-7
-5
-1
6
-2
-2
0
-2
-2
0
-1
-1
-3
0
-2
5
2
-2
2
1
-2
-1
0
-5
-1
4
6
-3
4
2
-3
-3
-2
-2
-1
2
5
0
-5
-1
0
0
-3
-4
-2
6
0
-2
-2
-1
-4
-2
2
A
R
N
D
C
Q
E
G
H
I
L
K
M
MDM78 PAM250
9
-5 6
-3 1 3
-2 0 1 3
0 -6 -2 -5 17
7 -5 -3 -3 0 10
-1 -1 -1 0 -6 -2
F
P
S
T
W
Y
Gaps
Neben Substitutionen können auch Einfügungen und
Löschungen vorkommen
?
R D
I
S L V K N A G
I
R N
I
L V S D A K N V G
I
Alignment: zeichenweise Anordnung von Sequenzen
derart, daß
− jeder Buchstabe einer Sequenz entweder einem anderen
Buchstaben aus (je)der anderen Sequenz zugeordnet ist
oder einer Lücke (“-”)
− die relative Ordnung der Buchstaben einer Sequenz
bleibt dabei gewahrt
R D
I
R N
I
S L V
K N A G
I
L V S D A K N V G
I
Gap Penalty
Gaps in einem Alignment (Paarung einer
Aminosäure mit einer Lücke) werden mit einem
schlechten Wert bestraft, z.B . negativer Wert für
jede
− einzelne Gap, d.h. Funktion linear in der Länge k der
eingefügten bzw. gelöschten Elemente
g k =q⋅k
− oder zusammengesetzter Wert für
Einfügungen/Auslassungen beliebiger Länge
a : Gap Eröffnungsstrafe b: Gap
Ausweitungsstrafe
g k =ab⋅k
affin-lineare Gap Penalty
Beispiel
R D
I
R N
I
S L V
Identitäts-M. :
K N A G
I
L V S D A K N V G
I
1 + 0 + 1 - g(1) + 1 + 1 - g(3) + 1 + 1 + 0 + 1 + 1
PAM250 : 6 + 2 + 5 - g(1) + 6 + 4 - g(3) + 5 + 2 + 0 + 5 + 5
Optimales Paarweises Alignment
Ziel: Suche nach einem Alignment von zwei
Sequenzen, so daß der Ähnlichkeitswert maximal ist
(oder die Distanz minimal)
R D
I
R N
I
S L V
2n = 2n ! ≈ 2 2n
n n !2 2πn
K N A G
I
L V S D A K N V G
I
Möglichkeiten für zwei
Sequenzen der Länge n
Alignment
x1
x2
x3
x4
x5
y1
y2
y3
x i 1
−
y4
−
y j1
x i1
y j1
Alignment
x1
x2
x3
x4
x5
y1
y2
y3
y4
x1 − x 2 x 3 x 4 x5
y1 y2 y3 − − y4
x1 x2 x3 x 4 x 5
y1 y2 y3 y4−
Dynamische Programmierung
Problem: Berechnung aller möglichen Alignments und
Vergleich der Scores ist zu aufwendig
Lösungsansatz: Dynamische Programmierung
− Zerteilung des Problems in unabhängige Teilprobleme,
Lösung der Teilprobleme und Kombination der
Teillösungen zu Gesamtlösung
− Bottom-Up Vorgehensweise mit Speicherung der
Teillösungen
optimal
x
A
optimal
Z
optimal
Globales Alignment
Needleman-Wunsch Algorithmus
− benutzt Prinzip der dynamischen Programmierung:
optimales Alignment für zwei Sequenzen wird aus
optimalen Alignments von Teilsequenzen bestimmt
− kleinste Einheit: Alignment von zwei Buchstaben
(Aminosäuren) bzw. Wert für eine Gap
− 1. Schritt: Berechnung einer Matrix, die alle möglichen
Alignments der Sequenzen repräsentiert. Mit Ausnahme
der Initialwerte werden alle Einträge der Matrix mit Hilfe
der bereits eingetragenen Werte und einer rekursiven
Formel abgeleitet.
− 2. Schritt: “Ablesen” des besten Alignments aus einem
Pfad durch die Matrix (Verfolgung des besten
Alignments vom Ziel zum Start)
Needleman-Wunsch Algorithmus
Sequenz 1: x 1 x 2 x 3 x m
Sequenz 2: y 1 y 2 y 3 y n
Matrix F wobei F i , j den Score für das
optimale Alignment
der Sequenz x 1 x 2 x i mit
der Sequenz y 1 y 2 y j angibt
F
_ x1 x 2 x 3 x m
_
y1
y2
y3
F 2,3
⋮
yn
Rekursionsformel
Fi−1,
j−1
F
i
,
j−1
-g(1)
+ s(x , y )
Fi−1, j F i , j
i
j
-g(1)
{
F i−1, j−1s x i , y j
F i , j =max F i−1, j −g1
F i , j−1−g 1
Needleman-Wunsch: Beispiel
R D
I
S L V
R N
I
L V
PAM 250
Lineare Gap Penalty mit q = -6
Needleman-Wunsch: Beispiel
-
R
D
I
S
L
-
0
-6
-12
-18
-24
-30
R
-6
6
0
N
-12
I
-18
L
-24
V
-30
V
-36
Needleman-Wunsch: Beispiel
-
R
D
I
S
L
V
-
0
-6
-12
-18
-24
-30
-36
R
-6
6
0
-6
-12
-18
-24
N
-12
0
8
2
-4
-10
-16
I
-18
-6
2
13
7
1
-5
L
-24
-12
-4
7
10
13
7
V
-30
-18
-10
1
6
12
17
Needleman-Wunsch: Beispiel
-
R
D
I
S
L
V
-
0
-6
-12
-18
-24
-30
-36
R
-6
6
0
-6
-12
-18
-24
N
-12
0
8
2
-4
-10
-16
I
-18
-6
2
13
7
1
-5
L
-24
-12
-4
7
10
13
7
V
-30
-18
-10
1
6
12
17
Needleman-Wunsch: Beispiel
Ergebnis-Score: 17
Alignment
R D
I
S L V
R N
I
L V
Übersicht
Bioinformatik: Was ist das?
Teilgebiete der Bioinformatik
Algorithmen zum Sequenzvergleich
Bioinformatik in Deutschland
− Studiengänge an Hochschulen
− Forschungseinrichtungen
Zusammenfassung
Studiengänge an Hochschulen
Universitäten:
−Tübingen (seit WS 98/99)
− Bielefeld
− Halle(seit WS 99/00)
− München (seit WS 99/00)
− Berlin (seit WS 00/01)
− Frankfurt (seit WS 00/01)
− Jena (seit WS 00/01)
− Saarbrücken (seit WS 01/02)
− Hamburg (geplant)
− Leipzig (geplant)
+ Lehrstühle in der
Informatik/Biologie/Chemie
Fachhochschulen:
− Bingen (seit WS 00/01)
− Gießen (seit WS 00/01)
− Ostfriesland (seit WS 01/02)
− Weihenstephan
(seit WS 01/02)
− Wildau (seit WS 01/02)
− Rhein-Sieg (geplant)
Curriculum Bioinformatik im Beispiel
Tübingen (Diplom)
Saarbrücken (Bachelor/Master)
Ziel:
Ziel:
− Vollgültiges Informatikstudium
− Vorbereitung auf berufliche Praxis
mit starker Betonung des
als Bioinformatiker
Anwendungsfachs
Bachelor (Semester 1 - 4 + 5 - 6)
Grundstudium
− Informatik : 38 SWS
− Mathematik : 22 SWS
− Biologie + Chemie : 24 SWS
Hauptstudium
− Informatik : 52 SWS
− Anwendungsfach : 28 SWS
Diplomarbeit
− Lösung eines Problems aus
dem Anwendungsfach mit
Informatikmethoden
Besonderheiten
−spez. Algorithmenvorlesung
−einzelne Spezialvorlesungen
− Informatik : 12 + 6 SWS
− Mathematik : 22 + 0 SWS
− Bioinformatik : 12 + 6 SWS
− Biowissenschaften : 24 + 7 SWS
Master (Semester 7 - 8)
− Informatik : 18 SWS
− Bioinformatik : 6 SWS
− Biowissenschaften : 8 SWS
Master-Thesis
Besonderheiten
− umfangreiche Praktika
− Industriepraktikum oder
Forschungsaufenthalt
Forschungseinrichtungen und Forschungsförderung
Forschungseinrichtungen in Deutschland
−
−
−
−
−
EMBL Heidelberg
DKFZ Heidelberg
Max-Delbrück-Zentrum Berlin
MIPS München
...
Forschungsförderung aus öffentlicher Hand
− DFG (50 Mio DM über 5 Jahre)
• Bielefeld
• München
• Leipzig
• Saarbrücken
• Tübingen
− BMBF (bis zu 100 Mio DM
über 5 Jahre)
• Berlin*
• Braunschweig*
• Gatersleben*
• Jena*
• Köln*
• München*
* Antragsteller
Zusammenfassung
Die Bioinformatik untersucht biochemische Prozesse in
der Zelle mit Hilfe von Methoden aus der Mathematik
und Informatik.
Bioinformatik ≠ Biologie + Informatik
stattdessen
Bioinformatik ist (idealerweise) eine Symbiose
zwischen der Biologie und der Informatik, die zu neuen
Ansätzen führt
Bioinformatiker benötigen daher
− Verständnis biologischer Mechanismen
− Wissen über Methoden der Informatik
Beiträge aus der Biologie
Genetik
Biochemie
phänomenologisches Wissen
Beiträge aus der Informatik
Algorithmik
Datenbanken
Visualisierung
abstrakte Modelle