Gliederung - Goethe

Werbung
Johann Wolfgang Goethe-Universität Frankfurt am Main
GDV Proseminar
“Visualisierung in der Bioinformatik”
Genom – Visualisierung
FfM., den 05.06.2003
Oleg Rempel und Sven Zöller
1
Gliederung
1 Einleitung
1.1 Exkurs ins menschlichen Genom
1.2 Human Genom Projekt
2 Graphisches Darstellen von Genomen
2.1 Ziele
2.2 Probleme
3 ProtAnnot und Neomorphic GeneViewer
3.1 Hintergrund
3.2 Semantisches Zooming
3.3 Zweidimensionales Zooming
3.4 Einzelne oder doppelte Reihenfolge der Genstruktur
3.5 Umgang mit der Komplexität der Informationen
3.6 Proteinvorhersage
4 Beispiel SeqVISTA
4.1 Hintergrund
4.2 SeqVISTA
4.3 repetitive Elemente
4.4 Proteinstruktur
5 Zusammenfassung
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
2
Genom als der Bauplan des Lebens
1 Einleitung
1.1 Exkurs ins menschliche Genom
Genom (Erbgut) ist die Gesamtheit der Erbinformation einer Zelle.
Die Erbinformation ist die in der DNA jeder Zelle gespeicherte
Information zur Ausbildung von Merkmalen.
Unter Merkmalen versteht man die Entwicklung, das Aussehen, das
Verhalten, die Gesundheit und die Neigung zu bestimmten
Krankheiten.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
3
Sitz des Genoms
1 Einleitung
1.1 Exkurs ins menschliche Genom
Jede Zelle des menschlichen Organismus besitzt das komplette Genom.
Das meiste menschliche Genom (99,9995%) befindet sich im Zellkern.
Rest (0,0005%) in Mitochondrien der Zelle.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
4
DNA
1 Einleitung
1.1 Exkurs ins menschliche Genom
Erbsubstanz der Erbinformation ist die
DNA (DesoxyriboNucleid Acid).
Die DNA besteht aus Bausteinen
(Nukleotiden), die in zwei komplementär
angeordneten Strängen miteinander
Verknüpft sind.
Die beiden DNA-Stränge sind spiralförmig
um die eigene Achse gewunden, bilden so
genannte Doppelhelix.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
5
Von Doppelhelix zu einem Chromosom
1 Einleitung
1.1 Exkurs ins menschliche Genom
Die Doppelhelix ist durch mehrfaches Umwickeln sehr
dicht gepackt und bildet zusammen mit HistonProteinen
eine Chromatinfaser aus.
Die Chromatinfaser ist ihrerseits umgewickelt und
bildet Chromosomen aus.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
6
Chromosomen
1 Einleitung
1.1 Exkurs ins menschliche Genom
Bei einem Mensch gib es 23
Chromosomen, die normaler
Weise doppelt vertreten sind.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
7
Chromosomen
1 Einleitung
1.1 Exkurs ins menschliche Genom
Ein Chromosom ist ca. 1,4 μm
breit und ist unter dem
Mikroskop sichtbar.
Ein Chromosom kann mehrere
Gene enthalten.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
8
Gen
1 Einleitung
1.1 Exkurs ins menschliche Genom
Gen ist ein bestimmter
proteinkodierender DNA
Abschnitt.
Im menschlichen Genom sind
ca. 27 000 – 30 000 Gene,
davon sind in Mitochondrien
13 Gene.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
9
Codierung
1 Einleitung
1.1 Exkurs ins menschliche Genom
Es gibt 4 verschiedene Nukleotide in der DNA: A,C,G und T
O
N
NH2
NH
N
A
5'
C
+
NH
N
NH2
5'
N
O
O
O
O
R
P
O
-
O
O
O
3'
O
O
3'
P
O
O
R
P
-
O
-
Da jedes Nukleotid immer einen spezifischen Partner in dem zweiten
DNA-Strang hat, nennt man die beiden Partner ein Basenpaar.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
10
Codierung
1 Einleitung
1.1 Exkurs ins menschliche Genom
Die Abfolge der Besenpaaren kann bei der Expression in die Abfolge der
Aminosäuren eines Proteins übersetzt werden.
Drei Basen eines DNA-Stranges sind die kleinste Informationseinheit der
DNA und wird als Codon oder Basentriplett bezeichnet.
Ein Codon kodiert eine bestimmte Aminosäure oder hat eine andere Funktion.
Es gibt 64 (43) mögliche Codons und nur 20 Aminosäuren die sie kodieren.
Das erschwert die Entzifferung der Codierung.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
11
Sequenz
1 Einleitung
1.1 Exkurs ins menschliche Genom
Die Abfolge der Nukleotiden in der DNA bezeichnet man als Sequenz.
Bei Menschen insgesamt: 3,2 Milliarden Besenpaaren,
nur 1- 5% davon stellen Gene dar.
In Mitochondrien: 16 kbp
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
12
Sequenz -Regionen
1 Einleitung
1.1 Exkurs ins menschliche Genom
Man unterscheidet verschiedene Regionen der Sequenz:
Exon – die proteinkodierende Region
Intron – hat keine proteinkodierende Funktion.
Promotor – Region, wo die Transkription startet.
Terminator – Region, wo die Transkription endet.
ORF – offener Leseraster.
URF – nichtidentifizierter Leseraster
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
13
Sequenz
1 Einleitung
1.1 Exkurs ins menschliche Genom
>gi|16164037:211292-256037 Homo sapiens chromosome Y genomic contig
GTTTGTGGCCTGGTCGGCGTCCCGTAGGGCGCCCTCCCGCGCTAGGCCGGCCGGCGTGGCG
CTCGGCGCCGAACAGGCCCCGAGGAGGCCGCAGTTAGGCCTAGTGATTATCCAGTTGCCCTG
AGCGGCTGCGGAGGTGCGCTCCATAAGCGGGCAGGGTGGGAAAAGTTCGCCCGTTTGTCCGG
AAGGCAGTTGATGGACCTGGGGTCGACACCACTGCGGACGCAGGGCACGGCACGGGGGCGA
GAAGGCGAAGGCTGCAGGCGTGAGGTGAAGGCCGGAGGCCTGCTGGGCCTATTTTCGCTATG
TAAATGTCCGCGAAGGGGAGGAGGGACGGGGGGGCAAGATGGCGGCTGCTAGGCGCCTGCT
GCTGGGGAGTATTGAGAGTGTTGTCGGGAGGCGGAGCCGCCATCTTGAAGGCGGTATCTGGA
AAAAAAATTCGGTTATGATCCTTGAGGCGGGGATGGGGAAAAGGACGGCGGCGGCGGCGGCA
GCGCAGCCTCCGGCGCGACGGCGTGTCTGCGCAACAGGGCGTGCTCGTTCCCTTGGCGGCC
CTTGCCTTTGTCGCCATATGCGCGCGTACGTTCCAGACGCCTGCGGCAGCGCCACCTTTCGGC
CTTCCCCTCACAGCCCATCCTTGGCTGGGTGCAGTGTCGGCTACGCTTTAGGTGACATGCCGC
AGGCGTCCGTTCGGGCGCCGGGGTCATTTCGCCCCTCAGCGCTCCCGGCTCTGTGCCCTTCC
GAGAGTCTACAGCCACCCGTTTCAGCAGGTGGCAATTCGGGCATCTAGGCTCACGAGAGCACA
TAAATTCCAGAAAATTTTATTTTCCCCTAATTAAAGTCATTATGTGGCTGTTCGGGGACCTTCGA
TGCGCTTATTTTTCAACCATC………………
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
14
Daten
1 Einleitung
1.2 Human Genom Projekt
1986 – Aufruf des amerikanischen Krebsforschers Renato Dulbecco das
komplette menschliche Genom zu entschlüsseln.
1987 – Amerikanische Kongress bewilligt 200 Millionen Dollar jährlich,
geplant sind 15 Jahre arbeit.
1997 – Start des Human Genom Projektes in Deutschland.
2000 – Erste Ergebnisse würden veröffentlicht.
2001 – Begann die zweite Phase des Projektes.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
15
Ziel
1 Einleitung
1.2 Human Genom Projekt
Das Ziel des öffentlich finanzierten Humangenomprojektes ist,
aller Wissenschaftler mit einem öffentlichem Verzeichnis der Gensequenz
zu versorgen, und dadurch die biomedizinische Forschung zu
beschleunigen.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
16
Firmen
1 Einleitung
1.2 Human Genom Projekt
Im Jahre1991 wird HUGO (HUman Genom Organisation) gegründet, welche
die Durchführung des Projektes koordinieren soll.
Wenig später hat aber eine private US-Firma "Celera Genomics" des
Genforschers Craig Venter die Führung übernommen.
Die deutschen Firmen erhoffen bei der zweiten Phase des Projektes, wo es
hauptsächlich um die Erkennung der Genfunktionen geht, die Nase vorne zu
halten.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
17
Ergebnisse
1 Einleitung
1.2 Human Genom Projekt
Obwohl in der Presse schon mehrmals verkündet wurde, dass das menschliche
Genom beinah vollständig entziffert ist und veröffentlicht wurde,
Wissenschaftler in der ganzen Welt arbeiten noch heftig daran.
Hauptgrunde dafür sind:
Die Funktion der meisten Genen ist noch unbekannt.
Viele Gene besitzen mehrere Funktionen.
Die entzifferten Gensequenz kann Fehler enthalten.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
18
Die Bereitstellung der Sequenz
2 Ziele und Probleme beim graphischen Darstellen von Genomen
2.1 Ziele
Wie in Humangenomprojekt ist auch hier das Hauptziel, aller Wissenschaftler mit
der öffentlichen Gensequenz zu versorgen.
Die entzifferten Daten sind da, aber die sind oft viel zu unübersichtig und
komplex, deshalb werden effektive Visualisierungswerkzeuge gebraucht,
welche die Wissenschaftler helfen damit zu arbeiten.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
19
Grafische Darstellung
2 Ziele und Probleme beim graphischen Darstellen von Genomen
2.1 Probleme
Ein nützlicher und effektiver Weg etwas unübersichtliches sichtbar zu machen ist
die grafische Darstellung.
Providerswerkzeuge:
Das LocusLink von NCBI und der Genomsuch-Browser von UCSC.
Beide arbeiten aber in sogenannten „Client-server model“
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
20
Java-Applets
2 Ziele und Probleme beim graphischen Darstellen von Genomen
2.1 Probleme
Das „Client-server model“ erschwert viele Manipulationen.
Es wird versucht das Problem durch Java-Applets zu lösen, die von dem Server
runtergeladen werden können und in einer „Java vitrual machine“ auf dem PC des
Benutzers laufen und verändern werden können.
Aus Sicherheitsgründen sind die Java-Applets aber etwas problematisch,
da die sehr wohl Trojaner seien können.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
21
ProtAnnot und Neomorphic GeneViewer
3 ProtAnnot und Neomorphic GeneViewer
3.1 Hintergrund
Als Beispiele der alternativen Visualisierungstechnik werden hier als erstes
ein Prototyp des Protein-Domain-Viewer ProtAnnot
und Neomorphic GeneViewer, ein Genombrowser,
der zuerst für das Institut der Genomforschung (TIGR)
speziell für das Arabidopsis Genom geschrieben wurde.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
22
Semantisches Zooming
3 ProtAnnot und Neomorphic GeneViewer
3.2 Semantisches Zooming
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
23
Zweidimensionales Zooming
3 ProtAnnot und Neomorphic GeneViewer
3.3 Zweidimensionales Zooming
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
24
Doppelte Reihenfolge der Genstruktur
3 ProtAnnot und Neomorphic GeneViewer
3.4 Einzelne oder doppelte Reihenfolge der Genstruktur
Gen-Finder-Programme.
Sequenzen werden in zwei parallelen Reihen dargestellt und so verglichen.
Ca. 1/2 - 1/3 der menschlichen Genen enthalten mehrere Transkriptionsvarianten .
Erkennung oft nur von einer Transkriptionsvariante.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
25
Einzelne Reihenfolge der Genstruktur
3 ProtAnnot und Neomorphic GeneViewer
3.4 Einzelne oder doppelte Reihenfolge der Genstruktur
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
26
Umgang mit der Komplexität der Informationen
3 ProtAnnot und Neomorphic GeneViewer
3.5 Umgang mit der Komplexität der Informationen
EST’s (expressed sequence tags) von
SNURF-Gen, das in der Lage ist zwei
unterschiedliche Proteine zu kodieren.
RT-PCR
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
27
28
Das alternative Splicing (oder Spleissen)
3 ProtAnnot und Neomorphic GeneViewer
3.6 Proteinvorhersage
ARG1 (Arginase – Gen)
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
29
Zwei Formen eines plasminogen Aktivators
3 ProtAnnot und Neomorphic GeneViewer
3.6 Proteinvorhersage
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
30
4
4.1
Hintergrund
- alle gefundenen Geninformationen werden in Text
basierenden Datenbanken gespeichert
- kein intuitives Verständnis über die komplexe Struktur von
Genen möglich
- Datenbanken liefern graphische Darstellungen nur zu einer
Fragestellung
- SeqVISTA übernimmt die Aufgabe der graphischen
Visualisierung von verschiedenen Datenbankinformationen
gleichzeitig
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
31
SeqVISTA
4
4.2
einfaches Verständnis
durch dreigeteilten
Bildschirm (tree
panel, graphics panel
und sequence panel)
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
32
SeqVISTA
4
4.2
Suchfunktionen innerhalb der Sequenz
- Start- und Endsequenz sind bekannt
- Sequenzfragment ist bekannt
- durch Markierung einer Region in der Sequenz
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
33
4
4.2
SeqVISTA
Vorteile von SeqVISTA im Bezug auf Datenimport
- Akzeptanz der wichtigsten Datenbankformate (GenBank
flat file format [GBFF], GenBank HTML format, FASTA
format und meta-based SeqVISTA format.)
- einfaches Laden der Sequenz durch Eingabe der GI oder
durch Laden von der NCBI-Internetseite.
- durch Pluginentwicklung können externe
Analyseprogramme SeqVISTA zur graphischen
Visualisierung nutzen.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
34
4
4.3
repetitive Elemente
Untersuchung der
Lage und
Eigenschaften
repetitiver Elemente
im Bezug zur
Gesamtsequenz.
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
35
4
4.4
Proteinstruktur
PSIPRED
berechnet
wahrscheinliche
sekundär
Strukturen der
Proteine anhand
der Gensequenz
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
36
5
Zusammenfassung
- komplexe Gensequenzen werden übersichtlich dargestellt
- Zugriff auf externe Programme zu vertiefenden Analysen
- Darstellung externer Ergebnisse
Proseminar „Visualisierung in der Bioinformatik“
Genom – Visualisierung
37
Herunterladen