Kein Folientitel - Mathematik, Uni

Werbung
Anwendung von Wavelet-Algorithmen
in der Molekularbiologie und Bioinformatik
Uttendorf Seminar
14. Februar 2006
Manfred Nölte
1
Anwendung von Wavelet-Algorithmen
in der Molekularbiologie und Bioinformatik
• Einführung
– Genomics, Proteomics, Metabolomics – die „Omics Ära“
– Genexpression
• Wavelet-Algorithmen in der Bioinformatik
– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen
– Mustererkennung in DNA-/Proteinsequenzen
2
Genomics, Proteomics,
Metabolomics – die „Omics Ära“
•
Genomics
– … befasst sich mit dem Genom (die Gesamtheit aller Gene) eines Organismus
– Sequenzierungsprojekte, Genidentifikation, Genexpressions-Experimente
– Der Mensch hat ca. 30.000 bis 40.000 Gene
•
Proteomics
– Das Proteom ist die Gesamtheit aller Proteine eines Organismus
– Systematische Analyse aller Proteinsequenzen, Proteinexpressionsmustern und
Proteininteraktionen
– Erkenntnis nach HUGO-Projekt: Viele Gene des Menschen werden in mehrere
RNA- und Proteinvarianten übersetzt.
•
Metabolomics
– Clustering zu Genexpressions-Daten und Einsatz von NMR
– Identifikation und Analyse von metabolischen Netzwerken
•
Systembiologie Æ Physiomics
3
Lebewesen
λ-Phage
Darmbakterium
Escherichia coli
Genomgröße
(in
Basenpaaren)
Anzahl
der Gene
Gendichte (Anzahl der Gene
pro Mio. Basenpaare)
4,6×10
4.500
900
7
6.000
300
7
19.000
200
8
13.500
70
30.000
10
25.500
255
4
5×10
6
Backhefe Saccharomyces
cerevisiae
2×10
Fadenwurm
Caenorhabditis elegans
8×10
Die Taufliegenart
Drosophila melanogaster
2×10
Die Kugelfischart Fugu
rubripes
3,65×10
Mensch (Homo sapiens
sapiens)
3×10
Molch
4×10
Ackerschmalwand
(Arabidopsis thaliana)
1×10
9
8
10
8
Quelle: http://de.wikipedia.org/wiki/Genom
4
Abtauchen
in die Skala
der Gene
und Proteine
Quelle: www1.cs.columbia.edu
5
Anwendung von Wavelet-Algorithmen
in der Molekularbiologie und Bioinformatik
• Einführung
– Genomics, Proteomics, Metabolomics – die „Omics Ära“
– Genexpression
• Wavelet-Algorithmen in der Bioinformatik
– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen
– Mustererkennung in DNA-/Proteinsequenzen
6
Zelle als Produktionsstätte
Aus: Folienserie des Fonds der
chemischen Industrie
7
Ein Unternehmen will eine neue Maschine bauen
M
a
n
a
g
e
m
e
n
t
W
e
r
k
s
t
r
a
s
s
e
Unternehmen
Zelle
Bibliothek
DNA
Auswahl des Buches
Transkriptionskontolle
Buch
Gen (Abschnitt auf DNA)
Lesen des Buches
Transkription, mRNA
Umsetzen des Wissens
zum Bau der Maschine
Translation
Maschine
Protein / Enzym
Z
e
l
l
k
e
r
n
R
i
b
o
s
o
m
e
n
8
DNA Struktur
Wie kann in einem Molekül Information gespeichert sein?
Aus: Folienserie des Fonds der
chemischen Industrie
9
Transkription - I
• Ein Protein besteht aus einer Aminosäuresequenz.
Es gibt 21 verschiedene Aminosäuren.
• Wieviel Basen benötigt man, um alle Aminosäuren kodieren zu
können?
– Æ 3 Basen entsprechen 4³ = 64 Kombinationen (Codons, Triplets)
• Was kodieren die übrigen Codons/Triplets?
– Es gibt Start- und Stopcodons und …
– der Genetische Code ist degeneriert und fehlertolerant
10
Der Genetische Code
Aus: Folienserie des Fonds der
chemischen Industrie
11
Transkription
Aus: Folienserie des Fonds der
chemischen Industrie
12
Transkription
Aus: Folienserie des Fonds
der chemischen Industrie
13
Translation
Aus: Folienserie des Fonds der
chemischen Industrie
14
Fehlertoleranz und ein fataler Fehler
• Der Genetische Code ist fehlertolerant ausgelegt
– Durch den Austausch einer Base im Codon werden meistens
Aminosäuren mit ähnlichen Eigenschaften kodiert
– Es gibt ca. 1018 mögliche Codes. In einer Stichprobe von 1 Mio. Codes
war nur einer besser als der natürliche Genetische Code
• Eine seltene Ausnahme ist die Sichelzellenanämie
– Hier wird durch den Austausch einer Base (GAG Æ GUG) eine hydrophile
durch eine hydrophobe Aminosäure ersetzt
– Da sich hydrophobe Aminosäuren
bei der dreidimensionalen Faltung
zum Inneren des Proteins orientieren
ändert sich die Struktur drastisch
15
Anwendung von Wavelet-Algorithmen
in der Molekularbiologie und Bioinformatik
• Einführung
– Genomics, Proteomics, Metabolomics – die „Omics Ära“
– Genexpression
• Wavelet-Algorithmen in der Bioinformatik
– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen
– Mustererkennung in DNA-/Proteinsequenzen
16
Wavelet-Algorithmen in der Bioinformatik
• Gemeinsamkeiten:
– Die Verarbeitung von DNA- und Aminosäuresequenzen ist
Signalverarbeitung!
– Die Algorithmen der Bioinformatik werden ebenso wie die WaveletAlgorithmen mit Hidden Markov Modellen oder Neuronalen
Netzwerken kombiniert
(u.a. Hyeokho Choi and Richard Baraniuk. „Multiscale Document Segmentation using Wavelet-Domain Hidden Markov
Models“, in Proc. IST/SPIE's 12th Annual International Symposium - Electronic Imaging 2000, Science & Technology,
San Jose, CA, January 2000.)
• Diverse Fakten:
– Die Diskrete Wavelet Transformation findet in der Molekularbiologie
Anwendung (weniger die CWT)
– DNA- und Aminosäuresequenzen enthalten Informationen auf
verschiedenen Skalen
17
Anwendung von Wavelets
in der Molekularbiologie
•
•
•
Genomsequenz-Analyse (Gene Prediction)
Mustererkennung in Massespektren, DNA- und
Aminosäuresequenzen
Datenanalyse von DNA-Mikroarrays
– Bildverarbeitung (spot finding)
– Verarbeitung von Gene Expression Data (Bsp.:
Oszillierende Gene der Hefe)
•
Proteinstrukturanalyse
–
–
–
–
–
Primary sequence evolution
Secondary and tertiary structure determination
Refinement of X-ray crystallography
Drug design and visualization
Classification of proteins (using phase plots of
Morlet WT of the hydrohobic profiles)
– Information on channels, pore and receptors
18
Document
Segmentation
Hyeokho Choi and Richard Baraniuk. „Multiscale Document Segmentation using Wavelet-Domain Hidden Markov Models“,
in Proc. IST/SPIE's 12th Annual International Symposium - Electronic Imaging 2000, Science & Technology, San Jose, CA, January 2000.
19
…
Document
Segmentation - II
Quelle: http://de.wikipedia.org/wiki/Gen
20
Document Segmentation - III
Quelle: http://www.wellcome.ac.uk/en/genome/thegenome/hg02b001.html
21
Information auf verschiedenen Skalen
•
… der DNA
–
–
–
–
–
•
Einzelne Basen
und Codons
Eigenschaften der Aminosäuren (z.B. Hydrophobizität, Größe, Polarität)
regulatorische Regionen und Gene
Gen-Duplikate und Gen-Cluster/-Gruppen
Proteinen
– Eigenschaften (z.B. hydrophil oder hydrophob) der Aminosäuren
– Informationen zu Ionen-Kanälen und Rezeptoren oder zur Zellwand
•
•
„Currently there is considerable inerest in integrating quantitative biological
information at different size scales, from molecules to cells, tissues, organs and
organisms.“
„A hint at the potential of wavelets in modeling the scaling behavior of biological
systems comes from the results of wavelet-based modeling of physical systems
showing scaling behavior in, for example, turbulence (Katul et al., 2000).“
Quelle: Pietro Liò. „Wavelet in bioinformatics and computational biology: state of the art and perspectives“,
Bioinformatics, 2002.
22
Anwendung von Wavelet-Algorithmen
in der Molekularbiologie und Bioinformatik
• Einführung
– Genomics, Proteomics, Metabolomics – die „Omics Ära“
– Genexpression
• Wavelet-Algorithmen in der Bioinformatik
– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen
– Mustererkennung in DNA-/Proteinsequenzen
23
Verarbeitung von Massespektren von
Proteinen oder Hybridisierungen
• Peak-Identifikation
• „Denoising“
• Klassifikation von Spektren
• „Peaks oder Peak-Muster in
Massespektren-Datenbanken suchen“
24
Anwendung von Wavelet-Algorithmen
in der Molekularbiologie und Bioinformatik
• Einführung
– Genomics, Proteomics, Metabolomics – die „Omics Ära“
– Genexpression
• Wavelet-Algorithmen in der Bioinformatik
– Verarbeitung von Massespektren von Proteinen oder Hybridisierungen
– Mustererkennung in DNA-/Proteinsequenzen
25
Mustererkennung in DNA-/Proteinsequenzen
4
• das transformierte Signal
zu einer DNA-Sequenz:
3.5
3
2.5
A Æ1, CÆ2, GÆ3, TÆ4
2
1.5
20
40
60
80
100
• Predicting allergenic proteins using wavelet transform
• The hydrophobic cores of proteins predicted by wavelet
analysis
• Locating probable genes using Fourier transform approach
26
Predicting allergenic proteins using wavelet transform
Kuo-Bin Li, Praveen Issac und Arun Krishnan, Bioinformatics 2004
•
Ähnlichkeitsbasierte Ansätze konnten sich an die Sequenzeigenschaften gut
adaptieren, hatten aber eine schlechte Vorhersagefähigkeit
•
Zu motivbasierten Ansätzen konnte durch CrossValidation eine Verbesserung bzgl. der Vorhersagefähigkeit gezeigt werden
•
In dem Ansatz von Kuo-Bin et. al wird eine Kombination dieser Verfahren
beschrieben.
•
Mit der Wavelet Methode konnten konservierte Motive auf verschiedenen
Skalen erkannt werden
•
Angewendet auf die Protein-Datenbank Swiss-Prot (135 850 Proteine)
wurden 2000 potentielle Allergene identifiziert
[Stadler und Stadler, 2003]
27
Sequenzähnlichkeit und motivbasierte Ansätze
• WHO und FAO haben eine Richtlinie zur Identifikation der
Allerginizität von neuen Proteinen:
– (neben Labortests) ein neues Protein ist potentiell allergen, wenn eine
Identität mit 6 aufeinander folgenden Aminosäuren mit bekannten
Allergenen gefunden werden kann (viele falsch-positive Klassifikationen)
– oder mindestens 35% Sequenzähnlichkeit über einem Fenster von 80
Aminosäuren existiert (zu stringent)
• motivbasierte Ansätze
– Motive werden in Motivbeschreibungssprachen und HMM Profilen
formuliert.
– [Stadler und Stadler, 2003] Mit dem Motiv-Identifikations-Tool MEME wurden
Proteinprofile aus einer Datenbank von bekannten Allergenen generiert.
Zu neuen Proteinen wird ein Score berechnet, der die potentielle
Allergenizität darstellt
28
Kombination der Ansätze Sequenzähnlichkeit
und Motive mit der Wavelet Methode - I
•
Voraussetzung 1: die Aminosäuresequenzen müssen aliniert in die Wavelet
Analyse übergeben werden
– …VAALNRRIQLLEEDLERSEER-RSLSDEERMDALENQ…
…VA-LNR—QLLE---LERSEER-RSLSDE-Q-DALENQ…
…---LNR—QLLE-D-LERSEERLRSLSDE-Q-DALENQ…
•
Voraussetzung 2: die Aminosäuresequenzen müssen mit einem Clustering
Verfahren gruppiert werden,
da die Wavelet Analyse so angesetzt wurde, dass in einer Gruppe von
Aminosäuresequenzen alle ein oder mehrere Motive enthalten müssen.
•
Aminosäuresequenzen werden in Zahlenreihen übersetzt
– Bestimmung der Konsensussequenz aus dem Alignment (?)
– Die Zahlenreihe wird aus Aminosäureeigenschaften wie hydrophobizität,
Elektronen-Ionen-Interaktionspotential, Polarität, isoelektrischer Punkt
oder „accessible surface area“ gebildet
29
Kombination der Ansätze Sequenzähnlichkeit
und Motive mit der Wavelet Methode - II
1.
Berechne die paarweisen Distanzen für die bekannten Allergene (mit ClustalW)
2.
Gruppiere diese Aminosäuresequenzen (Clustering mit PAM)
3.
Generiere ein multiples Alignment für jedes dieser Cluster (mit T-Coffee oder
ClustalW)
4.
Identifiziere konservierte Motive für jedes Cluster mit der Wavelet Methode
5.
Erzeuge ein HMM Profil für jedes identifizierte Motiv (mit HMMER)
6.
Berechne einen Score für die Allerginizität für ein unbekanntes Protein (mit
HMMER und BLASTP)
30
Herunterladen