Anwendung von Wavelet-Algorithmen in der Molekularbiologie und Bioinformatik Uttendorf Seminar 14. Februar 2006 Manfred Nölte 1 Anwendung von Wavelet-Algorithmen in der Molekularbiologie und Bioinformatik • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen in der Bioinformatik – Verarbeitung von Massespektren von Proteinen oder Hybridisierungen – Mustererkennung in DNA-/Proteinsequenzen 2 Genomics, Proteomics, Metabolomics – die „Omics Ära“ • Genomics – … befasst sich mit dem Genom (die Gesamtheit aller Gene) eines Organismus – Sequenzierungsprojekte, Genidentifikation, Genexpressions-Experimente – Der Mensch hat ca. 30.000 bis 40.000 Gene • Proteomics – Das Proteom ist die Gesamtheit aller Proteine eines Organismus – Systematische Analyse aller Proteinsequenzen, Proteinexpressionsmustern und Proteininteraktionen – Erkenntnis nach HUGO-Projekt: Viele Gene des Menschen werden in mehrere RNA- und Proteinvarianten übersetzt. • Metabolomics – Clustering zu Genexpressions-Daten und Einsatz von NMR – Identifikation und Analyse von metabolischen Netzwerken • Systembiologie Æ Physiomics 3 Lebewesen λ-Phage Darmbakterium Escherichia coli Genomgröße (in Basenpaaren) Anzahl der Gene Gendichte (Anzahl der Gene pro Mio. Basenpaare) 4,6×10 4.500 900 7 6.000 300 7 19.000 200 8 13.500 70 30.000 10 25.500 255 4 5×10 6 Backhefe Saccharomyces cerevisiae 2×10 Fadenwurm Caenorhabditis elegans 8×10 Die Taufliegenart Drosophila melanogaster 2×10 Die Kugelfischart Fugu rubripes 3,65×10 Mensch (Homo sapiens sapiens) 3×10 Molch 4×10 Ackerschmalwand (Arabidopsis thaliana) 1×10 9 8 10 8 Quelle: http://de.wikipedia.org/wiki/Genom 4 Abtauchen in die Skala der Gene und Proteine Quelle: www1.cs.columbia.edu 5 Anwendung von Wavelet-Algorithmen in der Molekularbiologie und Bioinformatik • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen in der Bioinformatik – Verarbeitung von Massespektren von Proteinen oder Hybridisierungen – Mustererkennung in DNA-/Proteinsequenzen 6 Zelle als Produktionsstätte Aus: Folienserie des Fonds der chemischen Industrie 7 Ein Unternehmen will eine neue Maschine bauen M a n a g e m e n t W e r k s t r a s s e Unternehmen Zelle Bibliothek DNA Auswahl des Buches Transkriptionskontolle Buch Gen (Abschnitt auf DNA) Lesen des Buches Transkription, mRNA Umsetzen des Wissens zum Bau der Maschine Translation Maschine Protein / Enzym Z e l l k e r n R i b o s o m e n 8 DNA Struktur Wie kann in einem Molekül Information gespeichert sein? Aus: Folienserie des Fonds der chemischen Industrie 9 Transkription - I • Ein Protein besteht aus einer Aminosäuresequenz. Es gibt 21 verschiedene Aminosäuren. • Wieviel Basen benötigt man, um alle Aminosäuren kodieren zu können? – Æ 3 Basen entsprechen 4³ = 64 Kombinationen (Codons, Triplets) • Was kodieren die übrigen Codons/Triplets? – Es gibt Start- und Stopcodons und … – der Genetische Code ist degeneriert und fehlertolerant 10 Der Genetische Code Aus: Folienserie des Fonds der chemischen Industrie 11 Transkription Aus: Folienserie des Fonds der chemischen Industrie 12 Transkription Aus: Folienserie des Fonds der chemischen Industrie 13 Translation Aus: Folienserie des Fonds der chemischen Industrie 14 Fehlertoleranz und ein fataler Fehler • Der Genetische Code ist fehlertolerant ausgelegt – Durch den Austausch einer Base im Codon werden meistens Aminosäuren mit ähnlichen Eigenschaften kodiert – Es gibt ca. 1018 mögliche Codes. In einer Stichprobe von 1 Mio. Codes war nur einer besser als der natürliche Genetische Code • Eine seltene Ausnahme ist die Sichelzellenanämie – Hier wird durch den Austausch einer Base (GAG Æ GUG) eine hydrophile durch eine hydrophobe Aminosäure ersetzt – Da sich hydrophobe Aminosäuren bei der dreidimensionalen Faltung zum Inneren des Proteins orientieren ändert sich die Struktur drastisch 15 Anwendung von Wavelet-Algorithmen in der Molekularbiologie und Bioinformatik • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen in der Bioinformatik – Verarbeitung von Massespektren von Proteinen oder Hybridisierungen – Mustererkennung in DNA-/Proteinsequenzen 16 Wavelet-Algorithmen in der Bioinformatik • Gemeinsamkeiten: – Die Verarbeitung von DNA- und Aminosäuresequenzen ist Signalverarbeitung! – Die Algorithmen der Bioinformatik werden ebenso wie die WaveletAlgorithmen mit Hidden Markov Modellen oder Neuronalen Netzwerken kombiniert (u.a. Hyeokho Choi and Richard Baraniuk. „Multiscale Document Segmentation using Wavelet-Domain Hidden Markov Models“, in Proc. IST/SPIE's 12th Annual International Symposium - Electronic Imaging 2000, Science & Technology, San Jose, CA, January 2000.) • Diverse Fakten: – Die Diskrete Wavelet Transformation findet in der Molekularbiologie Anwendung (weniger die CWT) – DNA- und Aminosäuresequenzen enthalten Informationen auf verschiedenen Skalen 17 Anwendung von Wavelets in der Molekularbiologie • • • Genomsequenz-Analyse (Gene Prediction) Mustererkennung in Massespektren, DNA- und Aminosäuresequenzen Datenanalyse von DNA-Mikroarrays – Bildverarbeitung (spot finding) – Verarbeitung von Gene Expression Data (Bsp.: Oszillierende Gene der Hefe) • Proteinstrukturanalyse – – – – – Primary sequence evolution Secondary and tertiary structure determination Refinement of X-ray crystallography Drug design and visualization Classification of proteins (using phase plots of Morlet WT of the hydrohobic profiles) – Information on channels, pore and receptors 18 Document Segmentation Hyeokho Choi and Richard Baraniuk. „Multiscale Document Segmentation using Wavelet-Domain Hidden Markov Models“, in Proc. IST/SPIE's 12th Annual International Symposium - Electronic Imaging 2000, Science & Technology, San Jose, CA, January 2000. 19 … Document Segmentation - II Quelle: http://de.wikipedia.org/wiki/Gen 20 Document Segmentation - III Quelle: http://www.wellcome.ac.uk/en/genome/thegenome/hg02b001.html 21 Information auf verschiedenen Skalen • … der DNA – – – – – • Einzelne Basen und Codons Eigenschaften der Aminosäuren (z.B. Hydrophobizität, Größe, Polarität) regulatorische Regionen und Gene Gen-Duplikate und Gen-Cluster/-Gruppen Proteinen – Eigenschaften (z.B. hydrophil oder hydrophob) der Aminosäuren – Informationen zu Ionen-Kanälen und Rezeptoren oder zur Zellwand • • „Currently there is considerable inerest in integrating quantitative biological information at different size scales, from molecules to cells, tissues, organs and organisms.“ „A hint at the potential of wavelets in modeling the scaling behavior of biological systems comes from the results of wavelet-based modeling of physical systems showing scaling behavior in, for example, turbulence (Katul et al., 2000).“ Quelle: Pietro Liò. „Wavelet in bioinformatics and computational biology: state of the art and perspectives“, Bioinformatics, 2002. 22 Anwendung von Wavelet-Algorithmen in der Molekularbiologie und Bioinformatik • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen in der Bioinformatik – Verarbeitung von Massespektren von Proteinen oder Hybridisierungen – Mustererkennung in DNA-/Proteinsequenzen 23 Verarbeitung von Massespektren von Proteinen oder Hybridisierungen • Peak-Identifikation • „Denoising“ • Klassifikation von Spektren • „Peaks oder Peak-Muster in Massespektren-Datenbanken suchen“ 24 Anwendung von Wavelet-Algorithmen in der Molekularbiologie und Bioinformatik • Einführung – Genomics, Proteomics, Metabolomics – die „Omics Ära“ – Genexpression • Wavelet-Algorithmen in der Bioinformatik – Verarbeitung von Massespektren von Proteinen oder Hybridisierungen – Mustererkennung in DNA-/Proteinsequenzen 25 Mustererkennung in DNA-/Proteinsequenzen 4 • das transformierte Signal zu einer DNA-Sequenz: 3.5 3 2.5 A Æ1, CÆ2, GÆ3, TÆ4 2 1.5 20 40 60 80 100 • Predicting allergenic proteins using wavelet transform • The hydrophobic cores of proteins predicted by wavelet analysis • Locating probable genes using Fourier transform approach 26 Predicting allergenic proteins using wavelet transform Kuo-Bin Li, Praveen Issac und Arun Krishnan, Bioinformatics 2004 • Ähnlichkeitsbasierte Ansätze konnten sich an die Sequenzeigenschaften gut adaptieren, hatten aber eine schlechte Vorhersagefähigkeit • Zu motivbasierten Ansätzen konnte durch CrossValidation eine Verbesserung bzgl. der Vorhersagefähigkeit gezeigt werden • In dem Ansatz von Kuo-Bin et. al wird eine Kombination dieser Verfahren beschrieben. • Mit der Wavelet Methode konnten konservierte Motive auf verschiedenen Skalen erkannt werden • Angewendet auf die Protein-Datenbank Swiss-Prot (135 850 Proteine) wurden 2000 potentielle Allergene identifiziert [Stadler und Stadler, 2003] 27 Sequenzähnlichkeit und motivbasierte Ansätze • WHO und FAO haben eine Richtlinie zur Identifikation der Allerginizität von neuen Proteinen: – (neben Labortests) ein neues Protein ist potentiell allergen, wenn eine Identität mit 6 aufeinander folgenden Aminosäuren mit bekannten Allergenen gefunden werden kann (viele falsch-positive Klassifikationen) – oder mindestens 35% Sequenzähnlichkeit über einem Fenster von 80 Aminosäuren existiert (zu stringent) • motivbasierte Ansätze – Motive werden in Motivbeschreibungssprachen und HMM Profilen formuliert. – [Stadler und Stadler, 2003] Mit dem Motiv-Identifikations-Tool MEME wurden Proteinprofile aus einer Datenbank von bekannten Allergenen generiert. Zu neuen Proteinen wird ein Score berechnet, der die potentielle Allergenizität darstellt 28 Kombination der Ansätze Sequenzähnlichkeit und Motive mit der Wavelet Methode - I • Voraussetzung 1: die Aminosäuresequenzen müssen aliniert in die Wavelet Analyse übergeben werden – …VAALNRRIQLLEEDLERSEER-RSLSDEERMDALENQ… …VA-LNR—QLLE---LERSEER-RSLSDE-Q-DALENQ… …---LNR—QLLE-D-LERSEERLRSLSDE-Q-DALENQ… • Voraussetzung 2: die Aminosäuresequenzen müssen mit einem Clustering Verfahren gruppiert werden, da die Wavelet Analyse so angesetzt wurde, dass in einer Gruppe von Aminosäuresequenzen alle ein oder mehrere Motive enthalten müssen. • Aminosäuresequenzen werden in Zahlenreihen übersetzt – Bestimmung der Konsensussequenz aus dem Alignment (?) – Die Zahlenreihe wird aus Aminosäureeigenschaften wie hydrophobizität, Elektronen-Ionen-Interaktionspotential, Polarität, isoelektrischer Punkt oder „accessible surface area“ gebildet 29 Kombination der Ansätze Sequenzähnlichkeit und Motive mit der Wavelet Methode - II 1. Berechne die paarweisen Distanzen für die bekannten Allergene (mit ClustalW) 2. Gruppiere diese Aminosäuresequenzen (Clustering mit PAM) 3. Generiere ein multiples Alignment für jedes dieser Cluster (mit T-Coffee oder ClustalW) 4. Identifiziere konservierte Motive für jedes Cluster mit der Wavelet Methode 5. Erzeuge ein HMM Profil für jedes identifizierte Motiv (mit HMMER) 6. Berechne einen Score für die Allerginizität für ein unbekanntes Protein (mit HMMER und BLASTP) 30