Rheinisch-Westfälischen Technischen Hochschule Aachen Lehr- und Forschungsgebiet Theoretische Informatik Prof. Rossmanith Attached! Proseminar Netzwerkanalyse SS 2004 Thema: Biologie Deniz Özmen Emmanuel Müller 0. Motivation • Welche Arten der Forschung stehen der Biologie zur Verfügung? –In vivo: am lebenden Organismus –In vitro: im Reagenzglas –In silico: durch Modellierung am Rechner • Welche biologischen Netzwerke wurden schon vorgestellt? – Food-Network (Ökologie) – C.elegans (Neurobiologie) 0. Motivation C. elegans: (Caenorhabditis elegans) Fadenwurm mit einer Art Gehirn, einem Nervenring um den Schlund. • • • • Komplettes neuronales Netzwerk ist bekannt! n = 282 Neuronen L = 2,65 C = 0,28 Zufälliges Netzwerk: • L = 2,25 • C = 0,05 0. Motivation • Ziel des Vortrages: Analyse des Domänen-Netzwerkes von Proteinen durch Betrachtung verschiedener Graphen die aus bestehenden Protein-Datenbanken erstellt wurden. • Der Weg zum Ziel: 1. 2. 3. 4. 5. 6. 7. Einführung in die Biologie (Proteine) Vorstellung der meßbaren Größen Und daraufhin der theoretischen Modelle Protein-Datenbanken Analyse des biologischen Netzwerkes Grenzen der Modelle Diskussion 1. Einführung in die Biologie (Proteine) • Was sind Proteine? – Riesenmoleküle (Sequenzen) – Bausteine: rund 20 Arten von Aminosäuren Der Name Protein wurde 1839 von Geradus Johannes Mulder vom griechischen Wort protos ('erstes, wichtigstes') abgeleitet, um dadurch die Bedeutung der Proteine für das Leben zu unterstreichen. 1. Einführung in die Biologie (Proteine) • Was sind Domänen? – Teilebereiche von Proteinen – Sequenzen die unabhängig von den benachbarten Sequenzen eine bestimmte Struktur einnehmen. – Funktion = Struktur Æ Eine Domäne ist für eine bestimmte Funktion verantwortlich. – Durch Kombination verschiedener Domänen ist die Entwicklung neuer Proteine möglich 2. Meßbare Größen Was für Eigenschaften haben Graphen? • Mittlere Pfadlänge L Betrachte das Mittel der kürzesten Wege zwischen allen Knotenpaaren • Mittlerer Clustering-Koeffizient C • - Betrachte alle Nachbarn eines Knotens - Errechne den Anteil der in diesem induzierten Untergraphen auftretenden Kanten - Mittle über alle Knoten Mittlere Transitivität T - Betrachte alle Nachbarn eines Knotens - Errechne den Anteil der vorkommenden transitiven Kantenbeziehungen - Mittle über alle Knoten 2. Meßbare Größen C und T klingen nun doch recht ähnlich ... • Die Existenz einer Kante „a-c“ erhöht auch gleichzeitig das C des betrachteten Knotens. • Allerdings ist der Zusammenhang nicht so stark wie man vermuten könnte. 2. Theoretische Modelle • Was ist das Small-World-Modell? 3. Theoretische Modelle • Algorithmus zur Erzeugung von small-world: 3. Theoretische Modelle • Auswirkungen auf C und L bei small-world: 3. Theoretische Modelle • Somit ergeben sich die charakteristischen small-world-Eigenschaften: 3. Theoretische Modelle Scale-Free-Modell: Aussehen • Wachstum durch kontinuierliches Einfügen neuer Knoten • Neue Knoten hängen sich bevorzugt an Knoten mit hohem Grad an 3. Theoretische Modelle Scale-Free-Modell: Eigenschaften Typische Scale-FreeEigenschaften: • Kleines L Geringe Knotenabstände • Erhöhtes C Meßbares Clustering 4. Protein-Datenbanken PROSITE http://www.expasy.org/prosite/ • Enthält Proteinfamilien und Domänen • Einteilung von Proteinen (ähnliche Sequenzen) in Gruppen (Familien) – gleiche funktionelle Eigenschaften, gemeinsamen Vorfahren. • charakteristischer Regionen (Indikatoren) Momentan enthält die Datenbank 1710 verschiedene solcher Muster, welche mit Hilfe von Suchanfragen mit einer Sequenz abgeglichen werden können. 4. Protein-Datenbanken Swiss-Prot http://www.expasy.org/sprot/ • Wurde 1986 vom Swiss Institute of Bioinformatics erstellt. • Proteindatenbanken besteht jeder Eintrag aus zwei Teilen: – Kernteil enthält die eigentliche Sequenz und taxonomische Information – Anmerkungsteil beschreibt Funktion des Proteins • Sekundär-Struktur • Domänen • Ähnlichkeiten zu anderen Proteinen Momentan enthält die Datenbank 149.914 Sequenzeinträge 4. Protein-Datenbanken TrEMBL • Computerkommentierte Datenbank • Ergänzung zu Swiss-Prot • Enthält alle translatierten Sequenzen aus einer DNADatenbank, die noch nicht in Swiss-Prot • aufgenommen wurden. Sie enthält momentan 1.065.889 Einträge. 5. Analyse eines Beispiels Ein biochemisches Netzwerk: • • • • • • Definition des Graphen. Sind scale-free und small-world hier anwendbar? Eigenschaften der Graphen auf Biologie übertragen. Evolutionärer Zusammenhang Fehlerquellen und Modellschwächen Schlussfolgerung 5. Analyse eines Beispiels • Betrachtung eines Domänengraphen GD=(VD,ED) mit – VD: Jeder Knoten repräsentiert eine Domäne – ED: Eine Kante existiert genau dann, wenn beide Domänen im gleichen Protein auftreten • Erstelle solche Graphen mit Hilfe der Proteindatenbanken und spezieller Software und erhalte ... 5. Analyse eines Beispiels ... ein Netzwerk, in dem • eine deutliche Erhöhung von C, • aber kaum ein Unterschied in L gegenüber zufälligen Graphen feststellbar ist. Viele Domänen treten in nur einem Protein auf Æ viele isolierte Knoten 5. Analyse eines Beispiels Ein „bereinigtes“ Netzwerk liefert die erwarteten Ergebnisse: • hohes Clustering • niedrige Abstände Æ Scale-Freebzw. Small-WorldEigenschaften 5. Analyse eines Beispiels Die Scale-Free-Eigenschaften finden sich in allen drei verwendeten Datenbanken wieder 5. Analyse eines Beispiels • Bisher: Allgemeine Betrachtung aller Domänen, unabhängig von ihrer Herkunft • Daher: Gibt es Unterschiede, wenn man die Graphen nach Spezies trennt? • Betrachte hierzu die Domänengraphen für Mensch, Fruchtfliege und C. elegans 5. Analyse eines Beispiels Auffällig: • Fast identische Steigung für Mensch und Fruchtfliege • Stärkerer Abfall bei C. elegans Æ geringere Verbindungsdichte 5. Analyse eines Beispiels 5. Analyse eines Beispiels Andere, ähnliche Ergebnisse legen nahe: • vielzellige Organismen benötigen effiziente Verwaltungsstrukturen • Die Evolution neigt zu komplexen, hoch strukturierten Proteinen Sind die Graphen somit eine direkte Folge der Entwicklung von Domänen? 6. Grenzen der Modelle Offenbar nicht ausschließlich, denn: • Die Domänen-„Hubs“ in niederen Organismen (E. coli) sind andere als die in höheren Organismen • Knoten können nicht aus Graphen gelöscht werden Æ Somit können die beiden Modelle nur als grobe Approximation der Realität angesehen werden 6. Grenzen der Modelle Fehlerquellen bei der Anwendung: • Ergebnisse sind verfälscht: Eukarionten und Säugetier-Proteine sind viel besser untersucht und in Datenbanken dokumentiert als Prokarionten. • Woher stammen die Proteinsequenzen? Datenbanken verwenden in Proteine übersetzte Genome, die nicht so aussagekräftig sind, wie die in der realen Zelle vorkommenden Proteine. • Spleißen wird nicht untersucht. Dadurch können in höheren Eukarionten noch höhere Grade auftreten als sie in den bisherigen Analysen errechnet wurden. 7. Ausblick und Diskussion Vorschläge: • Ähnlichkeiten zwischen diesen biologischen Netzwerken und bereits bekannten? • Auftreten besprochener Effekte (z. B. exponential cut-off) in biologischen Netzwerken? • Möglichkeiten, die Modelle zu verbessern?