Proseminar Netzwerkanalyse SS 2004 Thema: Biologie

Werbung
Rheinisch-Westfälischen Technischen Hochschule Aachen
Lehr- und Forschungsgebiet Theoretische Informatik
Prof. Rossmanith
Attached!
Proseminar Netzwerkanalyse
SS 2004
Thema: Biologie
Deniz Özmen
Emmanuel Müller
0. Motivation
• Welche Arten der Forschung stehen der Biologie
zur Verfügung?
–In vivo: am lebenden Organismus
–In vitro: im Reagenzglas
–In silico: durch Modellierung am Rechner
• Welche biologischen Netzwerke wurden schon
vorgestellt?
– Food-Network (Ökologie)
– C.elegans (Neurobiologie)
0. Motivation
C. elegans: (Caenorhabditis elegans)
Fadenwurm mit einer Art Gehirn, einem Nervenring um den Schlund.
•
•
•
•
Komplettes neuronales Netzwerk ist bekannt!
n = 282 Neuronen
L = 2,65
C = 0,28
Zufälliges Netzwerk:
• L = 2,25
• C = 0,05
0. Motivation
•
Ziel des Vortrages:
Analyse des Domänen-Netzwerkes von Proteinen
durch Betrachtung verschiedener Graphen die aus
bestehenden Protein-Datenbanken erstellt wurden.
•
Der Weg zum Ziel:
1.
2.
3.
4.
5.
6.
7.
Einführung in die Biologie (Proteine)
Vorstellung der meßbaren Größen
Und daraufhin der theoretischen Modelle
Protein-Datenbanken
Analyse des biologischen Netzwerkes
Grenzen der Modelle
Diskussion
1. Einführung in die Biologie (Proteine)
• Was sind Proteine?
– Riesenmoleküle (Sequenzen)
– Bausteine: rund 20 Arten von Aminosäuren
Der Name Protein wurde 1839 von Geradus
Johannes Mulder vom griechischen Wort protos
('erstes, wichtigstes') abgeleitet, um dadurch die
Bedeutung der Proteine für das Leben zu
unterstreichen.
1. Einführung in die Biologie (Proteine)
• Was sind Domänen?
– Teilebereiche von Proteinen
– Sequenzen die unabhängig von den benachbarten
Sequenzen eine bestimmte Struktur einnehmen.
– Funktion = Struktur Æ Eine Domäne ist für eine
bestimmte Funktion verantwortlich.
– Durch Kombination verschiedener Domänen ist die
Entwicklung neuer Proteine möglich
2. Meßbare Größen
Was für Eigenschaften haben Graphen?
•
Mittlere Pfadlänge L
Betrachte das Mittel der kürzesten Wege zwischen
allen Knotenpaaren
•
Mittlerer Clustering-Koeffizient C
•
-
Betrachte alle Nachbarn eines Knotens
-
Errechne den Anteil der in diesem induzierten
Untergraphen auftretenden Kanten
-
Mittle über alle Knoten
Mittlere Transitivität T
-
Betrachte alle Nachbarn eines Knotens
-
Errechne den Anteil der vorkommenden
transitiven Kantenbeziehungen
-
Mittle über alle Knoten
2. Meßbare Größen
C und T klingen nun doch recht ähnlich ...
• Die Existenz einer Kante „a-c“ erhöht auch gleichzeitig
das C des betrachteten Knotens.
• Allerdings ist der Zusammenhang nicht so stark wie man
vermuten könnte.
2. Theoretische Modelle
• Was ist das Small-World-Modell?
3. Theoretische Modelle
• Algorithmus zur Erzeugung von small-world:
3. Theoretische Modelle
• Auswirkungen auf C und L bei small-world:
3. Theoretische Modelle
• Somit ergeben sich die charakteristischen
small-world-Eigenschaften:
3. Theoretische Modelle
Scale-Free-Modell: Aussehen
• Wachstum durch
kontinuierliches
Einfügen neuer Knoten
• Neue Knoten hängen
sich bevorzugt an
Knoten mit hohem
Grad an
3. Theoretische Modelle
Scale-Free-Modell: Eigenschaften
Typische Scale-FreeEigenschaften:
• Kleines L
Geringe Knotenabstände
• Erhöhtes C
Meßbares Clustering
4. Protein-Datenbanken
PROSITE
http://www.expasy.org/prosite/
• Enthält Proteinfamilien und Domänen
• Einteilung von Proteinen (ähnliche Sequenzen) in
Gruppen (Familien)
– gleiche funktionelle Eigenschaften, gemeinsamen Vorfahren.
• charakteristischer Regionen (Indikatoren)
Momentan enthält die Datenbank 1710 verschiedene
solcher Muster, welche mit Hilfe von Suchanfragen mit
einer Sequenz abgeglichen werden können.
4. Protein-Datenbanken
Swiss-Prot
http://www.expasy.org/sprot/
• Wurde 1986 vom Swiss Institute of Bioinformatics
erstellt.
• Proteindatenbanken besteht jeder Eintrag aus zwei
Teilen:
– Kernteil enthält die eigentliche Sequenz und taxonomische
Information
– Anmerkungsteil beschreibt Funktion des Proteins
• Sekundär-Struktur
• Domänen
• Ähnlichkeiten zu anderen Proteinen
Momentan enthält die Datenbank 149.914
Sequenzeinträge
4. Protein-Datenbanken
TrEMBL
• Computerkommentierte Datenbank
• Ergänzung zu Swiss-Prot
• Enthält alle translatierten Sequenzen aus einer DNADatenbank, die noch nicht in Swiss-Prot
• aufgenommen wurden.
Sie enthält momentan 1.065.889 Einträge.
5. Analyse eines Beispiels
Ein biochemisches Netzwerk:
•
•
•
•
•
•
Definition des Graphen.
Sind scale-free und small-world hier anwendbar?
Eigenschaften der Graphen auf Biologie übertragen.
Evolutionärer Zusammenhang
Fehlerquellen und Modellschwächen
Schlussfolgerung
5. Analyse eines Beispiels
• Betrachtung eines Domänengraphen
GD=(VD,ED) mit
– VD: Jeder Knoten repräsentiert eine Domäne
– ED: Eine Kante existiert genau dann, wenn beide
Domänen im gleichen Protein auftreten
• Erstelle solche Graphen mit Hilfe der
Proteindatenbanken und spezieller Software und
erhalte ...
5. Analyse eines Beispiels
... ein Netzwerk, in dem
• eine deutliche Erhöhung von C,
• aber kaum ein Unterschied in L
gegenüber zufälligen Graphen feststellbar ist.
Viele Domänen treten in nur einem Protein auf
Æ viele isolierte Knoten
5. Analyse eines Beispiels
Ein „bereinigtes“
Netzwerk liefert
die erwarteten
Ergebnisse:
• hohes Clustering
• niedrige Abstände
Æ Scale-Freebzw. Small-WorldEigenschaften
5. Analyse eines Beispiels
Die Scale-Free-Eigenschaften
finden sich in allen drei
verwendeten Datenbanken
wieder
5. Analyse eines Beispiels
• Bisher: Allgemeine Betrachtung aller Domänen,
unabhängig von ihrer Herkunft
• Daher: Gibt es Unterschiede, wenn man die
Graphen nach Spezies trennt?
• Betrachte hierzu die Domänengraphen für
Mensch, Fruchtfliege und C. elegans
5. Analyse eines Beispiels
Auffällig:
•
Fast identische
Steigung für Mensch
und Fruchtfliege
•
Stärkerer Abfall bei C.
elegans
Æ geringere
Verbindungsdichte
5. Analyse eines Beispiels
5. Analyse eines Beispiels
Andere, ähnliche Ergebnisse legen nahe:
• vielzellige Organismen benötigen effiziente
Verwaltungsstrukturen
• Die Evolution neigt zu komplexen, hoch strukturierten
Proteinen
Sind die Graphen somit eine direkte Folge der
Entwicklung von Domänen?
6. Grenzen der Modelle
Offenbar nicht ausschließlich, denn:
• Die Domänen-„Hubs“ in niederen Organismen
(E. coli) sind andere als die in höheren
Organismen
• Knoten können nicht aus Graphen gelöscht
werden
Æ Somit können die beiden Modelle nur als
grobe Approximation der Realität angesehen
werden
6. Grenzen der Modelle
Fehlerquellen bei der Anwendung:
• Ergebnisse sind verfälscht:
Eukarionten und Säugetier-Proteine sind viel besser
untersucht und in Datenbanken dokumentiert als
Prokarionten.
• Woher stammen die Proteinsequenzen?
Datenbanken verwenden in Proteine übersetzte Genome,
die nicht so aussagekräftig sind, wie die in der realen
Zelle vorkommenden Proteine.
• Spleißen wird nicht untersucht.
Dadurch können in höheren Eukarionten noch höhere
Grade auftreten als sie in den bisherigen Analysen
errechnet wurden.
7. Ausblick und Diskussion
Vorschläge:
• Ähnlichkeiten zwischen diesen biologischen
Netzwerken und bereits bekannten?
• Auftreten besprochener Effekte (z. B. exponential
cut-off) in biologischen Netzwerken?
• Möglichkeiten, die Modelle zu verbessern?
Herunterladen