Genome und Gene

Werbung
Vorlesung Bioinformatik Teil II
Genomics
04.06.: Genomstrukturen, Sequenzierprojekte
11.06.: Annotation, Datenbanken und Datenbanksuche
18.06.: Paarweiser Sequenzvergleich (Rainer Merkl)
25.06.: Multipler Sequenzvergleich, Anwendungen (Rainer Merkl)
Genome und Gene
Genom-Sequenzierung und
Auswertung der Daten
Genomstrukturen
Unterschiede zwischen Pro- und Eukaryonten:
• Prokaryonten haben keinen Zellkern und keine Organelle
• Eukaryonten können bis zu zwei, vom Kern unabhängige, Genome
aufweisen
• Mitochondrien: 16 bis 100 kb; bei Pflanzen bis 2.000 kb
• Chloroplasten: 100 bis 300 kb
Genomgrößen und Genanzahl
Genom größe in Mb (logarithm isch)
1
10
100
1.000
10.000
Helicobacter pylori
Methanococcus jannaschii
Haemophilus influenzae
Halobacterium sp.
Escherichia coli K12
Anzahl Gene
Genomgröße in Mb
Saccharomyces cerevisiae
Caenorhabditis elegans
Arabidopsis thaliana
Drosophila melanogaster
Homo sapiens
0
5.000
10.000
15.000
20.000
Anzahl der Gene
25.000
30.000
35.000
Evolution der Genomgröße
Bakterien-Genome
• Genom ist meist eine ringförmige
DNA
• im Nucleoid lokalisiert
• viele, manchmal überlappende
Gene
• z. B. E. coli: ca. 1 Gen pro kb
• Gene selbst sind nicht
unterbrochen, ca. 1 kb groß
• Operons: mehrere Gene hinter
einem Promotor
• Haushaltsgene bis zu Säugern
konserviert
Eukaryonten-Genome
• Genom ist im Kern lokalisiert
• meist in mehreren
Chromosomen
• Gene oft weit getrennt
• z. B. H. sapiens: ca. 9 Gene pro
Mb, ca. 10-15 kb groß
• Gene selbst sind oft
unterbrochen (Introns)
• viele Bereiche nicht-kodierend
Translationsstart
ATG
Promotor
Gen
Transkriptionsstart
+1
Eukaryonten-Genstruktur
Polyadenylierungsstelle
Stopcodon
AAUAAA
TAG
Exon
Intron
3’ UTR
5’ UTR
Transkription
primäres
Transkript
Spleißen
fertige mRNA
Cap
Unterschiede beim Prokaryonten (Bakterien):
- andere Promotorstruktur
- UTRs sehr kurz
- keine Introns
- andere Termination (kein polyA)
AAAAA
Eukaryonten-Genome
30000-40000
30.000 Gene beim Menschen
• Größe der Gene: ca. 10 - 15 kb
• Abstand zwischen Genen: ca. 60 - 70 kb
• "Rekordhalter": Dystrophin-Gen mit über 2,4 Mb (79 Exons)
• Größe der Exons: ca. 170 bp, aber auch Ausnahmen bis zu 7,6 kb
• Anzahl der Introns: 0 (z. B. Histon H4) bis 118 (Typ7-Collagen, 31 kb)
• Größe der Introns: bis hin zu 150 kb
• Größe der mRNAs: ca. 2,2 kb mit großer Variabilität
• Gen ist nicht gleich Gen:
- Benutzung alternativer Promotoren (z. B. 7 beim Dystrophin-Gen)
- alternatives Spleißen
- alternative Polyadenylierung
Von der Karte zum Genom
Chromosomenkarte des
X-Chromosoms
Von der Karte zum Genom
Strategien zur Genomsequenzierung
• ESTs (expressed sequence tags) für exprimierte
Gene (cDNA)
• Shot gun- oder Primer Walk-Methode (genomisch)
• Klonierung in Cosmide, BACs (Bacterial Artificial
Chromosomes), PACs (P1-derived artificial
chromosome) Phagemide, P1-Phagen
Insert-Größenverteilung in BACs
Shot gun - Sequenzierung
• Zufällig fragmentierte DNA durch "Nebulizer"
• Klonierung in Standard-Vektoren
• High-throughput-Sequenzierung durch automatische
Sequencer (z. B. ABI377) und Fluoreszenz-markierte
Terminatoren (ddNTPs); Standard-Primer
• Zusammenfügen der Sequenzstücke durch AssemblyProgramme
• Untersuchung auf biologisch relevante DNA-Sequenzen
durch Datenbankabfragen
• Klone werden nach Analyse aufbewahrt
Das "Assembly"-Problem
• Das Ergebnis einer Shot gun - Sequenzierung ist vergleichbar mit einem Puzzle:
- Viele, viele Teile
- Vorder- und Rückseite
- Einige sind schmutzig oder unkenntlich
- Teile anderer Puzzle sind mit drin
• Multiplizität der Probleme:
- 99% Lesegenauigkeit bei der Sequenzierung, d. h. Ø 1 Fehler pro 100 bp
- Häufung der Fehler am Ende der Sequenz
- genau diese Regionen sind für das Assembly wichtig
- repetitive Sequenzen in der DNA, gleiche Sequenzen können auf verschiedenen
Chromosomen auftreten
 Assembly der Sequenzen ist der Flaschenhals der Genomprojekte
Das "Assembly"-Problem
• Fehlertolerante Algorithmen zum Alignment zweier und mehrerer Sequenzen
• Fehlerquellen:
- primäre Fehler: chemisch, d. h. bei der DNA-Gewinnung (v. a. PCR)
oder bei der Sequenzreaktion
- sekundäre Fehler: beim Lesen des Chromatogramms (suboptimale Signalqualität;
Lösung: menschliche Erfahrung und bessere Chemie, v. a. Dyes)
- tertiäre Fehler: Klonierungsvektorsequenzen müssen entfernt werden
• Probleme: Effizienz und Automatisierung
• Effizienz: Das Ausgabeformat (SCF: Standard Chromatography Format) der
Sequenzer benötigt relativ viel Speicherkapazität (ca. 100 byte pro Base, d. h. 1.000
Reaktionen mit je 1.000 gelesenen Basen benötigen 100 MB)
 geeigneteres Format (CAF: Common Assembly Format, standardisiert)
• Automatisierung: Kombination des Alignment-Reject-Editing-Verfahrens in silicio
Das "Assembly"-Problem
• Alignment:
Alphabet  mit allen Zeichen, die im Alignment vorkommen (können):
 = {A,C,G,T,*,~}
Die Sequenz S ist eine geordnete Folge von Charakteren aus dem Alphabet :
S = {s1,...,sn} mit n = |S| und si  
Durch die Einführung von "end-gaps" (~) in das Alignment wird das
Problem umgangen, daß alle Sequenzen die gleiche Länge haben müssen.
Bsp.:
Sequenz 1:
Sequenz 2:
ACGTACGTACGTACGTACGTACGT~~~~
~~~~~CG*ACGT*CGTACGTACGTACGT
Das "Assembly"-Problem
• Bewertung des Alignments:
Der numerische Vergleich zweier Elemente in einem Alignment wird als Score
bezeichnet:
score(s1, s2)
Der Score-Wert einer Spalte in einem Alignment ist die Summe der Scores der
Permutation von Elementen dieser Spalte:
k k
score(s1,...,sk) =   score(sj,sm)
j=1 m=j
Der Score-Wert des Gesamt-Alignments ist demnach die Summe aller Spalten-Scores:
nk k
score(S1,...,Sk) =    score(sj,sm)
i
j
m
Das "Assembly"-Problem
• Accept/Reject des Alignments:
Für jede Art von Abweichungen können "Strafpunkte" vergeben werden:
- Direkte Abweichung: „mismatch“ (z. B. T-A, C-T etc.)
- Einfügen von Lücken
- Verlängerung von Lücken
- Lücken am Ende
Erreichen die Strafpunkte einen Schwellenwert (threshold), so wird das Alignment
abgelehnt; ansonsten wird das Ergebnis gespeichert und mit anderen Alignments weiter
verglichen.
Einfachster Algorithmus für Alignments:
Dotplot
Gegeben:
A = a1,a2,a3,...,an
B = b1,b2,b3,...,bm
Sequenz A der Länge n
Sequenz B der Länge m
Für alle i, j mit 1  i  n, 1  j  m soll gelten:
M [i,j] = 1 für ai = bj  score für match
M [i,j] = 0 für aj  bj  score für mismatch
M [i,j] wird als 2-dimensionale
Matrix dargestellt
A C C G T A
A
G
C
G
T
A
Einfachster Algorithmus für Alignments:
Dotplot
Gegeben:
A = a1,a2,a3,...,an
B = b1,b2,b3,...,bm
Sequenz A der Länge n
Sequenz B der Länge m
Für alle i, j mit 1  i  n, 1  j  m soll gelten:
M [i,j] = 1 für ai = bj  score für match
M [i,j] = 0 für aj  bj  score für mismatch
M [i,j] wird als 2-dimensionale
Matrix dargestellt
A
G
C
G
T
A
A
1
0
0
0
0
1
C
0
0
1
0
0
0
C
0
0
1
0
0
0
G
0
1
0
1
0
0
T
0
0
0
0
1
0
A
1
0
0
0
0
1
Einfachster Algorithmus für Alignments:
Dotplot
Gegeben:
A = a1,a2,a3,...,an
B = b1,b2,b3,...,bm
Sequenz A der Länge n
Sequenz B der Länge m
Für alle i, j mit 1  i  n, 1  j  m soll gelten:
M [i,j] = 1 für ai = bj  score für match
M [i,j] = 0 für aj  bj  score für mismatch
M [i,j] wird als 2-dimensionale
Matrix dargestellt
Längste Diagonale ohne Unterbrechung
Markiert das beste Teilalignment
A C C G T A
A 1
1
G
1
C
1 1
G
1
T
1
A 1
1
Dotplot-Beispiel:
Sequenzassembly
Sequenz A
Sequenz A
Sequenz B
Grafische Darstellungsmöglichkeit:
1 (match)  weißer Punkt
0 (mismatch)  schwarzer Punkt
Sequenz B
Accept/Reject des Alignments
„Feinheiten“ des Assembly-Problems
Translationsstart
ATG
Promotor
Transkriptionsstart
+1
Dotplot-Beispiel:
Vergleich cDNA (mRNA) – genom. DNA
Polyadenylierungsstelle
Stopcodon
AAUAAA
TAG
Exon
Intron
genom. DNA
3’ UTR
5’ UTR
Transkription Spleißen
Cap
AAAAA
mRNA
genom.
DNA
mRNA
(cDNA)
Notwendigkeit von Scoring-Matrizen
Nukleotid-Sequenzalignments können über scoring-Kritierien wie
scorematch = 1
scoremismatch = 0
bewertet werden.
Bei Protein-Sequenzen ist dies nicht mehr realistisch:
Ein Austausch einer Aminosäure gegen eine ähnliche ist
anders zu bewerten als ein Austausch gegen eine unähnliche.
Ähnlichkeitsmatrizen
BLOSUM45 Amino Acid Similarity Matrix (BLOcks SUbstituition Matrix)
Gly
Pro
Asp
Glu
Asn
His
Gln
Lys
Arg
Ser
Thr
Ala
Met
Val
Ile
Leu
Phe
Tyr
Trp
Cys
7
-2
-1
-2
0
-2
-2
-2
-2
0
-2
0
-2
-3
-4
-3
-3
-3
-2
-3
Gly
9
-1
0
-2
-2
-1
-1
-2
-1
-1
-1
-2
-3
-2
-3
-3
-3
-3
-4
Pro
7
2
2
0
0
0
-1
0
-1
-2
-3
-3
-4
-3
-4
-2
-4
-3
Asp
6
0
0
2
1
0
0
-1
-1
-2
-3
-3
-2
-3
-2
-3
-3
Glu
6
1
0
0
0
1
0
-1
-2
-3
-2
-3
-2
-2
-4
-2
Asn
10
1
-1
0
-1
-2
-2
0
-3
-3
-2
-2
2
-3
-3
His
6
1
1
0
-1
-1
0
-3
-2
-2
-4
-1
-2
-3
Gln
5
3
-1
-1
-1
-1
-2
-3
-3
-3
-1
-2
-3
Lys
7
-1
-1
-2
-1
-2
-3
-2
-2
-1
-2
-3
Arg
4
2
1
-2
-1
-2
-3
-2
-2
-4
-1
Ser
5
0
-1
0
-1
-1
-1
-1
-3
-1
Thr
5
-1
6
0
1
-1
2
-1
2
-2
0
-2
0
-2 -2
-1 -2
Ala Met
5
3
5
1
2
5
0
0
1
8
-1
0
0
3
8
-3 -2 -2
1
3 15
-1 -3 -2 -2 -3 -5 12
Val Ile Leu Phe Tyr Trp Cys
Vorlesung Bioinformatik Teil II
Genomics
04.06.: Genomstrukturen, Sequenzierprojekte
11.06.: Annotation, Datenbanken und Datenbanksuche
18.06.: Paarweiser Sequenzvergleich (Rainer Merkl)
25.06.: Multipler Sequenzvergleich, Anwendungen (Rainer Merkl)
Historisches zu Datenbanken
"Zuerst war das Protein"
Dayhoff, Anfang der 60er Jahre: Sammlung von allen bekannten Aminosäuresequenzen
 Atlas of Protein Sequences and Structures (Dayhoff et al., 1965)
 Grundlage für die PIR-Datenbank (Protein Information Resource)
EMBL-Nukleotiddatenbank (1982)
erste DNA-Sequenzdatenbank am European Molecular Biology Laboratory
in Hinxton, England
- mit DDBJ (Mishima, Japan) und NCBI (Bethesda, USA) in der
"International Nucleotide Sequence Database Collaboration" (1988)
- separate Eingabe möglich, aber täglicher Datenabgleich
- Updates nur bei der Stelle möglich, bei der der Record erzeugt wurde
Wachstum der EMBL-Datenbank
Stand 10.06.2004:
This morning the EMBL Database contained 66,139,788,831 nucleotides in 40,066,073 entries.
Quelle: http://www3.ebi.ac.uk/Services/DBStats/
Datenbankformate
GenBank:
• Genetische Sequenz-Datenbank
• gepflegt durch das NCBI (National Center for Biotechnology Information)
am NIH (National Institutes of Health), Bethesda, Maryland, USA
• annotierte Sammlung aller öffentlich verfügbarer Nukleotid- und Proteinsequenzen
• einzelne Datensätze repräsentieren zusammenhängende DNA- oder RNA-Bereiche
mit weiteren Daten (die sogenannte Annotation)
NCBI's Entrez
• Nukleotiddaten als "Sprungbrett" für weitere Informationen, vor allem CDS
• CDS = Coding Sequence(s), also Translationsinformation von Proteinen
• Co-Management von DNA- und Proteindaten
Analoges System am EBI: Sequence Retrieval System (SRS)
Primäre und sekundäre Datenbanken
Primäre Datenbanken:
- experimentelle Ergebnisse
- mit einigen Interpretationen (s. u.)
- aber ohne kritischen "Review“
- normalerweise direkt von den Forschern mit Daten versorgt
Annotation:
- CDS (meist abgeleitet von DNA-Sequenz, nicht experimentell)
- (mögliche) Funktion (meist durch subjektive Interpretation von Ähnlichkeitsanalysen)
- regulatorische Elemente
- ...
Primäre und sekundäre Datenbanken
Sekundäre Datenbanken:
- abgeleitete Eigenschaften als Haupteintrag
- Proteindatenbanken PIR, SWISS-PROT, PDB
- abgeleitet aus DNA-Datenbanken
- oder direkt eingegeben
- oder aus Publikationen übernommen
- aber immer soweit wie möglich überprüft
Format und Inhalt
- Datenbankeinträge: Rohdaten und Annotation
- Verarbeitungseffizienz im Computer und die Verständlichkeit stehen im Widerspruch
Beispiel: GenBank-Flatfile bzw. EMBL-Record vs. ASN.1-Record
GenBank-Flatfile:
LOCUS
DEFINITION
ACCESSION
NID
VERSION
KEYWORDS
SOURCE
ORGANISM
LISOD
756 bp
DNA
BCT
30-JUN-1993
L.ivanovii sod gene for superoxide dismutase.
X64011 S78972
g44010
X64011.1 GI:44010
sod gene; superoxide dismutase.
Listeria ivanovii.
Listeria ivanovii
Bacteria; Firmicutes; Bacillus/Clostridium group; Bacillaceae;
Listeria.
REFERENCE
1 (bases 1 to 756)
AUTHORS
Haas,A. and Goebel,W.
TITLE
Cloning of a superoxide dismutase gene from Listeria ivanovii by
functional complementation in Escherichia coli and characterization
of the gene product
JOURNAL
Mol. Gen. Genet. 231 (2), 313-322 (1992)
MEDLINE
92140371
FEATURES
Location/Qualifiers
source
1..756
/organism="Listeria ivanovii"
/strain="ATCC 19119"
/db_xref="taxon:1638"
RBS
95..100
/gene="sod"
gene
95..746
/gene="sod"
.
.
.
Aufbau des GenBank-Flatfiles
1. Header: Informationen, die den gesamten Eintrag betreffen
- LOCUS (einmalige accession number, z. B. AF010325 / Länge / Molekülart /
Klassifizierung / Datum der letzten Änderung)
- DEFINITION (Information, die u. a. bei BLAST mitausgegeben wird)
- ACCESSION (primäre und sekundäre accession numbers)
- NID (gi number: GenInfo Identifier, wird bei update erneuert)
- VERSION (updates)
- KEYWORDS (Schlüsselwörter; "historischer Ballast")
- SOURCE (gebräuchlicher Name des Organismus, z. B. fruit fly)
- ORGANISM (lateinischer Name der Art, z. B. Drosophila melanogaster)
- REFERENCE (Publikation, soweit vorhanden, und GenBank-Submission)
Aufbau des GenBank-Flatfiles
2. Feature Table: Eigenschaften der Sequenz (FEATURES)
- biologische Information
- Annotation
- z. B. SOURCE / CDS
- genaue Übersicht über alle möglichen Einträge in die Feature Table:
http://www.ncbi.nlm.nih.gov/collab/FT/index.html#feature_key_ref
FEATURES
source
promoter
mRNA
CDS
exon
intron
exon
polyA_signal
Location/Qualifiers
1..1509
/organism="Mus musculus"
/strain="CD1"
<1..9
/gene="ubc42"
join(10..567,789..1320)
/gene="ubc42"
join(54..567,789..1254)
/gene="ubc42"
/product="ubiquitin conjugating enzyme"
/function="cell division control"
/translation="MVSSFLLAEYKNLIVNPSEHFKISVNEDNLTEGPPDTLY
QKIDTVLLSVISLLNEPNPDSPANVDAAKSYRKYLYKEDLESYPMEKSLDECS
AEDIEYFKNVPVNVLPVPSDDYEDEEMEDGTYILTYDDEDEEEDEEMDDE"
10..567
/gene="ubc42"
/number=1
568..788
/gene="ubc42"
/number=1
789..1320
/gene="ubc42"
/number=2
1310..1317
/gene="ubc42"
Aufbau des GenBank-Flatfiles
3. Sequenz:
- Formatierte DNA-Sequenz (10er Blöcke zur Übersichtlichkeit)
- mit Basenzählung
- durchnummeriert
- Bsp.:
BASE COUNT 1510 a 1074 c 835 g 1609 t
1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg
61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct
121 ctgcatctga agccgctgaa gttctactaa gggtggataa catcatccgt gcaagaccaa
.
.
.
EMBL-Record:
ID
XX
AC
XX
DT
XX
DE
XX
KW
XX
OS
OC
OC
XX
RN
RX
RA
RT
RL
XX
XX
FH
FH
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
FT
LISOD
standard; DNA; PRO; 756 BP.
X64011; S78972;
28-APR-1992 (Rel. 31, Created)
L.ivanovii sod gene for superoxide dismutase
sod gene; superoxide dismutase.
Listeria ivanovii
Bacteria; Firmicutes; Bacillus/Clostridium group;
Bacillus/Staphylococcus group; Listeria.
[1]
MEDLINE; 92140371.
Haas A., Goebel W.;
"Cloning of a superoxide dismutase gene";
Mol. Gen. Genet. 231:313-322(1992).
Key
Location/Qualifiers
source
1..756
/db_xref="taxon:1638"
/organism="Listeria ivanovii"
/strain="ATCC 19119"
95..100
/gene="sod"
723..746
/gene="sod"
109..717
/db_xref="SWISS-PROT:P28763"
/transl_table=11
/gene="sod"
...
RBS
terminator
CDS
ASN.1-Record: (Abstract Syntax Notation)
.
.
.
seq-set {
seq {
id {
local
str "VCREGA" } ,
descr {
title "Volvox carteri f. nagariensis regA gene, genomic locus" ,
molinfo {
biomol genomic } ,
create-date
std {
year 1998 ,
month 11 ,
day 16 } } ,
inst {
repr raw ,
mol dna ,
length 15322 ,
seq-data
ncbi2na 'FB07EFB13EDBE6FA215F5C3E07BF010CE891D3257E7306CD7E7BD
F2F116F887486DE2BFBA54841CFF264F52F3F7823C07F2F8CA4E6FA9E7A7C5D9DB30640305446B
41B69C81FE8094CF2FF52801D411F243A6CD7E717E03F9E7A07A041BA2CF992F40ACAB416919AD
.
.
.
Annotation
Aufgaben:
• Umwandlung in Datenbankformate
• Veröffentlichung der Sequenzdaten
• Kommentierung
• Verbindung mit weiteren Informationen
• z. B. Genstrukturen, regulatorische Elemente
Annotation
• Automatische Annotation im Rahmen von Sequenzprojekten
• Manuelle Annotation: Überprüfung der automatisch
generierten Daten
Verbindung von:
• Gen-Vorhersage (codierender Bereich)
• Promotor- und enhancer-Vorhersage
• Datenbankvergleiche (homologe Sequenzen),
EST-Datenbanken
Genstruktur-Vorhersage
Man unterscheidet zwischen Consensus und Nonconsensus (ab initio)
Programmen.
Consensus Methoden werden mittels eines bestimmten Satzes an Genen
„trainiert“, codierende Bereiche zu finden.
Diese Consensus Methoden sind sehr erfolgreich, wenn es sich um Gene
handelt, die den Genen, mit welchen diese Programme trainiert worden
sind, ähneln.
Ab initio-Algorithmen versuchen hingegen, anhand grundlegender
Charakteristika Gene zu finden
Genstruktur-Vorhersage
Ansatzpunkte für ab initio – Algorithmen:
• Exon-Intron-Strukturen (Spleiß-Stellen, Pyrimidin-reiche Regionen am
3'-Ende von Introns etc.; GT-AG-Regel)
• statistische Auffälligkeiten in kodierenden Regionen
• GC-Gehalt, Codon usage
• ...
Genstruktur-Vorhersage
Auffälligkeiten in kodierenden Regionen:
1. Positionsabhängige Nukleotidzusammensetzung:
Beispiel: Das Testcode-Programm im gcg-Paket: Fickett‘s Statistik (1982)
A-Position = Max(n(1), n(2), n(3)) / Min(n(1), n(2), n(3))
wobei n(1), n(2) und n(3) die Häufigkeit von A an den Positionen
(1,4,7,...), (2,5,8,...) und (3,6,9,...) darstellen.
Berechnung dieses Werts für alle 4 Basen in einem Sequenzfenster (>200 bp):
A-position, C-position etc. und Verrechnung mit weiteren statistischen Parametern
nichtcod. Seq: zufällige Verteilung der Basen: Position-Wert ~ 1
codierende Seq: gehäuftes Auftreten an best. Positionen: Position-Wert > 1
Testcode
Exon
Exon
Genstruktur-Vorhersage
2. Potentielle offene Leserahmen: Frames
Exon
Exon
Genstruktur-Vorhersage
3. Höherer GC-Gehalt an der dritten Stelle eines Codons: GC-Bias
Exon
Exon
Genstruktur-Vorhersage
4. Organismus-abhängige Codon-Auswahl: Codon usage / Codon Preference
Codon usage table / Codon frequency table
CUTG ID:
Volvox_carteri_pl
SPECIES:
Volvox carteri
SECTION:
Plants
SEQUENCES: 35
CODONS:
12911
AmAcid Codon
Number
/1000
Fraction
Gly
Gly
Gly
Gly
GGG
GGA
GGT
GGC
98.00
101.00
234.00
567.00
7.59
7.82
18.12
43.92
0.10
0.10
0.23
0.57
Glu
Glu
Asp
Asp
GAG
GAA
GAT
GAC
648.00
107.00
214.00
406.00
50.19
8.29
16.58
31.45
0.86
0.14
0.35
0.65
..
Genstruktur-Vorhersage
4. Organismus-abhängige Codon-Auswahl: Codon usage / Codon Preference
Gribskov et al, 1984
Bewertung der Häufigkeit einzelner Codons aus der analysierten Sequenz
im Vergleich zur Codon Usage des Organismus
Berechnung in einem Fenster (25 codons), das mit einem Inkrement von 3
Basen über die Sequenz geschoben wird
Zusätzlich werden seltene Codons markiert
Genstruktur-Vorhersage
4. Organismus-abhängige Codon-Auswahl: Codon usage / Codon Preference
Exon
Exon
Genstruktur-Vorhersage
Testansatz von Fickett & Tung, 1992:
- GenBank unterteilt in 108 bp-Fenster ohne Überlappungen
- nur die Fenster weiterverwenden, die entweder komplett kodierend
oder komplett nicht-kodierend sind
- Analyse der positionsabhängigen Nukleotid-Zusammensetzung, GC-Bias, Codon
usage mit verschiedenen Algorithmen (mehr als 20 damals publizierte Methoden)
-> Schlußfolgerung: einfachste Algorithmen, z. B. Oligomer-Zusammensetzung,
sind effektiver (sensitiver und spezifischer) als viele andere Methoden
Genstruktur-Vorhersage
Ablauf von "Gene Finding"-Programmen:
1. Maskierung repetitiver DNA-Elemente:
SINE, LINE, Organismus-spezifische wie z. B. Alu bei Primaten ...
2. Homologiesuche:
BLAST gegen Datenbanken, u. a. EST
- Protein-kodierende Gene über BLASTX
- rRNA-Gene
- tRNA-Gene
- snRNA-Gene
}
über BLASTN
Genstruktur-Vorhersage
Ablauf von "Gene Finding"-Programmen:
3. Anwendung spezieller Suchparameter:
- Codon usage
- GC-Gehalt
- offene Leseraster
- Speißstellen
- Nachbarschaft zu regulatorischen Elementen
...
4. Abgleich der gefundenen „Gene“ untereinander:
- keine Überlappung von Genen
- es gibt aber auch Ausnahmen, gerade bei Bakterien!
Definitionen:
• AP: tatsächlich positive Positionen, d. h. im Gen
• AN: tatsächlich negative Positionen, d. h. nicht im Gen
• PP: vorhergesagt (predicted) positive Positionen
• PN: vorhergesagt (predicted) negative Positionen
• TP: wahr positive Ausgaben
• TN: wahr negative Ausgaben
• FP: falsch positive Ausgaben
• FN: falsch negative Ausgaben
Vorhersage-Genauigkeit:
- Sensitivität: Sn = TP / AP (wieviele richtige überhaupt erkannt)
- Spezifität: Sp = TP / PP (wieviele der richtig vorhergesagten sind wirklich richtig)
- Selektivität: Sl = TN / AN (wieviele falsche werden als solche richtig erkannt)
- Durchschnittliche Korrelation (approx. Correlation):
AC = ((TP/(TP+FN)) + (TP/(TP+FP)) + (TN/(TN+FP)) + (TN/(TN+FN))) / 2 - 1
Genstruktur-Vorhersage
Die Wir klich keit:
Genstruktur-Vorhersage
Die Wir klich keit:
Die Vor h er sage:
Genstruktur-Vorhersage
Die Wir klich keit:
Die Vor h er sage:
Die Gen auigkeit:
FN
TN
TP
FP
Genstruktur-Vorhersage
• Ab initio - Vorhersagen: GENSCAN
(1997, Christopher Burge, http://genes.mit.edu/GENSCAN.html)
Prinzip: Fourier – Transformation. Auswertung der 3 – Basen Periodizität,
welche codierende Bereiche aufweisen
- ursprünglich entwickelt für menschliche und Vertrebraten-Sequenzen
- strikt Organismus-spezifisch: Mais, Arabidopsis und Drosophila getestet;
für Caenorhabditis in Entwicklung (Testphase)
- ME: Missing Exons; WE: Wrong Exons
Accur acy per nucleotide
Method
Sn
Sp
AC
GENSCAN
0.93
0.93
0.91
FGENEH
0.77
0.85
0.78
GeneID
0.63
0.81
0.67
GenePar ser 2 0.66
0.79
0.66
GenLang
0.72
0.75
0.69
GRAILII
0.72
0.84
0.75
SORFIND
0.71
0.85
0.73
Xpound
0.61
0.82
0.68
Sn
0.78
0.61
0.44
0.35
0.50
0.36
0.42
0.15
Accur acy per exon
Sp (Sn+Sp)/2 ME
0.81
0.80
0.09
0.61
0.61
0.15
0.45
0.45
0.28
0.39
0.37
0.29
0.49
0.50
0.21
0.41
0.38
0.25
0.47
0.45
0.24
0.17
0.16
0.32
WE
0.05
0.11
0.24
0.17
0.21
0.10
0.14
0.13
Genstruktur-Vorhersage
• Ab initio - Vorhersagen: GLIMMER
(Gene Locator and Interpolated Markov Modeler, TIGR)
Prinzip: Interpoliertes Markov Modell (IMM)
- für Bakterien
- hohe Spezifität und Sensitivität
- verwendet u.a. bei der Genom-Sequenzierung von Borrelia burgdorferi,
Thermotoga maritima oder Mycobacterium tuberculosis.
Organism
H. influenzae
M. genitalium
M. jannaschii
H. pylori
E. coli
B. subtilis
A. fulgidis
B. burgdorferi
T. pallidum
T. maritima
Genes
annotated
1738
483
1727
1590
4269
4100
2437
853
1039
1877
Annotated
genes found
1720
480
1721
1550
4158
4030
2404
843
1014
1854
% found
99.0
99.4
99.7
97.5
97.4
98.3
98.6
99.3
97.6
98.8
Genstruktur-Vorhersage
Neuere Ansätze nutzen zusätzlich EST-Daten:
Spliced Alignment zur Exon-Intron-Vorhersage
Beispiel: GeneSeqer
• jeder Treffer im Alignment erhält Exon-Status
• Introns sind lange Lücken im Alignment
• Splice site consensus wird berücksichtigt
• Scoring ergibt sich aus Alignment und Splice sites
Genstruktur-Vorhersage
GeneSeqer:
• Genomische DNA (z. B. BAC) als Query-Sequenz
• große Anzahl von ESTs
• Vorauswahl der ESTs durch "schmutzige" Alignments
• nur "gute" ESTs werden vollständig prozessiert
• spezielles EST-Format (dbEST) zum schnellen Zugriff
• Splice-Parameter für: human, mouse, rat, chicken, Drosophila,
nematode, yeast, Aspergillus, Arabidopsis, maize
• Ursprünglich entwickelt für Arabidopsis
Genstruktur-Vorhersage
GeneSeqer: EST-Datenbanken
Last update:
March 12, 2001
Label
Species
# of ESTs
soybean
Drosophila
Arabidopsis
C.elegans
tomato
M.truncatula
maize
rice
barley
wheat
sorghum
cotton
pine
L.japonicus
potato
iceplant
Glycine max
Drosophila melanogaster
Arabidopsis thaliana
Caenorhabditis elegans
Lycopersicon esculentum
Medicago truncatula
Zea mays
Oryza sativa
Hordeum vulgare
Triticum aestivum
Sorghum bicolor
Gossypium arboreum & hirsutum
Pinus taeda
Lotus japonicus
Solanum tuberosum
Mesembryanthemum crystallinum
154,215
116,471
113,000
109,215
107,238
101,752
86,260
71,888
68,903
58,141
57,414
36,077
34,806
27,078
26,177
14,033
Genstruktur-Vorhersage
SplicePredictor: trainiertes System zur Spleißstellenerkennung
* Trainingssequenzen: Arabidopsis und Mais
* Kennzeichen für Exon-Intron-Exon-Übergänge:
- 5' GT - AG 3'
- cAG an 3'
- Pyrimidin-Stretch am 3'-Ende (30 - 40 bp vor AG; >70 %)
- Aufrechterhaltung des ORF
Genstruktur-Vorhersage
SplicePredictor: trainiertes System zur Spleißstellenerkennung
Example:
t
q
loc
sequence
P
rho
gamma
*
P*R*G*
parse
...
A
26556 gtatcagattggcAGtc
0.002
0.000
0.000
3 (1 1 1)
IIIAEEE-E-EDAEEEE
D ->
26575
gagGTcttt
0.024
0.000
0.000
3 (1 1 1)
IIAEEEE-E-DAEEEEE
D ---->
26640
gagGTaaca
0.432
0.159
0.407
11 (3 4 4)
IAEEEEE-D-AEEEEEE
A <-----
26739 tttttcatatttcAGga
0.933
0.428
0.861
15 (5 5 5)
AEEEEED-A-EEEEEED
A
26792 atcagacgatttcAGgg
0.008
0.000
0.000
3 (1 1 1)
IIAEEDA-E-EEEEEDA
...
<-
<-
Datenbanksuchen
Vorhanden: unbekannte DNA- oder Proteinsequenz
Gesucht: gibt es diese oder eine ähnliche Sequenz in der
Datenbank?
Prinzip:
- Vergleich der Suchsequenz mit jeder einzelnen Sequenz in der
Datenbank
- Bewertung der Ähnlichkeit anhand eines scoring-Algorithmus
- Ausgabe der Treffer mit dem besten score
Problem:
Optimale Algorithmen sind zu zeitaufwendig
 Heuristische Ansätze sind erforderlich
Datenbanksuchen: FASTA
Ablauf: Sequenzen der Datenbank werden mehrmals mit der Suchsequenz verglichen,
zunächst grob, dann mit feineren Methoden.
Lokale Alignments werden erstellt, um homologe Regionen zu finden.
In jedem Durchlauf werden nur die möglicherweise Homologen behalten.
Im Detail: FASTA ist ein Zwei-Schritt-Algorithmus mit vier Phasen:
1. Wortsuche zum Finden ähnlicher Regionen / Bewertung / Verbindung der Teile
2. Smith-Waterman-Alignment an diesen Regionen
Datenbanksuchen: FASTA
1.
Für die Wortsuche werden Suchsequenz und Datenbank indiziert.
Bei Proteinen wird eine Wortlänge von 2 und bei DNA von 6 verwendet
Word List für FASTA, Word Size = 6
g
c
t
g
g
a
g
c
c
t
t
t
g
g
g
g
g
g
g
g
g
a
a
a
a
a
a
a
g
g
c
a
t
a
a
a
a
a
a
g
g
g
g
g
g
g
g
g
c
c
c
a
a
t
Einschub: Hash-Verfahren
Die naive Suche eines Datensatzes in einer Liste dauert sehr lange
Speicheradresse
A
1
2
3
4
5
6
...
Suchwort
(Schlüssel)
aaaaaa
aaaaac
aaaaag
aaaaat
aaaaca
aaaacc
...
Verkettung
(Auftreten in der Datenbank)
„
„
„
„
„
...
Schnelle Suche mittels einer Hash-Funktion:
h: K
A
K: Menge aller Schlüssel (Suchworte)
A: Menge der Speicheradressen
D.h. aus dem Suchwort (Schlüssel) wird direkt die Speicheradresse des Datensatzes
berechnet.
Datenbanksuchen: FASTA
Mit diesen k-tupeln mit der Länge 2 bzw. 6 werden exakte Treffer ermittelt.
Diagonalfolgen liegen auf einer gedachten Matrix auf einer Diagonalen.
Matches und Mismatches,
aber keine Gaps!
Datenbanksuchen: FASTA
2.
Innerhalb der 10 Diagonalfolgen mit den höchsten Scores werden lokale optimale
Alignments bestimmt.
Verwendet werden scoring-Matrizen (PAM oder BLOSUM)
Der größte Score-Wert wird als init1 ausgegeben.
Datenbanksuchen: FASTA
3.
Verlängerung der initialen Regionen zu größeren Alignments.
Hier werden das erste Mal Lücken eingeführt, wenn nötig.
Das erhaltene Alignment initn hat den maximalen Score unter
Berücksichtigung der scoring-Matrix und der Gap Penalities.
Datenbanksuchen: FASTA
4.
Ein zu initn alternativer Score opt wird errechnet.
- Hierbei wird nur ein schmaler Streifen der Matrix ausgewertet.
- Die Mitte ist durch init1 definiert.
- Breite ist abhängig von der Wortlänge, z. B. 16 für ktup = 2
- Berechnung des opt-Wertes über Smith-Waterman
- Verwendung von scoring-Matrix und Gap Penalties
Datenbanksuchen: BLAST
BLAST: Basic Local Alignment Search Tool
BLAST ist ebenfalls eine Annäherung an den Smith-Waterman-Algorithmus.
BLAST beginnt mit der Lokalisierung kurzer Teilsequenzen: Segment-Paare / hits
Lokale optimale Paare, die je einen hit beinhalten, werden als
HSPs (High-Scoring Segment-Pairs) bezeichnet.
Beginn und Ende der HSPs wird so gewählt, daß eine Verkürzung oder Verlängerung
den Score erniedrigen würde.
Datenbanksuchen: BLAST
Ablauf:
1.
Präprozessierung:
Aus der Eingabesequenz wird die Menge aller Teilworte TW mit Länge w gebildet.
Standard: Proteine: w=3, DNA: w=11
Teilwort B  TW dient zur Bestimmung sämtlicher Worte (w-mere) mit Score S > T.
Liste aller w-mers der Länge 2 mit Score S > T = 8 (BLOSUM 62)
für die Sequenz RQCSAGW
Teilwort B
RQ
QC
CS
SA
AG
GW
w-mers
RQ
QC, RC, EC, NC, DC, HC, KC, MC, SC
CS, CA, CN, CD, CQ, CE, CG, CK, CT
kein w-mer der Länge 2 hat einen Score > 8
AG
GW, AW, RW, NW, DW, QW, EW, HW, KW, PW, SW, TW, WW
Datenbanksuchen: BLAST
2. Lokalisierung der hits:
Vergleichssequenz aus der Datenbank wird
auf das Vorkommen der w-mere
hin untersucht.
Von jedem hit wird die Position bestimmt.
Darstellung in einer Matrix (vgl. DotPlot).
hit
Datenbanksuchen: BLAST
3. Bestimmung der HSPs:
Welche Paare von hits liegen auf einer
Diagonale der Matrix?
Berücksichtigung des räumlichen
Abstands A der hits.
Für Proteine wird A = 40 gewählt.
hit
mit Abstand < A
Datenbanksuchen: BLAST
4. Erweiterung mit Lücken:
In einer gedachten Matrix wird das
Alignment in beide Richtungen
verlängert.
Parameter Xg begrenzt die Verlängerung
durch minimalen Score,
der angenommen werden darf.
Lücken sind erlaubt.
Abweichung
des Scores < Xg
Datenbanksuchen: Vergleich FASTA - BLAST
BLAST ist:
• schneller
• sensitiver bei Proteinsuchen, da sequenzähnliche Oligomere verwendet werden
statt identische Dipeptide bei FASTA
• flexibler, da Nukleotidsequenzen in alle 6 Leserahmen umgesetzt werden können
FASTA ist:
• sensitiver bei Nukleotidsuchen, da kürzere (6 statt 11) Wortlängen verwendet werden
• besser geeignet im Vergleich cDNA gegen genomische Datenbanken
-> bei Gap Extension Penalty = 0 können auch lange Introns übersprungen werden
-> BLAST würde nur das längste Exon finden (wenn überhaupt)
Datenbanksuchen: BLAST
Verschiedene BLAST-Programme:
• blastn: Nukleotidsequenz gegen Nukleotiddatenbank
• blastp: Proteinsequenz gegen Proteindatenbank
• blastx: translatierte Nukleotidsequenz (alle 6 Leserahmen) gegen Proteindatenbank
• tblastn: Proteinsequenz gegen translatierte Nukleotiddatenbank
• tblastx: translatierte Nukleotidsequenz (alle 6 Leserahmen) gegen translatierte
Nukleotiddatenbank (alle 6 Leserahmen)
Datenbanksuchen: Statistische Signifikanz
Wahrscheinlichkeits-Dichtefunktion (Extremwertverteilung)
Bezug eines erhaltenen Alignment-Scores S zur erwarteten Verteilung:
- P-Wert: Maß für die Wahrscheinlichkeit, daß ein Alignment mit dem Score S
oder besser durch reinen Zufall entstünde (gut: P gegen 0)
- E-Wert: Erwartete Anzahl von zufälligen Alignments mit Scores  S
Signifikanz abhängig von der Größe des gesamten Suchraums
(z. B. Anzahl der Aminosäuren/Nukleotide in der Datenbank)
und der erwarteten Länge des lokalen Alignments
Exakte statistische Theorie existiert nur für Alignments ohne Lücken.
Datenbanksuchen: Statistische Signifikanz
Frage:
Ist ein bestimmtes Alignment mit einem Score S ein Beweis für
die Homologie?
Abschätzung des Erwartungswertes durch Zufallsalignments.
3 Möglichkeiten des Zufallmodells:
1. echte, aber nicht-homologe Sequenzen
2. echte Sequenzen, aber in ihrer Abfolge permutiert
-> Zusammensetzung ist beibehalten
Beispiel:
Originalsequenz: ACGTACGT
Permutierte Seq: ACGTACTG
TGCATGCA
usw.
3. zufällig erzeugte Sequenzen, evtl. unter Berücksichtigung eines Modells
(z. B. Häufigkeitsverteilung der Aminosäuren)
Alignments: Statistische Signifikanz
Statistik zu lokalen Alignments ohne Lücken:
- HSPs sind lokal optimal, weisen einen Score S auf und haben keine Lücken
- Statistik möglich bei genügend langen Sequenzen (Längen n und m)
(n: Länge der Suchsequenz, m: Länge der Datenbanksequenz)
- Zwei Parameter für den Suchraum und das Scoring-System: K und l
Erwartete Anzahl von HSPs mit Scores  S:
E = Kmne-lS
E-Wert (E-value) für den beobachteten Score S eines HSPs
-> Verdoppelung der Sequenzlänge verdoppelt die Anzahl von zufälligen HSPs
mit Scores  S
Alignments: Statistische Signifikanz
Reine Score-Werte S geben keine Information über die Qualität des Ergebnisses
ohne genaue Kenntnis über die Datenbank und den Suchalgorithmus (bzw. K und l)
(vergleichbar mit Längenangabe ohne Einheit, z. B. 100 -> Meter, Kilometer, Lichtjahre ...)
-> Bit-Scores S' zur Normalisierung (auf Suchraum und Scoring-System):
S' = (lS - lnK) / ln2
aus den Bit-Scores S' lassen sich E-Werte ableiten,
die nur von den Sequenzlängen abhängen:
E = mn2-S'
-> für die Signifikanz-Beurteilung sind dann nur noch
die Sequenzlängen m und n zu wissen
S‘ und E werden in der BLAST-Ausgabe angegeben
Alignments: Statistische Signifikanz
Die Wahrscheinlichkeit, exakt a HSPs mit Score  S zu finden
(Poisson-Verteilung):
P = e-E(Ea/a!)
Für mind. 1 HSP mit einem Score  S gilt:
P = 1 - e-E
Der P-Wert ist auf diese Weise mit dem beobachteten Score S gekoppelt.
Für E < 0,01 gilt: P  E
für größere Werte wird E jedoch deutlich größer,
was für den Anwender anschaulicher ist
P: 0.993 0.99995
E: 5
10
Datenbanksuchen: Statistische Signifikanz
Speziell für Datenbanksuchen gilt:
Signifikanz muß berechnet werden für einen Vergleich eines Proteins mit Länge m
gegen eine Datenbank mit vielen Proteinen unterschiedlicher Länge
1. Möglichkeit:
a priori-Annahme, daß alle Proteine gleich wahrscheinlich mit der Query-Sequenz
verwandt sind.
E-Wert ergibt sich aus dem Produkt des E-Werts eines Pairwise-Alignments mit
der Anzahl der Proteine in der durchsuchten Datenbank.
(FASTA für Proteine nutzt diese Berechnung)
Datenbanksuchen: Statistische Signifikanz
2. Möglichkeit:
a priori-Annahme, daß Query-Sequenz mit höherer Wahrscheinlichkeit zu längeren
Sequenzen verwandt ist. Begründet wird dies mit der Domänenstruktur der Proteine.
Der E-Wert eines Pairwise-Alignments wird multipliziert mit dem Faktor N/n,
wobei
und
N: "Länge" der Datenbank in Nukleotiden bzw. Aminosäureresten
n: Länge der verglichenen Datenbanksequenz.
Wird z. B. von BLAST verwendet (E-Wert bei Ausgabe der Suchergebnisse).
aus
E = Kmne-lS
Bzw. aus E = mn2-S
wird dann
E = KmNe-lS
wird dann
E = mN2-S'
Datenbanksuchen: Statistische Signifikanz
Statistiken für Alignments mit Lücken:
-> Abschätzen der Parameter aus vielen Vergleichen
FASTA:
echte Sequenzen, kein Zufallsmodell
-> optimale Scores (lokal!) für Query-Sequenz gegen jede Datenbanksequenz
-> l und K bestimmbar
BLAST:
Vorabschätzung von l und K durch Zufallsmodell
-> schneller, da optimale lokale Scores nur aus Vergleich
mit ein paar unverwandten Sequenzen
-> zusätzlich in BLAST Korrektur der "Kanten-Effekte"
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Adresse: http://www.ncbi.nlm.nih.gov/BLAST/
Verwendbare Formate:
1. FASTA-Format:
Beinhaltet in der 1. Zeile nach dem ">"-Zeichen eine Sequenzbeschreibung, anschließend
die Sequenz ohne Unterbrechungen. Das Ende der Sequenz wird nach zwei Leerzeichen
automatisch erkannt.
Beispiel:
>gi|129295|sp|P01013|OVAX_CHICK GENE X PROTEIN (OVALBUMIN-RELATED)
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS
VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP
FLFLIKHNPTNTIVYFGRYWSP
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
2. Reine Sequenzen:
Wie FASTA-Format, aber ohne Sequenzbeschreibung.
Beispiel:
QIKDLLVSSSTDLDTTLVLVNAIYFKGMWKTAFNAEDTREMPFHVTKQESKPVQMMCMNNSFNVATLPAE
KMKILELPFASGDLSMLVLLPDEVSDLERIEKTINFEKLTEWTNPNTMEKRRVKVYLPQMKIEEKYNLTS
VLMALGMTDLFIPSANLTGISSAESLKISQAVHGAFMELSEDGIEMAGSTGVIEDIKHSPESEQFRADHP
FLFLIKHNPTNTIVYFGRYWSP
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
3. GenBank-Flatfile-Sequenz / gcg-Format ohne Header:
Üblicherweise aus GenBank-Ausgabe bzw. aus dem gcg-Format kopiert, wobei keine
Informationen außer Zählungshilfen vorhanden sein dürfen. Leerzeilen sind zu entfernen,
da sie für die Erkennung des Sequenzendes herangezogen werden.
Beispiel:
1
61
121
181
QIKDLLVSSS
SFNVATLPAE
RRVKVYLPQM
EDGIEMAGST
TDLDTTLVLV
KMKILELPFA
KIEEKYNLTS
GVIEDIKHSP
NAIYFKGMWK
SGDLSMLVLL
VLMALGMTDL
ESEQFRADHP
TAFNAEDTRE
PDEVSDLERI
FIPSANLTGI
FLFLIKHNPT
MPFHVTKQES
EKTINFEKLT
SSAESLKISQ
NTIVYFGRYW
KPVQMMCMNN
EWTNPNTMEK
AVHGAFMELS
SP
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Beispielsequenz: Ein Prion?
1
61
121
181
MSLLAYWLAS
GGGWGQPHGG
VGGLGGYMLG
ITIKQHTVTT
LWVTMWTDVG LCKKRPKPGG WNTGGRRYPA DGSPGGNRYP PQGATWGQPY
SFGQPHGGSW GQPHAAAWGQ GGGTHNQWNK PSKPKTNLKH VAGAAAAGAV
SAMSRPMIHF GNDWEDRYYR ENMYRYPNQV YYRPVDQYSN QNNFVHDCVN
TTKGENFTET
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Datenbanksuchen: Praktischer Ablauf am Beispiel BLAST
Herunterladen