Obduktion einer forensischen mtDNA Datenbank Hans-Jürgen Bandelt Fachbereich Mathematik Universität Hamburg http://www.math.uni-hamburg.de/home/bandelt/ 24. Spurenworkshop der Deutschen Gesellschaft für Rechtsmedizin in Köln (6.-7.2.2004) H.-J. Bandelt & W. Parson Pathologie mitochondrialer DNA Datensätze und Obduktion der mtDNA Datenbank Loop-BASE“ Eingereichter Artikel „D- Vorgeschichte Auf dem 18. Spurenworkshop Magdeburg (13.-14.02.1998) waren 15 universitäre rechtsmedizinische Institute übereingekommen, eine forensische zentraleuropäische mtDNA Datenbank als gemeinsames Projekt am Magdeburger Institut zu installieren. Auf dem 21. Spurenworkshop München (09.-10.02.2001) wurde von H. Wittig, K.-U. Sattler, D. Krause (Magdeburg) das realisierte Projekt „D-Loop-Base“ einer zentraleuropäischen Datenbank für nicht codierende mitochondriale Sequenzen vorgestellt: „D-Loop-BASE im Internet Eine neue Qualität der forensischen mtDNA-Datenbank“ Holger Wittig, Mike Koecke, Kai-Uwe Sattler, Dieter Krause D-Loop-BASE is online now Central European database of mitochondrial DNA International Congress Series 1239 (2003), S. 505–509 D-Loop-BASE http://www.d-loop-base.de/index1.htm • Last database entry July 2001 • Online since August 2001 • Population samples: 1,266 from Germany, 195 from Switzerland, 102 from Austria, and 47 from 18 countries all over the world, 101 Asians; and several Africans Vorfall Die österreichische mtDNA Sequenz AUT56 von Parson et al. (1998), innerhalb des Rahmens 16024–16400 (HV1) und 50–407 (HV2) sequenziert und an D-Loop-BASE eingesandt, wurde jetzt in D-Loop-BASE angefragt, aber konnte so nicht bestätigt werden! Eingabedaten HV1 Bereich Abweichungen in HV1 HV2 Bereich Abweichungen in HV2 16024 - 16400 16086.0 - C 16129.0 - A 16153.0 - A 16214.0 - G 16223.0 - T 16271.0 - C 16362.0 - C 50 - 407 73.0 - G 106.0 - D 107.0 - D 108.0 - D 109.0 - D 110.0 - D 111.0 - D 263.0 - G 309.1 - C 315.1 - C Ergebnis Untersuchte Sequenzen Anzahl 0 Abweichungen 1 Abweichungen 2 Abweichungen 3 Abweichungen 4 Abweichungen 5 Abweichungen 6 Abweichungen 7 Abweichungen 8 Abweichungen 9 Abweichungen 10 Abweichungen 974 0 0 0 0 0 0 0 0 1 0 2 usw. usw. Weitere Ergebnisse: • Anfrage gesondert für die HV1 Teilsequenz liefert 1 Treffer (d.h. 0 Abweichungen)! • Anfrage gesondert für die HV2 Teilsequenz liefert 1 Treffer! • Anfrage für HV1 & HV2 mit verkürztem Suchrahmen 16051–16365 & 73–340 liefert 1 Treffer! „Good data quality is ensured by using original sequences only.“ Wittig et al. (2000) Forensic Science International 113, S. 113–118 Offensichtlich war D-Loop-BASE schon vor Onlinegang August 2001 als rechtsmedizinische mtDNA Datenbank dahingeschieden. Eine Obduktion – virtuell im Netz durchgeführt – soll die Ursachen dafür klären. Obduktionsergebnis Äußerer Befund: Feststellung der letalen Konzeptions-, Programmier,- und Eingabefehler Innerer Befund: Rekonstruktion (in Teilen) des fehlerbehafteten Datenbestandes Fachliche Stellungnahme Äußerer Befund Anfrage der gesamten Kontrollregion HV1 (16024–16569) & HV2 (1–576) liefert 64 Sequenzen in D-Loop-BASE, HV1 allein nur 44 Sequenzen; HV2 allein nur 61 Sequenzen! Letaler Programmierfehler! Anfrage der artifiziellen Sequenz (Rekombinante) 16093.0-C 16224.0-C 16311.0-C im Suchrahmen 16051–16365 & 72–340 liefert unter 1580 untersuchten Sequenzen 3 Treffer, Aber dieselbe Sequenz angefragt im Suchrahmen 16051–16365 & 73–340 liefert unter 1581 untersuchten Sequenzen keinen Treffer! Letaler Programmierfehler! Anfragen einzelner Positionen: Suchrahmen HV1 16189–16189 1. Anfrage: – (d.h. CRS) 2. Anfrage: 16189.0-T (wiederum CRS!) 3. Anfrage: 16189.0-D (Deletion) 4. Anfrage: 16189.0-G 5. Anfrage: 16189.0-A 6. Anfrage: 16189.0-C 7. Anfrage: 16189.1-C (Insertion nach 16189) 8. Anfrage: 16189.1-A usw. 11. Anfrage: 16189.0-C & 16189.1-C Ergebnisse Abweichungen: 0 1 2 3 4 >4 -------------------------------------------------------------------CRS 1335 239 2 0 0 0 16189.0-T 0 1335 239 2 0 0 16189.0-D 0 1335 239 2 0 0 16189.0-G 0 1335 239 2 0 0 16189.0-A 1 1335 238 2 0 0 16189.0-C 238 1336 1 1 0 0 16189.1-C 0 1336 239 1 0 0 16189.1-A 0 1335 239 2 0 0 16189.1-G 0 1335 239 2 0 0 16189.1-T 0 1335 239 2 0 0 16189.0-C &16189.1-C 1 238 1335 1 1 0 Anfrage im Suchrahmen 16189–16190 mit 16189.0-C & 16189.1-C liefert 1 Treffer! D.h. 16189.1-C wurde regelwidrig kodiert! Fazit: Sequenzen sind z.T. fehlerhaft eingegeben und unzulässig kodiert! Jede Position mit mehr als zwei alternativen Nukleotiden wird hinsichtlich der Abweichungen falsch berechnet! Folglich sind alle Abweichungsvektoren fehlerhaft! „The D-Loop-BASE is now a profound basis for both frequency inquiries for expert opinions and scientific investigations into population genetic matters.“ Wittig et al. (2000) Innerer Befund Ziele: 1. Rekonstruktion der Teildatenbank „Negride“ 2. Rekonstruktion der Teildatenbank „Mongolide“ 3. Rekonstruktion einiger rekombinanter Sequenzen aus der Teildatenbank „Kaukasoide“ Unter „Negride“ gibt es nur 2 Sequenzen: 16093C 16129A 16189C 16278T 16300G 16311C 16354T 16390A 73G 146C 150T 195C 263G 315.1C 16129A 16183D 16189A 16215G 16223T 16278T 16294T 16311C 16360T 73G 151T 152C 182T 186A 189C 247A 263G 315A 315.1C 315A ist falsch: richtig wäre 316A! „The original data are stored and supervised in a separate database system with no online access. It is part of our security system.“ Wittig et al. (2000) Unter „Mongolide“ sollten sich die (fehlerhaften) 100 japanischen mtDNA Sequenzen von Seo et al. (1998) verbergen: Anfrage im Suchrahmen 16051–16399 von 16093C 16223T 16227G 16234T 16278T 16309G 16362C liefert: Nächste Sequenz hat 3 Abweichungen. Fast keine der originalen HV1 Teilsequenzen können durch Treffer bestätigt werden! Ursache: Die einzige zusätzliche Sequenz hat nur eine obere HV1 Lesegrenze von 16261; Dies hat durch Fehlprogrammierung intern alle anderen 100 Sequenzen nach 16261 abgeschnitten, so daß alle Mutationen danach als Abweichungen gezählt werden. Werden all diese Mutationen weggelassen, so ergeben sich für 97 Sequenzen stets Treffer. Bei 3 Sequenzen haben wir überdies mit falschen Eingaben zu rechnen. „Good data quality is ensured by using original sequences only.“ Wittig et al. (2000) Fehlerhafte Sequenzen (Rekombinanten) in der Teildatenbank „Kaukasoide“ Anfragen im Suchrahmen 16051–16365 & 73–340 liefern als Treffer z.B. fünfmal 16069T 16126C, dreimal 16129A 16172C 16223T 16311C, einmal 73G 263G 295T 309.1C 315.1C, einmal 16069T 16126C 263G 309.1C 315.1C, einmal 16069T 16126C 16193T 73G 152C 199C 204C 207A 250C 263G 315.1C. 309.1C Diese Sequenzen sind z.T. unpubliziert und dokumentieren ein erhebliches Ausmaß an Probenvertauschung im Labor oder Tabellenmix bei der Dokumentierung. Es war der Magdeburger Gruppe seit dem Jahre 2001 bekannt, daß die von ihr betriebene Datenbank fehlerbehaftete publizierte sowie katastrophale unpublizierte Sequenzen enthält. Fachliche Stellungnahme Die Magdeburger mtDNA Datenbank war zu keinem Zeitpunkt intakt: schwere Konzeptionsmängel, groteske Fehlprogrammierung, falsche Eingaben, fehlerbehaftete Sequenzen lassen keinen wissenschaftlichen Wert und Zweck erkennen. Donald Kennedy Editor-in-Chief Science 302 (5 Dec. 2003), p. 1625 Epilog Mitochondriale DNA ist für die Rechtsmedizin ein nebensächlicher Marker – der allerdings nicht nur so nebenher sequenziert werden kann, ohne daß schwerwiegende Artefakte entstünden. Mitochondriale DNA Sequenzierung in der Rechtsmedizin hat dokumentiert, daß die grundsätzliche Problematik der notorischen Präparateverwechslung und Probenvertauschung noch nicht wirklich in den Griff bekommen worden ist. „Über die Ursache der Verwechslungen sollte Klarheit erlangt werden, um weiteren Verwechslungen vorzubeugen.“