366 H. POSSNER UND H. GRIMM Zur Häufigkeitsverteilung der Sequenzen und Nucleotide für Polynucleotidketten der DNS H e in z P o s s n e r und H il m a r G r im m * Institut für Mikrobiologie und experimentelle Therapie Jena der Deutschen Akademie der Wissen­ schaften zu Berlin (Direktor: Prof. Dr. med. H. K n ö l l ) (Z. Naturforschg. 21 b, 366—372 [1966]; eingegangen am 28. Juli 1965) Es werden Tabellen und Diagramme zur Häufigkeitsverteilung der Nucleotid-Sequenzen der DNS aufgestellt. Sie beziehen sich auf die von C h a r g a f f und H a b e r m a n n entwickelten Methoden der Sequenz-Analytik, mit deren Hilfe die Purin- bzw. Pyrimidinbasen der DNS quantitativ abge­ spalten werden können. Die mathematische Berechnung der Häufigkeiten der Sequenzketten unter­ schiedlicher Länge beruht auf einem Modell, bei dem n gleichartige Nucleotide auf die verschie­ denste Art und Weise zu Sequenzen zusammengefügt werden. (Zerlegung der ganzen Zahl n in ganzzahlige Bestandteile = Partitionen.) Nach den Gesetzen der Kombinatorik wird die diskrete Verteilung der Sequenz- bzw\ Nucleotidhäufigkeiten auf die ganzzahligen Sequenzen von 1 bis n in einem Faden der abgebauten DNS für die Sequenztypen n = l , . . . , 27 berechnet. Dabei stellt die Zahl n die Anzahl der Nucleotide in der längsten, für die betreffende DNS charakteristischen, Polynucleotidkette dar. Die daraus abgeleiteten theoretischen Werte für die relativen Häufigkeiten in % für die Sequenzen und Nucleotide und die zugehörigen Werte für die Mol.-Gew. der DNS sind aus 3 weiteren Tabellen und 2 Diagrammen zu entnehmen. 3 und seinen M itarb b . 4 beobachtet w urde. Da die T und C nicht untersch eid b ar sind, setzen w ir T = C = a und denken uns den linken D oppelstrang in der durch p u n k tierte L inien v erbundenen W eise zu einem S trang m it folgender K ette von Sequenzen unterschiedlicher Länge vereinigt Bereits von C h a r g a f f und M ita r b b .1 w urde eine M ethode (kontrollierte E inw irkung von Salzsäure) angegeben, m it deren H ilfe die P u rin b asen A denin (A) und G uanin (G) aus DNS quantitativ abge­ spalten w erden können, w ährend die P y rim id in ­ basen Cytosin ( C ) und Thym in (T) zunächst an das Z uckerphosphat-G erüst gebunden bleiben. Diese sog. A p u rin säu re kann durch w eiteren A bbau schließlich in U ntereinheiten von unterschiedlicher Gliedzahl zerlegt w erden, die den nachbarständigen P yrim idinnucleotiden (C luster) in der ursprünglichen DNS entsprechen (s. A bb. 1 ). Die analytische T rennung solcher P yrim idinsequenzen erfolgt durch S äulen­ chrom atographie, wobei der A nteil der einzelnen Mono- und O ligonucleotide durch M essung der A b­ sorption bei 260 nm vorgenom m en w ird. In analoger W eise ist es möglich, durch E in w ir­ kung von H ydrazin nach H a b e r m a n n 2 aus DNS A p yrim idinsäure zu erhalten, die nach A btrennung der P yrim id in b asen in ihre P urinnucleotid-Sequenzen unterschiedlicher K ettenlänge aufgetrennt w er­ den kann. A uf G rund der G esetzm äßigkeiten der Basenzusam m ensetzung und deren A nordnu n g in der D N S-D oppelhelix m üssen in beiden Fällen die gleichen Z ahlenw erte fü r die M ono- und O ligomerenN ucleotide erhalten w erden, was auch von H a b e r ­ mann * Anschrift der Verfasser: 69 Jena, Beuthenbergstraße 11. 1 C h . T a m m , M . E. H o d e s u . E. C h a r g a f f , J . biol. Chemistry 195. 49 [1952]. 2 V. H a b e r m a n n , Collect, czechoslov. chem. Commun. 26. 3147 [1961]. 3 V. 4 S. aa + aa + a + aaa + a + a + aa + . . . Ebenso kann m an im rechten D oppelstrang A = G = a setzen. Zur B erechnung der verschiedenen M öglichkeiten soldier n u r aus P u rin - oder Pyrim idinbasen bestehender Sequenzketten d er DNS h at H a b e r m a n n 3 ein einfaches m athem atisches M odell verw endet, das eine q u an titativ e A bschätzung der V erteilung der theoretisch zu erw arten d en H äufig­ keiten der N ucleotidsequenzen ih re r G röße nach ge­ stattet. D as M odell b au t sich au f einer kleinen aus n gleichartigen N ucleotiden bestehenden G run d g esam t­ heit auf, in der sich die N ucleotide au f die verschie­ denartigste W eise zu N ucleotidsequenzen u n te r­ schiedlicher Länge, 1, . . . , n, zusam m enfügen la s­ sen. Die G esam tzahl der N ucleotide säm tlicher Se­ quenzen in einer solchen G rundgesam theit m uß also stets der konstanten G esam tzahl n entsprechen. In dieser G rundgesam theit k an n als längste Sequenz H aberm ann, Nature [London] 200, 782 [1963]. u. M. C e r h o v Ä , Biophys. Biochem. Acta H aberm annovÄ 76,310 [1963]. Dieses Werk wurde im Jahr 2013 vom Verlag Zeitschrift für Naturforschung in Zusammenarbeit mit der Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. digitalisiert und unter folgender Lizenz veröffentlicht: Creative Commons Namensnennung-Keine Bearbeitung 3.0 Deutschland Lizenz. This work has been digitalized and published in 2013 by Verlag Zeitschrift für Naturforschung in cooperation with the Max Planck Society for the Advancement of Science under a Creative Commons Attribution-NoDerivs 3.0 Germany License. Zum 01.01.2015 ist eine Anpassung der Lizenzbedingungen (Entfall der Creative Commons Lizenzbedingung „Keine Bearbeitung“) beabsichtigt, um eine Nachnutzung auch im Rahmen zukünftiger wissenschaftlicher Nutzungsformen zu ermöglichen. On 01.01.2015 it is planned to change the License Conditions (the removal of the Creative Commons License condition “no derivative works”). This is to allow reuse in the area of future scientific usage. H Ä UFIG KEITSVERTEILU NG DER SEQUENZEN UND NUCLEOTIDE 367 Native DNS T — T— —A ~ T— —A — T — T— —A ~ T— —A — t C —C — —C ~ G— — G— C —C — —C ~ G— — G— C— —G ~ C— —G — —T ~ A— — —C ~ G— —T ~ — -T Weiterer Abbau —T — fr ^ A— — A— A —G ~ C— —G — \~ G — —C ~ G— — — T— —A ~ T— —A — C— —G ~ C— _ —T —T — — —C + 12 Zucker­ phosphate G G— — a G — —C T A A — weiterer Abbau G— —C C^9 t A C + 3A + 2A + 3G + 4G H® *— t Wasserstoff­ brücken Hydrazin G— G — — + 4C + 3C + 2T + 3T insgesamt + 5 A + 7G A- G'9 t + 12 Zucker­ phosphate insgesamt + 5T + 7 C Abb. 1. Schema der Apurin- bzw. Apyrimidinsäure-Bildung aus einem Teilstück einer DNS-Doppelhelix. auch einm al, aber auch nur einm al diejenige auftreten, die aus dem Zusam menschluß säm tlicher n N u ­ cleotide der G rundgesam theit entstanden ist. Die A ufgabe besteht nun darin, festzustellen 1. W ieviele solcher A nordnungen bei gegebener A n­ zahl n der N ucleotide a überhaupt möglich sind, 2. wieviele solcher Sequenzen der verschiedenen Cluster-Typen in allen diesen A nordnungen en t­ halten sind und 3. wie sich diese Sequenzen und die in ihnen en t­ haltenen N ucleotide prozentual auf die einzelnen Sequenztypen verteilen. Es handelt sich hier um das bereits von L. E u l e r (1 6 7 4 ), N e t t o 5 und R i o r d a n 6 behandelte kom bi­ natorische Problem , eine beliebige ganze Zahl n au f alle möglichen A rten in ganzzahlige Sum m anden zu zerlegen, wobei deren Reihenfolge au ß er Betracht bleiben soll und gleichgroße Sum m anden auch m e h r­ fach Vorkommen können. Eine solche Z usam m en­ stellung additiver Z ahlengruppen m it k onstanter Sum m e n bezeichnet m an in der K om binatorik als vollständige P a rtitio n (m it W iederholungen) und ih re S um m anden als Teile der P artitio n , n w ird auch die zerlegbare Zahl d er P artitio n genannt. Ih r entspricht in dem M odell von H a b e r m a n n die Länge der aus n N ucleotiden bestehenden „G ru n d ein h eit“ des D N S-Fadenm oleküls. Den Teilen der P artitio n , also den ganzen Z ahlen von 1 bis n, entsprechen in diesem M odell die verschieden langen Sequenzen aus 1 bis n gleichartigen N ucleotiden. Die H ochzah­ len bedeuten h ier die A nzahl der gleichartigen N u ­ cleotide in n erh alb ein er Sequenz und entsprechen den ganzen Z ahlen in der P artitio n . F ü r die G esam tzahl p (n ) aller vollständigen P a r ­ titionen der ganzen Zahlen n gibt es um fangreiche Tafeln, die diese W erte fü r alle natürlichen Zahlen von 1 bis 6 0 0 en th alten ( G u p t a 7 ) . B isher gibt es jedoch noch keine T afeln für die Anzahl bzw. H äu ­ figkeiten der S equenzen innerhalb säm tlicher P a rti­ tionen der Z ahlen n. Diesem M angel soll m it den in dieser A rbeit berechneten Tabellen abgeholfen w erden. 5 E. 7 H. N e t t o , Lehrbuch der Combinatorik, B. G . Teubner, Leipzig 1901. 6 J. R io r d a n , An Introduction to Combinatorical Analysis, John Wiley a. Sons, New York 1958. G u p t a , Proc. London mathem. Society 2. Ser. 39, 142 [1935] ; H. G u p t a , Proc. London mathem. Society 2. Ser. 42,546 [1937]. 368 H. PO SSNER UND H. GRIM M F ü r kleine Zahlen n, etwa bis n = 8, lassen sich die H äufigkeiten der einzelnen Sequenztypen durch A ufstellung der einzelnen Z erlegungen (für n = 8 sind es 22 M öglichkeiten) und A bzählen der Ziffern (Sequenzen) 1, 2, 3, . . . , 8 leicht bestim m en. A ber bereits fü r n = 1 3 ist dieses V erfahren schon eine recht zeitraubende Angelegenheit. Es m üßten in die­ sem Falle 101 P artitionen aufgestellt und nach den verschiedenen Ziffern ausgezählt w erden. F ü r n = 25 sind es bereits nahezu 2000 P artitio n en und für n = 100 über 190 M illionen P artitio n en . A us dem G u p t a sehen Z ahlenm aterial für p ( n ) lassen sich jedoch durch ein einfaches A dditio n sv er­ fah ren die H äufigkeiten säm tlicher Sequenzen au f­ bauen, ohne erst die ganze Reihe der Zerlegungen durchführen zu müssen. Diese Berechnung ist ein stufenw eises R ekursio n s­ verfahren, das m it der niedrigsten Sequenz a b e­ gin n t und Schritt für Schritt bis zur höchsten Se­ quenz a” weitergeht. Die Sequenz a tritt näm lich zunächst beim erst­ m aligen A btrennen einer Sequenz a von der ganzen K ette n, also so oft auf, wie die G esam tzahl der P a r ­ titionen fü r (n — 1) beträgt, also p {n — l)-m a l. Die Sequenz a tritt w eiterhin beim nochm aligen A btrennen einer Sequenz a von der bereits um ein N ucleotid gekürzten Kette n — 1 und zw ar so oft auf, wie der Gesamtzahl der P artitio n en fü r (n — 2) en t­ spricht, also p (n —2 ) -mal. D ieser G edankenversuch des stückw eisen A b tren ­ nens w ird nun solange fortgesetzt, bis die K ette au f­ gebraucht ist, also so lange, bis der letzte T erm p (0 ) der fallenden Reihe p {n — 1 ), p {n — 2 ) , p {n — 3 ) , . . . , p ( l ) , p ( 0 ) , erreicht bzw. unterschritten w ird. Die Sequenz a tritt also innerhalb aller P artitio n en der Zahl n so oft auf, wie die Sum m e der folgenden R eihe der P artitionszahlen b eträ g t: H äufigkeit der Sequenz a 1 = p ( n — 1) + p ( n —2) + p (n —3) + • • • . . . + p ( l ) + p ( 0 ) . H ierbei w ird definitionsgem äß die A nzahl p (0 ) der P artitionen der Z ahl 0 gleich 1 und die A nzahl der P artitionen für negative Zahlen gleich 0 gesetzt. Ganz entsprechend erhält m an durch sukzessives A btrennen der Sequenz a 2 für die H äufigkeit der Sequenz a 2 innerhalb säm tlicher P artitio n en der Zahl n die folgende Summe der jew eils um das A r­ gum ent 2 fallenden P artitionsfunktionen. H äufigkeit von a 2 = p (n —2) + p (n —4) + p ( n —6) + . . . Bei der Summe für die H äufigkeit der Sequenz a 3 fällt das A rgum ent der P artitio n sfu n k tio n jew eils um den W ert 3 und es ergibt sich fü r die H äufigkeit der Sequenz a 3 = p (n - 3) + p ( n —6) + p { n - 9) + . . . H äufigkeit der Sequenz a4 = p ( n - 4) + p ( n - 8) + p (n - 12) + . . . Die S um m ierung w ird in der fallenden R eihe der p ( n ) jew eils solange fortgesetzt, bis der E ndw ert p ( 0 ) d er R eihe unterschritten ist. Die allgem eine Form el fü r die H äufigkeit sn der Sequenz a' ( i = l , . . . , n ) in der G rundkette der L änge n lautet d em nach: ■Sn(a') wobei 'Z p ( n - h i ) , h= l die kleinste Zahl des Quotienten (1) ist. W erden auf diese W eise die H äufigkeiten fü r säm tliche Sequenztypen von 1 bis n aufgestellt, und die einzelnen H äufigkeitszahlen m it der A nzahl i der in der jew eiligen Sequenz enthaltenen N ucleotide m ultipliziert, so m uß die A ufsum m ierung der P ro ­ dukte fü r alle Sequenztypen 1 bis n die Gesamtzahl säm tlicher N ucleotide eines Fadens der abgebauten D oppelhelix ergeben. Diese Gesamtzahl setzt sich aus p { n ) P artitio n en m it der jeweils gleichen Nucleotidanzahl n der G rundgesam theit zusam m en und m uß d ah er den bei gegebener Zahl n festliegenden W ert n p ( n ) besitzen. D ieser W ert w urde fü r die jew eilige V erteilung der Sequenzen als K ontrolle verw endet. A us Form el (1) erhält m an durch Sum ­ m ierung der sH(al)-W erte ü ber alle Sequenzen 1 bis n u n ter M ultiplikation m it dem jew eiligen z’-W ert folgende Form el (2) : (2) B eispiel fü r n = 13 M an entnim m t der G u p t a sehen Tafel, oder auch dem Lehrbuch von R i o r d a n 6 (S. 122) die W erte fü r die P artitio n sfu n k tio n für n = 13, 12, 11, 10, . . . , 1, 0 in fallender Reihenfolge (Tab. 1 ). U nter A nw endung der F orm eln (1) und (2) e r­ g ib t sich d an n die T ab. 2 fü r die G rundgesam theit n = 13. F ü r n = 13 b eträg t die Gesamtzahl aller N u­ cleotide in säm tlichen Sequenzen n 'p { n ) = 13■ 101 = 1313. H Ä U FIG K E ITSV E R TE ILU N G DER SEQUENZEN UND NUCLEOTIDE » —1 n —2 n —3 13 12 11 10 9 p (n ) 101 77 56 42 30 n n —5 n —4 n —6 369 n — 10 » - 1 1 n — 12 n — 13 n - 7 n —8 n —9 8 7 6 5 4 3 2 1 0 22 15 11 5 3 2 1 1 7 Tab. 1. Werte für die Partitonsfunktion für n in fallender Reihenfolge. Sequenztyp (al) Anzahl der Sequenzen i sn (a*) Rel. Sequenzhäufigkeit (%) 100 Rel. Nucleotidhäufigkeit [%] 100 i sn (a *) Anzahl der Nucleotide sn(a*) i Sniat) n ■p (n ) 2 «n(as) (aus Tab. 3) 1 2 272 3 4 5 63 38 25 6 16 7 8 9 10 11 12 13 Summe 112 11 7 5 3 2 1 1 556 46 i= l (aus Tab. 4) (aus Tab. 5) 1 272 = 272 2 112 = 224 48,92 20,14 11,33 6,83 4,50 3 4 5 2 ,8 8 6 1,98 1,26 0,90 0,54 0,36 0,18 0,18 7 8 8,27 100 9 10 11 12 13 63 = 38 = 25 = 16= 11= 7= 5= 3= 2 = 1= 1= 189 152 125 96 77 56 45 30 22 12 13 J 1313 351 20,72 17,06 14,39 11,58 9,52 7,31 5,86 4,27 3,43 2,28 26,73 1,68 0,91 0,99 100 Tab. 2. Absolute und relative Häufigkeiten der Sequenzen und Nucleotide für n = 13. Abb. 2. Sequenz-Häufigkeiten (n = Maximal-Sequenz der jeweiligen D NS). Abb. 3. Nucleotid-Häufigkeiten (/i=Maximal-Sequenz der jeweiligen DNS). 370 H. POSSNER UND H. GRIM M § g 'S O 03) E- S "O •— 0) 1-6 3 m S _rj4>J1r— /5I ^3 <D.2 ‘S ^ N B 5 C » <" csß u3 — ; 5 2 N ’S ’S £ N r- GW 5 .a 3 O. trc/j Nach vorliegendem R ek u rsio n sv erfah ren w urden die in den T abellen 3, 4 u n d 5 zusam m engestellten H äufigkeiten d er Sequenztypen u n d der in ihnen enthaltenen N ucleotide fü r n = 1 ( 1 ) 2 7 bzw. n — 3, 5 ( 3 ) 2 7 , 50, 100, 600 berechnet. F ü r den g rößten W ert von n = 6 0 0 w urden die bis auf 24 Stellen ansteigenden W erte der P artitio n sfu n k tio n p ( n ) aus den G u p t a sehen Tafeln au f 3 gültige Ziffern re d u ­ ziert und so die H äufigkeit der Sequenzen a 1 bis a 127 berechnet. T rotz dieses abgekürzten V erfahrens b lie­ ben die F eh ler fü r die prozentuellen H äufigkeiten der einzelnen Sequenzen g ering, und es ergab sich n u r ein Defizit von etwa 6%0 vom Sollw ert n 'p ( n ) der Gesam tzahl d er N ucleotide. D ie A bbn. 2 u n d 3 zeigen die in den T abn. 4 und 5 enthaltenen H äufigkeitsverteilungen der Se­ quenztypen a 1 b is a 10 fü r verschiedene D N S-Typen m it den M axim alsequenzen n = 3, 5, 8, 11, 14, 17, 20, 23, 27, 5 0 , 100, 600. A uf der horizontalen Achse sind die Sequenztypen in logarithm ischem M aßstab u n d a u f d er vertikalen Achse die relativen H äufigkeiten in P rozenten abgetragen. W enn nun die K urve der experim entellen W erte fü r die S equenzhäufigkeiten m it ein er der th eo reti­ schen K urven fü r einen bestim m ten W ert von n zur D eckung gebracht w erden kan n , so bedeutet dies, daß die längsten in diesem DN S-M olekül v o rk o m ­ m enden P u rin - o d er P yrim idinsequenzen von n Nucleotiden gebildet w erden. E in solcher T eilfaden von n N ucleotiden w u rd e oben als „G ru n d ein h eit“ b e­ zeichnet und d er gesam ten H äufigkeitsberechnung zugrunde gelegt. D ie G esam theit säm tlicher N ucleo­ tide in einem S tran g e des D N S-M oleküls besitzt nach obiger B etrachtung den W ert n mp { n ) N ucleotide. D a diese G röße jedoch n u r die Basen zählt und außerdem das ganze D N S-M olekül aus einer D o p ­ pelhelix, d. h. aus zwei S trängen besteht, so besitzt aus G ründen der Sym m etrie das ganze D NS-M ole­ kül 4 n - p ( n ) N ucleotide. W ird das Mol.-Gew. eines N ucleotids zu 3 0 8 gerechnet, so läß t sich ganz all­ gem ein als F o rm el fü r das Mol.-Gew. einer doppelsträn g ig en DNS d er W ert 4 n ' p ( n ) -3 08 = 1232 n - p ( n ) angeben, wo n die längste in der betreffen­ den DNS vorkom m ende N ucleotidsequenz (NucleotidCluster) bedeutet. T ab. 6 en thält die zu den W erten von 7i = l , ..., 30 gehörenden Mol.-Gew. einer doppelsträngigen D N S. H Ä U FIG K EITSV ERTEILU N G DER SEQUENZEN UND NUCLEOTIDE 371 n Sequenz- 3 5 8 11 14 17 20 23 27 50 66,67 16,67 16,67 60 00 20,00 10,00 5,00 5,00 52,33 22,09 10,47 6,98 3,49 2,33 1,16 1,16 50,54 20,36 11,27 6,54 4,36 2755 1,82 1,09 0,73 0,36 0,36 47,82 20,51 11,15 7,05 4,49 3,08 2,05 1,41 0,90 0,64 0,38 0,26 0,13 0,13 46,56 19,80 11,30 7,07 4,78 3,21 2,29 1,58 1,12 0,76 0,56 0,36 0,25 0,15 0,10 0,05 0,05 45,08 19,68 11,21 7,26 4,88 44,17 19,28 11,23 7,25 5,01 3,53 2,58 1,87 1,39 1,02 0,76 0,55 0,41 0,29 0,22 0,15 0,11 0,07 0,05 0,03 0,02 0,01 0,01 42,98 18,98 11,17 7,31 5,10 3,67 2,71 2,01 1,52 1,14 0,87 0,66 0,50 0,37 0,28 0,21 0,15 0,11 0,08 0,05 0,04 0,03 0,02 0,01 0,01 0,00 0,00 38,92 17,79 10,81 7,37 5,34 4,02 3,10 2,44 1,94 1,55 1,26 1,02 0,83 0,68 0,55 0,45 0,37 0,30 0,25 0,20 0,16 0,13 0,11 0,09 0,07 0,06 0,04 0,04 0,03 0,02 100 600 \ Typ i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 3743 2,42 1,77 1,25 0,93 0,65^ 0,48 0,32 0,24 0,15 0,11 0,06 0.04 0,02 0,02 Iz T 22 23 24 25 26 27 28 29 30 Tab. 4. Sequenzhäufigkeiten = 35,04 16,44 10,27 7,21 5,39 4,19 3,34 2,72 2,25 1,88 1,58 1,34 1,14 0,98 0,84 0,72 0,62 0,54 0,47 0,41 “ 0,35 0,31 0,27 0,23 0,20 0,17 0,15 0,13 0,11 0,10 27,48 13,39 8,70 6,35 4,94 4,01 3,35 2,84 2,47 2,15 1,90 1,70 1,52 1,38 1,24 1,13 1,04 0,95 0,87 0,80 0,74 0,69 0,64 0,59 0,55 0,51 0,48 0,45 0,42 0,39 100 Sn (a1) ~ —-----------(in %). £ sn(a‘) t= l F ü r die von H a b e r m a n n 3, als auch von S e d a t und S i n s h e i m e r 8 untersuchte zw eisträngige KalbsT hym us-D N S ergab sich beim V ergleich der Se­ quenzhäufigkeiten m it den theoretischen W erten eine günstige A npassung an die theoretische K urve fü r eine M axim alsequenz von n = 13 Nucleotiden. Nach der Z usam m enstellung in T ab. 2 erge­ ben sich fü r diesen F all insgesam t 5 5 6 Sequenzen. Diese enthalten nach obiger F orm el n 'p ( n ) = 1 3 p ( 1 3 ) = 1 3 1 3 N ucleotide, da fü r n = 13 die Ge­ sam tzahl aller m öglichen P artitio n en p (13) = 1 0 1 b eträgt. D em nach enthält ein M olekül ein er solchen, von diesen A utoren zu r U ntersuchung verw endeten, DNS insgesam t 5252 N ucleotide. Es m uß daher ein Mol.-Gew. von 1,6 M illionen besessen haben (s. T ab. 6 ) . Das Mol.-Gew. kan n som it als F unk tio n des M axi­ m alw ertes n der Polynucleotidketten der jew eiligen 8 I. S edat [1 9 6 4 ]. u . R. L. S in s h e im e r , J. molecular Biol. 9, 489 DNS abgeschätzt w erden. F ü r die von S e d a t und untersuchte P hagen-D N S 174, die einsträngig ist, trifft die V oraussetzung fü r kom ple­ m entäre Z u ordnung der N ucleotide nicht m ehr zu, u n d es treten auch erhebliche A bw eichungen von der theoretischen V erteilung fü r n = 13 auf. S in s h e im e r 8 Nach Abschluß dieser Arbeit wurde uns noch eine Veröffentlichung von S h a p ir o und M itarbb. 9 über die Verteilung der Pyrimidin-Sequenzen in Desoxyribonucleinsäuren bekannt. Bei S h a p ir o werden zur Anpas­ sung an die experimentelle Häufigkeitsverteilung der Nucleotid-Sequenzen Exponentialkurven verwendet, die von N atur aus stetig sind, während in der hier vorlie­ genden Berechnungsweise der diskrete Charakter der Nucleotidverteilung berücksichtigt wird. Wir danken H errn Dr. habil H. V e n n e r für die An­ regung zu dieser Arbeit und die wertvollen Hinweise zum biochemischen Teil. 9 H. S . S h a p i r o , R . R u d n e r , K. I. M ture [London] 205, 1068 [1965]. iu r a u . E. C harga ff, Na­ 372 HÄ U FIG K EITSV ERTEILU N G DER SEQUENZEN UND NU CLEOTIDE n SequenzTyp i \ . ..\ 3 5 8 25,57 21,59 15.34 13.64 8,52 1 2 44,44 34,29 22,22 22,86 3 4 5 33,33 6 7 8 9 10 11 12 11 22.56 18,18 17,14 15.09 11,43 11,69 14,29 9,74 ~6,82~ 6,82 3,98 5,68 4,55 3,90 2,92 1,62 1,79 13 14 15 16 17 18 19 14 17 20 23 27 50 19,74 16,93 13,81 11,64 9,26 7,62 5,93 4.66 3,33 2,65 1,75 1,27 0,69 0,74 18,12 15,41 13,19 1,66 2,11 1,29 0,83 0,59 0,32 0,34 1,56 1,23 0,84 0.64 0,41 0,29 0,15 0,16 15,62 13,64 11.91 10,25 8,85 ~^48" 6,38 5,29 4,43 3,60 2.97 2,33 1,89 1,46 1,14 0.83 0,65 0,44 0,33 14,44 12,75 11,26 9,82 8,57 7,39 6,37 5,40 4,61 3,84 3^22 2,64 2,18 1,74 1,42 10,69 9,77 8,91 9,31 7^49 6,24 4,91 3,92 2,97 2,40 16,64 14,53 12,42 10,72 9,01 7^61 6,25 5,23 4,16 3,43 2,63 11,01 20 0,21 0,15 0,08 0,08 21 22 23 24 25 26 27 28 29 30 0,06 0,03 0,03 1,10 0,88 0,66 0,51 0,37 0,28 0,19 0,14 0,09 0,33 j 7,33 6,63 5,96 1 5,35 4,79 4,27 3,79 3,36 2,96 2,61 2,28 1,99 1,73 1,50 1,29 8 ,10 Tab. 5. Nucleotidhäufigkeiten = np{n) — (in %). « M C C O O N O N O O N C O f f l O O N O O O N N T f K O ' f O I N O M O O M N X ^ I N - i O J J ' f ^ r t O ' H X X t ' O a J ’- H t ' N O O O C O i O T f f N N ' # ( N S O O r - i C O C C X C C - ^ C 5 C O C O ' < t ' > # - ^ C O C ^ f O C C i C C < N < ^ 5 0 - ^ a i C C ’- ^ f C i C C -H N T)iXF(N ^n'-'lO m rt(N »0>O N «N iO ffllO O t'0(M lN iS05(M H ( N M l O t ' H t D C O I M > n N l O - ^ ' > i < T ) l H l O l C C O O ^ N O ' H HHi MM' l t EOOHLOOt ' l Of f l OMOWn t ' HH(M«n^ct'0N00 ■ ^ ONOCi O Ot'M C ONOHf fMl ^H«ffi^C O O O5'< f f i)(ei5 OOO N ' '# #C ^ iXO(N O O® tOiO H (^M ®O OO lOO«O t'O H H N ^ e ® M * ® ® O f f l W W 5 f f l O X O O ® M N H C i 5 H H HC^ « l ! 5 ®®H®( NQ0 t ' XMHi J ( NX h h NNCO^®XO«® O 600 7,62 7.15 6,70 6,27 5,86 5,46 5,09 4,74 4.40 4.08 3,78 3,49 3,22 2,97 2,73 2,51 2,31 3,15 3.07 2,99 2,91 2.83 2,76 2,68 2,61 2,54 2,46 2^40 0,22 0,80 0,72 0,65 2.33 2,27 2,21 2,14 2.07 2,02 1,97 1,90 1.84 1/79 1,73 1,67 1,63 1,57 1,53 1,48 1,44 1,39 1.34 0,71 4,98 35,28 1,11 0.94 0,80 0,6 8 0,57 0,48 0,40 0,89 0,27 0,18 Längere Sequenzen 100 2,11 1,93 1,85 1.61 1,46 1,33 1,21 1,09 0,99