染色体的反转对称是自然规律吗?

Chargaff在1950年做出了重要的观察,即DNA中的核苷酸数量满足#A=#T和#G=#C。这在认识到克里克和沃森提出的DNA具有碱基对结合(a到T和C到G)的双链结构方面发挥了至关重要的作用。

图1所示。最大的k值,即IS经验误差<10%,随染色体长度L绘制。直线增长为0.73 ln(L),这是IS泊松模型的预期结果。方框是人类数据(完整的染色体以及不同长度的片段),星形表示其他真核生物的例子,圆圈表示原核生物的例子。这一数据摘自Shporer等人。

1968年的另一篇论文揭示了第二个Chargaff规则(SCR),该规则指出,每条足够长的DNA链都具有相同的身份集。但是1尽管碱基对结合可以在事后证明这一点,但SCR仍然是一个奇怪的谜题。它已经被许多物种的染色体上的许多研究者证实,并被推广到一个反转对称(IS)规则,说明任何k个核苷酸的字符串S(例如S=ACTG, k=4)在单链上出现的次数与其逆(反向和转置)字符串S的次数大致相同发票(例如年代发票= CAGT)。现在已知,在人类长染色体上,k=10的相对误差小于10%。

为了从经验观察(如染色体上某串的计数N)转移到概率规则,我们应该将N视为泊松变量的一个实例N,适合于字符串S的随机出现,它们彼此独立反演对称则表示为N(年代)=N(年代发票).这可以通过询问经验测量N(S)和N(S)来检验发票)在长度为L的染色体链上的结果与IS泊松模型的预期一致。

我们的分析揭示了“经验IS的准确性”和“IS打破的显著性”之间的二分法:对于k=1到4,准确性高,但严格规则无效,即存在统计学上显著的小差异。对于较大的k,经验IS的准确性降低,但规则的有效性不能被反驳。它还证明,如果一个人将经验IS的允许误差固定在给定的范围内(例如10%),那么它所持有的最大k将成比例地增长到log(L)。后者被证明是对经验数据的有效普遍描述(图1)。

众所周知,在基因内部,编码链上经常存在着过量的#T+#G># a +#C的组成不对称,这可能与转录机制的运作有关。大染色体上SCR的断裂可能与这种组成上的不对称有关:事实证明,它与另一种较小的不对称密切相关,即人类染色体两条链上的基因计数;此外,大多数染色体的核苷酸计数不对称与基因组成不对称一致。

最后留给我们的问题是SCR和IS是如何形成的。一个合理的推测是,这是由于整个进化过程中染色体的发展,已知这涉及染色体部分的重新排序。由于重排是在染色体的两个方向上进行的,大量的随机重排导致了观察到的现象。

综上所述,SCR及其推广为反演对称(IS)都是有效的生物学规则。在SCR上,人们注意到小的违规,这与两条链上基因发生的小不对称有关。IS规则可以被看作是一种新兴现象,它是由进化对染色体部分进行修修补补引起的,以直接或反向的方式将它们随机重新排列成新的DNA分子。

大卫的角
以色列特拉维夫大学萨克勒物理与天文学院

出版

DNA k-mer计数的反转对称性:有效性和偏差。
Shporer S, Chor B, Rosset S, Horn D
BMC Genomics, 2016年8月31日

脸谱网 推特 linkedin 邮件 脸谱网 推特 linkedin 邮件

留言回复