大猩猩和人的基因序列相似度为98%,这是多相似?比如,人和白菜之类的基因序列相似度有多少?

关注者
23
被浏览
26,617

5 个回答

没看过大猩猩的比对,看过黑猩猩的,黑猩猩的是比对每一个重要的黑猩猩基因和人的基因的相似性,求相似性的平均数,由此得到百分之99,98或者其他数字。

至于"重要的"基因是按照什么标准选出来的呢?选出来的是一种叫single copy的等位基因。为什么只有一个拷贝的基因被认为是重要的基因,其中一个原因是因为"有且只有一个保守",其他原因我不知道,就不介绍了。

所以相似度比对比的一般就是关键基因的相似性。如果比那些用来亲子鉴定之类多样性很高的DNA位点,种内相似性都不高,都不确定这些DNA位点种外有没有呢。


这些相似性意味着什么呢?首先要明白,基因组数据的数据量不小。人基因组序列文本大小大约有3G,为了保证数据准确要存四十个测序的文件,即纯文本文件120G。

所以大数据处理和解读是很复杂的事情,所以也说不好百分之九十八是有多相似。

人和白菜差太远了,人们也不知道"相似性"该怎么算呢。

补充一点,基因组里非编码序列非常复杂,而科学家需要设计计算机算法,策略性地对基因序列进行比对,所以非编码序列比不了相似性(这个不严谨,只是大概介绍一下),能比较相似性的只能是一些特别的位点。


更新:

气不过,以下是碎碎念时间。

[Bye]上网有害身心健康。
网上最近的红文叫:"人和猩猩相似性98%,这是错的"。文章给出的理由是Nature四十年前有一篇文章测了大几十的蛋白相似性,结论是98%。但是现在测single copy测出来数据还是98%+啊,又不止那一篇文章这么写。这些数据这么写当然有特殊的意义在里面,否则单看相似性,看不出任何意思。结果这些网文起一个惊悚标题,内容经不起推敲(并没有真的去告诉人们如何解读数据),人们看了觉得自己好像"学到了知识",就去推崇这样的网文,以至于它很流行。
还有那个都说烂了的,瑜伽是性爱姿势的谣言,不管谁写,不管怎么瞎写,它就是永远这么流行。[Bye][Bye][Bye]


single copy比对的文献(不好意思我只看过这一篇。但我知道不要对科学研究发表惊悚的奇谈怪论,这就够了):

ncbi.nlm.nih.gov/m/pubm

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3498939/。

这篇文献刊于2012年的NATURE。人们嫌四十年前的Nature过时,那么,2012年的Nature总不该过时了吧?!

这篇论文的文章正文是这么写的:

On average, the two alleles in single-copy, autosomal regions in the Ulindi genome are approximately 99.9% identical to each other, 99.6% identical to corresponding sequences in the chimpanzee genome and 98.7% identical to corresponding sequences in the human genome. A comprehensive analysis of the bonobo genome is presented in Supplementary Information. Here we summarize the most interesting results.

不管怎样,相似性高低其实不是最重要的,大家应该关心的明明是:相似性到底是什么意思?

人72%是水,白菜至少应该90%是水吧、

也就是说人和白菜至少有72%的相似度。

为什么?