大猩猩和人的基因序列相似度为98%,这是多相似?比如,人和白菜之类的基因序列相似度有多少?

关注者
20
被浏览
22629

6 个回答

人类和黑猩猩的基因相似程度98%,这个是错的。

经常看到各种问题,

比如,

人类和黑猩猩的基因相似程度有99%,为什么人和猩猩差异这么大呢?

猿星崛起3要上映了,估计这个问题又会被很多人提到。


然而,这句话论据就是错的。


————哪里来的99%?————


其实,99%这个数据并不是无中生有,这个内容是来自1975年的一篇science文章。


在这篇文章里,作者通过比较了人和黑猩猩的部分蛋白质结构,得出了人和黑猩猩基因相似度99%的结论。


(上图是比较的部分内容,红框为相似度)


于是,作者得出结论是:

That is, the sequences of human and chimpanzee polypeptides examined to date are, on the average, more than 99 percent identical

但是,这个内容是有适用范围的

只是部分比较

由于当时的技术限制,所以,作者只是比较了人和黑猩猩的43个蛋白质差异,发现相似度很高。

然而,这只是人体蛋白质的沧海一粟啊。

人体有多少蛋白质呢?

答案是25万-100万左右。

用43个相似度去推论100万个的相似度,比盲人摸象还夸张。

————真实的相似度 72% or 88-89%————

那么,人类和黑猩猩真实的相似度有多少呢?

2001年,人类基因组全部组装完成,这意味着,有史以来,我们第一次看清楚了人类基因组这30亿个碱基对的真实情况。

而既然有了基因组的信息,那么,直接比较就可以了。

不过,不要着急,因为,黑猩猩的基因组还没测呢!

2005年,黑猩猩基因组测序完成


于是,我们真正的比较人类和黑猩猩基因组有了材料。

那么,首先最简单的比较染色体,发现:

染色体数目不一样


上面的绿色是人类的染色体,下面的红色是猩猩的染色体。

最直观的是,黑猩猩比人类多了一对染色体,图中标识的是2A,2B。

染色体都差异这么大,你还说相似99%,这不是欺负人嘛。

以1号染色体为例:


图中,蓝色是差异,绿色是G+C含量,红色是重组率。

具体选几个转座子瞅瞅


左边是黑猩猩,右边是人类,这差异……


进一步,直接比较二者的基因组差异。

Best reciprocal nucleotide-level alignments of the chimpanzee and human genomes cover ~2.4 gigabases (Gb) of high-quality sequence, including 89 Mb from chromosome X and 7.5 Mb from chromosome Y.

有2.4Gb 匹配的很好,做个简单的算术,人类基因组是3.2G, 2.4÷3.2=75%,在去掉3%左右的核算替代引发的差异

This difference corresponds to ~3% of both genomes and dwarfs the 1.23% difference resulting from nucleotide substitutions



结论呢:

72%!

人类和黑猩猩基因的相似度,只有72%!




上面这种算法相对简单粗暴,不过也有学者进行了更加全面的以及算法角度改进后的计算。

结论是88-89%!但是,必须注意的是:

这里的88-89%,均指可以比对的部分(即排除了大量无法匹配的序列)

———88-89%———

其实人类基因组和黑猩猩基因组差异,已经多次被发现了,比如在这篇文章

Tomkins J. Genome-Wide DNA Alignment Similarity (Identity) for 40,000 Chimpanzee DNA Sequences Queried against the Human Genome is 86-89%[J]. Answers Research Journal, 2011, 4(2011): 233-241.

作者通过比较保守基因组序列,发现人类和猩猩的相似度也只有86-89%。而且这还是去掉了大量无法匹配的序列后的结论(excluding data for the large amount of chimp sequence that did not align)。如果加上那些序列,肯定会越来越低。


另外mon1st提到一篇文章里对于算法的改进

answersingenesis.org/ge

不过该文章依然是去掉了不可比对部分后的相似度为88%

【the alignable portions】 of the current chimpanzee genome assembly are 88% similar on average to human.


总体上看,无论如何,人类和黑猩猩的基因组相似度不会超过90%


本文参考文献


1,99%相似度 King M C, Wilson A C. Evolution at two levels in humans and chimpanzees[J]. 1975.


2,人类基因组文章 Lander ES L L M, BIPREN B. Initial sequencing and analysis of the human genome[J]. Nature, 2001, 409(6822): 860-921.


3,黑猩猩基因组文章 Mikkelsen T S, Hillier L D W, Eichler E E, et al. Initial sequence of the chimpanzee genome and comparison with the human genome[J]. Nature, 2005, 437(7055): 69.



补充,关于灵长目下的个各种,人,猴子,猩猩,猿之类的区别之前写过科普


李雷:既然人类是由猴子(猩猩)进化而来,那为什么世界上还会有猴子(猩猩)?剩下那些为什么不进化了?

大体进化结构如下图


—————关于相似性—————


本文讨论的是基因组相似性,换句话,就是比对DNA序列。

人类不同人之间的差异在1%以内。

但是一旦夸了物种,这个相似度会剧烈下降。

比如本文提到的灵长目下的黑猩猩和人类的相似度就已经降到了90%以下。


有人提到人和老鼠?小鼠基因组2.5G,人类基因组3G,相似?


我看到说人和小鼠相似的时候,说的是基因同源,而非DNA一样。

我随手找个基因,上面的某个片段,5个碱基的大小。


然后里面包括了人,黑猩猩,小鼠,猪,猫和狗。

在一些人看来,这几种生物,除了狗,都有这个基因,所以他们百分百相似。

然而真实情况呢?

仅仅5个碱基,除了1个在不同物种一样,其他的4个都不一样,而人类,有30亿个碱基对,而狗干脆就没这个基因。


以人类为蓝本,那么这5个碱基的话

黑猩猩相似度80%;小鼠相似度40%;猪相似度20%;猫相似度60%.

然而,很多人会说,这四种和人类百分百相似,因为都有这个基因……





以上,转载自:李雷:我们有哪些错误的常识?

没看过大猩猩的比对,看过黑猩猩的,黑猩猩的是比对每一个重要的黑猩猩基因和人的基因的相似性,求相似性的平均数,由此得到百分之99,98或者其他数字。

至于"重要的"基因是按照什么标准选出来的呢?选出来的是一种叫single copy的等位基因。为什么只有一个拷贝的基因被认为是重要的基因,其中一个原因是因为"有且只有一个保守",其他原因我不知道,就不介绍了。

所以相似度比对比的一般就是关键基因的相似性。如果比那些用来亲子鉴定之类多样性很高的DNA位点,种内相似性都不高,都不确定这些DNA位点种外有没有呢。


这些相似性意味着什么呢?首先要明白,基因组数据的数据量不小。人基因组序列文本大小大约有3G,为了保证数据准确要存四十个测序的文件,即纯文本文件120G。

所以大数据处理和解读是很复杂的事情,所以也说不好百分之九十八是有多相似。

人和白菜差太远了,人们也不知道"相似性"该怎么算呢。

补充一点,基因组里非编码序列非常复杂,而科学家需要设计计算机算法,策略性地对基因序列进行比对,所以非编码序列比不了相似性(这个不严谨,只是大概介绍一下),能比较相似性的只能是一些特别的位点。


更新:

气不过,以下是碎碎念时间。

[Bye]上网有害身心健康。
网上最近的红文叫:"人和猩猩相似性98%,这是错的"。文章给出的理由是Nature四十年前有一篇文章测了大几十的蛋白相似性,结论是98%。但是现在测single copy测出来数据还是98%+啊,又不止那一篇文章这么写。这些数据这么写当然有特殊的意义在里面,否则单看相似性,看不出任何意思。结果这些网文起一个惊悚标题,内容经不起推敲(并没有真的去告诉人们如何解读数据),人们看了觉得自己好像"学到了知识",就去推崇这样的网文,以至于它很流行。
还有那个都说烂了的,瑜伽是性爱姿势的谣言,不管谁写,不管怎么瞎写,它就是永远这么流行。[Bye][Bye][Bye]


single copy比对的文献(不好意思我只看过这一篇。但我知道不要对科学研究发表惊悚的奇谈怪论,这就够了):

ncbi.nlm.nih.gov/m/pubm

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3498939/。

这篇文献刊于2012年的NATURE。人们嫌四十年前的Nature过时,那么,2012年的Nature总不该过时了吧?!

这篇论文的文章正文是这么写的:

On average, the two alleles in single-copy, autosomal regions in the Ulindi genome are approximately 99.9% identical to each other, 99.6% identical to corresponding sequences in the chimpanzee genome and 98.7% identical to corresponding sequences in the human genome. A comprehensive analysis of the bonobo genome is presented in Supplementary Information. Here we summarize the most interesting results.

不管怎样,相似性高低其实不是最重要的,大家应该关心的明明是:相似性到底是什么意思?