6/1/2017

祖源分析是怎么进行的

所谓人类学,就是研究人类的一门学科。所讨论的问题是“我们是谁?我们从哪里来,?我们又要到哪里去?”。人类学研究传统上分为体质人类学、文化人类学、语言人类学、考古人类学几个主要的方向。近年来,随着生物基因技术的迅速发展,通过基因分析进行研究的分子人类学取得了突飞猛进的发展,给我们揭示很多被历史淹没,却又留在我们基因中的人类往事。


我们是谁?

人类的遗传物质主要是由22对常染色体,一对性染色体(X、Y),还有线粒体DNA组成的。染色体可以看做是由一对对碱基排列而成的信息链,人类基因组大约含有3G(1×109)个碱基对。

我们很早就发现,猩猩、猴子这类动物在形貌上和我们人类十分的相像,通过基因组的比对也证实了这个观点。人类与黑猩猩的基因组的相似度在98%以上。通过对更多类人猿基因信息的比对,我们梳理出了我们同他们之间的亲疏关系及大体的分化过程。

屏幕快照 2017-06-04 10.17.11.png

类人猿的遗传谱系


这个谱系是怎么得到的呢?人科的谱系因为形态特征的模糊性,传统的形态分类有着先天缺陷,不同的进化路线上可能出现类似的形态。而基因组的差异则是明确而且可以量化的,显然是一种更好的进化学研究材料。两个物种之间的基因组差异程度,与它们之间的分化历史长度是成正比的。所以,通过与地质年代的校正,基因组差异可以转化为分化时间。

由上图可以看出,在我们的祖先与黑猩猩、倭黑猩猩的祖先分道扬镳之后,又进化了450-600万年的时间。我们的祖先那时生活在哪里呢?由于现存的与人类关系最近的人科物种只分布在非洲,而非洲也出土了最古老和丰富的猿人物种的化石。所以,一般推断,我们的祖先是在非洲和猩猩们分化,并继续演化的。然而更早的祖先是否一样生活在非洲,现在还难以下结论,因为与我们关系更远的猩猩亚科的物种主要生活在亚洲,而在亚洲也发现了他们祖先的化石,我们很难断定,是人亚科物种的祖先于其他亲族分开后由亚洲来到了非洲,还是相反。

在我们的祖先与猩猩表亲们分化后的600万年时间里,又分化出了八个属,其中200万年前出现的真人属是我们的直系祖先。真人属之后又分化出了直立人和智人(之前曾一直认为直立人和智人是人类进化的两个阶段)。这段时间里原始的人类曾一直不断的走出非洲,成为了各地区发现的直立人的祖先,包括我们所熟知的元谋人和北京猿人,但他们并没有成为我们的直系祖先。在非洲的智人后来分化出了三个主要的分支:丹尼索瓦人、尼安德特人、以及我们现代人。丹尼索瓦人主要分布在亚洲地区,尼安德特人在欧亚大陆都有分布。

屏幕快照 2017-06-04 10.17.20.png


从六百万年前到五万年前的这段历史,主要是通过考古学对化石和遗迹进行比较来还原的。因为在正常环境下,DNA信息只能保存五万年左右的时间,而我们这些远房的表亲也并没有像猩猩那样留下后代给我们进行比对。我们唯一可以了解的是丹尼索瓦人和尼安德特人,他们都存活到了距今三四万年前的时间,我们在他们的遗骨中发现了可供分析的DNA信息。经过与现代人DNA信息进行对比,我们发现,在撒哈拉以南非洲之外的现代人身上保留了1%-4%的来自尼安德特人的基因片段。在大洋洲地区新几内亚的人群身上还发现了大约6%的来自丹尼索瓦人遗传比例。


我们从哪儿来?

那么我们现代人的祖源哪儿来的呢?我又为什么说北京猿人等直立人不可能是我们的直系祖先呢?这要从Y染色体溯源说起。

我们都知道,Y染色体是伴父系遗传的,只能由父亲传给儿子。目前能测的人类最详细的谱系也就是通过Y染色体硏究的父系谱系(只有男人能做),以及通过线粒体DNA硏究的母系谱系(男女都能做)。而X染色体、常染色体只能进行相似度、共享成分、连锁重组之类的分析,而无法画出一棵大树。对常染色体的分析有些类似于对语言的分析,因为语言也是多源的,很多时候分不清所谓的“正源”。

屏幕快照 2017-06-04 10.17.42.png

那么我们又如何通过Y染色体来建立谱系呢,之前已经讲过,每个男人的Y染色体都是从他的父亲传下来的。染色体在传递过程中,不总是完完全全一成不变地传下来的,而是有时会发生突变。碱基替换有以下若干种类型:单碱基替换(SNP),碱基插入/删除,短串联重复序列(STR),大片段变化,内部交换重组。其中用以建立谱系的最主要的手段是通过分析SNP位点的变化。在Y染色体简单位置上(在染色体上只出现一次,且本身及附近没有各种重复序列)的SNP突变是非常稳定的。这种突变在整个人类历史上一般只突变过一次,(整个Y染色体有60 Mbp长,基本没有重复的部分也有10M bp左右,每个位点发生突变的事件又是相互无关的,因此同一个位置发生两次突变的概率极低)因此基本上,如果某个人的某个位点上发生了一次突变,他的子孙都会继承这一个突变,而不是他的子孙的人则不会有这个突变。因此用Y染色体的SNP可以非常可靠地确定谱系演化关系。现在做分型时用的大多数字点都是单碱基替换类型的。


因为最可靠的标记是SNP提供的,现在的Y染色体树就是通过一个个SNP画出来的。比如有A、B、C三个人,B和C有M175这个SNP的突变(写成M175+),A没有M175的突变,即M175的原始型(写成M175-)。而C有M122这个点的突变型(M122+),A和B都是M122-,那么,因为M175+的人包括了M122+和M122-的人,而M175-的人全都是M122-,说明M175发生得比M122早,后来有M175+的一个人又发生了M122的突变,M122更晚近,也就是说M175在M122的上游。做成树就成了这样:

屏幕快照 2017-06-04 10.17.52.png

这个Y染色体原始型是怎么得到的呢?之前我们已经提到了我们的猩猩表亲们,与他们的Y染色体进行比较,我们可以基本构建出一个原始的Y染色体。

通过对全世界现代人广泛的采样,我们发现,所有现代人的Y染色体都可以追溯到20多万年前的一个男人身上,也就是说他是我们所有现代人的父系祖先,也就是Y染色体亚当(之前曾有结论称是14.2万年,但后来在喀麦隆的一个部落里发现Y染色体类型又将这个时间往前推了6万年的时间)。而线粒体DNA都可以追溯到20万年前的一个女人身上,也就是说他是我们所有人的母系祖先,也就是线粒体夏娃。


我们到哪里去?

人类迁徙地图——Y染色体在全世界的谱系

根据全球范围内的广泛采样和Y染色体溯源我们得到了现代人类的遗传图谱。研究者结合现有的几大族群将Y染色体分为A-T20个单倍群(单倍群是指含有同一个突变的人群)和旁系群(在支序分类学是指一个演化支上某个单倍群最亲近的分类群,下图中A、B、F、K、P都是旁系群,但为了叙述方便将其也成为单倍群)。

大概在10万年前,一部分现代人曾经试图从西奈半岛走出非洲,但这次尝试似乎并不成功,他们在中东遭遇到了表亲尼安德特人,在以色列发现的遗迹表明两个族群曾毗邻而居。然而,这批现代人似乎并没有在当地留下后代,他们又退回到了非洲,或者消亡了,而在印度地区发现的7万年前的现代人遗迹可能也是由他们留下的。

7.3万年前,发生了一件改变整个人类历史的自然事件,苏门答腊岛的多巴火山发生了超级大爆发。这次爆发所产生的火山灰使地球进入了一个极为寒冷的冰河期,非洲之外的人类种群大量灭绝,包括在亚洲的直立人,还有早先走出非洲的现代人。然而,随着冰河期到来,两极冰盖面积增加,海平面开始下降。虽然在寒冷气候下撒哈拉地区变成了荒漠,阻碍了西奈半岛这一人类走出非洲的古老通道,但是,红海的海平面下降却使吉布提地区与阿拉伯半岛连接了起来。也就是说红海与亚丁湾之间的曼达海峡在这时成为了陆地。大概在7万年前,一批人从这里走出了非洲,成为了所有非洲之外现代人的祖先。

而走出非洲的这批人的Y染色体都带有M168这个标记的突变,为CT单倍群。并很可能在这里与尼安德特人发生了混血,因为世界各地的人身上所带的尼安德特人基因的比例都是十分均匀的,不太可能是现代人到达欧洲、亚洲后与当地尼安德特人都混血成了相同的比例,只能是在中东地区混合成了相似的比例再分散到世界各地。通过对现代样本高通量数据进行分子钟的分析发现,CT单倍群恰好在7万年前左右分化出了两个分支,DE和CF。在一段时间后DE分化出D和E两个单倍群,CF分化出C和F两个单倍群。

屏幕快照 2017-06-04 10.18.00.png

根据世界千人组数据高通量SNP的计算结果,在五万年前左右,C与F支系都经历一次急速的扩张过程,在经历了这一阶段的人口爆发式增长后,现代人族群开始出现在亚欧大陆的边缘地区,45000到43000BP具有现代人特征的人骨在欧洲出现,四到五万年前澳洲开始出现现代人活动的遗迹(澳大利亚南部有42700或43140±3000年前的岩画),中亚的Obi-Rakhmat洞穴48800±2400年前的地层中发现了具有旧石器时代晚期特征的遗迹。
    从技术上来看,这一阶段现代人族群的扩张似乎是伴随着旧石器时代晚期“革命”,一系列具有“行为现代性”的遗迹开始在不同地区出现。我们可以推测,正是以“行为现代性”为标志的旧石器时代晚期“革命”带动了这次五到四万年间的现代人族群扩张。

从古DNA证据来看,目前欧洲最早的古DNA显示,四万年前左右,C和F的支系同时在欧洲内陆出现。从现代高通量样本分析,澳洲和巴布亚地区的C和F支系几乎是四万多年前同时和遗留在欧亚的兄弟分开的。四万多年前,C和F的支系同时完成了泛欧亚大陆的扩张和分布。而在一万多年前的冰期,C单倍群下游的C2-M217和F单倍群下游的Q1a2-L56共同登上了美洲大陆,完成了现代人对整个大陆世界的探索。


C单倍群在世界范围的分布

在现代人群中,C单倍群虽然只在个别地区较为高频出现,但分布却十分广泛,基本遍布南部非洲之外的所有地区。

屏幕快照 2017-06-04 10.18.20.png

C-M130单倍群在四万八千年前左右分化为C1和C2(原C3)两个单倍群,其中C2单倍群主要分布于今天的东亚及附近地区。C1单倍群在4万5千年前左右,发生了一次剧烈的分化,其下游形成了C1a1-M8(原C1)、C1a2-V20(原C6)、C1b2a-M38(原C2)、C1b2b-M347(原C4)、C1b1a1-M356(原C5),分别分布于日本、欧洲及北非、巴布亚及太平洋群岛、澳大利亚、印度及西亚。

C2在三万五千年前左右分化为C2a-F1067及C2b-L1373两个分支,C2a主要分布于东亚及周边地区,C2b主要分布于北亚及中亚地区,其下游的一支P39主要分布于北美洲地区。

屏幕快照 2017-06-04 10.18.11.png

图中红色标记为目前检测到的古DNA样本