注:1.本人的科普贴都是有文献作为背书,非本人的臆想观点。目的是以正视听!
2.科学是向前发展的,如果有相关新的论文,我也会继续更新。

此论文,通篇是英文,发表于06年,遗传学报上。我只翻译结论部分以及思考部分以及认为重要的部分,对应的图片也会贴上。
不想看论文,嫌弃太长的可以直接看结论部分。
精度提炼:
1.壮族Y-单倍群体,主要的是4个: O*(在所有壮族中最多),O1(以红水河为框架,第二)
O2a(第三多,也是证实了壮族起源于百越的证明),O3(外来的,佐证历史上军队驻扎,以及在广西设立官员,郡县的历史事件)。
2.壮族传统是讲依照方言去分,南壮跟北壮,但在遗传学上,南北壮没有差异,显现出差异的是东西走向。以红水河为中心,O*的频率高,历史上详细迁移,而O2a就向西撤退。

从红线处开始:壮族,拥有超过1600万的人口,是中国最大的少数民族,超过94%的人口生活在广西。壮语属于侗台语系(the Tai-Kadai sublinguistic family),壮侗语系(the Tai-Kadai sublinguistic
family),侗傣语系(Tai-Sek branch)。以邕江为线可分为北跟南方言,值得注意的是,贵州省的布依族在语言跟文化上可与壮族视为同一民族,这也包括在云南所谓的水户族?(shui hu),也是事实上的布依族,他跟贵州的水族是不一样的。因此,这些民族可以在学术上视为壮族。遗憾的是,壮族没有自己的文字记录,只能用汉字来记录他们的历史事件。,而且这些记录可能有缺失。通过极少的,有用的历史记录,壮族可以追溯到2000多年前的(西瓯), (骆越) 族。然而,壮族的起源可能远比想的复杂,因为,壮族一些重大的历史事件中可能经历过复杂的演化以及人口迁徙。所以,壮族可能于泰国和老挝有着亲近的关系。同时,壮族可能跟其他的民族混杂,尤其是汉族。 因此,许多问题就凸显了,壮族的确切起源到底是什么?基因上的证据能不能佐证历史上的人口改变事件呢?

(注:红框部分紧接上图,只翻译此部分,其他的是实验器材实验步骤,这些不翻译。)
只是通过语言的不同,而没有任何遗传迹象下分为南壮跟北壮真的合理吗?壮族的遗传信息能不能提供有关于周边人口的起源以及人口迁徙的研究信息?而且,当早期的东亚人向北迁徙,是否有原始的遗传物质存在壮族的土著人口中?
能够利用的关于壮族父系遗传结构的发表过的文章可以查阅,其中大部分主要集中在它的一些特殊分支。在研究中,用13个双等位基因标记和7个y染色体短串联重复序列对8个壮族群体进行y单倍群分型,在每一个单倍群,分布频率都被计算,分析主要的组成部分,从而描述出遗传框架。作者希望能够在基因水平上查明壮族的遗传结构,为将来的壮族语系,起源,人口转变,与其他的民族混合提供基因证据。



结果:壮族分支中,关于NRY单配群的分布。
2.1根据Y-SNP分型结果计算壮族不同分支的单倍群频率。由表3得知,壮族的Y单倍群是要是由O*,O1,O2a,O3。这也是东亚最普遍的四个单倍群。O*频率最高,其次是O2a,,和O1。表明,壮族是典型的东亚南方族群,而且拥有更多的古老的Y单倍群。有趣的是,O3,和O3e,O3e1,这三个具有东亚北方人群的特色单倍群体也在壮族中频繁的出现。表明了在两个人群之间有共同的基因联系。
主成分分析
采用SPSS 13.0软件进行主成分分析,根据本文作者获得的不同分支的Y-SNP分型结果绘制Y-SNP频率主成分点图(图2)。附加的数据有,云南布依,壮族,水族?,广西田林,上思,五色,高栏四个壮族,以及贵州布依族。此分析中,田林壮族跟右江分支合并,上思壮族跟左江壮族,贵州分支的布依族合并。
2.2结果表明,成分分析结果表明,主成分1 (图1)和主成分2 (图2)的累积贡献占总差异的82.5%。图2,12个壮族分支和其他相关群体主要聚集成两个更大的群体。红水河,桂北,邕北,邕南,高栏壮族位于主成分图的上部,构成第一组。然而,桂边?,左江,右江分支,云南壮族,云南布依族在主成分图的下部,构成第二部分。云南水户族?似乎与全部分支隔离,但稍微与第二组接近。如图2所示,这这就是pc2将这些分支分成两组的的原因。考虑到每个分支的地理位置,可以看出这两组人的基因差异是东西而不是南北,语言因素与传统的南北向壮族群相矛盾。

使用图1和图2的值作为高度值根据各壮族分支的地理位置,按照等高线绘制地形图的方法绘制主成分梯度分布图(图3)。在图1的地形图中,观察到峰值在广西-越南边界,逐渐由东北转向西北。这可能是东亚人口在古代广西首次进入东亚时的传播线索。由于图2将壮族分支分为两大类,其意义可能更加明确.图2峰值出现在红水河盆地东部,呈现自东向西的梯度。此外,广西西北部与云南接壤的地区,在图2显示更高的值。这可能受到云南布依族数据的影响。此外,从图3可以清楚地看出,等高线沿河流延伸,这表明壮族人在广西早期就沿河流上游迁移。
(注:图3壮族人群Y-SNP主成分地理图谱。X坐标:经度;Y坐标:纬度。以主成分值为等高线绘制壮族分支Y-SNP主成分地理图谱,主成分值越低,颜色越深。pc1(左)的峰值位于广西-越南边境附近,并逐渐向东北和西北方向转变。pc2峰值可以视为将壮族分支划分为两大类,这个峰值出现在红水河盆地东部(右),呈现自东向西的梯度。)


2.3相关分析:
为了理解各主成分的含义,进行相关分析,寻找各主成分的来源。 计算各单倍群的相关系数,整理出各主成分从而可以观察到主成分的正相关单倍群和负相关单倍群。从理论上讲,一个主成分的正相关单倍群越多,其遗传结构就越清晰,也就越具有实际意义。更多细节见图4和图5。
比较两主成分的相关系数值,可以明显看出pc2的结构比pc1更清晰。pc1正相关单倍群之间的变量存在很多矛盾。而在pc2中,大多数正相关变量落在正相关区域内。pc2与经度呈显著正相关,表明pc2比pc1更显著。
对pc1的进一步分析表明,正相关单倍群的数量尽管弱相关,但大于负相关单倍群的数量。这主要归因于O2a和O3e之间的差异,O2a是东亚人群中的南方土著单倍群而O3e可能是北方单倍群。pc1与O2a呈正相关(r = 0.69, p = 0.02), pcl均为阳性。因此,pc1的意义强调了壮族分支和云南水户族?与O2a的正相关。这些族群都是典型的东亚南方族群,这一结论与壮族是百越的起源的史料记载是一致的
对于pc2,正相关单倍群的数量与负相关单倍群的数量几乎相同,但在O*和O2a之间趋势相反。在PC2中,O*单倍群体是正相关,而O2a是负相关。pc2和O*单倍群均与经度有明显的相关性,说明O*单倍群是pc2的主要组成部分,即O*将壮族分支划分为两个主要类群。随着O*单倍群的西迁,O2a向同一方向撤退。这一过程与东部的壮族分支的O2a频率较低一致。
其他单倍群与这两个主成分之间无显著相关性。
2.4层次聚类分析:
为了进一步阐明广西壮族之间的关系,在SPSS 13.0软件中采用平均联动(组间)进行分层聚类分析,结果如图6所示,其中Mien和Yi为外源组。很明显,所有壮族分支的中心都出现在红水河地区,并沿着红水河逐渐向邕北、邕南,贵边迁徙。壮族分支之间的差异基本上是东西的,而不是传统上认为的南北。有趣的是,广西最北的村庄在融水县永乐乡的五色壮族,在基因上更接近与距离远的广西左江壮族。而左江壮族是在广西的南部,表明了,在古时候有一个特别的迁移事件。

图4壮族分支主成分、Y-SNP频率、经纬度的相关性
计算相关单倍群的相关系数后,对主成分进行排序,估计主成分的正相关单倍群和负相关单倍群。根据每个相关系数的值用相应的颜色标记。pc1正相关单倍群之间的变量存在很多矛盾(左),而在pc2中,大多数正相关变量落在正相关区域内(右)。(对应上面说的pc1,pc2)

图5,关于壮族分支的主成分与Y-SNP频率、经度、纬度的相关性及统计显著性
R:相关系数;P:概率值; long":经度 ;lat:纬度
色度计显示不同的p值。pc1与东亚人群中典型的南方土著单倍群O2a呈正相关,表明壮族和云南水户族?与O2a正相关
pc2的正相关单倍群数量与负相关单倍群数量基本相同,而O*与O2a的趋势相反,O*与pc2呈正相关,O2a与pc2呈负相关。

图6 壮族分支Y-SNP树状图,
彝族和缅族,两个生活在西南的非百越族介绍了壮族族群及其与周边非百越族群的关系。这一树状图表明,壮族祖先聚集于此,首先是红水河地区,然后向邕江和右江盆地及其周边地区扩散。从遗传上讲,壮族与彝族和缅族的距离很远。

2.5 语言学家根据壮族人的方言将壮族人分为南族和北族。如果这种分类有遗传基础,那么在分子方差框架分析中,群体间的方差应该更大,而群体内的方差应该更小。. 根据pc2结果,比较了南方和北方组之间以及东部和西部组之间的AMOVA结果(表4)。然而,正如曾经预期的那样,没有观察到差异。
相反,东西种群之间的差异远远大于南北种群之间的差异,而种群内部的方差则恰恰相反,这进一步表明,如果需要把壮族做种群划分的话,东西划分比南北划分更合理。 然而,由于壮族人口的迁移,东西差异是分级的,因此很难从遗传学上将壮族区分为两个不同的群体。
2.6 广西壮族分支y染色体STR单倍群的网络分析
第一段不翻译。
第二段开始:如图7所示,单倍群O*的STR网络在所有壮族分支中频率较高,信息更为丰富.来自红水河分支的壮族9个个体中O*有8个Y-STRs。拥有全场最高的Y-STR频率。其余三个来自于桂边,桂北,还有邕北个体。此外,红水河壮族与来自中国的个体关系密切其他单倍群,特别是邕北和桂北,确立了其在各壮族分支中的中心地位。
虽然桂北分支也有8个STR单倍群分布在O-单倍群网络的边缘,但只有1个STR单倍群与红水河个体具有相同的Y-STR单倍群。在左江、右江和德京壮族?分支之间也发现了更多的联系,它们作为一个封闭的群体,与其他壮族分支更加远。
综上所述,这些结果与主成分分析和上述聚类分析的结果相验证并一致
同样,在O1网络中,红水河分支的STR单倍群多态性多于其他分支,并占据了框架的中心。
然而,红水河的样本中有有O2a的样本的,只有很少人,这就给左江挪了位置。
在O3*网络中没有共享的STR单倍群,各分支间也没有显著差异。一种可能的解释是,O3*不是壮族的显性和特征单倍群。


讨论
3.1 历史记录、语言学研究和民族学调查都表明,壮族可能源于古代百越的洛越和习分裂。本研究发现,典型的Y-SNP单倍群O*、O2a和O1经常存在于壮族中。此外,主成分分析证实壮族与云南水湖和布依聚类,是百越的典型后代。因此,所有这些研究都强烈地表明,壮族起源于古代的百越群体,这与历史记录和文化人类学的结果是一致的
3.2 遗传结构上的,北壮话跟南壮话的关系。
在没有书面语言的情况下,壮族的重要历史事件没有得到可靠的记录,并通过有限的口头民间传说和一些汉人最近撰写的参考文献传给了下一代。再加上战争造成的几次大规模的人口流动和混乱,很难利用历史记录来探索壮族内部分支的发展、分化、交流和演变。因此,根据它们在口语中的近似差异,他们只能将壮族分为北方方言组和南方方言组。
这两个方言群体的遗传结构没有发现显著差异,这是一个意想不到的结果。主成分分析表明,无论是在pc1还是pc2上,南方方言群的两个分支和北方方言群的两个分支均没有聚类。主成分的地理图和聚类分析没有呈现南到北的逐渐变化和聚集。这两个方言群体的遗传结构没有发现显著差异,这是一个意想不到的结果。这两个方言群体的遗传结构没有发现显著差异,这是一个意想不到的结果。
换句话说,南壮和北壮语言定义缺乏相关的遗传支持,这两个群体实际上都是一个遗传同质的群体。
相反,壮族在其遗传结构上呈现出一个以红水河为中心、由东向西逐渐扩散的过程。的确,根据传说,“壮族”民族的名字源于红水河的古老名字“杨河”,这可能不是巧合。
主成分分析表明,壮族根据地理分布情况分为东、西两种亚群。但聚类分析表明,广西壮族从红水河支流逐渐向西扩张。在壮族分支的STR单倍群网络中,特别是在O*单倍群网络中,红水河分支也处于中心位置。左江、右江、德江在西部亚群境内的分支在遗传框架上关系较近,与东部亚群略有距离。
3.3 壮族的遗传水平。表2显示了壮族分支的Y-SNP单倍群频率,从中可以看出,两个更老的单倍群O*和O2a出现的频率更高,这两个单倍群可能是壮族分支支的原始组成部分,当壮族人进入广西向东亚大陆辐射时,作为早期居民的遗传标记保留了下来。在pc1地理图上,可以看到多个中心,并在南到东北和南到西南方向的扩张。相关分析证实pc1与单倍群O2a呈正相关,根据STR年龄估计[15],单倍群年龄可能在1万年以上,提示壮族祖先首次进入广西地区时携带标记O2a。
更有趣的是,单倍群O*估计大约有2万年前,这表明它可能是另一个主要组成部分。这可能事早期东亚人群到达东亚大陆时的第一站就是红河区域,然后,向今广西区域迁徙和发展。从O1单倍群的内在结构分布显示,壮族的一些分支向是从东到西的分散。这是在1万年内,可能是由西瓯与骆越混合引起的,成为壮族的第二个遗传水平。这是在1万年内,可能是由西欧与罗越混合引起的,成为壮族的第二个遗传水平。
从历史上看,一些基于政府政策的士兵和官员进入广西,以及壮族的几次大向南迁移,可能是壮族基因库混合的原因。本研究结果显示,东亚群体中北方群体的特征单倍群O3在壮族群体中也明显较高。遗憾的事,我们没有获得单倍群O3的亚群或中心,这表明该单倍群是一个外来成分,可以追溯到中国北方和广西当地人的混合,这也与历史记录一致。

杰洛特
点赞