“为何我是满族人却没有测出满族血统?”
这是一个高频的问题,答案是我们可检测的民族中并不包含满族。
23魔方可检测民族血统:

那么大个民族居然测不出来?
其实这是市面上所有基因检测都在头疼的问题,但为了解决这个问题我们曾多次征集满人样本,希望有所突破。可是按照目前的算法我们还是没能测出来满族。
那么我们是根据什么检测民族血统的呢?
想知道个体的基因祖源,就需要把基因组与一个已知明确种群分类的样品集合做比对通过其相似度来进行推断,得出检测者基因组民族祖源成分。
有很多方法可以估算基因组的种族民族成分但都要依赖一个成型参考集合数据库。它的质量对祖源民族成分准确度起到了关键作用所以我们在集合数据库的时候十分谨慎。
23魔方祖源民族数据库一共会经历四个步骤:
参考样品选取
↓
亲缘关系过滤
↓
PCA过滤
↓
panel参考集性能测试
参考样品选取
以每个民族始祖的DNA定义民族样本是再合适不过,然而现实让人无奈不是每个民族都有古DNA样本的,加上近百年来迁徙频率加快,让我们去进行民族样本的划分更是难上加难。为了确保参考集的客观,我们选取参考集的标准是:
三代同宗
(即从自己往上推三代祖先中都必须同一个民族,同一个省份)最大限度地保证参考集的特异性。
亲缘关系过滤
有亲缘关系的样品因为在基因组上格外相似会引起频率计算的偏向,如果一个参考祖源中的亲缘关系样品比较多,在某些SNP上的频率就会额外偏高。所以对于参考集合第一步质控就是过滤有亲缘关系的样品。
PCA过滤
PCA(主成分分析)是在群体遗传学上一个常用的基因组聚类方式23魔方的芯片有70万个位点,相当于从70万个维度定义一个样本PCA就是把70万维降维到2维平面(如下图)

一般情况下同一个地区的人群样本往往会如图中一样聚集在一起,通过这种方式可以快速排除离群的样本,使得参考集更纯。
Panel参考集合性能测试
过滤后的还需要对参考集合做进一步的训练测试,通过Leave-One-Out(留一法)来对参考集合进一步筛查,对异常或者“不纯”的参考样品删减,从而使我们祖源参考集合性能达到最优。
我们统计了23魔方数据库里的资料,把用户填写满族的民族血统分布作成民族成分分布的箱线图

可以看出绝大部分的满族成员,主要成分分布在北方汉族范围,没有存在特别的的民族血统分布。
我们还专门征集了20个样本(拥有家谱记载的三代同宗的满族人)

并结合公开的民族数据库进行PCA分析,分析如下图。

红色点为我们征集的满族样品,可以看出几乎全部都落在北方汉的集群位置中。
结合我们23魔方已有的数据库以及征集的有家谱记载的满族样品并结合算法模型对满族进行预测。在已有的数据和模型下根据现有技术我们无法构建一个满族训练集合。
本着对用户负责的态度,为了追求结果的严谨和准确度所以我们暂时不支持满族的民族血统预测。
目前有很多民族血统跟满族一样,我们无法构建出参考集,但在探索的过程中我们也找到了更多样的血统参考集。新版民族血统正在测试中,如果您有独特的血统或者好的建议可在社区留言,欢迎您加入一起探索。
3465
3 赞
第五建纲
点赞