Y染色体类型比如O、C、N无法说明地区和民族

Y染色体基因是O、C、N只能说一些片段有O、C、N特征，而且这些基因片段一定是内含子，不是外显子。

内含子指的是基因表达被关闭的片段，外显子指的是基因表达被打开的片段。外显子因为会表达性状，所以基本没法改变，一突变极有可能会出现遗传疾病比如地中海贫血。外显子出现不适应环境的突变时会出现两个状态，要么被基因修复，要么个体死亡。

Y染色体的长度中位数值是55.6mb（5560万个碱基对（bp）左右），其中最重要的基因是SRY基因（3万个碱基对（bp）左右），它决定男性生殖系统的表达。除此之外，Y染色体上面还有一些相关性状，比如胡子。外耳道多毛症也是伴Y染色体遗传疾病。

常说的Y染色体特征基因比如O、C、N、Q指的是Y染色体上边的一段序列叫Y-STR，这段序列大概有10个基因片段。这10个基因片段各自150-350bp不等，加在一起不超过3500bp（碱基对），突变频率大概在2.8*10^-3也就是0.28%左右。

5560万个bp（碱基对）中找这不到3500个bp（碱基对）的原因是因为它们基本不交叉互换，相对来说遗传更稳定，占整体Y染色体长度的0.0063%。

根据四种碱基种类（A/T/C/G），假设长度取2500个bp，理论上一共会有4^2500种碱基排列，大概在10^150数量级的排列组合。这么多种排列组合被人为划分成了26种组合即A-Z（英文字母26个），O就是其中一种。O下又被人为细分出了O1a、O1b、O2等等。

有一些商业公司自己测了假如80万份样本，按照你填的身份证号算出你的地区，代入这个框架。商业公司可能人为把18%给了O1a、22%给了O1b、40%给了O2、11%给了C、9%给了Q，再拿这些结果去套各家族谱。

假设我成立一家基因测序公司叫知乎，测了100万份样本。其中可能有O-ZH6192、O-ZH134、O-ZH91、O-ZH726、O-ZH9183、O-ZH53836、O-ZH27（这里的ZH指的是知乎的首字母）几个片段占比较高。

考虑到O-ZH6192和O-ZH134分别占5.2%和1.9%，太少不够有气势，我再加上其他一些低频片段比如O-ZH9018等等共100个片段造个名字叫O4a一起出道，整体比例大概13.2%。假设O4a在陕西发现较多，可能占陕西测序男生的25.7%。O-ZH91和O-ZH726以此类推加上其他180个片段组成O4b，整体比例占29.5%，占福建测序男生的35.2%。其他片段再组个O5。是不是能说明：

1.福建男生、陕西男生和其他省份男生不一样？

2.O-ZH726是福建基因？其他省份比如辽宁就不能有？

3.假设某个姓林的家族O-ZH91的基因片段在这份样本里面频率较高比如15%，那林觉民或者赖清德就是O4b基因型？

这么测算出来的对应关系有很多点容易被人诟病：

1.这不到3500个bp（碱基对）只是相对稳定，不是不突变，它们突变频率是0.28%。

2.预先知道了别人的地区再加上测出来的序列去套该地区，类似于先射箭再画靶，完全忽视了中国历史上的战争减员和移民潮。举个例子，我随机找个地区比如上海，身份证号是310开头。我再随机创造个O6基因型出来，找8000个身份证号是310开头的黄姓的人测出了30%的基因型是O6a1，超出其他基因型。上海历史上刚好有个名人姓黄比如黄歇，那么黄歇的基因型就一定是O6a1么？有没有可能这些人里面有60%的人是一个南宋时期从其他地区迁到上海的黄姓的人后代，和春秋战国时期的黄歇没有任何关系呢？另外有没有可能一个O6a2的姓吴的人于明朝正好突变出了一个O6a1的基因并传承下来，他可能也和黄歇毫无关系呢？

3.测出来的序列套族谱反推历史名人基因序列不靠谱，因为历史名人子孙后代也会有基因突变。万一一个突变体后代子孙更多，就会造成孙子推爷爷，信息失真，而测序者不可能开别人家祖坟去验证。

4.分子人类学还建立了基因定向突变的说法，建立了基因突变13万年-5万年-1万年-4000年-300年的时间维度。且不说DNA双螺旋被发现不到75年，除了部分中国人和部分东亚人以外，全世界其他地区人鲜有族谱，这套学说根本没法验证。中国最长时间的族谱也没超过4000年，根本没法验证基因定向突变的合理性。

因此，O、C、N等只是Y染色体0.0063%长度种类的一种人为的分类方式，对于Y染色体其他99.9937%长度没有任何意义，更别说其他45条染色体了。

「DNA里的历史」App，随时随地查找家族资料

Y染色体类型比如O、C、N无法说明地区和民族

关联家族

关联单倍群

关联家族

关联单倍群