23魔方 | 权威的论文依据

权威的论文依据

由美国南加州大学、四川大学华西医院、上海交通大学医学院、复旦大学生命科学院等国内外一流遗传学、

医学专家团队共同研究基因与复杂疾病发生、以及体质特征的相关信息,

并制定出了一套严格的信息审核筛选流程机制,设计了科学可信的疾病风险评分模型。

科研团队由5名医学研究所教授、2名首席研究员,以及10名研究员组成。

成员定期召开学术会议,对最新人类基因科研成果进行汇总分析,对其科学性进行系统评分,确定最终选用的基因数据信息,并录入数据库。

论文筛选

通过PudMed、万方数据库 检索全球人类基因学术文章 作为备选文章(优先度1级) 以中国人为研究对象的文章 作为备选文章(优先度2级) 以东亚人为研究对象的文章 作为备选文章(优先度3级) 以其他国家人种为研究对象的文章 以中国人为 研究对象的文章 以东亚人为 研究对象的文章

SNP 的确定

由专属研究员负责每日阅读全球相关科研文献,筛选文章SNP数据信息。所有SNP数据应符合以下要求:

1.符合统计学原理,具有统计学意义。在统计学中以P值作为评判指标。

GWAS研究以p≤5.0×10-8,其他实验性文章p≤5.0×10-2

2.对于同一疾病所选的任意2个或2个以上位点之间不应有SNP相互连锁的情况。

一般认为连锁不平衡系数D'≥0.8,相关系数R2≥0.8时,两个SNP之间存在连锁不平衡,此时仅保留其中的tagSNP。

风险模型计算

为了便于描述,我们根据GWAS文章中所提供的SNP位点信息详情,将有致病风险的单个碱基(Risk allele)以R

表示,无致病风险的碱基以N表示。

有致病风险的杂合子基因型(RN)的Odds radio值以OR1表示,

有致病风险的纯合子基因型(RR)的Odds radio值以OR2表示。

假设实验样本人群如下表所示:

NNRNRR
对照ABC
病例DEF

根据Odds radio的计算公式可知:

OR1= ( A·E ) / ( B·D ) ,OR2= ( A·F ) / ( C·D ) .......... ①

1.对于由单个SNP位点决定的疾病

假设每个疾病只与一个SNP位点相关。

首先将单个风险碱基(Risk aelle)的基因频率以p表示,非致病风险碱基的基因频率则为1-p。在服从哈帝温伯

格(Hardy–Weinberg)平衡定律的前提下,可以得出三种基因型NN、RN、RR的基因型分布频率分别为:

( 1-p )2 ,2p( 1-p ) ,p2 .......... ②

其次将NN、RN、RR三种基因型的患病率以d1 ,d2 ,d3表示,该疾病的患病率以q表示,

由公式②可以得出:

q = d1( 1-p )2 + 2d2p( 1-p ) + d3 p2 .......... ③

同时OR1、OR2也可以表示为:

OR1= [ d2/ ( 1 - d2 ) ] / [ d1 / ( 1- d1 ) ] .......... ④

OR2= [ d3/ ( 1 - d3 ) ] / [ d1 / ( 1- d1 ) ] .......... ⑤

由于疾病的患病风险值q可以通过查阅文献得到,是已知的。OR1、OR2可以查阅文献,或通过我们自己实验得

到的样本数据计算,也是已知的。p可以通过千人基因组计划(1000 Genomes Project)或国际人类基因组单体型

图计划(HapMap Project)的公共数据库查询得到。而我们只有d1 ,d2 ,d3这3个数据是未知的,因此可以根据

②③④这3个方程解出d1 ,d2 ,d3这3个未知数。计算完成后,针对单个SNP位点的各项特定基因型下的疾病发病率

就计算完成了。

2.对于由多个SNP位点决定的患病风险

现实的研究中,单个疾病往往是与多个SNP位点之间均有联系的。对于这种情况我们的疾病风险计算方法如下:

首先计算单个SNP风险值OR*m表示。利用以下两个公式

ORx = dx / ( 1 - dx ) .......... ⑥

OR*m= ORx / ORD .......... ⑦

其中ORx 代表单个SNP的特定基因型的Odds radio,ORD为该疾病的Odds radio。

其次,结合与疾病相关的所有k个SNP位点的具体基因型,计算OR*c(带有某些特定基因型组合的个体患病风险

相较于总体人群患病风险的比值)。

OR*c = OR*m'k,k .......... ⑧

同时OR*c也可以用以下公式表示:

OR*c = OR ( D丨∩Kk=1Gmk, k)/ ORD .......... ⑨

因此可以通过疾病的患病率q和⑥,得出ORD;而OR*c可以通过⑧得出。

通过⑥和⑨两个公式就可以算出某几个SNP位点的特定基因型组合的OR( D丨∩Kk=1Gmk, k)值,继而求出某几个

SNP位点基因型组合的患病率d ( D丨∩Kk=1Gmk, k)。

论文及SNP位点评分

23魔方基因数据团队以各领域的学术研究成果为基础,对文章中筛选出的SNP位点评分具体方式如下:

1.人种

中国人9分
东亚人种(中国人以外)6分
其他国家人种3分

2. 样本人口数对于健康风险的研究

病例和对照样本量均≥10003分
病例或对照其中之一的样本量≥10002分
病例和对照样本量均<10001分

  样本人口数对于体质特征的研究

研究样本总量≥80003分
4000≤研究样本总量<80002分
研究样本总量<40001分

3. 实验重复性(是否通过多种族验证)

有其他研究者以其他民族为实验对象并发表学术文章6分
同一批研究者以其他实验数据发表在其他杂志的文章4分
没有2分

以上3种评分方式的分数总和为最终SNP位点的评分,并据此对所选论文进行分级,评判检测结果的可靠性(对

多项SNP位点决定的疾病或特征,以平均数计算)

总分等级
12~18(分)
9~11.9(分)
6~8.9(分)