一种利用伊辛模型的多基因遗传风险评估模型的构建方法

文档序号:37680857发布日期:2024-04-18 20:53阅读:9来源:国知局
一种利用伊辛模型的多基因遗传风险评估模型的构建方法

本发明属于遗传风险评估模型构建,具体涉及一种利用伊辛模型的多基因遗传风险评估模型的构建方法。


背景技术:

1、疾病由许多复杂原因共同作用下所导致,其成因可以大致分为遗传因素和环境因素两部分。为了从个体的基因数据中预测目标疾病的遗传风险,诸多研究机构利用其大规模的患者样本实施个体样本的单核苷酸多态性(snp)与表型性状之间的关联性分析,并将全基因组关联分析(genome wide association study,gwas)结果对外公开。对于只拥有小规模样本数据的机构,可基于大型研究机构发布的gwas数据对预测目标构建多基因遗传风险评分(polygenic risk score,prs)模型,并在小规模样本数据上验证构建的prs模型。

2、然而利用gwas公开数据中各snp的效应值加权,依然很难做到对表型性状的有效预测。其中一个困难点在于,绝大部分的snp对表型性状的贡献非常小,但它们累积起来却往往有相对显著的临床效应,因此在实际构建prs的过程中,是选取最有意义的少数snp,还是选取大范围的低显著性的snp,需要针对实际情况调整。另一个困难点在于,距离相对较近的snp之间往往具有极强的相关性(连锁不平衡效果,linkage disequilibrium,ld),将强相关的snp同时选取加入到prs建模中,将对预测模型的构建造成阻碍,导致预测精度下降,因此传统prs构建方法在建模前筛除强相关的snp。

3、因此,针对上述问题,予以进一步改进。


技术实现思路

1、本发明的主要目的在于提供一种利用伊辛模型的多基因遗传风险评估模型的构建方法,其基于样本数据中各snp的相关系数矩阵构建伊辛模型,用0或1来代表该snp的筛选结果,利用伊辛机高效精准地求解伊辛模型,基于伊辛模型筛选后的snp用机器学习算法对目标表型性状建模,提升了prs的预测效率和准确度。

2、为达到以上目的,本发明提供一种利用伊辛模型的多基因遗传风险评估模型的构建方法,包括以下步骤:

3、步骤s1:读取样本的基因组数据,同时读取外部参照数据,从而对样本的基因组数据进行snp位点质控;

4、步骤s2:获取目标表型性状的gwas统计数据;

5、步骤s3:基于获取的snp位点数据,计算各snp位点之间的相关系数;

6、步骤s4:基于步骤s2获取的gwas统计数据中的各snp的p值,设定用于筛选snp的p值的阈值;

7、步骤s5:根据质控和筛选后的snp之间的相关系数,生成伊辛模型;

8、步骤s6:在步骤s5生成的伊辛模型中加入正则项;

9、步骤s7:对步骤s6中加入正则项后的伊辛模型,利用伊辛机求解;

10、步骤s8:根据步骤s7中所得的伊辛模型的解,确定prs建模所使用的snp位点;

11、步骤s9:基于所选取的snp位点,利用机器学习建模prs以预测目标表型性状。

12、作为上述技术方案的进一步优选的技术方案,对于步骤s1:

13、读取的样本基因数据,(可以)为全基因组测序(whole genome sequencing,wgs)或全外显子组测序(whole exome sequencing,wes)结果,或者(可以)是基于affy500k或illumina330(等)snp芯片所测得的结果(等);

14、在进行snp位点质控时,(可以)选择去除频率<预设值的snp,以及去除未通过遗传平衡检验(hardy-weinberg equilibrium,hwe)的snp;在进行snp质控时,参照数据为外部的千人基因组公开数据或者基于样本基因数据(等)。

15、作为上述技术方案的进一步优选的技术方案,基于snp间的相关系数构造伊辛模型,以用于筛选snp。

16、作为上述技术方案的进一步优选的技术方案,通过构造伊辛模型筛选snp,以用于预测表型性状。

17、作为上述技术方案的进一步优选的技术方案,步骤s6中,在构造的伊辛模型中加入l1或l2正则项。

18、作为上述技术方案的进一步优选的技术方案,利用伊辛机处理组合优化问题的特性求解伊辛模型,筛选最适合用于预测表型形状的snp。

19、作为上述技术方案的进一步优选的技术方案,基于snp间的相关系数构造伊辛模型,使用包括基于光芯片、fpga、超导量子、离子阱、cpu和gpu形式在内的伊辛机求解。

20、作为上述技术方案的进一步优选的技术方案,基于伊辛模型筛选适合用于预测的snp后,用包括lasso、ridge回归、elastic-net、贝叶斯神经网络和隐形马尔可夫模型在内的机器学习算法预测表型性状;

21、基于伊辛模型得出多组解后,基于训练样本集或多个交叉校验子集的预测精度,确定最优的解作为输出模型。

22、作为上述技术方案的进一步优选的技术方案,gwas统计结果中包括各个snp的染色体号、在染色体中的位置、p值、beta值或or值、se(标准偏差)等信息。

23、为达到以上目的,本发明提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述利用伊辛模型的多基因遗传风险评估模型的构建方法的步骤。

24、为达到以上目的,本发明提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述利用伊辛模型的多基因遗传风险评估模型的构建方法的步骤。

25、本发明的有益效果为:

26、本发明通过将筛选snp的过程转化为伊辛模型求解,利用伊辛机对组合优化问题的高速求解能力,比传统方法更高效率且更准确地选取对prs建模最合适的snp,提高了prs建模的效率和准确度。



技术特征:

1.一种利用伊辛模型的多基因遗传风险评估模型的构建方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种利用伊辛模型的多基因遗传风险评估模型的构建方法,其特征在于,基于snp间的相关系数构造伊辛模型,以用于筛选snp。

3.根据权利要求1所述的一种利用伊辛模型的多基因遗传风险评估模型的构建方法,其特征在于,通过构造伊辛模型筛选snp,以用于预测表型性状。

4.根据权利要求1所述的一种利用伊辛模型的多基因遗传风险评估模型的构建方法,其特征在于,步骤s6中,在构造的伊辛模型中加入l1或l2正则项。

5.根据权利要求1所述的一种利用伊辛模型的多基因遗传风险评估模型的构建方法,其特征在于,利用伊辛机处理组合优化问题的特性求解伊辛模型,筛选最适合用于预测表型形状的snp。

6.根据权利要求1所述的一种利用伊辛模型的多基因遗传风险评估模型的构建方法,其特征在于,基于snp间的相关系数构造伊辛模型,使用包括基于光芯片、fpga、超导量子、离子阱、cpu和gpu形式在内的伊辛机求解。

7.根据权利要求1所述的一种利用伊辛模型的多基因遗传风险评估模型的构建方法,其特征在于,基于伊辛模型筛选适合用于预测的snp后,用包括lasso、ridge回归、elastic-net、贝叶斯神经网络和隐形马尔可夫模型在内的机器学习算法预测表型性状;

8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述利用伊辛模型的多基因遗传风险评估模型的构建方法的步骤。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至7任一项所述利用伊辛模型的多基因遗传风险评估模型的构建方法的步骤。


技术总结
本发明公开了一种利用伊辛模型的多基因遗传风险评估模型的构建方法,包括读取原始样本的SNP数据,计算各单核苷酸多态性之间的相关系数;获取目标疾病的全基因组关联分析公开数据,设定P值的阈值,作为后续筛选SNP的基准:根据原始样本中各SNP的相关系数,构造伊辛模型,并加入正则项;利用伊辛机求解伊辛模型的解,获取用于预测目标疾病的SNP;基于筛选后的SNP,利用机器学习算法预测目标疾病。本发明公开的一种利用伊辛模型的多基因遗传风险评估模型的构建方法,将传统方法中筛选SNP的过程转化为对伊辛模型的求解,利用伊辛机高效准确地筛选用于算法建模PRS的SNP,提高了对目标疾病的预测效率和准确度。

技术研发人员:徐宸原,王曰海,戴庭舸
受保护的技术使用者:浙江大学绍兴研究院
技术研发日:
技术公布日:2024/4/17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1