一种基于生物遗传数据的身高预测方法及系统与流程

文档序号:37015335发布日期:2024-02-09 13:05阅读:19来源:国知局
一种基于生物遗传数据的身高预测方法及系统与流程

本发明涉及一种身高预测方法及系统,尤其涉及一种基于生物遗传数据的身高预测方法及系统,属于生物遗传数据分析与计算机相结合的应用领域。


背景技术:

1、研究表明,人类身高主要受到遗传信息和环境两大因素的影响。其中,遗传信息因素指人的基因信息,人类身高由大量遗传位点共同影响,并且身高的遗传度高达80%;环境因素指来自外界的对人类生长情况产生影响的因素,如营养条件、饮食习惯、运动方式等。

2、目前,对于成年人身高的预测方法大致有以下几种:(1)基于个人表型的预测方法,如根据人的年龄、性别、地域等表型进行身高的建模预测,这种方法只用于个人相对应的群体统计特征,无法反应个人生长特征;(2)基于父母身高信息对后代成年身高进行推测,这种方法在一定程度上考虑了遗传和营养环境的影响,但未将后代个体遗传信息差异纳入考量;(3)基于骨龄的身高预测方法(如中国专利公开号:cn115274098a),这种方法可以基于受试者的身高及发育状态预测成年身高,但需要未来时刻多次测试,成本较高,且同样没有考虑营养等环境因素影响;(4)基于遗传信息的推测方法,选取部分遗传位点,结合位点的身高遗传效应值得到身高预测结果,这种方法充分考虑了个体本身的遗传信息带来的身高差异,但现有研究(如中国专利公布号:cn114317706a)应用位点较少,且未将环境因素纳入考量。

3、综上,为提高中国人群的身高预测精度,使用遗传数据并结合相关表型因素,构建对成年人身高进行预测的模型及其应用系统是一个亟待研究的方向。


技术实现思路

1、针对上述现存的技术问题,本发明提供一种基于生物遗传数据的身高预测方法及系统,通过利用多族群的身高gwas数据,并结合基因组数据,得到遗传信息所决定的身高信息,再结合其他相关表型,得到身高预测数据,从而实现提高中国人群的身高预测精度的技术目的。

2、为实现上述目的,首先,本发明提供一种基于生物遗传数据的身高预测方法,包括如下步骤:

3、s1、采集中国汉族人群样本,获取基因组数据和数据批次,以及身高相关表型数据,包括身高、年龄、性别,并构建身高相关基因位点参考数据库;

4、s2、对基因组数据在位点层面进行质量控制,并对基因组数据和身高相关表型数据在个体层面进行质量控制,得到样本数据;然后对样本数据中的基因组数据进行主成分分析,得到主成分pc;再将样本数据随机划分为训练集、验证集和测试集;

5、s3、采用逻辑回归模型,以训练集的身高为因变量,以训练集的年龄、性别、数据批次、主成分pc为协变量,分别计算每个基因位点对身高的遗传效应值,得到训练集的身高gwas数据;并收集外部公开的身高gwas数据,以及其与非公开数据经荟萃分析得到的位点权重数据;

6、s4、基于训练集的身高gwas数据、外部公开的身高gwas数据和位点权重数据,分别计算跨族群身高的多基因风险评分prs权重,以及单一族群身高的多基因风险评分prs权重;

7、s5、将跨族群身高的多基因风险评分prs权重,以及单一族群身高的多基因风险评分prs权重应用到验证集,计算验证集的多基因风险评分prs值;然后采用线性回归模型,以验证集的身高为因变量,以验证集的多基因风险评分prs值、年龄、性别、数据批次、主成分pc为协变量,分别计算每个协变量的回归系数,并使用分步回归方法进行协变量的筛选,得到身高预测模型;

8、s6、将跨族群身高的多基因风险评分prs权重,以及单一族群身高的多基因风险评分prs权重应用到目标集,计算目标集的多基因风险评分prs值;然后将目标集的多基因风险评分prs值、年龄、性别、数据批次、主成分pc代入身高预测模型,得到身高预测值。

9、本发明方法进一步的,所述步骤s1,包括:

10、s1-1、从中国汉族人群中招募基因检测对象,采集招募对象的生物样本,并使用基因芯片技术和基因填充计算方法,获取招募对象的基因组数据和数据批次;

11、s1-2、通过问卷形式获取招募对象的身高相关表型数据,包括身高、年龄、性别;

12、s1-3、构建身高相关基因位点参考数据库。

13、本发明方法进一步的,所述对基因组数据在位点层面进行质量控制,包括:

14、s2-1-11、去除未检出率高于2%的位点;

15、s2-1-12、去除哈迪温伯格检测的p值小于的位点;

16、s2-1-13、去除较小的等位基因频率低于1%的位点;

17、s2-1-14、去除基因填充质量低于0.3的位点。

18、本发明方法进一步的,所述对基因组数据和身高相关表型数据在个体层面进行质量控制,包括:

19、s2-1-21、去除整体位点缺失率大于5%的样本;

20、s2-1-22、去除基因性别与表型性别不匹配的个体;

21、s2-1-23、去除身高不在150-210cm之间的样本;

22、s2-1-24、去除年龄不在18-80岁之间的样本。

23、本发明方法进一步的,所述外部公开的身高gwas数据为:世界范围内公开的样本数量最大的身高gwas数据,并且包括欧洲、东亚、非洲、南亚和西班牙裔族群。

24、本发明方法进一步的,所述跨族群身高的多基因风险评分 prs权重的计算包括:按照族群不同,将每个族群的身高gwas数据进行两两组合,每个组合包括一个亚洲族群的身高gwas数据和一个欧洲族群的身高gwas数据;然后对每个组合的身高gwas数据分别采用prs-csx方法和x-wing方法计算多基因风险评分prs权重。

25、本发明方法进一步的,所述单一族群身高的多基因风险评分prs 权重的计算包括:基于单一族群,将每个族群的身高gwas数据分别采用c+t方法和prs-cs方法计算多基因风险评分prs权重。

26、本发明方法进一步的,所述多基因风险评分prs值的计算公式如下:

27、

28、其中,为多基因风险评分prs权重;为每个位点的基因型数据。

29、本发明方法进一步的,所述身高预测模型的公式如下:

30、

31、其中,代表第j个协变量,代表第j个协变量在身高预测模型中的回归系数,代表第i组的多基因风险评分prs值,代表第i组的多基因风险评分prs值在身高预测模型中的回归系数。

32、并且,本发明还提供一种基于生物遗传数据的身高预测系统,包括数据录入储存模块、数据预处理模块、模型训练模块、身高预测模块;

33、所述数据录入储存模块,用于采集中国汉族人群样本,获取基因组数据和数据批次,以及身高相关表型数据,包括身高、年龄、性别,并构建身高相关基因位点参考数据库;

34、所述数据预处理模块,用于对基因组数据在位点层面进行质量控制,并对基因组数据和身高相关表型数据在个体层面进行质量控制,得到样本数据;然后对样本数据中的基因组数据进行主成分分析,得到主成分pc;再将样本数据随机划分为训练集、验证集和测试集;

35、所述模型训练模块,用于采用逻辑回归模型,以训练集的身高为因变量,以训练集的年龄、性别、数据批次、主成分pc为协变量,分别计算每个基因位点对身高的遗传效应值,得到训练集的身高gwas数据;并收集外部公开的身高gwas数据,以及其与非公开数据经荟萃分析得到的位点权重数据;

36、用于基于训练集的身高gwas数据、外部公开的身高gwas数据和位点权重数据,分别计算跨族群身高的多基因风险评分prs权重,以及单一族群身高的多基因风险评分prs权重;

37、以及用于将跨族群身高的多基因风险评分prs权重,以及单一族群身高的多基因风险评分prs权重应用到验证集,计算验证集的多基因风险评分prs值;然采用线性回归模型,后以验证集的身高为因变量,以验证集的多基因风险评分prs值、年龄、性别、数据批次、主成分pc为协变量,分别计算每个协变量的回归系数,并使用分步回归方法进行协变量的筛选,得到身高预测模型;

38、所述身高预测模块,用于将跨族群身高的多基因风险评分prs权重,以及单一族群身高的多基因风险评分prs权重应用到目标集,计算目标集的多基因风险评分prs值;然后将目标集的多基因风险评分prs值、年龄、性别、数据批次、主成分pc代入身高预测模型,得到身高预测值。

39、综上,本发明使用遗传数据,并结合相关表型因素,构建了对成年人身高进行预测的模型及其应用系统,具有如下有益效果:

40、首先,为提高身高预测模型的预测精度,招募了大量以中国人群为主的成年人群样本,进行身高预测模型训练。同时,考虑到身高预测模型的预测精度会受到样本量的影响,训练数据的样本量越大,模型拟合精度相对越高,因此除了所招募的中国人群数据外,还收集了外部公开的数据作为补充,从而提高了样本量。

41、其次,目前绝大多数公开可获得的样本数据来源为欧洲人群,而不同的族群在遗传结构和遗传效应方面有着明显的差异,因此在模型拟合的过程中应用了特定统计模型处理不同族群数据,从而提高了样本数据在中国人群的预测精度。

42、相比现有技术,本发明主要具有以下技术优势:

43、1、本发明通过使用中国汉族族群样本进行建模计算,身高预测模型与中国汉族族群遗传特征更吻合,提高了身高预测的精度。

44、2、本发明基于生物遗传数据以及身高相关表型数据对成年人身高进行预测计算,同时考虑遗传因素和环境因素对身高产生的影响,提高了身高预测结果的准确性。

45、3、本发明通过结合中国汉族族群样本数据和国外多族群大样本的身高gwas数据,提高了统计显著性和模型准确性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1