疾病易感风险预测方法及装置的制造方法_6

文档序号:9350249阅读:来源:国知局
、相应地域、相 应性别组成的各年龄区段的个体疾病综合易感风险值; 疾病综合易感风险动态变化曲线单元(400):与所述疾病综合易感风险数组计算单元 (300)连接,用于依据各感兴趣疾病的个体疾病综合易感风险数组,使用LOESS回归拟合出 该离散数组对应的疾病综合易感性风险计算函数,基于该函数,生成指定年龄范围的个体 疾病综合易感风险动态变化曲线。7. 如权利要求6所述疾病易感风险预测装置,其特征在于,所述疾病易感风险预测装 置还包括:校对单元(500),与所述数据库单元(100)连接,用于对候选OR值数据进行校对 后提供给数据库单元(100)。8. 如权利要求7所述疾病易感风险预测装置,其特征在于,所述校对单元(500)包括: 文献挖掘信息录入模块(510):用于录入自文献中挖掘出的OR值相关信息; SNP位点校对模块(520):与文献挖掘信息录入模块(510)相连,用于校对每个SNP位 点记录的碱基是否与染色体正链该位点的碱基相一致,不一致则纠正; 样本数校对模块(530):与文献挖掘信息录入模块(510)相连,用于校对有效样本总数 是否等于各个基因型组别有效样本数之和,不相等则去除此样本对应数据记录并反馈给数 据库管理员要求进行数据修正; 字段规范模块(540):与文献挖掘信息录入模块(510)相连,用于规范录入信息的字 段,要求格式统一,对不统一的格式纠正为指定格式; 风险等位、非风险等位校对模块(550):与文献挖掘信息录入模块(510)相连,用于校 对风险等位及非风险等位的输入错误; 重复SNP位点记录的去冗余模块(560):与文献挖掘信息录入模块(510)相连,用于当 两条信息记录中出现的SNP位点编号、样本性别、样本人群所属地域、研究疾病均相同时, 仅保留一条记录; 信息记录可信程度确定和信息记录筛选模块(570):与文献挖掘信息录入模块(510) 相连,用于确定信息记录可信程度并对信息记录进行筛选。9. 如权利要求8所述疾病易感风险预测装置,其特征在于,所述信息记录可信程度确 定和信息记录筛选模块(570)包括: 信息完整性判定子模块(571):与文献挖掘信息录入模块(510)相连,用于判断信息完 整性,如果信息完整则信息可信程度增加1级; 样本规模判断子模块(572):与文献挖掘信息录入模块(510)相连,用于判断样本规模 是否满足要求,如满足要求则信息可信程度增加1级; 统计学检验显著性判断子模块(573):与文献挖掘信息录入模块(510)相连,用于判断 SNP位点与疾病相关性P值是否满足要求,如满足要求则信息可信程度增加1级; 文献来源刊物影响力子模块(574):与文献挖掘信息录入模块(510)相连,用于判断记 录的来源刊物对应的影响因子是否满足要求,如满足要求则信息可信程度增加1级; SNP位点信息记录筛选子模块(575):与信息完整性判定子模块(571)、样本规模判断 子模块(572)、统计学检验显著性判断子模块(573)、文献来源刊物影响力子模块(574)相 连,用于获得信息记录可信程度评级结果并剔除结果不满足要求的信息记录。10. 如权利要求6所述疾病易感风险预测装置,其特征在于,所述疾病综合易感风险数 组计算单元(300)包括: 数据提取模块(310):与所述数据库单元(100)及待测个体信息单元(200)连接,用于 从数据库单元(100)中提取以下数据:相应地域相应性别组成在各年龄分布区段下的各感 兴趣疾病的发病率数据,相应地域的各感兴趣疾病对应SNP位点基因型频率数据,以及相 应地域相应性别组成在各年龄分布区段下的感兴趣疾病对应SNP位点的OR值数据; 独立SNP位点疾病易感性风险值计算模块(320):与所述数据提取模块(310)连接,用 于依据提取的发病率数据、SNP位点基因型频率数据及OR值数据,结合公式2和3,分别计 算出各感兴趣疾病各SNP位点针对相应地域、相应性别组成、各年龄区段的单个SNP位点基 因型不同人群的疾病发病率Pr (D IG1, Re gion,Gender,Age),即独立SNP位点疾病易感性风 险值; 公式2(i = {1,2}, Re gion = X, Gender = Y, Age = Z) 上述公式中,Region代表地域条件、Gender代表性别组成条件、Age代表年龄分布区段 条件; Re gion = X,Gender = Y, Age = Z,代表 Region 条件为 X、Gender 条件为 Y、Age 条件 为Z ; Pr (D I Re gion = X,Gender = Y, Age = Z),代表 Region、Gender、Age 条件分别为 X、Y、 Z时的疾病发病率; G1代表基因型,i的取值选自0、1、2, G。代表非风险等位纯合基因型,G1代表杂合基因 型,G2代表风险等位纯合基因型; PHG1 |Re gion)为在特定Region条件下,单个SNP位点G1S因型的基因型频率; OR1代表G1S因型的OR值; Pr (D I Gi, Re gion, Gender, Age)代表在特定地域、特定性别组成、特定年龄分布区 段条件下,单个SNP位点G1S因型的疾病发病率;当i取值为0时,即为Pr (D |G。,Re gion,Gender, Age); 公式2中,公式右边i分别取0, 1,2后代入求和公式求和;公式3中,i分别取值1和 2 ; 待测个体各感兴趣疾病的疾病综合易感风险数组计算模块(330):与所述数据提取模 块(310)及独立SNP位点疾病易感性风险值计算模块(320)相连,用于利用提取的数据、独 立SNP位点疾病易感性风险值计算待测个体各感兴趣疾病的疾病综合易感风险数。11.如权利要求10所述疾病易感风险预测装置,其特征在于,所述待测个体各感兴趣 疾病的疾病综合易感风险数组计算模块(330)包括下述子模块: OIUpcisltJ值计算子模块(331):与所述数据提取模块(310)、独立SNP位点疾病易感 性风险值计算模块(320)连接,用于结合待测个体的单个SNP位点对应的基因型,使用公式 4-7完成0R*计算并进一步计算OR ranipcislte* ; 公式4 Odds (D I G, Re gion, Gender, Age) = Pr (D | G, Re gion, Gender, Age) / (1-Pr (D | G, Re gion, Gender, Age)) 公式5 Odds (DI Re gion,Gender,Age) = Pr(DI Re gion,Gender,Age)/(l_Pr(DI Re gion, Gender, Age)) 公式6 OR* = Odds(DIG, Re gion, Gender, Age)/Odds(D|Re gion, Gender, Age) (Re gion = X, Gender = Y, Age = Z) 公式7上述公式中, Pr (D IG, Re gion, Gender, Age)代表在特定地域、特定性别组成、特定年龄分布区段条 件下,单个SNP位点G基因型的疾病发病率; Pr (D I Re gion, Gender, Age),代表在特定地域、特定性别组成、特定年龄分布区段条件 下的疾病发病率; Odds (D IG, Re gion, Gender, Age)代表在特定地域、特定性别组成、特定年龄分布区段 条件下,针对G基因型的某疾病发病率和正常率之比; Odds (D I Re gion, Gender, Age)代表在特定地域、特定性别组成、特定年龄分布区段条 件下,某疾病发病率和正常率之比; OR* 为近似比值比,为 Odds (D IG, Re gion, Gender, Age)与 Odds (D I Re gion,Gender, Age)之比,设一个疾病对应m个不同的SNP位点,m e {:该疾病所有相关SNP 位点},那么针对待测个体同一疾病的各不同SNP位点基因型,需分别计算OR*值,分别记为 OR1*、OR2*、OR3*、......、〇Rm* ; 〇R_Pclslto*代表疾病综合近似比值比,计算方法见公式7,为同一疾病各不同SNP位点基 因型的0R*值的乘积; 个体疾病综合易感风险计算子模块(332):与所述ORranipcisltJ值计算子模块(331)连 接,用于使用公式8和9,使用逆函数计算方法完成个体疾病综合易感风险数值的计算,并 将该值作为最终计算所得的个体疾病综合易感风险; 公式8 的乘积;Pr (D I Gli 2ι 3ι^ m, Re gion, Gender,Age)为个体疾病综合易感风险值,代表在特定地域、 特定性别组成、特定年龄分布区段条件下,综合考量了待测个体同一疾病m个SNP位点基因 型的个体疾病综合易感风险值。12. 如权利要求6所述疾病易感风险预测装置,其特征在于,所述疾病综合易感风险动 态变化曲线单元(400)至少包括: 个体疾病综合易感风险动态变化曲线模块(410):与疾病综合易感风险数组计算单元 300相连,用于生成指定年龄范围的个体疾病综合易感风险动态变化曲线。13. 如权利要求12所述疾病易感风险预测装置,其特征在于,所述个体疾病综合易感 风险动态变化曲线模块(410)以疾病综合易感风险数组计算单元获得的疾病综合易感风 险数组作为输入数据,将年龄和年龄对应的个体疾病综合易感风险值分别作为自变量和应 变量,结合公式10,进一步使用LOESS回归拟合出该离散数组对应的疾病综合易感性风险 计算函数(Risk lciess),并基于该函数,生成指定年龄范围的个体疾病综合易感风险动态变化 曲线 公式 IORisklciess(Age) = L0ESS_REGRESSI0N(Age, RiskAge) 在公式10中, Age代表年龄, Risk^R表年龄对应的个体疾病综合易感风险值; Risklciess为疾病综合易感性风险计算函数。14. 如权利要求12所述疾病易感风险预测装置,其特征在于,所述疾病综合易感风险 动态变化曲线单元(400)还包括: 人群平均疾病易感风险动态变化曲线模块(420):与疾病综合易感风险数组计算单元 (300)相连,用于生成人群平均疾病易感风险动态变化曲线。15.如权利要求14所述疾病易感风险预测装置,其特征在于,所述人群平均疾病易感 风险动态变化曲线模块(420)以与待测个体相应地域相应性别组成在各年龄分布区段下 的某疾病的发病率数据作为某疾病平均易感风险数组,并以此作为输入数据,将年龄和年 龄对应的疾病平均易感风险数值分别作为自变量和应变量,以疾病平均易感风险数替代公 式10中的Risk Age,进一步使用LOESS回归拟合出该离散数组对应的疾病平均易感风险计算 函数,基于该函数,生成指定年龄范围的人群平均疾病易感风险动态变化曲线,以作为疾病 综合易感风险动态变化曲线的参比 公式 IORisklciess(Age) = LOESS_REGRESSION(Age, RiskAge) 在公式10中, Age代表年龄, Risk^R表年龄对应的个体疾病综合易感风险值; Risklciess为疾病综合易感性风险计算函数。
【专利摘要】本发明涉及生物信息学,提供了一种疾病易感风险预测方法及装置。本发明的疾病易感风险预测方法包括:提供包含疾病的发病率数据、SNP位点基因型频率数据、针对每个疾病相关SNP位点的风险等位纯合基因型及杂合基因型的OR值数据的数据库;接收待测个体的信息;计算获得待测个体所感兴趣疾病的疾病综合易感风险数组;生成指定年龄范围的个体疾病综合易感风险动态变化曲线。本发明同时考虑个体遗传和环境两个方面的因素计算个体疾病易感性风险,计算结果更符合客观现实,获得的针对个体的疾病易感性风险年龄变化曲线,使得个体不仅能够获悉更为精确的即时疾病易感风险,同时也能够继续了解伴随年龄增长后各类疾病易感性变化的趋势。
【IPC分类】G06F19/10, G06F19/24
【公开号】CN105069322
【申请号】CN201510442836
【发明人】曹鑫恺, 王立山, 臧卫东, 宋伟
【申请人】上海丰核信息科技有限公司, 上海尔云信息科技有限公司
【公开日】2015年11月18日
【申请日】2015年7月24日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1