疾病易感风险预测方法及装置的制造方法_5

文档序号:9350249阅读:来源:国知局
易感风险数组计算模块330相连,进一步的,与待测个体各感兴趣疾病的疾病综 合易感风险数组计算模块330的个体疾病综合易感风险计算子模块332相连,用于生成指 定年龄范围的个体疾病综合易感风险动态变化曲线。在一个实施例中,该模块以疾病综合 易感风险数组计算单元获得的疾病综合易感风险数组作为输入数据,将年龄和年龄对应的 个体疾病综合易感风险值分别作为自变量和应变量,结合公式10,进一步使用LOESS回归 拟合出该离散数组对应的疾病综合易感性风险计算函数(Risklciess),并基于该函数,生成指 定年龄范围的个体疾病综合易感风险动态变化曲线。
[0204] 所述该模炔基于个体的遗传特征信息、所处地域信息以及性别信息,完成对该个 体不同年龄段疾病综合易感性风险的动态变化曲线绘制,以反映出环境因素的累积效应对 个体疾病综合易感性的影响。
[0205] 在一个优选的实施例中,如图3B所示,所述疾病综合易感风险动态变化曲线单元 400还包括:
[0206] 人群平均疾病易感风险动态变化曲线模块420 :与疾病综合易感风险数组计算单 元300相连,用于生成人群平均疾病易感风险动态变化曲线。在一个实施例中,该模块以 与待测个体相应地域相应性别组成在各年龄分布区段下的某疾病的发病率数据作为某疾 病平均易感风险数组,并以此作为输入数据,将年龄和年龄对应的疾病平均易感风险数值 分别作为自变量和应变量,以疾病平均易感风险数替代公式10中的Risk^,进一步使用 LOESS回归拟合出该离散数组对应的疾病平均易感风险计算函数,基于该函数,生成指定年 龄范围的人群平均疾病易感风险动态变化曲线,以作为疾病综合易感风险动态变化曲线的 参比。
[0207] 进一步的,如图5所示,在一优选的实施例中,本发明的装置还可以包括结果输出 单元600,与所述疾病综合易感风险动态变化曲线单元400连接,用于输出疾病综合易感风 险动态变化曲线图。所述结果输出单元可以是显示器、打印设备等。
[0208] 在本发明的一个实施例中,作为示范性的举例,采用本发明的装置针对特定基因 型的上海地区男性待测个体肺癌易感性风险给出了年龄范围为0-100岁的个体疾病综合 易感风险动态变化曲线及人群平均疾病易感风险动态变化曲线,最终输出结果如图2所 不。
[0209] 以上的实施例是为了说明本发明公开的实施方案,并不能理解为对本发明的限 制。此外,本文所列出的各种修改以及发明中方法、装置的变化,在不脱离本发明的范围和 精神的前提下对本领域内的技术人员来说是显而易见的。虽然已结合本发明的多种具体优 选实施例对本发明进行了具体的描述,但应当理解,本发明不应仅限于这些具体实施例。事 实上,各种如上所述的对本领域内的技术人员来说显而易见的修改来获取发明都应包括在 本发明的范围内。
【主权项】
1. 一种疾病易感风险预测方法,包括下列步骤: 步骤S101,提供包含疾病的发病率数据、SNP位点基因型频率数据、针对每个疾病相关 SNP位点的风险等位纯合基因型及杂合基因型的OR值数据的数据库S ;其中,同一疾病的发 病率数据依据地域、性别组成、年龄分布区段的不同组合进行区分,同一疾病相关SNP位点 的各基因型的OR值数据依照地域、性别组成、年龄分布区段的不同组合进行区分,SNP位点 基因型频率数据按地域不同进行区分; 步骤S102,接收待测个体的地域信息、性别信息、SNP位点实测基因型信息; 步骤S103,针对待测个体感兴趣疾病,根据待测个体的地域信息、性别信息及SNP位 点实测基因型信息,从数据库S中提取以下数据:相应地域相应性别组成在各年龄分布区 段下的各感兴趣疾病的发病率数据,相应地域的各感兴趣疾病对应SNP位点基因型频率数 据,以及相应地域相应性别组成在各年龄分布区段下的感兴趣疾病对应SNP位点的OR值数 据;依据上述数据计算获得待测个体各感兴趣疾病的疾病综合易感风险数组,所述待测个 体的疾病综合易感风险数组包括:与该待测个体基因型组成相同、相应地域、相应性别组成 的各年龄分布区段的个体疾病综合易感风险值; 步骤S104,依据各感兴趣疾病的个体疾病综合易感风险数组,使用LOESS回归拟合出 该离散数组对应的疾病综合易感性风险计算函数,基于该函数,生成指定年龄范围的个体 疾病综合易感风险动态变化曲线。2. 如权利要求1所述疾病易感风险预测方法,其特征在于:所述步骤SlOl中,OR值数 据录入数据库S前经校对,所述校对内容包括: i) 每个SNP位点记录的碱基是否与染色体正链该位点的碱基相一致,不一致则纠正; ii) 有效样本总数是否等于各个基因型组别有效样本数之和,不相等则去除此样本对 应数据记录并反馈给数据库管理员要求进行数据修正; iii) 规范录入信息的字段规范,要求格式统一,对不统一的格式纠正为指定格式; iv) 风险等位、非风险等位的确定; V)重复SNP位点记录的去冗余; vi)信息记录可信程度确定和信息记录筛选。3. 如权利要求1所述疾病易感风险预测方法,其特征在于:所述步骤S103中,采用包 括下列步骤的方法计算疾病综合易感风险: 步骤一:依据提取的发病率数据、SNP位点基因型频率数据及OR值数据,结合公式2和 3,分别计算出各感兴趣疾病各SNP位点针对相应地域、相应性别组成、各年龄分布区段的 单个SNP位点基因型的疾病发病率Pr (D IG1, Re gion,Gender,Age),即独立SNP位点疾病易 感性风险值; 公式2(i = {1,2}, Re gion = X, Gender = Y, Age = Z) 上述公式中,Region代表地域条件、Gender代表性别组成条件、Age代表年龄分布区段 条件; Re gion = X,Gender = Y, Age = Z,代表 Region 条件为 X、Gender 条件为 Y、Age 条件 为Z ; Pr (D I Re gion = X,Gender = Y, Age = Z),代表 Region、Gender、Age 条件分别为 X、Y、 Z时的疾病发病率; G1代表基因型,i的取值选自0、1、2, G。代表非风险等位纯合基因型,G1代表杂合基因 型,G2代表风险等位纯合基因型; PHG1 |Re gion)为在特定Region条件下,单个SNP位点G1S因型的基因型频率; OR1代表G1S因型的OR值; Pr (D I Gi, Re gion, Gender, Age)代表在特定地域、特定性别组成、特定年龄分布区 段条件下,单个SNP位点G1S因型的疾病发病率;当i取值为0时,即为Pr (D |G。,Re gion,Gender, Age); 公式2中,公式右边i分别取0, 1,2后代入求和公式求和;公式3中,i分别取值1和 2 ; 步骤二:利用提取的数据、步骤一的计算结果、计算待测个体各感兴趣疾病的疾病综合 易感风险数,具体包括下述两个子步骤: 子步骤一:结合待测个体的单个SNP位点对应的基因型,使用公式4-7完成0R*计算并 进一步计算 ORranpcislto* ; 公式4 Odds (D I G, Re gion, Gender, Age) = Pr (D | G, Re gion, Gender, Age) / (1-Pr (D | G, Re gion, Gender, Age)) 公式5 Odds (DI Re gion,Gender,Age) = Pr(DI Re gion,Gender,Age)/(l_Pr(DI Re gion, Gender, Age)) 公式6 OR* = Odds(DIG, Re gion, Gender, Age)/Odds(D|Re gion, Gender, Age) (Re gion = X, Gender = Y, Age = Z) 公式7上述公式中, Pr (D IG, Re gion, Gender, Age)代表在特定地域、特定性别组成、特定年龄分布区段条 件下,单个SNP位点G基因型的疾病发病率; Pr (D I Re gion, Gender, Age),代表在特定地域、特定性别组成、特定年龄分布区段条件 下的疾病发病率; Odds (D IG, Re gion, Gender, Age)代表在特定地域、特定性别组成、特定年龄分布区段 条件下,针对G基因型的某疾病发病率和正常率之比; Odds (D I Re gion, Gender, Age)代表在特定地域、特定性别组成、特定年龄分布区段条 件下,某疾病发病率和正常率之比; 0R* 为近似比值比,为 Odds (D IG, Re gion, Gender, Age)与 Odds (D I Re gion, Gender, Age)之比,设一个疾病对应m个不同的SNP位点,m e {:该疾病所有相关SNP 位点},那么针对待测个体同一疾病的各不同SNP位点基因型,需分别计算0R*值,分别记为 OR1*、OR2*、OR3*、......、〇Rm* ; 〇R_Pclslto*代表疾病综合近似比值比,计算方法见公式7,为同一疾病各不同SNP位点基 因型的0R*值的乘积; 子步骤二:使用公式8和9,使用逆函数计算方法完成个体疾病综合易感风险数值的计 算,并将该值作为最终计算所得的个体疾病综合易感风险; 公式8Odds (DjG1,2,m,Re gion,Gender,Age)为ORrampcisite*与 Odds (D I Re gion, Gender, Age) 的乘积; Pr (D I Gli 2ι 3ι^ m, Re gion, Gender,Age)为个体疾病综合易感风险值,代表在特定地域、 特定性别组成、特定年龄分布区段条件下,综合考量了待测个体同一疾病m个SNP位点基因 型的个体疾病综合易感风险值。4. 如权利要求1所述疾病易感风险预测方法,其特征在于:所述步骤S104,以步骤 S103获得的个体疾病综合易感风险数组作为输入数据,将年龄和年龄对应的个体疾病综合 易感风险值分别作为自变量和应变量,结合公式10,进一步使用LOESS回归拟合出该离散 数组对应的个体疾病综合易感性风险计算函数Ri Sklciess, 公式 IORisklciess(Age) = L0ESS_REGRESSI0N(Age, RiskAge) 在公式10中, Age代表年龄, 把成_代表年龄对应的个体疾病综合易感风险值; Risklciess为疾病综合易感性风险计算函数。5. 如权利要求4所述疾病易感风险预测方法,其特征在于:所述步骤S104还包括以 与待测个体相应地域相应性别组成在各年龄分布区段下的某疾病的发病率数据作为某疾 病平均易感风险数组,并以此作为输入数据,将年龄和年龄对应的疾病平均易感风险数值 分别作为自变量和应变量,以疾病平均易感风险数替代公式10中的Risk^,进一步使用 LOESS回归拟合出该离散数组对应的疾病平均易感风险计算函数,基于该函数,生成指定年 龄范围的人群平均疾病易感风险动态变化曲线作为参比。6. -种疾病易感风险预测装置,其特征在于,包括: 数据库单元(100):用于提供包含疾病的发病率数据、SNP位点基因型频率数据、针对 每个疾病相关SNP位点的风险等位纯合基因型及杂合基因型的OR值数据的数据库;其中, 同一疾病的发病率数据依据地域、性别组成、年龄分布区段的不同组合进行区分,同一疾病 相关SNP位点的各基因型的OR值数据依照地域、性别组成、年龄分布区段的不同组合进行 区分,SNP位点基因型频率数据按地域不同进行区分; 待测个体信息单元(200):用于提供待测个体的地域信息、性别信息、SNP位点实测基 因型信息; 疾病综合易感风险数组计算单元(300):与所述数据库单元(100)及待测个体信息单 元(200)连接,用于针对待测个体感兴趣疾病,根据待测个体的地域信息、性别信息及SNP 位点实测基因型信息,从数据库单元(100)中提取以下数据:相应地域相应性别组成在各 年龄分布区段下的各感兴趣疾病的发病率数据,相应地域的各感兴趣疾病对应SNP位点基 因型频率数据,以及相应地域相应性别组成在各年龄分布区段下的感兴趣疾病对应SNP位 点的OR值数据;依据上述数据计算获得待测个体各感兴趣疾病的疾病综合易感风险数组, 所述待测个体的疾病综合易感风险数组包括:与该待测个体基因型组成相同
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1