疾病易感风险预测方法及装置的制造方法_3

文档序号:9350249阅读:来源:国知局
1含义同公式1。OR^OR2从数据库中提取,在计算时为已知条件。
[0105] Pr (D IGi, Re gion, Gender, Age)代表在特定地域、特定性别组成、特定年龄分布区 段条件下,单个SNP位点G1基因型的疾病发病率。G1含义同公式1。当i取值为0时,即为 Pr (D IG0, Re gion, Gender, Age)〇
[0106] 公式2中,公式右边i分别取0, 1,2后代入求和公式求和。公式3中,i分别取值 1和2。因此,根据公式2和3,针对特定地域、特定性别组成、特定年龄分布区段条件,可以 列出包含三个方程式三个未知数的非线性方程组,求解即可得Region、Gender、Age条件分 别为父、¥、2时:卩1'(〇|6。,1^区;[011,6611(161',厶区6)、?1'(0|6 1,1^区;[011,6611(161',厶区6)、?1'(0|62,1^ gion, Gender, Age)的值。
[0107] 步骤二:利用提取的数据、步骤一的计算结果、以及下列公式计算待测个体各感兴 趣疾病的疾病综合易感风险数。此步骤考虑了"单个疾病易感性与多个SNP位点之间均有 关联"的情况。
[0108] 具体分为下述两个子步骤:
[0109] 子步骤一:结合待测个体的单个SNP位点对应的基因型,使用公式4-7完成0R*计 算并进一步计算〇R_slta*。
[0110] 基于个体提供的基因型信息、所处地域信息以及性别信息,针对特定的疾病类型, 提取出所有与该个体上述三项条件相匹配的独立SNP位点疾病易感性风险计算结果。最终 提取的结果将包含不同年龄段中所有与该疾病密切相关的独立SNP位点疾病易感风险值。
[0111] 公式 4
[0112] Odds(DIG,Region,Gender,Age) =Pr(D|G,Region,Gender,Age) / (1-Pr(D|G,Re gion,Gender,Age))
[0113] 公式 5
[0114] Odds(DIRegion,Gender,Age) =Pr(DIRegion,Gender,Age) / (l_Pr(DIRe gion,Gender,Age))
[0115] 公式 6
[0116] OR* =Odds(D|G,Region,Gender,Age)/Odds(D|Region,Gender,Age)
[0117](Region=X,Gender=Y,Age=Z)
[0118] 公式 7
[0120] 上述公式中,
[0121] Pr(DIG,Region,Gender,Age)代表在特定地域、特定性别组成、特定年龄分布区 段条件下,单个SNP位点G基因型的疾病发病率。G基因型为待测个体的相应SNP位点的基 因型,其应该为G1基因型中的一种。
[0122] Pr(DIRegion,Gender,Age),代表在特定地域、特定性别组成、特定年龄分布区段 条件下的疾病发病率。此数值从数据库中提取,在计算时为已知条件。
[0123]Odds(DIG,Region,Gender,Age)代表在特定地域、特定性别组成、特定年龄分布 区段条件下,针对G基因型的某疾病发病率和正常率之比。
[0124] Odds(DIRegion,Gender,Age)代表在特定地域、特定性别组成、特定年龄分布区 段条件下,某疾病发病率和正常率之比。
[0125] 0R* 为近似比值比,为Odds(DIG,Region,Gender,Age)与Odds(DIRe gion,Gender,Age)之比。同一疾病往往会对应多个不同的SNP位点,设一个疾病对应m个 不同的SNP位点,mG{:该疾病所有相关SNP位点},那么针对待测个体同一疾病的各不同 SNP位点基因型,需分别计算0R*值,分别记为OR1I0R2*、0R3*、……、OR,。
[0126] ORranipcislte*代表疾病综合近似比值比,计算方法见公式7,为同一疾病各不同SNP位 点基因型的0R*值的乘积。
[0127] 子步骤二:使用公式8和9,使用逆函数计算方法完成个体疾病综合易感风险数值 的计算,并将该值作为最终计算所得的个体疾病综合易感风险。
[0128] 经此步骤,将获得各感兴趣疾病的与待测个体基因型组成相同、所处地域对应、性 别组成对应且包含不同年龄分布区段的个体疾病综合易感风险数组。
[0129]公式 8
[0130] OddsiD \. Gvl2,…gion, Gender, Age) = Qifmtp的士時兔OddsiD \ gion, Gender, Age)
[0131] (Region=X,Gender=Y,Age=Z)
[0132]公式9
[0133]
[0134] Odds(DIG1,m,Region,Gender,Age)为ORccimpcisite* 与Odds(DIRe gion,Gender,Age)的乘积。
[0135] Pr(DIRegion,Gender,Age)为个体疾病综合易感风险值,代表在特定地 域、特定性别组成、特定年龄分布区段条件下,综合考量了待测个体同一疾病m个SNP位点 基因型的个体疾病综合易感风险值。
[0136] 对于步骤S104,
[0137] 该步骤基于个体的遗传特征信息、所处地域信息以及性别信息,完成对该个体不 同年龄段疾病综合易感性风险的动态变化曲线绘制,以反映出环境因素的累积效应对个体 疾病综合易感性的影响。
[0138] 以步骤S103获得的个体疾病综合易感风险数组作为输入数据,将年龄和年龄对 应的个体疾病综合易感风险值分别作为自变量和应变量,结合公式10,进一步使用LOESS 回归拟合出该离散数组对应的个体疾病综合易感性风险计算函数(Risklciess)。
[0139] 所述年龄为具体的年龄。如1、2、3、4、……、100岁。
[0140] 所述年龄对应的个体疾病综合易感风险值即为某年龄对应的年龄分布区段的个 体疾病综合易感风险数值。例如,数据库S中年龄分布区段为:0-14、15-39、40-44、45-49、 50-54、55-59、60-64、65-69、70-74、75 以上,那么可经计算分别获得 0-14、15-39、40-44、 45-49、50-54、55-59、60-64、65-69、70-74、75以上这些年龄分布区段的个体疾病综合易感 风险值。在计算个体疾病综合易感性风险计算函数(Risklcress)时,1、2、3、……、14岁均对 应0-14这一年龄分布区段,以0-14这一年龄分布区段的疾病综合易感风险值作为1、2、 3、……、14岁各年龄对应的个体疾病综合易感风险值;同理,以15-39这一年龄分布区段 的疾病综合易感风险值作为15、16、17、……、39岁各年龄对应的个体疾病综合易感风险 值;……;以75岁以上这一年龄分布区段的疾病综合易感风险值作为75、76、……、100 岁各年龄对应的个体疾病综合易感风险值,由此获得各年龄对应的个体疾病综合易感风险 值。
[0141] 公式IORisklciess(Age) =L0ESS_REGRESSI0N(Age,RiskAge)
[0142] 在公式10中,
[0143] Age代表年龄,
[0144] Risk^代表年龄对应的个体疾病综合易感风险值,其数值为该年龄对应的年龄 分布区段的个体疾病综合易感风险数值(即为公式9中Pr(D|G1i2i3_.im,Region,Gender,A ge)) 〇
[0145] Risklciess为疾病综合易感性风险计算函数,需要进行求解。
[0146] 基于该函数,可生成指定年龄范围的个体疾病综合易感风险动态变化曲线。
[0147] 进一步的,步骤S104还包括以与待测个体相应地域相应性别组成在各年龄分布 区段下的某疾病的发病率数据作为某疾病平均易感风险数组,并以此作为输入数据,将年 龄和年龄对应的疾病平均易感风险数值分别作为自变量和应变量,以疾病平均易感风险数 替代公式10中的RiskAge,进一步使用LOESS回归拟合出该离散数组对应的疾病平均易感风 险计算函数,基于该函数,可生成指定年龄范围的人群平均疾病易感风险动态变化曲线,可 作为参比。
[0148] 所述年龄对应的疾病平均易感风险数值即为该年龄对应的年龄分布区段的疾病 的发病率。例如,从数据库S提取到东亚人群单一男性的年龄分布区段为:0-14、15-39、 40-44、45-49、50-54、55-59、60-64、65-69、70-74、75以上,对应的肺癌的发病率数据分别为 2/10 万、4/10 万、5/10 万、6/10 万、7/10 万、10/10 万、22/10 万、34/10 万、70/10 万、100/10 万。那么,1、2、3、......、14岁均对应0-14这一年龄分布区段,1、2、3、......、14岁各年龄 对应的肺癌平均易感风险数值均为"2/10万"(对应0-14这一年龄分布区段的肺癌的发 病率数据);同理,15、16、17、……、39岁各年龄对应的肺癌平均易感风险数值均为"4/10 万";……以此类推;75、76、……、100岁各年龄对应的肺癌平均易感风险数值均为"100/10 万",由此获得各年龄对应的肺癌平均易感风险数值。
[0149] 在本发明的一个实施例中,作为示范性的举例,针对特定基因型的上海地区男性 待测个体肺癌易感性风险给出了年龄范围为0-100岁的个体疾病综合易感风险动态变化 曲线及人群平均疾病易感风险动态变化曲线,最终输出结果如图2所示。
[0150] 本领域技术人员均了解,如上所述的计算过程均可以利用现有技术中的计算机、 集成电路模块、可编程逻辑器件、其它硬件或现有的软件模块来实现。
[0151] 图3是本发明疾病易感风险预测装置的一个实施例的机构示意图。
[0152] 如图所示,本发明的疾病易感风险预测装置包括:
[0153]数据库单元100,用于提供包含疾病的发病率数据、SNP位点基因型频率数据、针 对每个疾病相关SNP位点的风险等位纯合基因型及杂合基因型的OR值数据的数据库;其 中,同一疾病的发病率数据依据地域、性别组成、年龄分布区段的不同组合进行区分,同一 疾病相关SNP位点的各基因型的OR值数据依照地域、性别组成、年龄分布区段的不同组合 进行区分,SNP位点基因型频率数据按地域不同进行区分。
[0154] 待测个体信息单元200,用于提供待测个体的地域信息、性别信息、SNP位点实测 基因型信息。
[0155] 疾病综合易感风险数组计算单元300,与所述数据库单元100及待测个体信息单 元200连接,用于针对待测个体感兴趣疾病,根据待测个体的地域信息、性别信息及SNP位 点实测基因型信息,从数据库单元1〇〇中提取以下数据:相应地域相应性别组成在各年龄 分布区段下的各感兴趣疾病的发病率数据,相应地域的各感兴趣疾病对应SNP位点基因型 频率数据,以及相应地域相应性别组成在各年龄分布区段下的感兴趣疾病对应SNP位点的 OR值数据;依据上述数据计算获得待测个体各感兴趣疾病的疾病综合易感风险数组,所述 待测个体的疾病综合易感风险数组包括:与该待测个体基因型组成相同、相应地域、相应性 别组成的各年龄区段的个体疾病综合易感风险值;
[0156] 疾病综合易感风险动态变化曲线单元400,与所述疾病综合易感风险数组计算单 元300连接,用于依据各感兴趣疾病的个体疾病综合易感风险数组,使用LOESS回归拟合出 该离散数组对应的疾病综合易感性风险计算函数,基于该函数,生成指定年龄范围的个体 疾病综合易感风险动态变化曲线。
[0157] 本发明的装置可根据数据库信息、待测个人信息及待测个人的基因型数据计算双 因素疾病综合易感风险(指遗传因素和环境因素);将获得的双因素疾病综合易感风险拟 合成疾病综合易感性风险年龄变化曲线。
[0158] 具体的,对于数据库单元
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1