疾病易感风险预测方法及装置的制造方法

文档序号:9350249阅读:245来源:国知局
疾病易感风险预测方法及装置的制造方法
【技术领域】
[0001] 本发明涉及生物信息学,特别是涉及疾病易感风险预测方法及装置。
【背景技术】
[0002] 对健康不利的遗传体质所对应的一些与疾病发生相关的染色体位点,被称为疾病 易感位点,而所谓疾病易感性就是指由遗传决定的易于患某种或某类疾病的倾向性,具有 疾病易感性的人一定具有特定的遗传特征,简单地说就是带有某种疾病地易感基因型。到 目前为止,近十几年的医学统计学研究过程中,已发现大量染色体位点与肿瘤、心脑血管疾 病、慢性病等疾病的易感性密切相关并被相互独立的研究反复证实。对于具体疾病而言,通 过统计和计算每个个体的染色体上所包含的与该类疾病相关的染色体位点以及位点的风 险暴露水平,就能够了解每个人对特定疾病的易感性。
[0003] 然而,现代医学研究表明,大多数疾病的发病是由环境因素和个人遗传体质共同 作用所造成的。目前已知的个体疾病易感性风险计算方法仅基于个体染色体位点的单核苷 酸多态性变化,过度强调了遗传信息对疾病发生的重要性,忽视了"环境因素和个人遗传体 质共同作用导致疾病发生"的这一客观事实,从而导致预测数据可参考性低。

【发明内容】

[0004] 鉴于以上所述现有技术的缺点,本发明的目的在于提供一种疾病易感风险预测方 法及装置。
[0005] 本发明同时考虑个人遗传因素和环境因素对疾病发生所造成的影响。区别于基因 遗传特征的稳定不变性,首先,环境因素会随着人们年龄的增长而不断地在人体内累积并 对个体的健康施加影响,是一种具有累积效应的因素,个体的年龄是一个很好地标识环境 累积效应高低的度量手段。其次,不同国籍、不同地区、具有不同种族背景的人群,必然受到 其种族社会固有的饮食风俗、社会习俗以及一些其他日常生活习惯影响,并最终致使不同 群体之间所受到的环境因素影响亦不相同。所以,本发明在计算疾病易感性风险时,还针对 具有不同生活习惯和社会文化的地域区分不同地域人群所受环境因素。第三,人类作为两 性生物,男性和女性由于天生体质差异,不同个体对自己身处环境的偏好也与性别密切相 关。因此,即使对于于同一地域人群中的不同性别个体,其所受到的环境因素影响亦会收到 各自性别影响而存在细微差异,这也是在精确计算疾病易感性时需要考虑的因素之一。
[0006] 此外,区别于已知的个体疾病易感性计算方法,本发明考虑到环境因素的累积效 应对个体疾病易感性造成的动态变化性特征,创新性提出了以年龄为自变量、以疾病易感 性风险值为应变量的易感性动态变化曲线。在假设个体所处地域和生活习惯不变的情况 下,该曲线能够有效解释伴随年龄增长,个体疾病易感性风险值的变化趋势,从而更加有效 地帮助个体进行健康管理,达到"治未病"的效果。
[0007] 综上,本发明在基于个体遗传特征的基础上,进一步将个体的年龄、所处地区以及 个体性别作为影响个体所处环境因素的三个要素,综合上述四项个体信息,绘制出针对每 个个体的疾病易感性风险年龄变化曲线,使得个体不仅能够获悉更为精确的即时疾病易感 风险,同时也能够继续了解伴随年龄增长后各类疾病易感性变化的趋势。
[0008] 本发明首先提供了一种疾病易感风险预测方法,包括:
[0009] 步骤S101,提供包含疾病的发病率数据、SNP位点基因型频率数据、针对每个疾病 相关SNP位点的风险等位纯合基因型及杂合基因型的OR值数据的数据库S;其中,同一疾 病的发病率数据依据地域、性别、年龄区段的不同组合进行区分,同一疾病相关SNP位点的 各基因型的OR值数据依照地域、性别组成、年龄分布区段的不同组合进行区分,SNP位点基 因型频率数据按地域不同进行区分。
[0010] 步骤S102,接收待测个体的地域信息、性别信息、感兴趣的SNP位点实测基因型信 息。
[0011] 步骤S103,针对待测个体感兴趣疾病,根据待测个体的地域信息、性别信息及SNP 位点实测基因型信息,从数据库S中提取以下数据:相应地域相应性别在各年龄分布区段 下的各感兴趣疾病的发病率数据,相应地域的各感兴趣疾病对应SNP位点基因型频率数 据,以及相应地域相应性别在各年龄分布区段下的感兴趣疾病对应SNP位点的OR值数据; 依据上述数据计算获得待测个体各感兴趣疾病的疾病综合易感风险数组,所述待测个体的 疾病综合易感风险数组包括:与该待测个体基因型组成相同、所处地域对应、性别组成对应 的各年龄区段的个体疾病综合易感风险值;
[0012] 步骤S104,依据各感兴趣疾病的个体疾病综合易感风险数组,使用LOESS回归拟 合出该离散数组对应的疾病综合易感性风险计算函数,基于该函数,生成指定年龄范围的 个体疾病综合易感风险动态变化曲线。
[0013] 本发明还提供了一种疾病易感风险预测装置,包括:
[0014] 数据库单元,用于提供包含疾病的发病率数据、SNP位点基因型频率数据、针对每 个疾病相关SNP位点的风险等位纯合基因型及杂合基因型的OR值数据的数据库S;其中, 同一疾病的发病率数据依据地域、性别、年龄区段的不同组合进行区分,同一疾病相关SNP 位点的各基因型的OR值数据依照地域、性别组成、年龄分布区段的不同组合进行区分,SNP 位点基因型频率数据按地域不同进行区分。
[0015] 待测个体信息单元,用于提供待测个体的地域信息、性别信息、感兴趣的SNP位点 实测基因型信息。
[0016] 疾病综合易感风险数组计算单元:与所述数据库单元及待测个体信息单元连接, 用于针对待测个体感兴趣疾病,根据待测个体的地域信息、性别信息及SNP位点实测基因 型信息,从数据库S中提取以下数据:相应地域相应性别在各年龄分布区段下的各感兴趣 疾病的发病率数据,相应地域的各感兴趣疾病对应SNP位点基因型频率数据,以及相应地 域相应性别在各年龄分布区段下的感兴趣疾病对应SNP位点的OR值数据;依据上述数据计 算获得待测个体各感兴趣疾病的疾病综合易感风险数组,所述待测个体的疾病综合易感风 险数组包括:与该待测个体基因型组成相同、所处地域对应、性别组成对应的各年龄区段的 个体疾病综合易感风险值;
[0017] 疾病综合易感风险动态变化曲线单元,与所述疾病综合易感风险数组计算单元连 接,用于依据各感兴趣疾病的个体疾病综合易感风险数组,使用LOESS回归拟合出该离散 数组对应的疾病综合易感性风险计算函数,基于该函数,生成指定年龄范围的个体疾病综 合易感风险动态变化曲线。
[0018] 发明优点:
[0019] 1)本发明同时考虑个体遗传和环境两个方面的因素计算个体疾病易感性风险,计 算结果更符合客观现实。其中,环境因素包括个体所处地域、个体性别、以及基于个体年龄 所反映出的环境因素的累积效应。
[0020] 2)本发明最终绘制出针对个体的疾病易感性风险年龄变化曲线,使得个体不仅能 够获悉更为精确的即时疾病易感风险,同时也能够继续了解伴随年龄增长后各类疾病易感 性变化的趋势,有利于起到长期有效的健康提示作用。
【附图说明】
[0021] 图1是本发明实施例的方法的流程图。
[0022] 图2是根据本发明实施例的处理方法获得的个体疾病综合易感风险动态变化曲 线示例。图中,横轴为个体年龄,纵轴为个体不同年龄对应的疾病综合易感风险。位于上方 的曲线代表该个体不同年龄段的疾病易感风险变化,位于下方的色曲线代表个体所属人群 的该疾病平均易感风险。实际操作中,代表个体的曲线与代表人均平均水平的曲线可采用 不同的颜色标记。
[0023] 图3A是本发明实施例的装置的示意图
[0024] 图3B是本发明一优选实施例的装置的示意图
[0025] 图4A是本发明另一优选实施例的装置的示意图
[0026] 图4B是本发明另一优选实施例的装置的校对模块示意图
[0027] 图5是本发明再一优选实施例的装置的示意图
【具体实施方式】
[0028] 以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书 所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实 施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离 本发明的精神下进行各种修饰或改变。
[0029] 此外应理解,本发明中提到的一个或多个方法步骤并不排斥在所述组合步骤前后 还可以存在其他方法步骤或在这些明确提到的步骤之间还可以插入其他方法步骤,除非另 有说明;还应理解,本发明中提到的一个或多个设备/装置之间的组合连接关系并不排斥 在所述组合设备/装置前后还可以存在其他设备/装置或在这些明确提到的两个设备/装 置之间还可以插入其他设备/装置,除非另有说明。而且,除非另有说明,各方法步骤的编 号仅为鉴别各方法步骤的便利工具,而非为限制各方法步骤的排列次序或限定本发明可实 施的范围,其相对关系的改变或调整,在无实质变更技术内容的情况下,当亦视为本发明可 实施的范畴。
[0030] 本发明在基于个体遗传特征的基础上,进一步将个体的年龄、所处地区以及个体 性别作为影响个体所处环境因素的三个要素,综合上述四项个体信息,绘制出针对每个个 体的疾病易感性风险年龄变化曲线,使得个体不仅能够获悉更为精确的即时疾病易感风 险,同时也能够继续了解伴随年龄增长后各类疾病易感性变化的趋势。
[0031] 本发明提供了一种疾病易感风险预测方法,在一个实施例中,如图1所示,所述疾 病易感风险预测方法包括下列步骤:
[0032] 步骤SlOl,提供包含疾病的发病率数据、SNP位点基因型频率数据、针对每个疾 病相关SNP位点的风险等位纯合基因型及杂合基因型的OR值数据的数据库S;其中,同一 疾病的发病率数据依据地域、性别组成、年龄分布区段的不同组合进行区分,同一疾病相关 SNP位点的各基因型的OR值数据依照地域、性别组成、年龄分布区段的不同组合进行区分, SNP位点基因型频率数据按地域不同进行区分。
[0033] 步骤S102,接收待测个体的地域信息、性别信息、SNP位点实测基因型信息。
[0034] 步骤S103,针对待测个体感兴趣疾病,根据待测个体的地域信息、性别信息及SNP 位点实测基因型信息,从数据库S中提取以下数据:相应地域相应性别组成在各年龄分布 区段下的各感兴趣疾病的发病率数据,相应地域的各感兴趣疾病对应SNP位点基因型频率 数据,以及相应地域相应性别组成在各年龄分布区段下的感兴趣疾病对应SNP位点的OR值 数据;依据上述数据计算获得待测个体各感兴趣疾病的疾病综合易感风险数组,所述待测 个体的疾病综合易感风险数组包括:与该待测个体基因型组成相同、相应地域、相应性别组 成的各年龄分布区段的个体疾病综合易感风险值;
[0035] 步骤S104,依据各感兴趣疾病的个体疾病综合易感风险数组,使用LOESS回归拟 合出该离散数组对应的疾病综合易感性风险计算函数,基于该函数,生成指定年龄范围的 个体疾病综合易感风险动态变化曲线。
[0036] 本发明根据数据库信息、待测个人信息及待测个人的基因型数据计算双因素疾病 综合易感风险(指遗传因素和环境因素);将获得的双因素疾病综合易感风险拟合成疾病 综合易感性风险年龄变化曲线。
[0037] 具体的,对于步骤S101,
[0038] 疾病的发病率Pr(D)是指特定的疾病在特定人群中的发病率,在流行病学中是指 一定时期内特定人群新发生某一疾病的比率。疾病发病率可以用来测定发病风险。该类数 据获取方式主要依赖于各个国家卫生健康统计部门的数据库信息。
[0039] 在一个实施例中,所述疾病的发病率信息通过访问现有的数据库,并从中抓取疾 病的发病率信息或者通过抓取相关信息计算获得后录入数据库S。以中国人群不同类型肿 瘤发病率的信息获取方式为例,首先通过访问GL0B0CAN数据库主页,进一步访问Cancerby population子页面,并获取不同国家地区人群的各类肿瘤发病率信息。
[0040] SNP即单核苷酸多态性,指由于单个核苷酸碱基的改变而导致的核酸序列呈现出 的多态性现象。每个SNP位点均包含主等位和次等位两种等位碱基,将出现频率较高的 碱基定义为主等位
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1