疾病易感风险预测方法及装置的制造方法_4

文档序号:9350249阅读:来源:国知局
100,
[0159] 在一个实施例中,所述疾病的发病率信息通过访问现有的数据库,并从中抓取疾 病的发病率信息或者通过抓取相关信息计算获得后录入数据库单元100。以中国人群不 同类型肿瘤发病率的信息获取方式为例,首先通过访问GL0B0CAN数据库主页,进一步访问 Cancerbypopulation子页面,并获取不同国家地区人群的各类肿瘤发病率信息。
[0160] 在一个实施例中,所述基因型频率数据是从Hapmap数据库中获取的并存入数据 库单元100。通过访问Hapmap数据库提供的的FTP站点,在该站点下下载获得不同人群的 基因型频率信息。
[0161] 本发明的装置中,表示OR值的公式定义符合前述公式1。
[0162] 本发明的数据库单元100中,录入有针对每个疾病相关SNP位点的风险等位纯合 基因型的OR值及杂合基因型的OR值(即各SNP位点的OR1值及OR2值)。所述OR^直及 OR2值可直接来源于文献。当文献中未能直接给出ORi值及OR2值,却记录有其他相关信息 时,如各基因型的发病率等,则也可根据公式利用相关信息计算获得。
[0163] 数据库单元100内的数据可根据文献相关信息披露的增加而不断更新。
[0164]按地域区分主要划分为欧美人群(European)和东亚人群(EastAsian),其他人群 由于研究数据集十分稀少,故不做统计。
[0165] 按性别组成区分指区分为单一男性(Male)、单一女性(Female)以及男女混合型 (Mixed)三种组成。
[0166] 按年龄分布区段区分指:区分为不同的年龄区段。
[0167] 在一个实施例中,年龄分布区段分为10组,依次为:0-14、15-39、40-44、45-49、 50-54、55-59、60-64、65-69、70-74、75以上。具体区段范围可按需要做其他设计。
[0168] 如图4A所示,在一个优选的实施例中,为进一步提高预测风险的可参考性,本发 明的疾病易感风险预测装置还包括:
[0169] 校对单元500,与所述数据库单元100连接,用于对候选OR值数据进行校对后提供 给数据库单元1〇〇。
[0170] 进一步的,如图4B所示,校对单元500包括:
[0171]文献挖掘信息录入模块510 :用于录入自文献中挖掘出的OR值相关信息。在一个 实施例中,所述OR值相关信息至少包括:SNP位点的rsID号、研究疾病(即疾病名称)、疾 病描述、人群(按国家区分)、地区(区分为东亚人群与欧美人群)、年龄分布区段、性别组 成(区分为单一男性、单一女性、男女混合型)、有效样本总数、有效病例总数、非风险等位、 风险等位、SNP位点与疾病相关性P值、SNP位点相关基因、风险等位纯合基因型OR值、杂合 基因型OR值、风险等位纯合基因型有效样本总数、风险等位纯合基因型有效病例总数、杂 合基因型有效样本总数、杂合基因型有效病例总数、非风险等位纯合基因型有效样本总数、 非风险等位纯合基因型有效病例总数、文献号、来源刊物。
[0172]SNP位点校对模块520 :与文献挖掘信息录入模块510相连,用于校对每个SNP位 点记录的碱基是否与染色体正链该位点的碱基相一致,不一致则纠正。设置此模块的目的 是为了验证文献中记载SNP位点时是否以正链的碱基表示,如为正链的碱基表示,则无需 纠正,如为负链的碱基表示,则需要根据碱基互补原理纠正为正链的碱基表示。
[0173] 样本数校对模块530 :与文献挖掘信息录入模块510相连,用于校对有效样本总数 是否等于各个基因型组别有效样本数之和,不相等则去除此样本对应数据记录并反馈给数 据库管理员要求进行数据修正。设置此模块的目的是为了预防手动录入数据时的输入错 误。当有效样本总数录入的数据与各个基因型组别有效样本数之和相等时认为无错误,两 者不等时认为录入出错,需修正。
[0174] 字段规范模块540:与文献挖掘信息录入模块510相连,用于规范录入信息的字 段,要求格式统一,对不统一的格式纠正为指定格式。在一个实施例中,所述字段规范模块 用于校对录入信息英文字母大小写格式统一,若出现短语,则默认添加连接符号以连接相 邻两字词,使由多个字段构成的短语可以表示为一个字段,所用连接符号可为下划线等各 种符号。此模块的目的为:便于后续程序的自动化处理、信息识别以及信息匹配。
[0175] 风险等位、非风险等位校对模块550 :与文献挖掘信息录入模块510相连,用于校 对风险等位及非风险等位的输入错误。在一个实施例中,所述风险等位、非风险等位校对模 块550进一步包括:
[0176]OR值判断子模块551:与文献挖掘信息录入模块510相连,用于判断所录入的风险 等位对应的纯合基因型OR值是否大于1 ;
[0177] 修正子模块552:与所述OR值判断子模块551连接,用于在OR值判断子模块551 判断所录入的风险等位对应的纯合基因型OR值小于1时,修正风险等位及非风险等位。例 如,录入的风险等位为G,非风险等位为A,如GG基因型的OR值录入为3. 37,则OR值判断子 模块551判断该OR值大于1,表示录入正确,无需修正;如GG基因型的OR值录入为0.79, 则OR值判断子模块551判断该OR值小于1,表示录入错误,由修正模块552将风险等位修 正为A,非风险等位修正为G。
[0178] 重复SNP位点记录的去冗余模块560 :与文献挖掘信息录入模块510相连,用于当 两条信息记录中出现的SNP位点编号、样本性别、样本人群所属地域、研究疾病均相同时, 仅保留统计学相关性最为显著(即P值最小)的记录。
[0179] 信息记录可信程度确定和信息记录筛选模块570 :与文献挖掘信息录入模块510 相连,用于确定信息记录可信程度并对信息记录进行筛选。
[0180] 在一个实施例中,可信程度值提供该SNP位点与疾病易感性的相关研究文献的效 力等级,共分为四级,分别考虑文献研究的样本规模、信息完整性、统计学检验显著性以及 文献的刊物影响力。当文献每符合上述一个条件,可信度则上升一级。若可信度等级低于 1级,即至多满足上述4项条件中的一项,则剔除该条记录。
[0181] 进一步的,在一个实施例中,如图4B所示,信息记录可信程度确定和信息记录筛 选模块570包括:
[0182] 信息完整性判定子模块571 :与文献挖掘信息录入模块510相连,用于判断信息完 整性,如果信息完整则信息可信程度增加1级。
[0183] 在一个实施例中,文献中挖掘出的信息至少包括:
[0184] SNP位点的rsID号、研究疾病(即疾病名称)、疾病描述、人群(按国家区分)、地 区(区分为东亚人群与欧美人群)、年龄分布区段、性别组成(区分为单一男性、单一女性、 男女混合型)、有效样本总数、有效病例总数、非风险等位、风险等位、SNP位点与疾病相关 性P值、SNP位点相关基因、风险等位纯合基因型OR值、杂合基因型OR值、风险等位纯合基 因型有效样本总数、风险等位纯合基因型有效病例总数、杂合基因型有效样本总数、杂合基 因型有效病例总数、非风险等位纯合基因型有效样本总数、非风险等位纯合基因型有效病 例总数、文献号、来源刊物。
[0185] 若单条记录在该文件各列中均有具体数值值或具体描述内容,且不出现"None"值 或其他空缺,则认为该记录具备信息完整性。
[0186] 样本规模判断子模块572 :与文献挖掘信息录入模块510相连,用于判断样本规模 是否满足要求,如满足要求则信息可信程度增加1级。在一个实施例中,基于文献中挖掘出 的信息中的有效样本总数信息,当该值大于或等于2000时,则认为该条记录的样本规模满 足要求。
[0187] 统计学检验显著性判断子模块573 :与文献挖掘信息录入模块510相连,用于判断 SNP位点与疾病相关性P值是否满足要求,如满足要求则信息可信程度增加1级。在一个 实施例中,基于文献中挖掘出的信息文件中SNP位点与疾病相关性P值的信息,当该值小于 0. 00001时,则认为该条记录的统计学检验显著性满足要求。
[0188] 文献来源刊物影响力子模块574 :与文献挖掘信息录入模块510相连,用于判断记 录的来源刊物对应的影响因子是否满足要求,如满足要求则信息可信程度增加1级。在一 个实施例中,基于文献中挖掘出的信息中来源刊物信息,当其中记录的来源刊物对应的影 响因子大于或等于5,则认为该条记录的文献来源刊物影响力满足要求。
[0189]SNP位点信息记录筛选子模块575 :与信息完整性判定子模块571、样本规模判断 子模块572、统计学检验显著性判断子模块573、文献来源刊物影响力子模块574相连,用于 获得信息记录可信程度评级结果并剔除结果不满足要求的信息记录。在一个实施例中,若 单条记录可信度等级低于1级,即只满足上述4项条件中的一项,或无一项满足,则剔除该 条记录。
[0190] 在优选的实施例中,每条录入记录均经模块520、530、540、550、560、570的校对。
[0191] 最终,经校对单元500筛选后的OR值数据和对应样本的年龄分布、研究人群的地 域分布以及性别组成信息录入数据库单元100。
[0192] 对于疾病综合易感风险数组计算单元300,
[0193] 在一个实施例中,所述疾病综合易感风险数组计算单元300进一步包括:
[0194] 数据提取模块310:与所述数据库单元100及待测个体信息单元200连接,用于从 数据库单元100中提取以下数据:相应地域相应性别组成在各年龄分布区段下的各感兴趣 疾病的发病率数据,相应地域的各感兴趣疾病对应SNP位点基因型频率数据,以及相应地 域相应性别组成在各年龄分布区段下的感兴趣疾病对应SNP位点的OR值数据;
[0195] 独立SNP位点疾病易感性风险值计算模块320:与所述数据提取模块310连接,用 于依据提取的发病率数据、SNP位点基因型频率数据及OR值数据,结合前述公式2和3,分 别计算出各感兴趣疾病各SNP位点针对相应地域、相应性别组成、各年龄区段的单个SNP位 点基因型不同人群的疾病发病率Pr(DIG1,Region,Gender,Age),即独立SNP位点疾病易感 性风险值。
[0196] 待测个体各感兴趣疾病的疾病综合易感风险数组计算模块330:与所述数据提取 模块310及独立SNP位点疾病易感性风险值计算模块320相连,用于利用提取的数据、独立 SNP位点疾病易感性风险值计算待测个体各感兴趣疾病的疾病综合易感风险数。
[0197] 所述待测个体各感兴趣疾病的疾病综合易感风险数组计算模块330具体分为下 述子模块:
[0198]ORranipcislte*值计算子模块331:与所述数据提取模块310、独立SNP位点疾病易感性 风险值计算模块320连接,用于结合待测个体的单个SNP位点对应的基因型,使用前述公式 4-7完成0R*计算并进一步计算ORtximpcisite*。
[0199] 本子模块,基于个体提供的基因型信息、所处地域信息以及性别信息,针对特定的 疾病类型,提取出所有与该个体上述三项条件相匹配的独立SNP位点疾病易感性风险计算 结果。最终提取的结果将包含不同年龄段中所有与该疾病密切相关的独立SNP位点疾病易 感风险值。
[0200] 个体疾病综合易感风险计算子模块332:与所述ORranipcislte*值计算子模块331连 接,用于使用前述公式8和9,使用逆函数计算方法完成个体疾病综合易感风险数值的计 算,并将该值作为最终计算所得的个体疾病综合易感风险。
[0201] 经此模块,将获得各感兴趣疾病的与待测个体基因型组成相同、所处地域对应、性 别组成对应且包含不同年龄分布区段的个体疾病综合易感风险数组。
[0202] 对于疾病综合易感风险动态变化曲线单元400,如图3A所示,该单元至少包括:
[0203] 个体疾病综合易感风险动态变化曲线模块410 :与疾病综合易感风险数组计算单 元300相连,进一步的,与疾病综合易感风险数组计算单元300的待测个体各感兴趣疾病的 疾病综合
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1