疾病易感风险预测方法及装置的制造方法_2

文档序号:9350249阅读:来源:国知局
(MajorAllele),而另一个出现频率较低的碱基定义为次等位(Minor Allele)。假设存在一个SNP位点X,通过统计,发现该位点由腺嘌呤(A)和胞嘧啶(C)组 成。其中,A的出现频率为59%,C的出现频率为41%,则A记为MajorAllele,而C记为 MinorAllele。由于人类核染色体为二倍体,通过MajorAllele和MinorAllele的不同 排列组合一共可以生成三种不同的基因型,分别为两个碱基均为MajorAllele的纯合基因 型(AA)、两个碱基均为MinorAllele的纯合基因型(CC)以及有1个MinorAllele和1个 MajorAllele组成的杂合基因型(AC)。
[0041] 基因型频率(Pr(Gi))是指特定人群中某SNP位点对应的某特定基因型出现的频 率。在一个实施例中,所述基因型频率数据是从Hapmap数据库中获取的并存入数据库S。 通过访问Hapmap数据库提供的的FTP站点,在该站点下下载获得不同人群的基因型频率信 息。
[0042] OR值的全称是OddsRatio,又称比值比、风险暴露比。对于疾病发病率而言,不同 基因型的OR值即为该基因导致疾病发生相对危险度的估计值。具体地,当OR值=1时,表 示该因素对疾病的发生不起作用;当OR值大于1,表示该因素是一个危险因素;当OR值小 于1,表示该因素是一个保护因素。
[0043] 本发明中,表示OR值的公式定义如下:
[0044] 公式 1 :
[0046] 其中,
[0047] G1代表基因型,i的取值选自0、1、2,G。代表非风险等位纯合基因型,G#表杂合 基因型,G2代表风险等位纯合基因型。非风险等位指在疾病患病人群中出现频率低于对照 组人群(是指非患病随机人群)的碱基。风险等位指疾病患病人群中出现频率高于对照组 人群的碱基。
[0048] Pr(DlG1)代表G1基因型的疾病发病率。具体的,Pr(D|G。)代表非风险等位纯合基 因型的疾病发病率,Pr(DlG1)代表杂合基因型的疾病发病率,Pr(DlG2)代表风险等位纯合 基因型的发病率。
[0049] OR1代表G1S因型的OR值。具体的,0R。代表非风险等位纯合基因型的OR值;OR1 代表杂合基因型的OR值;OR2代表风险等位纯合基因型的OR值。根据计算,本发明中,对于 任何的SNP,其0R。值均为1。因此数据库中可不必录入各SNP的OR。值,凡是涉及OR。值的 计算均只需以1代入即可。
[0050] 举例说明:假设一篇文献报道某SNP位点与肺癌易感性密切相关,并且基于大规 模的样本调查发现该位点主要有腺嘌呤(A)和胸腺嘧啶(C)两种碱基类型,其中A在肺癌 患病组的出现频率为70%,C在肺癌患病组的出现频率为30%,而在正常对照组中A的出现 频率为55%,C的出现频率为45%。则对于该SNP位点,CC为非风险纯合等位基因型(对 应GQ)、AC为杂合基因型(对应G1KAA即为风险纯合等位基因型(对应G2) ;Pr(D|G。)代表 该SNP位点CC型的肺癌发病率,Pr(DIG1)代表该SNP位点AC型的肺癌发病率,Pr(DIG2)代 表该SNP位点AA型的肺癌发病率;0R。代表该SNP位点CC型的肺癌OR值,ORi代表该SNP 位点AC型的肺癌OR值,OR2代表该SNP位点AA型的肺癌OR值。
[0051] 本发明的数据库S中,录入有针对每个疾病相关SNP位点的风险等位纯合基因型 的OR值及杂合基因型的OR值(即各SNP位点的OR1值及OR2值)。所述ORi值及OR2值可 直接来源于文献。当文献中未能直接给出OR1值及OR2值,却记录有其他相关信息时,如各 基因型的发病率等,则也可根据公式利用相关信息计算获得。
[0052] 数据库S内的数据可根据文献相关信息披露的增加而不断更新。
[0053] 按地域区分主要划分为欧美人群(European)和东亚人群(EastAsian),其他人群 由于研究数据集十分稀少,故不做统计。
[0054] 按性别组成区分:指区分为单一男性(Male)、单一女性(Female)以及男女混合型 (Mixed)三种组成。
[0055] 按年龄分布区段区分指:区分为不同的年龄区段。
[0056] 在一个实施例中,年龄分布区段分为10组,依次为:0-14、15-39、40-44、45-49、 50-54、55-59、60-64、65-69、70-74、75以上。具体区段范围可按需要做其他设计。
[0057] 在一个优选的实施例中,为进一步提高预测风险的可参考性,OR值数据录入数据 库S前经校对,校对内容包括:
[0058] i)每个SNP位点记录的碱基是否与染色体正链该位点的碱基相一致,不一致则纠 正。
[0059] 此步骤的目的是为了验证文献中记载SNP位点时是否以正链的碱基表示,如为正 链的碱基表示,则无需纠正,如为负链的碱基表示,则需要根据碱基互补原理纠正为正链的 碱基表示。
[0060] ii)有效样本总数是否等于各个基因型组别有效样本数之和,不相等则去除此样 本对应数据记录并反馈给数据库管理员要求进行数据修正。
[0061] 此步骤的目的是为了预防手动录入数据时的输入错误。当有效样本总数录入的数 据与各个基因型组别有效样本数之和相等时认为无错误,两者不等时认为录入出错,需修 正。
[0062] iii)规范录入信息的字段规范,要求格式统一,对不统一的格式纠正为指定格式。 在一个实施例中,录入信息英文字母大小写格式统一,若出现短语,则默认添加连接符号以 连接相邻两字词,使由多个字段构成的短语可以表示为一个字段,所用连接符号可为下划 线等各种符号。
[0063] 此步骤的目的为:便于后续程序的自动化处理、信息识别以及信息匹配。
[0064] iv)风险等位、非风险等位的确定。
[0065] 此步骤的目的是:预防手动录入数据时的输入错误。
[0066] 在一个实施例中,判断所录入的风险等位对应的纯合基因型OR值是否大于1,如 大于1则表示录入正确,无需修正,如小于1,则需要修正并同时修正对应的非风险等位。例 如,录入的风险等位为G,非风险等位为A,则判断对应录入风险等位的纯合基因型(即GG 基因型)的OR值是否大于1,如GG基因型的OR值录入为3. 37,则说明该OR值大于1,表示 录入正确,无需修正;如GG基因型的OR值录入为0.79,则说明该OR值小于1,表示录入错 误,需将风险等位修正为A,非风险等位修正为G。
[0067] V)重复SNP位点记录的去冗余。当两条信息记录中出现的SNP位点编号、样本性 另IJ、样本人群所属地域、研究疾病均相同时,保留统计学相关性最为显著(即P值最小)的 记录。
[0068] vi)信息记录可信程度确定和信息记录筛选。可信程度值提供该SNP位点与疾病 易感性的相关研究文献的效力等级,共分为四级,分别考虑文献研究的样本规模、信息完整 性、统计学检验显著性以及文献的刊物影响力。当文献每符合上述一个条件,可信度则上升 一级。若可信度等级低于1级,即至多满足上述4项条件中的一项,则剔除该条记录。
[0069] 在一个实施例中,信息记录可信程度评级方法为:
[0070] 单条记录可信程度的评估共包含四个方面,分别为从文献中挖掘出的信息完整 性、文献研究的样本规模、SNP位点与疾病关联的统计学检验显著性以及文献来源刊物影响 力。
[0071] a)文献中挖掘出的信息完整性
[0072] 在一个实施例中,文献中挖掘出的信息至少包括:
[0073] SNP位点的rsID号、研究疾病(即疾病名称)、疾病描述、人群(按国家区分)、地 区(区分为东亚人群与欧美人群)、年龄分布区段、性别组成(区分为单一男性、单一女性、 男女混合型)、有效样本总数、有效病例总数、非风险等位、风险等位、SNP位点与疾病相关 性P值、SNP位点相关基因、风险等位纯合基因型OR值、杂合基因型OR值、风险等位纯合基 因型有效样本总数、风险等位纯合基因型有效病例总数、杂合基因型有效样本总数、杂合基 因型有效病例总数、非风险等位纯合基因型有效样本总数、非风险等位纯合基因型有效病 例总数、文献号、来源刊物。
[0074] 如表1所示,给出了三个SNP位点(rsl、rs2、rs3)的信息记录(对应三条记录)
[0075] 表 1
[0079] 若单条记录在该文件各列中均有具体数值或具体描述内容,且不出现"None"值或 其他空缺,则认为该记录具备信息完整性。
[0080] b)文献研究的样本规模
[0081] 基于文献中挖掘出的信息中的有效样本总数信息,当该值大于或等于2000时,则 认为该条记录的样本规模满足要求。
[0082] c)统计学检验显著性
[0083] 基于文献中挖掘出的信息文件中SNP位点与疾病相关性P值的信息,当该值小于 0.OOOOl时,则认为该条记录的统计学检验显著性满足要求。
[0084] d)文献来源刊物影响力
[0085] 基于文献中挖掘出的信息中来源刊物信息,当其中记录的来源刊物对应的影响因 子大于或等于5,则认为该条记录的文献来源刊物影响力满足要求。
[0086] 对于单个SNP位点信息记录而言,每符合上述一个条件,则该条记录的可信度则 上升一级(即可信度+1级)。由此,单条记录的可信度范围介于0-4级之间。
[0087] 在一个实施例中,SNP位点信息记录筛选采用下列方法:
[0088] 基于上述信息记录可信程度评级结果,若单条记录可信度等级低于1级,即只满 足上述4项条件中的一项,或无一项满足,则剔除该条记录。
[0089] 最终,以筛选后的OR值数据和对应样本的年龄分布、研究人群的地域分布以及性 别组成信息为基础,录入数据库S。
[0090] 对于步骤S103,
[0091] 所述相应地域的数据是指:个体地域信息所属的地域的数据。例如,个体地域信息 为上海,数据库中地域区分欧美人群和东亚人群,则提取东亚人群的数据。
[0092] 所述相应性别组成的数据是指:与个体性别一致的性别组成或男女混合型的数 据,优选个体性别一致的性别组成的数据。例如,个体性别为女性,则提取单一女性的数据, 如数据库中缺少该数据则提取男女混合型的数据。
[0093] 所述相应地域相应性别组成的数据是指:同时符合相应地域与相应性别组成条件 的数据,例如,个体性别为上海女性,数据库中地域区分欧美人群和东亚人群,性别组成区 分为单一男性、单一女性、男女混合型,则提取东亚人群单一女性的数据。
[0094] 采用下列步骤计算疾病综合易感风险:
[0095] 步骤一:依据提取的发病率数据、SNP位点基因型频率数据及OR值数据,结合公式 2和3,分别计算出各感兴趣疾病各SNP位点针对相应地域、相应性别组成、各年龄分布区段 的单个SNP位点基因型的疾病发病率Pr(DIG1,Region,Gender,Age),即独立SNP位点疾病 易感性风险值。
[0096]公式2
[0100] (i = {1,2}, Re gion = X, Gender = Y, Age = Z)
[0101] 上述公式中,Region代表地域条件、Gender代表性别组成条件、Age代表年龄分 布区段条件。Re gion=X,Gender = Y, Age=Z,代表Region条件为X、Gender条件为Y、 Age条件为Z。从数据库中提取出的OR值应当带有对应的Region、Gender、Age条件。
[0102] Pr (DIRe gion=X,Gender=Y, Age=Z),代表Region、Gender、Age条件分别为 X、Y、Z时的疾病发病率。此数值从数据库中提取,在计算时为已知条件。
[0103]Pr(G11Region)为在特定Region条件下,单个SNP位点G1S因型的基因型频率。 此数值从数据库中提取,在计算时为已知条件。
[0104]OR
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1