基于易感snp筛查复杂疾病易感snp组合的方法

文档序号:9598081阅读:478来源:国知局
基于易感snp筛查复杂疾病易感snp组合的方法
【技术领域】
[0001] 本发明涉及利用公共数据库中SNP分型数据筛查疾病易感SNP组合的方法,特别 涉及一种基于易感SNP筛查复杂疾病易感SNP组合的方法。
【背景技术】
[0002] 复杂疾病,如2型糖尿病、肥胖、心脑血管病等,因其发病机制复杂,往往不是一 个或几个基因的影响造成。近十年,国际包括国内采用全基因组关联分析方法(GWAS)对 大量个体的全基因组范围内的SNP分型数据进行统计分析,筛出了大量易感SNP位点,譬 如DIAGRAM委员会整合以前所有2型糖尿病GWAS的数据,鉴定出69个易感SNP (Nature Genetics,2014)。既然复杂疾病是有多个基因共同影响造成,在评估SNP风险时不应该单 独评估单个SNP的影响。

【发明内容】

[0003] 为了克服现有技术的缺点与不足,本发明的目的在于提供一种基于易感SNP筛查 复杂疾病易感SNP组合的方法。本发明采用了一种新的方法评估多个SNP的组合风险。该 方法可以应用于任何复杂疾病易感SNP组合的筛查。
[0004] 本发明的另一目的在于提供上述方法的应用。
[0005] 本发明的目的通过下述技术方案实现:
[0006] 一种基于易感SNP筛查复杂疾病易感SNP组合的方法,包括如下步骤:
[0007] 本发明首先从已知的文献中找出与特定疾病相关的易感SNP,下载大量个体全基 因组的SNP分型数据,把每个个体易感SNP位点的基因型数据分离出来,然后将这些易感 SNP位点按一个顺序排列,如果某个易感SNP位点含有一个以上易感等位基因(即含有1或 2个易感基因型),用特定的英文字母来标记,这样每一个个体就会得到一个等于或少于易 感SNP位点数的字母字符串。然后分别统计患病组和对照组中各种字符串的个数,并在患 病组中找出对照组所没有的字符串,再从中选出个数明显较多的字符串,再反过来按顺序 将字母转换为基因型,最终得到易感SNP组合。
[0008] 所述的对照组是指健康群体。
[0009] 所述的患病组是指疾病群体。
[0010] 本发明的方法可以迅速从大量数据中找到特定疾病的易感SNP组合。
[0011] 所述的基于易感SNP筛查复杂疾病易感SNP组合的方法在筛查复杂疾病易感SNP 组合中的应用。
[0012] 所述的基于易感SNP筛查复杂疾病易感SNP组合的方法在复杂疾病风险预测中的 应用。
[0013] 本发明相对于现有技术,具有如下的优点及效果:
[0014] 为了克服复杂疾病单位点易感SNP评价疾病风险的不足,本发明采用易感SNP组 合的方法旨在提供一种新的疾病风险评价的方法。易感SNP组合对于疾病风险的评估可能 更优于单一易感SNP位点的风险评估效果,类似于低频突变导致遗传疾病效果。从具体实 例结果看易感SNP组合的方法在复杂疾病风险预测中的效果可能会达到1,这是单个易感 SNP不可能达到的效果。该方法可以应用于任何复杂疾病易感SNP组合的筛查和疾病遗传 风险的预测。
【附图说明】
[0015] 图1是个体基因型原始数据示意图。
[0016] 图2是14个随机个体的个体字符串的示意图。
【具体实施方式】
[0017] 下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限 于此。
[0018] 实施例1
[0019] 1、SNP 的选定
[0020] 选择Genome-wide trans-ancestry meta-analysis provides insight into the genetic architecture of type 2diabetes susceptibility 中的 69 个 2 型糖尿病易感 SNP (Nature Genetics,2014),见表 1〇
[0021] 表1 69个2型糖尿病易感SNP


[0025] 2、数据来源
[0026] 所有全基因组SNP分型数据均是从http://www. ebi. ac. uk/ega/下载。
[0027] 对照组 WTCCClproject samples from 1958British Birth Cohort (1991 个样)。
[0028] 2 型糖尿病组 WTCCClproject Type 2Diabetes (T2D) samples (1504 个样)。个体 基因型原始数据示意图见图1。
[0029] 3、筛选SNP位点
[0030] 根据表1中易感SNP位点的rs编号,将下载数据中每个个体的所有易感SNP位点 的基因型提取出来,一共提取了 18个2型糖尿病易感SNP位点的基因型,这18个易感SNP 见表2。
[0031] 表2 18个2型糖尿病易感SNP位点的基因型

[0033] 4、易感SNP位点的基因型标记
[0034] 对于每个个体的这18个易感SNP位点的基因型,只要出现1个或2个易感基因就 标记如下,详见表3,无易感基因标记为缺省。
[0035] 表3易感SNP基因型标记
[0037] 5、得到字符串
[0038] 按照表3中SNP顺序排列,对3945个个体(对照组1991个,2型糖尿病组1504 个)中每一个个体的18个位点基因型转换成字符串,得到一系列的字符串,共3945个,从 中随机选取14个个体,如图2所示。
[0039] 6、统计筛查易感SNP组合
[0040] 对3945个个体(对照组1991个,2型糖尿病组1504个)进行通过统计分析发现 在2型糖尿病组有但在对照组中没有的字符串即SNP组合,例如abcghp (即rsl0203174、 rsl0811661、rsl0842994、rsl359790、rsl801282、rs75937306 的 SNP 位点同时携带易感基 因),出现的次数最多,却没在对照组中发现,结果提示某个个体遗传检测只要出现以上组 合,患2型糖尿病的风险可能为1。字符串个数在5个以上的统计结果见表4。
[0041] 表4字符串个数在5个以上的统计表
[0043] 以本发明的数据显示易感SNP组合(频率很低)对于疾病风险的评估或许更优于 单一易感SNP位点的风险评估效果,类似于低频突变导致遗传疾病效果,由于目前积累的 大数据有限,如果积累到十万以上个体的数据时,用SNP组合直接预测疾病的风险为100% 或许成为可能。
[0044] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的 限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化, 均应为等效的置换方式,都包含在本发明的保护范围之内。
【主权项】
1. 一种基于易感SNP筛查复杂疾病易感SNP组合的方法,其特征在于包括如下步骤: 从已知的文献中找出与特定疾病相关的易感SNP,下载个体全基因组的SNP分型数据, 把每个个体易感SNP位点的基因型数据分离出来,然后将这些易感SNP位点按一个顺序排 列,如果某个易感SNP位点含有一个以上易感等位基因,用特定的英文字母来标记,这样每 一个个体就会得到一个等于或少于易感SNP位点数的字母字符串;然后分别统计患病组和 对照组中各种字符串的个数,并在患病组中找出对照组所没有的字符串,再从中选出个数 明显较多的字符串,再反过来按顺序将字母转换为基因型,最终得到易感SNP组合。2. 根据权利要求1所述的基于易感SNP筛查复杂疾病易感SNP组合的方法,其特征在 于:所述的对照组是指健康群体。3. 根据权利要求1所述的基于易感SNP筛查复杂疾病易感SNP组合的方法,其特征在 于:所述的患病组是指疾病群体。4. 根据权利要求1所述的基于易感SNP筛查复杂疾病易感SNP组合的方法,其特征在 于:所述的含有一个以上易感等位基因是指含有1或2个易感基因型。5. 权利要求1~4任一项所述的基于易感SNP筛查复杂疾病易感SNP组合的方法在筛 查复杂疾病易感SNP组合中的应用。6. 权利要求1~4任一项所述的基于易感SNP筛查复杂疾病易感SNP组合的方法在复 杂疾病风险预测中的应用。
【专利摘要】本发明公开一种基于易感SNP筛查复杂疾病易感SNP组合的方法。本发明的方法可以迅速从大量数据中找到特定疾病的易感SNP组合。本发明采用易感SNP组合的方法旨在提供一种新的疾病风险评价的方法。易感SNP组合对于疾病风险的评估可能更优于单一易感SNP位点的风险评估效果,类似于低频突变导致遗传疾病效果。从具体实例结果看易感SNP组合的方法在复杂疾病风险预测中的效果可能会达到1,这是单个易感SNP不可能达到的效果。该方法可以应用于任何复杂疾病易感SNP组合的筛查和疾病遗传风险的预测。
【IPC分类】G06F19/22
【公开号】CN105354444
【申请号】CN201510828517
【发明人】杜红丽, 关宇佳
【申请人】华南理工大学
【公开日】2016年2月24日
【申请日】2015年11月24日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1