基于易感snp筛查复杂疾病易感snp组合的方法

文档序号：9598081阅读：478来源：国知局

基于易感snp筛查复杂疾病易感snp组合的方法
【技术领域】
[0001] 本发明涉及利用公共数据库中SNP分型数据筛查疾病易感SNP组合的方法，特别涉及一种基于易感SNP筛查复杂疾病易感SNP组合的方法。
【背景技术】
[0002] 复杂疾病，如2型糖尿病、肥胖、心脑血管病等，因其发病机制复杂，往往不是一个或几个基因的影响造成。近十年，国际包括国内采用全基因组关联分析方法（GWAS)对大量个体的全基因组范围内的SNP分型数据进行统计分析，筛出了大量易感SNP位点，譬如DIAGRAM委员会整合以前所有2型糖尿病GWAS的数据，鉴定出69个易感SNP (Nature Genetics，2014)。既然复杂疾病是有多个基因共同影响造成，在评估SNP风险时不应该单独评估单个SNP的影响。

【发明内容】

[0003] 为了克服现有技术的缺点与不足，本发明的目的在于提供一种基于易感SNP筛查复杂疾病易感SNP组合的方法。本发明采用了一种新的方法评估多个SNP的组合风险。该方法可以应用于任何复杂疾病易感SNP组合的筛查。
[0004] 本发明的另一目的在于提供上述方法的应用。
[0005] 本发明的目的通过下述技术方案实现：
[0006] 一种基于易感SNP筛查复杂疾病易感SNP组合的方法，包括如下步骤：
[0007] 本发明首先从已知的文献中找出与特定疾病相关的易感SNP，下载大量个体全基因组的SNP分型数据，把每个个体易感SNP位点的基因型数据分离出来，然后将这些易感 SNP位点按一个顺序排列，如果某个易感SNP位点含有一个以上易感等位基因（即含有1或 2个易感基因型），用特定的英文字母来标记，这样每一个个体就会得到一个等于或少于易感SNP位点数的字母字符串。然后分别统计患病组和对照组中各种字符串的个数，并在患病组中找出对照组所没有的字符串，再从中选出个数明显较多的字符串，再反过来按顺序将字母转换为基因型，最终得到易感SNP组合。
[0008] 所述的对照组是指健康群体。
[0009] 所述的患病组是指疾病群体。
[0010] 本发明的方法可以迅速从大量数据中找到特定疾病的易感SNP组合。
[0011] 所述的基于易感SNP筛查复杂疾病易感SNP组合的方法在筛查复杂疾病易感SNP 组合中的应用。
[0012] 所述的基于易感SNP筛查复杂疾病易感SNP组合的方法在复杂疾病风险预测中的应用。
[0013] 本发明相对于现有技术，具有如下的优点及效果：
[0014] 为了克服复杂疾病单位点易感SNP评价疾病风险的不足，本发明采用易感SNP组合的方法旨在提供一种新的疾病风险评价的方法。易感SNP组合对于疾病风险的评估可能更优于单一易感SNP位点的风险评估效果，类似于低频突变导致遗传疾病效果。从具体实例结果看易感SNP组合的方法在复杂疾病风险预测中的效果可能会达到1，这是单个易感 SNP不可能达到的效果。该方法可以应用于任何复杂疾病易感SNP组合的筛查和疾病遗传风险的预测。
【附图说明】
[0015] 图1是个体基因型原始数据示意图。
[0016] 图2是14个随机个体的个体字符串的示意图。
【具体实施方式】
[0017] 下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。
[0018] 实施例1
[0019] 1、SNP 的选定
[0020] 选择Genome-wide trans-ancestry meta-analysis provides insight into the genetic architecture of type 2diabetes susceptibility 中的 69 个 2 型糖尿病易感 SNP (Nature Genetics，2014)，见表 1〇
[0021] 表1 69个2型糖尿病易感SNP

[0025] 2、数据来源
[0026] 所有全基因组SNP分型数据均是从http://www. ebi. ac. uk/ega/下载。
[0027] 对照组 WTCCClproject samples from 1958British Birth Cohort (1991 个样）。
[0028] 2 型糖尿病组 WTCCClproject Type 2Diabetes (T2D) samples (1504 个样）。个体基因型原始数据示意图见图1。
[0029] 3、筛选SNP位点
[0030] 根据表1中易感SNP位点的rs编号，将下载数据中每个个体的所有易感SNP位点的基因型提取出来，一共提取了 18个2型糖尿病易感SNP位点的基因型，这18个易感SNP 见表2。
[0031] 表2 18个2型糖尿病易感SNP位点的基因型

[0033] 4、易感SNP位点的基因型标记
[0034] 对于每个个体的这18个易感SNP位点的基因型，只要出现1个或2个易感基因就标记如下，详见表3,无易感基因标记为缺省。
[0035] 表3易感SNP基因型标记
[0037] 5、得到字符串
[0038] 按照表3中SNP顺序排列，对3945个个体（对照组1991个，2型糖尿病组1504 个）中每一个个体的18个位点基因型转换成字符串，得到一系列的字符串，共3945个，从中随机选取14个个体，如图2所示。
[0039] 6、统计筛查易感SNP组合
[0040] 对3945个个体（对照组1991个，2型糖尿病组1504个）进行通过统计分析发现在2型糖尿病组有但在对照组中没有的字符串即SNP组合，例如abcghp (即rsl0203174、 rsl0811661、rsl0842994、rsl359790、rsl801282、rs75937306 的 SNP 位点同时携带易感基因），出现的次数最多，却没在对照组中发现，结果提示某个个体遗传检测只要出现以上组合，患2型糖尿病的风险可能为1。字符串个数在5个以上的统计结果见表4。
[0041] 表4字符串个数在5个以上的统计表
[0043] 以本发明的数据显示易感SNP组合（频率很低）对于疾病风险的评估或许更优于单一易感SNP位点的风险评估效果，类似于低频突变导致遗传疾病效果，由于目前积累的大数据有限，如果积累到十万以上个体的数据时，用SNP组合直接预测疾病的风险为100% 或许成为可能。
[0044] 上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。
【主权项】
1. 一种基于易感SNP筛查复杂疾病易感SNP组合的方法，其特征在于包括如下步骤：从已知的文献中找出与特定疾病相关的易感SNP，下载个体全基因组的SNP分型数据，把每个个体易感SNP位点的基因型数据分离出来，然后将这些易感SNP位点按一个顺序排列，如果某个易感SNP位点含有一个以上易感等位基因，用特定的英文字母来标记，这样每一个个体就会得到一个等于或少于易感SNP位点数的字母字符串；然后分别统计患病组和对照组中各种字符串的个数，并在患病组中找出对照组所没有的字符串，再从中选出个数明显较多的字符串，再反过来按顺序将字母转换为基因型，最终得到易感SNP组合。2. 根据权利要求1所述的基于易感SNP筛查复杂疾病易感SNP组合的方法，其特征在于：所述的对照组是指健康群体。3. 根据权利要求1所述的基于易感SNP筛查复杂疾病易感SNP组合的方法，其特征在于：所述的患病组是指疾病群体。4. 根据权利要求1所述的基于易感SNP筛查复杂疾病易感SNP组合的方法，其特征在于：所述的含有一个以上易感等位基因是指含有1或2个易感基因型。5. 权利要求1~4任一项所述的基于易感SNP筛查复杂疾病易感SNP组合的方法在筛查复杂疾病易感SNP组合中的应用。6. 权利要求1~4任一项所述的基于易感SNP筛查复杂疾病易感SNP组合的方法在复杂疾病风险预测中的应用。
【专利摘要】本发明公开一种基于易感SNP筛查复杂疾病易感SNP组合的方法。本发明的方法可以迅速从大量数据中找到特定疾病的易感SNP组合。本发明采用易感SNP组合的方法旨在提供一种新的疾病风险评价的方法。易感SNP组合对于疾病风险的评估可能更优于单一易感SNP位点的风险评估效果，类似于低频突变导致遗传疾病效果。从具体实例结果看易感SNP组合的方法在复杂疾病风险预测中的效果可能会达到1，这是单个易感SNP不可能达到的效果。该方法可以应用于任何复杂疾病易感SNP组合的筛查和疾病遗传风险的预测。
【IPC分类】G06F19/22
【公开号】CN105354444
【申请号】CN201510828517
【发明人】杜红丽, 关宇佳
【申请人】华南理工大学
【公开日】2016年2月24日
【申请日】2015年11月24日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杜红丽;关宇佳;
技术所有人：华南理工大学;
我是此专利的发明人

上一篇：一种基于血液标志物的人工神经网络智能判别系统的制作方法
上一篇：无创产前基因检测分析软件的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。