一种基因组酶切图谱拼接方法及系统的制作方法

文档序号:9235647阅读:966来源:国知局
一种基因组酶切图谱拼接方法及系统的制作方法
【技术领域】
[0001] 本发明设及分子生物学领域的基因组序列拼接领域,尤其设及一种基因组酶切图 谱拼接方法及系统。
【背景技术】
[0002] 基因组包含生物体最基本的遗传信息,该些信息决定物种生物学特征、指导生命 机能运作W及发育过程;并指导细胞内的重要化合物的合成(如蛋白质、RNA等)。
[0003] 基因组序列是由脱氧核糖核巧酸(腺嚷岭A、鸟嚷岭G、胸腺喀晚T、胞喀晚C)按一 定顺序彼此用3' -5' -磯酸二醋键相连而成的双螺旋结构。所谓基因组测序,即是指获得 基因组的脱氧核糖核巧酸的序列信息。随着基因组测序技术的发展,越来越多物种的基因 组已经完成测定。
[0004] 基因组测序技术的发展经历了 Sanger测序、第二代测序技术和第S代测序技 术。第二代测序技术W其高通量、低成本的特点,逐渐成为主流的测序技术,然而,无论是 Sanger测序,还是第二代测序技术,其测序长度均比较有限,难W跨过基因组中存在的一些 较长的repeat (重复序列),此处的"repeat"指的是在基因组上出现次数大于一次的序列, repeat的存在导致通过二代测序数据拼接很难直接恢复出完整的基因组,然而诸如结构体 变异检测等方面的研究,依赖于基因组的完整序列信息,因此对测序技术提出了更高的要 求。
[0005] 基因组酶切图谱技术能够获得很好的弥补二代测序数据较短的问题,酶切图谱技 术得到序列中的酶切位点之间的距离信息,其测序序列大跨度的特点有助于解决二代测序 数据中长repeat的影响。
[0006] 基因组酶切图谱技术能够反映基因组上较大范围内的酶切位点位置信息,W基因 组图谱为指导,不仅可W提高二代拼接结果的连续性和准确度,同时对后续研究提供更加 准确的序列结构信息。
[0007] 迄今为止,已经发展了多种酶切图谱测序技术,比如基于光学映像(optical map) 的图谱技术,该技术的主要步骤是将大量DM片段拉伸并固定在玻璃板上,然后利用限制 性内切酶进行原位酶切,从而得到酶切位点信息;基于微流体溶液的酶切图谱技术,该技术 的主要步骤是将带巧光标记的分子短暂地通过一个微米隧道并利用传感器检测巧光团,从 而得到酶切位点的位置。由于测序通量较低或者测序过程中的成像分辨率较低,上述两种 技术并没有得到广泛的应用,目前,纳米单分子测序是一种高通量、高准确度的基因组图谱 技术(图1为BioNano公司开发的Irys测序平台),相较于前两种图谱技术,纳米单分子测 序的准确度W及成像分辨率均有所提高,其测序的基本过程为;首先将DNA分子解螺旋形 成单链,切断为单链DNA片段,片段的长度范围高达几百肺P,接着使单链分子线性地通过 纳米孔道,与带巧光标记的探针杂交(探针被设计成只与酶切位点做特异性杂交);最后根 据巧光成像即可识别出酶切位点,从而得到分子的酶切位点的位置信息。
[000引 目前针对酶切图谱技术的应用主要体现在两个方面;(1)直接利用酶切图谱 分子指导二代数据的拼接。化garajan,N., T. D. Read, and M.化p, Scaffolding and validation of bacterial genome assemblies using optical restriction maps. Bi oin化rmatics, 2008. 24(10) :p. 1229-35. -文利用酶切图谱分子指导二代测序数据拼接 中的 scaffolding 步骤;(2)酶切图谱分子的拼接。Anantharaman, T. S. ,B. Mis虹a, and D.C.Schwartz, Genomics via optical mapping. 11:Ordered restriction maps. J Comput Biol, 1997. 4(2) :p. 91-118. -文中采用贝叶斯方法预测位点出现的概率模型,进 行图谱分子的拼接,该方法存在的不足主要包括如何设置Bayes模型的先验和计算复杂 度高。Anantharaman, T. , B. Mishra, and D. Schwartz, Genomics via optical mapping. Ill :Contiging genomic DM. Proc Int Conf Intell Syst Mol Biol, 1999:p. 18-27.义用 序列联配的思想构建酶切位点图谱,该算法存在的不足;(1)寻找最优的序列联配非常耗 时,似通过引入了一些启发式的策略W降低时间复杂度,但损失了精度。

【发明内容】

[0009] 针对现有技术的不足,本发明提出一种基因组酶切图谱拼接方法及系统。
[0010] 本发明提出一种基因组酶切图谱拼接方法,包括:
[0011] 步骤1,对所述基因组酶切图谱中基因序列分子进行预处理操作,获取新基因序列 分子,将所述新基因序列分子切成FLES片段,其中所述FLES片段为片段总长固定且无需具 有相同酶切位点数目的基因片段;
[0012] 步骤2,对所述FLES片段进行聚类,生成代表FLES集合,根据所述代表FLES集合 对所述基因序列分子进行纠错;
[0013] 步骤3,根据所述代表FLES集合与纠错后的所述基因序列分子,构建FLES图,对所 述FLES图进行路径捜索,获取所述FLES图的汉密尔顿路径为所述基因组的酶切位点序列, W完成基因组酶切图谱拼接。
[0014] 所述的基因组酶切图谱拼接方法,所述步骤1中所述预处理操作包括:删除所述 基因序列分子两端的酶切位点;
[0015] 近似处理酶切位点位置,其中将所述基因序列分子的酶切位点位置W化bp为单 位近似处理;
[0016] 标记所述基因序列分子相邻酶切位点的间距,获得酶切位点模式;
[0017] 对所述基因序列分子进行逆置操作。
[001引所述的基因组酶切图谱拼接方法,所述步骤2还包括FLES片段的联配规则:
[0019] 获取测序深度Depth,其中根据所述酶切位点的基因序列分子的数目进行估计:
[0020]
[002U 其中,L为相邻酶切位点的平均距离;
[0022] 获取遗失率Miss Rate ;
[0023] 获取编辑距离值istance),公式为:
[0024] Match =0,Insertion = -1,Deletion = -1. Mismatch = +
[0025] 其中Match表示位点的距离不超过化bp,否则视为Mismatch,编辑距离Distance 的阔值为:T二f#site * 0.1日1;
[0026] 聚类的标准为:
[0027]
[002引其中,Ti与T 2为两个FLES片段长度比值的阔值,当两个FLES片段长度比值介于 T1和T2之间,其相似度distance小于预设参数T时,S(FLESi,FLES2)取值为1。
[0029] 所述的基因组酶切图谱拼接方法,所述步骤2中聚类的步骤包括:
[0030] 将所有所述FLES片段按照所述联配规则进行联配;
[0031] 根据BIC准则选择每一类的最优聚类方式,根据所述Depth值确定类别数;
[0032] 生成所有类的代表FLES集合;
[0033] 根据所述代表FLES的集合,对基因序列分子进行纠错。
[0034] 所述的基因组酶切图谱拼接方法,生成所述代表FLES集合的方法包括:选择类中 连接数最多的点作为所述代表FLES集合;根据类中的所述FLES片段相互校正来恢复遗失 酶切位点,得到未遗失酶切位点的所述FLES片段作为所述代表FELS集合。
[0035] 所述的基因组酶切图谱拼接方法,所述步骤3中构建FLES图包括:所述FLES图 中,每个节点代表一个FLES片段,每一条边表示两个FLES片段中其中一个的前缀与另一个 后缀具有相同的位点模式或两FLES片段位于同一基因序列分子上。
[0036] 所述的基因组酶切图谱拼接方法,所述步骤3中通过公式对所述FLES图进行路径 捜索:
[0037]
[003引 S. t. Xi_x广e U;
[0039] Xi-yk-d 化《丫山
[0040] 其中,E表示FLES图的边的集合,M为基因序列分子集合,x,y分别表示FLES片段 与基因序列分子在基因组上的真实位置,其中FLESi片段,FLES j.片段之间的距离为dy,dik 表示FLESi片段在基因序列分子m k上的偏移距离;丫 ik表示第i个FLES片段与第k个基因 序列分子之间真实距离与估计值之间的误差;e U表示第i个FLES片段与第j个FLES片 段之间真实距离与估计值之间的误差;
[0041] 本发明还提出一种基因组酶切图谱拼接系统,包括:
[0042] 预处理模块,用于对所述基因组酶切图谱中基因序列分子进行预处理操作,获取 新基因序列分子,将所述新基因序列分子切成FLES片段,其中所述FLES片段为片段总长固 定且无需具有相同酶切位点数目的基因片段;
[0043] 聚类模块,用于对所述FLES片段进行聚类,生成代表FLES集合,根据所述代表 FLES集合对所述基因序列分子进行纠错;
[0044] 拼接模块,用于根据所述代表FLES集合与纠错后的所述基因序列分子,构建FLES 图,对所述FLES图进行路径捜索,获取所述FLES图的汉密尔顿路径为所述基因组的酶切位 点序列,W完成基因组酶切图谱拼接。
[0045] 所述的基因组酶切图谱拼接系统,所述预处理模块还包括;删除所述基因序列分 子两端的酶切位点;
[0046] 近似处理酶切位点位置,其中将所述基因序列分子的酶切位点位置W化bp为单 位近似处理;
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1