一种基因组酶切图谱拼接方法及系统的制作方法_2

文档序号:9235647阅读:来源:国知局
[0047] 标记所述基因序列分子相邻酶切位点的间距,获得酶切位点模式;
[0048] 对所述基因序列分子进行逆置操作。
[0049] 所述的基因组酶切图谱拼接系统,所述聚类模块还包括通过联配规则对所述FLES 片段进行联配;获取测序深度Depth,其中根据所述酶切位点的基因序列分子的数目进行 估计:
[(K)加]
[005U 其中,L为相邻酶切位点的平均距离;
[0052] 获取遗失率Miss Rate ;
[0化3] 获取编辑距离值istance),公式为;
[0054] Match = 0, Insertion = -1,Deletion = -1. Mismatch = +
[0化5] 其中Match表示位点的距离不超过化bp,否则视为Mismatch,编辑距离Distance 的阔值为;T = f#site * 0.151;
[0056] 聚类的标准为:
[0057]
[0化引其中,Ti与T2为两个FLES片段长度比值的阔值,当两个FLES片段长度比值介于 T1和T2之间,其相似度distance小于预设参数T时,S(FLESi,FLES2)取值为1。由W上发 明可知,本发明的优点在于:
[0059] (1)本发明针对酶切图谱数据特点提出了新型数据结构FLES图,克服了传统de 化uUn图中k-mer无法表示酶切位点丢失的缺陷;
[0060] (2)本发明采用全局优化策略,能够快速、准确地构建基因组的酶切位点图谱。
【附图说明】
[0061] 图1为Bionano公司的Irys酶切图谱测序平台;
[0062] 图2为nanoARCS算法流程不意图;
[0063] 图3为分子测序过程中遗失酶切位点的示意图;
[0064] 图4为分子预处理的示意图;
[00化]图5为de Bruijn图的构建方式与化ES图的对比示意图;
[0066] 图6为FLES图定义W及不同K值的酶切位点的分布图;
[0067] 图7为分子纠错的示意图;
[0068] 图8为FLES图的构建示意图;
[0069] 图9为测试数据集E. coli的分子长度分布图。
【具体实施方式】
[0070] 酶切图谱拼接算法nanoARCS主要由两大部分组成:分子纠错W及分子拼接,算法 流程图见图2。下面结合附图对本发明做进一步地描述,其中本发明出现的"分子"皆代表 "基因序列分子"。
[0071] 步骤1 ;分子纠错的主要步骤分为数据预处理、聚类和纠错;
[0072] 步骤11 ;数据预处理;
[0073] 酶切图谱数据特点主要有;1) Irys系统如图1所示生成的酶切图谱的分辨率大约 是肺P量级。也就是说,如果两个酶切位点距离较近,那么很有可能会遗失其中一个位点。 如图3中所示,其中相隔较近的位点,在酶切图谱中只被识别出一个巧光信号试识别的酶 切位点的位置本身存在一定的误差,近似服从高斯分布。
[0074] 基于上述数据特点,图4示出了预处理的示意图:
[0075] (1)去掉两端位点。分子两端位点仅表示起始标记(见图4A);
[0076](2)近似处理位点位置。由于测序的分辨度有限,将分子位置W化bp为单位近似 处理(见图4A);
[0077] (3)得到酶切位点模式(motif)。通过标记分子相邻位点的间距得到(见图4B);
[007引 (4)分子逆置。因为不确定分子来自正链还是反链(见图4C)。
[0079] 步骤12;聚类;
[0080] 聚类步骤负责将步骤1中的分子切成化ES (Fixed LEngth Segment),并对化ES进 行聚类。
[0081] 首先,将分子切成FLES。值得注意的是,该里的FLES和de化uUn图中的kmer类 似,都是表示一个片段;然而传统的de化uUn图中的kmer并不适用于处理酶切图谱数据。 由于酶切图谱中位点的高遗失率,W致于相同位点个数并不一定代表相同的位点模式(见 图5),因此我们设计了新的数据结构FLES。FLES只要求片段的总长固定、而并不需要片段 具有相同的位点数目(见图6A)。比如L = 100K,意味着FLES的长度之和为100K,其位点 数目不确定。同一 L值对应片段的位点个数的分布(见图6B)。
[0082] 接着,对FLES进行聚类。聚类主要基于W下的几个参数:
[0083](1)测序深度值epth);此处根据测序得到的酶切位点分子数进行简单估计:
[0084]
[00化]其中,L指的是相邻位点的平均距离。当L为100肺P时,位点个数大约为12个, 则L 二 = 8.33Kbp (见图她)。
[0086] 似遗失率(Miss Rate);据经验值,分子中酶切位点的遗失率大致为15%。即当 L为100肺P时,遗失位点数目约为15*0. 15 = 2. 25个。
[0087] (3)编辑距离值istance);该里使用的打分方式为:
[0088] Match = 0, Insertion = -1,Deletion = -1. Mismatch = +
[0089] 该里Match表示位点的距离不超过化bp,否则视为Mismatch。另外,编辑距离 Distance 的阔值为;T 二[Wske * 0.1吕1。
[0090] 综合上述规则,聚类的标准为:
[0091]
[009引其中,Ti与了2表示两个FLES长度比值的阔值,实际值的设定可由用户指定,当两 个FLES片段长度比值介于T1和T2之间,其相似度distance小于预设参数T时,S(FLESi, FLES2)取值为1。
[0093] 聚类的步骤为:
[0094] (1)首先,将所有化ES按照上述规则联配;
[0095] (2)接着,根据BIC准则选择每一类的最优聚类方式,根据Depth值确定可能的类 别数,从而完成FLES聚类;
[0096] (3)然后,生成所有类的代表FLES集合。可W有两种选择代表元素的策略:一种 是直接选择类中连接数最多的点作为代表元素,该样可W排除异常点的干扰;另一种是根 据类中的FLES相互校正来恢复遗失位点,最大程度地得到没有遗失位点的FLES作为代表 元素(见图7);
[0097] (4)最后,根据做中的代表FLES的集合,对分子进行纠错(见图7)。
[009引至此,分子纠错步骤完成,得到纠错后的分子序列W及所有类的代表FLES集合。
[0099] 步骤2 ;拼接;
[0100] 构建FLES图并识别酶切分子路径,从而完成拼接。具体步骤如下:
[0101] 步骤21 ;构建FLES图:在构建的FLES图中,每个节点代表一个FLES,每一条边表 示两个FLES中其中一个的前缀与另一个后缀具有相同的位点模式或两FLES位于同一分子 上。(见图8)。
[0102] 步骤22 ;路径捜索;本步骤将路径捜索问题转化为线性规划问题,从而得到全局 优化的拼接结果。在理想情况下,真实基因组的酶切位点序列为FLES图的汉密尔顿路径。 本步骤采用的主要步骤为;(1)估计距离。根据FLES之间overlap信息估计FLES之间的 距离。(2)分子回贴。连接来自同一个分子的FLES。在FLES图中的路径捜索问题可被形 式化为下述线性规划问题:
[0103]
[0104] S. t. Xf-x广e U;
[0105] Xi-yk-d 化《丫山
[0106] 其中,E表示FLES图边的集合,M为分子集合。X,y分别表示FLES和分子在基因 组上的真实位置。其中FLESi,FLESj.之间的距离为d U,dik表示化ES i在分子m k上的偏移距 离,丫ik表示第i个FLES片段与第k个基因序列分子之间真实距离与估计值之间的误差; eU表示第i个FLES片段与第j个FLES片段之间真实距离与估计值之间的误差;。
[0107] 通过求解上述线性规划问题,可W得到分子和FLES在基因组上的真实位置,进而 得到基因组的位点序列。
[0108] 本发明还提出一种基因组酶切图谱拼接系统,包括:
[0109] 预处理模块,用于对所述基因组酶切图谱中基因序列分子进行预处理操作,获取 新基因序列分子,将所述新基因序列分子切成FLES片段,其中所述FLES片段为片段总长固 定且无需具有相同酶切位点数目的基因片段;
[0110] 聚类模块,用于对所述FLES片段进行聚类,生成代表FLES集合,根据所述代表 FLES集合对所述基因序列分子进行纠错;
[0111] 拼接模块,用于根据所述代表FLES集合与纠错后的所述基因序列分子,构建FLES 图,对所述FLES图进行路径捜索,获取所述FLES图的汉密尔顿路径为所述基因组的酶切位 点序列,W完成基因组酶切图谱拼接。
[0112] 所述预处理模块还包括;删除所述基因序列分子两端的酶切位点;
[0113] 近似处理酶切位点位置,其中将所述基因序列分子的酶切位点位置W化bp为单 位近似处理;
[0114] 标记所述基因序列分子相邻酶切位点的间距,获得酶切位点模式;
[0115] 对所述基因序列分子进行逆置操作。
[0116] 所述聚类模块还包括通过联配规则对所述FLES片段进行联配;获取测序深度 Depth,其中根据所述酶切位点的基因序列分子的数目进行估计:
[0117]
[0118] 其中,L为相邻酶切位点的平均距离;获取遗失率Miss Rate;
[0119]获取编辑距离值istance),公式为;
[0120] Matc
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1