一种基因组酶切图谱拼接方法及系统的制作方法_3

文档序号:9235647阅读:来源:国知局
h = 0, Insertion = -1,Deletion = -1. Mismatch = +
[012U 其中Match表示位点的距离不超过化bp,否则视为Mismatch,编辑距离Distance 的阔值为:T= [#sil:e*0.1 吕1;
[012引聚类的标准为:
[0123]
[0124] 其中,Ti与T2为两个FLES片段长度比值的阔值,当两个FLES片段长度比值介于 T1和T2之间,其相似度distance小于预设参数T时,S(FLESi,FLES2)取值为1。
[01巧]W下为本发明的一实施例,如下所示:
[01%] 实验数据集是Irys酶切图谱测序系统下的大肠杆菌K12菌株Escherichia coli str. K-12 substr. MG1655的酶切图谱数据,共有7322条分子,其采用的酶切位点序列为 "GCTCTTC",其长度分布如图9。
[0127] 实验结果;
[0128] 通过对上述E. coli使用本发明中的方法进行拼接,得到了酶切位点结果序列。如 表1所不。
[0129] 通常情况下,酶切图谱拼接的结果主要是从聚类的准确度和拼接结果的长度两个 方面来衡量。在本发明中,聚类的准确度主要是由聚类之后的代表FLES覆盖整个基因组的 位点序列的百分比来表征;拼接结果的长度由得到的酶切位点序列的N50来表征。
[0130] 如表1所示,本发明在聚类之后的代表FLES仅仅遗漏了基因组上的大约10个位 点,FLES的计算规模缩小了近10倍,使用多线程并行计算平台(24个线程)计算时间约为 1000s。另一方面,得到的酶切位点序列的N50为592肺P。
[0131] 表 1
[0132]
[0133] 注;表中的be化re, after分别表示聚类前后的FLES集合。
[0134] 真实的E. coli基因组序列共有683个酶切位点。
[01巧]#moleule输入分子的数目
[0136] N50表示长度大于N50的所有分子的和至少占整个基因组的50%。
[0137] W下为结果分析,如下所示:
[0138] 本发明提出的新型数据结构FLES图适用于酶切图谱数据,采用的全局优化策略 可W对酶切图谱数据进行有效的拼接。
[0139] 通过上述表格中的FLES聚类前后的遗失位点数目可知,本发明在不损失准确度 的前提下大大降低了计算时间。
[0140] 表2示出了目前的几种常见的二代测序数据的拼接软件对E. coli的拼接结果。由 表可知,仅利用二代数据的拼接结果最长为313肺P。表1中的nanoARCS的拼接长度确实 远远大于二代数据的拼接结果,因此酶切位点图谱的拼接可W用于延伸二代数据的拼接结 果,从而提高序列的连续性。
[0141] 表 2
[0142]
[0143] 注;表中contig表示连续碱基序列。
[0144] ScafTold表示中间存在缺失序列的连续碱基序列。
[0145] N50表示长度大于N50的所有分子的和至少占整个基因组的50%。N90类似。
【主权项】
1. 一种基因组酶切图谱拼接方法,其特征在于,包括: 步骤1,对所述基因组酶切图谱中基因序列分子进行预处理操作,获取新基因序列分 子,将所述新基因序列分子切成FLES片段,其中所述FLES片段为片段总长固定且无需具有 相同酶切位点数目的基因片段; 步骤2,对所述FLES片段进行聚类,生成代表FLES集合,根据所述代表FLES集合对所 述基因序列分子进行纠错; 步骤3,根据所述代表FLES集合与纠错后的所述基因序列分子,构建FLES图,对所述FLES图进行路径搜索,获取所述FLES图的汉密尔顿路径为所述基因组的酶切位点序列,以 完成基因组酶切图谱拼接。2. 如权利要求1所述的基因组酶切图谱拼接方法,其特征在于,所述步骤1中所述预处 理操作包括:删除所述基因序列分子两端的酶切位点; 近似处理酶切位点位置,其中将所述基因序列分子的酶切位点位置以lKbp为单位近 似处理; 标记所述基因序列分子相邻酶切位点的间距,获得酶切位点模式; 对所述基因序列分子进行逆置操作。3. 如权利要求1所述的基因组酶切图谱拼接方法,其特征在于,所述步骤2还包括 FLES片段的联配规则: 获取测序深度D印th,其中根据所述酶切位点的基因序列分子的数目进行估计:其中,L为相邻酶切位点的平均距离; 获取遗失率MissRate; 获取编辑距离(Distance),公式为: Match= 0,Insertion= -1,Deletion= -1.Mismatch= + 〇〇 其中Match表示位点的距离不超过lKbp,否则视为Mismatch,编辑距离Distance的阈 值为:T= [#site*0. 15]; 聚类的标准为:其中,1\与T2为两个FLES片段长度比值的阈值,当两个FLES片段长度比值介于T1和T2之间,其相似度distance小于预设参数T时,S(FLESi,FLES2)取值为1。4. 如权利要求3所述的基因组酶切图谱拼接方法,其特征在于,所述步骤2中聚类的步 骤包括: 将所有所述FLES片段按照所述联配规则进行联配; 根据BIC准则选择每一类的最优聚类方式,根据所述D印th值确定类别数; 生成所有类的代表FLES集合; 根据所述代表FLES的集合,对基因序列分子进行纠错。5. 如权利要求4所述的基因组酶切图谱拼接方法,其特征在于,生成所述代表FLES集 合的方法包括:选择类中连接数最多的点作为所述代表FLES集合;根据类中的所述FLES 片段相互校正来恢复遗失酶切位点,得到未遗失酶切位点的所述FLES片段作为所述代表 FELS集合。6. 如权利要求1所述的基因组酶切图谱拼接方法,其特征在于,所述步骤3中构建 FLES图包括:所述FLES图中,每个节点代表一个FLES片段,每一条边表示两个FLES片段 中其中一个的前缀与另一个后缀具有相同的位点模式或两FLES片段位于同一基因序列分 子上。7. 如权利要求1所述的基因组酶切图谱拼接方法,其特征在于,所述步骤3中通过公式 对所述FLES图进行路径搜索:S.t.X厂eij; xi_yk_dik^yik; 其中,E表示FLES图的边的集合,M为基因序列分子集合,x,y分别表示FLES片段与基 因序列分子在基因组上的真实位置,其中FLESi片段,FLES』片段之间的距离为dmdik表示 FLESi片段在基因序列分子mk上的偏移距离;yik表示第i个FLES片段与第k个基因序列 分子之间真实距离与估计值之间的误差;eu表示第i个FLES片段与第j个FLES片段之 间真实距离与估计值之间的误差。8. -种基因组酶切图谱拼接系统,其特征在于,包括: 预处理模块,用于对所述基因组酶切图谱中基因序列分子进行预处理操作,获取新基 因序列分子,将所述新基因序列分子切成FLES片段,其中所述FLES片段为片段总长固定且 无需具有相同酶切位点数目的基因片段; 聚类模块,用于对所述FLES片段进行聚类,生成代表FLES集合,根据所述代表FLES集 合对所述基因序列分子进行纠错; 拼接模块,用于根据所述代表FLES集合与纠错后的所述基因序列分子,构建FLES图, 对所述FLES图进行路径搜索,获取所述FLES图的汉密尔顿路径为所述基因组的酶切位点 序列,以完成基因组酶切图谱拼接。9. 如权利要求8所述的基因组酶切图谱拼接系统,其特征在于,所述预处理模块还包 括:删除所述基因序列分子两端的酶切位点; 近似处理酶切位点位置,其中将所述基因序列分子的酶切位点位置以lKbp为单位近 似处理; 标记所述基因序列分子相邻酶切位点的间距,获得酶切位点模式; 对所述基因序列分子进行逆置操作。10. 如权利要求8所述的基因组酶切图谱拼接系统,其特征在于,所述聚类模块还包括 通过联配规则对所述FLES片段进行联配:获取测序深度D印th,其中根据所述酶切位点的 基因序列分子的数目进行估计: CN104951673A _权利要求书_ _3/3页其中,L为相邻酶切位点的平均距离;获取遗失率MissRate; 获取编辑距离(Distance),公式为: Match= 0,Insertion= -1,Deletion= -1.Mismatch= + 〇〇 其中Match表示位点的距离不超过lKbp,否则视为Mismatch,编辑距离Distance的阈 值为:T= [#site*0. 15]; 聚类的标准为:其中,1\与T2为两个FLES片段长度比值的阈值,当两个FLES片段长度比值介于T1和T2之间,其相似度distance小于预设参数T时,S(FLESi,FLES2)取值为1。
【专利摘要】本发明涉及分子生物学领域的基因组序列拼接领域,本发明提出一种基因组酶切图谱拼接方法及系统,该方法包括对所述基因组酶切图谱中基因序列分子进行预处理操作,获取新基因序列分子,将所述新基因序列分子切成FLES片段,其中所述FLES片段为片段总长固定且无需具有相同酶切位点数目的基因片段;对所述FLES片段进行聚类,生成代表FLES集合,根据所述代表FLES集合对所述基因序列分子进行纠错;根据所述代表FLES集合与纠错后的所述基因序列分子,构建FLES图,对所述FLES图进行路径搜索,获取所述FLES图的汉密尔顿路径为所述基因组的酶切位点序列,以完成基因组酶切图谱拼接。本发明能够快速、准确地构建基因组的酶切位点图谱。
【IPC分类】G06F19/22, G06F19/24
【公开号】CN104951673
【申请号】CN201510346396
【发明人】卜东波, 许情, 陈挺, 孙世伟, 李帅成, 刘兴武, 张仁玉, 王超
【申请人】中国科学院计算技术研究所
【公开日】2015年9月30日
【申请日】2015年6月19日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1