一种染色体同线性同源区域的检测方法和系统的制作方法

文档序号:6470432阅读:288来源:国知局
专利名称:一种染色体同线性同源区域的检测方法和系统的制作方法
技术领域
本发明属于基因工程领域,尤其涉及一种染色体同线性同源区域的检测方 法和系统。
背景技术
基因复制是指DNA片段在基因组中复制出 一个或更多的拷贝,这种DNA 片段可以是一小段基因组序列、整条染色体、甚至是整个基因组。基因复制是 基因组进化最主要的驱动力之一,是产生具有新功能的基因和进化出新物种的 主要原因之一。
基因复制现象广泛存在,据估计,酵母基因组在1亿年前发生过一次全基 因组的复制。全基因复制现象在脊推动物体内非常罕见,但是在植物体内却非 常普遍。很多植物都在祖先阶段或是近期发生过全基因组复制,如双子叶植物 中的祖先基因组复制事件和杨树近期的全基因组复制事件。从化石记录来看, 被子植物是在地球上某一时期产生之后,迅速蔓延发展的。呈现出一系列突发 的进化特点,包括产生新的组织结构,如原始花瓣,心皮和萼片等。 一些研究 结果显示,大豆、马铃薯、烟草都发生过近期的全基因组复制事件,而在玉米 和葡萄中发生的全基因组复制事件却极其古老。现在人们期望能够通过人工选 择农作物品种的基因复制,生产出具有快生长、产量高、个头大等特性的作物。
通过检测基因组序列的同线性同源区域,可以掌握物种基因复制事件。目 前,检测基因组序列的同线性同源区域的方法主要是对完整的基因组序列同线 性同源区域定位的直接观察(即采用目测的方式),其复杂程度如图4a所示, 其中图4a中的每条线表示一对基因的同源关系。比如,拟南芥是第一个基因组 完全测序植物,把具有同源关系的一对关系用一个点来代表,沿着染色体具有
6许多同线性同源区域,这就是全基因组复制的遗留物,然而,由于全基因组复 制经常发生在几百万至几亿年之前,其产成的基因的快速和大规模缺失,以及 后来又发生的其他复制事件(串联重复和随机转座事件),通过目测从点图或
线图中(复杂程度参见图4a)去识别祖先发生的全基因组复制事件变得极其困 难。如果在物种内部通过目测识别同线性同源区域已经足够困难的话,那么在 物种之间进行同线性同源区域的识别就变得更为困难,而且在一些情况下是完 全不可行的。

发明内容
本发明的目的在于提供一种染色体同线性同源区域的检测方法,旨在解决 现有的采用目测方式检测染色体同线性同源区域时复杂度高、检测效率低的问题。
本发明是这样实现的, 一种染色体同线性同源区域的^f企测方法,所述方法 包括下述步骤
将参考基因集中的所有参考基因定位到目标基因组上,构成基因拷贝座位; 根据所述基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基 因代表座位;
根据所述模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染 色体的同线性同源区域。
本发明的另 一 目的在于提供一种染色体同线性同源区域^r测系统,所述系 统包括
参考基因定位单元,用于将参考基因集中的所有参考基因定位到目标基因 组上,构成基因拷贝座位;
基因拷贝聚类单元,用于根据所述参考基因定位单元得到的基因拷贝座位, 将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位;
同线性检测单元,用于根据所述基因拷贝聚类单元得到的模糊位点代表基
7因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。
在本发明实施例中,通过将参考基因集中的参考基因定位到目标基因组上, 得到基因拷贝座位,再将有重叠的基因拷贝聚类到一起,形成模糊位点代表基 因座位,最后根据得到的模糊位点代表基因座位,利用动态规划模糊位点定位 算法即可自动检测到染色体的同线性同源区域,且本发明实施例提供的检测方 法敏感度高,复杂度低,避免了目测时主观因素对染色体同线性同源区域检测 的影响。


图1是本发明实施例提供的染色体同线性同源区域的检测方法的实现流程
图2是本发明实施例提供的将参考基因集中的所有参考基因定位到目标基 因组上的示意图3a是本发明实施例提供的原始的在两个染色体上的模糊位点代表基因 座位的示意图3b是本发明实施例提供的根据图3a所示的原始的在两个染色体上的模 糊位点代表基因座位进行打分的实现示意图3c是本发明实施例提供的根据图3b所示得打分过程得到的分值和打分 路径示意图3d是本发明实施例提供的根据图3c所示的最优打分路径得到的染色体 同线性同源的基因示意示意图4b是本发明实施例提供的染色体同线性同源区域检测方法的检测结果 示意图5是本发明实施例提供的检测葡萄与杨树基因组所发生的全基因复制事件的效果图6是本发明实施例提供的染色体同线性同源区域检测系统的结构框图。
具体实施例方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,将参考基因集中的参考基因定位到目标基因组上,得 到基因拷贝座位,再将目标基因组上有重叠的基因拷贝聚类到一起,形成模糊 位点代表基因座位,最后根据得到的模糊位点代表基因座位,利用动态规划模 糊位点定位算法自动4企测到染色体的同线性同源区域。
图1示出了本发明实施例提供的染色体同线性同源区域的检测方法的实现 流程,详述如下
在步骤S101中,将参考基因集中的所有参考基因定位到目标基因组上,构 成基因拷贝座位。
在本发明实施例中,通过将参考基因集中的所有参考基因定位到目标基因 组上,可以搜索到参考基因在目标基因组上的基因拷贝。当检测种内染色体之 间的同线性同源区域时,采用物种内的两条染色体中的基因组作为目标基因组,
釆用物种自身的基因集作为参考基因集,即可敏感的搜索到所有基因拷贝;当 检测物种之间染色体的同线性同源区域时,采用物种间的两个染色体中的基因 组作为目标基因组,为了敏感的搜索到所有的基因拷贝,需要将两个物种的基 因集混和起来作为参考基因集。
其中将参考基因集中的所有参考基因定位到目标基因组上的具体过程如图
2所示,当参考基因集包括参考基因A和参考基因B时,则将参考基因A定位 到目标基因组上时,参考基因A可以与目标基因组上的两个基因片段比对上, 从而搜索到与参考基因A对应的基因拷贝;将参考基因B定位到目标基因组上时,参考基因B可以与目标基因组上的多个基因片段比对上,从而搜索到多个
与参考基因B对应的基因拷贝。在本发明实施例中,可以直接通过NCBI-blast 软件包中的tblastn把参考基因集定位到目标基因组上,以搜索基因拷贝。其中 tblastn能够比对上低度同源的区域。在使用上述软件时, 一般将期望值(e值) 设置为1-10或者更小,其他参数采用默认值。
将参考基因集中的所有参考基因定位到目标基因组上,搜索到基因拷贝后, 采用solar程序将一个参考基因在目标基因组上定位的相邻区域连接起来,构成 该参考基因在对应的基因拷贝座位,对于参考基因集中的每个参考基因均进行 上述过程,即可构成参考基因集在目标基因组上的基因拷贝座位。其中solar 程序的过程简述如下
将连续的小的比对片段,按照得到最大覆盖度(相对于基因长度)的原则, 提出一些最佳组合的小片段,从而构成一个拷贝座位。如当A基因(长度为 1000bp)在基因组上比对出来的三个片段是l-200bp(对应A基因的l-200bp)、 100-220bp (对应A基因的100-220bp)和600-800bp(对应A基因上200-400bp), 那么经过solar处理之后,去除掉了基本被片段1完全包含的2片段,最终保留 了基因组的l-200bp,600-800bp两个片段,构成了 A基因的一个基因拷贝座位。
利用solar处理多个参考基因的过程是独立的,就是说,用solar处理每个 基因的座位的时候,和其他基因在基因组上的比对是没有关系的。
由于定位到目标基因组上的基因拷贝可能不完整或者可信度低,为了避免 目标基因组上的不完整或者可信度低的基因拷贝造成的检测的运算复杂度大, 检测效果不精确的问题,在本发明另一实施例中,在步骤S101之后还包括下述 步骤
在步骤S102中,计算基因拷贝覆盖对应的参考基因区域的百分含量,当该 百分含量低于预设值时,过滤掉该基因拷贝座位。
其具体过程如下计算基因拷贝覆盖对应的参考基因区域的百分含量,过 滤掉百分含量低于预设值(如50% )的基因拷贝座位,以过滤掉不完整或者可
10信度低的基因拷贝。其中计算基因拷贝覆盖对应的参考基因区域的百分含量的
过程如下将定位到目标基因组上的基因片段投射到参考基因上,计算出该参 考基因对应的基因拷贝覆盖整个参考基因的百分含量。
请参阅图2,如果参考基因A长1000bp,把参考基因A定位到1号染色体 上,定位出两个区域, 一个是染色体上l-305bp (对应参考基因A的l-300bp, 长度差异为碱基的插入删除导致),另一个是染色体上1001-1300bp (对应参 考基因A上299-600bp ),这样,将所有定位区域(l-300bp和299-600bp )投 射到参考基因A上,即为l-600bp定位到1号染色体的l-1300bp这个区间,则 该参考基因A对应的基因拷贝覆盖参考基因A的百分比为600/1000=60%, 因此,参考基因A对应的基因拷贝座位是完整的;当该百分比小于50%时,则 参考基因A对应的基因拷贝座位为不完整的或者可信度低的,将被过滤掉。
在步骤S103中,根据基因拷贝座位,将目标基因组上重叠的基因拷贝聚类 到一起,形成^^糊位点基因代表座位。
由于同源基因在基因组上的拷贝存在着重叠区域甚至完全重叠的情况,所 以在本发明实施例中,采用perl脚本对基因拷贝进行位置判断,检测重叠的基 因拷贝,当重叠区域占每个重叠的基因拷贝的百分比大于预设值时,将重叠的 基因拷贝聚合到一起,形成模糊位点代表基因座位,每个模糊位点代表基因座 位表示与一个或者多个基因同源。
举例说明如下如果参考基因A定位到了 1号染色体的1Kbp至3Kbp区 域,而参考基因B定位到1号染色体的1.2Kbp至3.3Kbp区域,则二者的重叠 区域是1.2Kbp至3Kbp,总长为1.8Kbp,当重叠区域占两个参考基因对应的基 因拷贝的百分比均大于预设值(如50% )时,则将两个参考基因对应的基因拷 贝聚合到一起,形成模糊位点代表基因座位,由于重叠区域占参考基因A对应 的基因拷贝的百分比为1.8/ (3-1) =90%,重叠区域占参考基因B对应的基 因拷贝的百分比为1.8/ (3.3-1.2) =86%,均大于50%。按照每相邻两个基因 拷贝至少有50%的重叠区域(相对于较短的基因拷贝来说)才会聚到一起的原则,把所有的满足上述条件的基因拷贝聚合到一起,形成模糊位点代表基因座
位,如l号染色体上的1Kbp至3.3Kbp的模糊位点代表基因座位就是A/B,每 个模糊位点代表基因座位至少和一个基因同源,同时可以和多个基因同源。经 上述步骤处理后,原始的在两个染色体上的模糊位点代表基因座位的效果如图 3a所示。
在步骤S104中,根据得到的模糊位点代表基因座位,利用动态规划模糊位 点定位算法检测染色体的同线性同源区域。
其中利用动态规划模糊位点定位算法检测染色体的同线性同源区域的具体 步骤如下将两条染色体上的模糊位点代表基因座位中的每连续预设个(该预 设个可以根据经验进行设定,如IO个或者其他数量个)模糊位点代表基因座位 作为一组,将整个染色体拆分为若干小的片段,然后利用动态规划模糊位点比 对算法对每組模糊位点代表基因座位中的两两模糊位点代表基因座位进行比 对,并根据比对结果进行打分,得到打分路径。当某组才莫糊位点代表基因座位 存在分值超过预设分值的打分路径时,则认为在染色体的该组模糊位点代表基 因座位区域检测到染色体的同线性同源区域,否则认为在染色体的该组模糊位 点代表基因座位区域未检测到染色体的同线性同源区域。
其中打分的原则可以根据经验设置,在本发明实施例中,打分原则为当两 个模糊位点代表基因座位具有相同的基因(称为匹配)时,则得2分;当两个 模糊位点代表基因座位不具有相同的基因(称为错配)时,则得-3分;当相邻 模糊位点代表基因座位之间需添加一个虚拟的座位才能令前后比对一致(称为 空位)时,则得-1分。
请参阅图3b和图3c,其中图3b为才艮据图3a所示的原始的在两个染色体 上的模糊位点代表基因座位进行打分的过程,图3c为才艮据图3b所示得打分过 程得到的分值和打分路径示意图。将一条染色体上的模糊位点代表基因座位 A/B与另 一条染色体上的模糊位点代表基因座位A/T进行比对,由于两个模糊 位点代表基因座位包括相同的基因A (即匹配),从而得2分;由于一条染色体上的相邻两个才莫糊位点代表基因座位A/B和C之间需要添加一个虛拟的座位
才能令模糊位点代表基因座位A/B和A/T的比对结果与模糊位点代表基因座位 C和C/S的比对结果一致,从而得-1分;将得到的分值累加得到分值为1分。 根据上述原理,即可根据图3b所示的打分过程得到图3c所示的打分路径,包 括多条打分路径,其中分值最高的打分路径为最优路径。
当根据上述动态规划模糊位点定位算法得到的打分路径中至少有一条路径 的分值高于预设分值(如6分)时,则认为在染色体的上述区域(从其中一条 染色体的模糊位点代表基因座位A/B到模糊位点代表基因座位J/K/L与另一条 染色体的模糊位点代表基因座位A/T到模糊位点代表基因座位K的区域内)检 测到同线性同源区域,否则认为在染色体的上述区域内未检测到同线性同源区 域。
一般来说,根据每连续预设个模糊位点代表基因座位,采用动态规划模糊 位点定位算法就已经可以检测倒染色体同线性同源区域,但考虑到预设个数的 模糊位点代表基因座位中的基因拷贝不足以代表整个染色体的复制,如当将每 10个模糊位点代表基因座位中的基因拷贝作为一组进行同线性同源区域的检 测时,由于IO个模糊位点代表基因座位中的基因拷贝跨越的基因组范围一般为 100Kbp到lM,这不足以代表整个染色体的复制,为了使染色体同线性同源区 域的检测结果更接近实际结果,在本发明另一实施例中,该方法还包括下述步 骤
将每组模糊位点代表基因座位作为 一个新的座位,并将每组模糊位点代表 座位的最优打分路径的分值作为新的座位的分值,采用动态规划模糊位点定位 算法在每连续预设个新的座位区域检测染色体的同线性同源区域。
在本发明实施例中,当将每组模糊位点代表基因座位作为 一个新的座位时, 将该组模糊位点代表基因座位的最优路径的得分值作为该新的座位的分值。
如将连续预设个^t糊位点代表基因座位ABCDEFGH定义为新的座位,命 名为la,且将连续预设个模糊位点代表基因座位ABCDEFGH经步骤S104后得到的最优路径的分值作为该新的座位A,的分值,这样,可以将步骤S104后 得到的连续预设个;f莫糊位点代表基因座位都定义为新的座位,再采用动态规划 模糊位点比对算法从染色体的每连续预设个新的座位区域检测染色体的同线性 同源区域。
当在染色体的上述区域内检测到同线性同源区域时,为了得到染色体上述 区域内具体的哪些基因之间是同线性同源的,在本发明另一实施例中,该方法 还包括下述步骤
根据动态规划模糊位点定位算法得到的最优打分路径得到染色体同线性同 源的基因。
当根据动态规划模糊位点定位算法得到的打分路径如图3c所示,其中箭头 标记为最优打分路径,纵向箭头表示包括横向的模糊位点代表基因座位的染色 体序列需加一个空位(用"-"代替),横向街头表示包括纵向的模糊位点代表 基因座位的染色体序列需加一个空位,对角线走向的箭头代表匹配或者错配。 则根据图3c所示的最优打分路径得到的染色体同线性同源的基因如图3d所示。
由于染色体经常发生倒置现象,如座位顺序为A、 B、 C发生倒置后就变成 座位顺序为C、 B、 A了,为了使染色体同线性同源区域的检测结果更加精确, 在本发明另一实施例中,该方法还包括下述步骤
将染色体上的模糊位点代表基因座位进行倒序操作,并重新执行步骤S104 检测染色体同线性同源区域。
本发明实施例提供的染色体同线性同源区域的检测方法的检测结果如图 4b所示,与图4a所示的通过目测检测染色体同线性同源区域的结果相比较, 复杂度明显下降,同时避免了目测时主观因素对染色体同线性同源的判断的影 响。
请参阅图5,为采用染色体同线性同源区域检测方法检测葡萄与杨树基因 组所发生的全基因复制事件的效果图。其中编号为1、 2、 3的染色体分别为葡 萄的6、 8、 13号染色体,编号为P1到P13的染色体分别为杨树的l-19号染色体。图中的每条线表示一对同线性同源区域。因为葡萄染色体(图中1,2,3号)
中有相当多区域都能比对到杨树4个区域,即1对4的关系,说明在杨树和葡 萄分化之后,杨树又发生了两次全基因组复制(2*2)。
为了便于说明,仅示出了与本发明实施例相关的部分。其中
参考基因定位单元61将参考基因集中的所有参考基因定位到目标基因组 上,构成基因拷贝座位。当检测种内染色体之间的同线性同源区域时,采用物 种内的两条染色体中的基因组作为目标基因组,采用物种自身的基因集作为参 考基因集,即可敏感的搜索到所有基因拷贝;当检测物种之间染色体的同线性 同源区域时,采用物种间的两个染色体中的基因组作为目标基因组,为了敏感 的搜索到所有的基因拷贝,需要将两个物种的基因集混和起来作为参考基因集。
基因拷贝聚类单元62将定位到目标基因组上重叠的基因拷贝聚类到一起, 形成模糊位点基因代表座位。由于同源基因在基因组上的拷贝存在着重叠区域 甚至完全重叠的情况,所以在本发明实施例中,采用perl脚本对基因拷贝进行 位置判断,并将有重叠的基因拷贝聚合到一起,形成模糊位点代表基因座位, 每个模糊位点代表基因座位表示与一个或者多个基因同源。其具体实现流程如 上,在此不再赘述。
同线性检测单元63根据得到的模糊位点代表基因座位,利用动态规划模糊 位点定位算法检测染色体的同线性同源区域。该同线性检测单元63包括基因座 位分组模块631、基因座位比对模块632和同线性判断模块633。
其中基因座位分组模块631将两条染色体上的模糊位点代表基因座位中每 连续预设个模糊位点代表基因座位作为 一组,将整个染色体拆分为若干小的片 段。
基因座位比对模块632利用动态规划模糊位点比对算法对每组模糊位点代 表基因座位中的两两模糊位点代表基因座位进行比对,并根据比对结果和预设 的打分原则进行打分,得到对应的打分路径。同线性判断模块633在染色体的一组区域内至少有一条打分路径的分值超 过预设分值时,判定在染色体的所述组区域^f企测到染色体的同线性同源区域, 否则认为在染色体的所述组区域未检测到染色体的同线性同源区域。其具体过 程如上所述,在此不再赘述。
一般来说,根据每组预设个模糊位点代表基因座位,采用动态规划模糊位 点定位算法就已经可以检测倒染色体同线性同源区域,但考虑到一组模糊位点 代表基因座位中的基因拷贝不足以代表整个染色体的复制,如当将每10个模糊 位点代表基因座位中的基因拷贝作为 一组进行同线性同源区域的检测时,由于 10个模糊位点代表基因座位中的基因拷贝跨越的基因组范围一般为100Kbp到 1M,这不足以代表整个染色体的复制,为了使染色体同线性同源区域的检测结 果更接近实际结果,在本发明另一实施例中,该系统还包括基因座位重定义单 元64,其将基因座位分组模块631得到的每组模糊位点代表基因座位定义为一 个新的座位,并将基因座位比对模块632得到的每组模糊位点代表座位的最优 打分路径的得分值作为新的座位的分值。此时,同线性检测单元63还用于根据 基因座位重定义单元64重新定义的新的座位,采用动态规划模糊位点定位算法 在每连续预设个新的座位;险测染色体的同线性同源区域。
当同线性检测单元63在染色体的每組模糊位点代表基因座位区域内检测 到同线性同源区域,或者在染色体的每连续预设个新的座位区域内检测到同线
的,在本发明另一实施例中,该系统还包括同线性基因确定单元65,其根据动 态规划模糊位点定位算法得到的最优打分路径得到染色体同线性同源的基因。
当根据动态规划模糊位点定位算法得到的打分路径如图3c所示,其中箭头 标记为最优打分路径,纵向箭头表示包括横向的模糊位点代表基因座位的染色 体序列需加一个空位(用"-,,代替),横向街头表示包括纵向的模糊位点代表 基因座位的染色体序列需加一个空位,对角线走向的箭头代表匹配或者错配。 则根据图3c所示的最优打分路径得到的染色体同线性同源的基因如图3d所示。由于染色体经常发生倒置现象,如座位顺序为A、 B、 C发生倒置后就变成 座位顺序为C、 B、 A了,为了使染色体同线性同源区域的检测结果更加精确, 在本发明另一实施例中,该系统还包括基因座位倒置单元66,其将基因拷贝聚 类单元62得到染色体上的模糊位点代表基因座位进行倒序操作。在进行倒序操 作后,同线性检测单元63重新检测染色体同线性同源区域。
由于定位到目标基因组上的基因拷贝可能不完整或者可信度低,为了避免 目标基因组上的不完整或者可信度低的基因拷贝造成的检测的运算复杂度大, 检测效果不精确的问题,在本发明另一实施例中,基因拷贝过滤单元67,其当 参考基因对应的基因拷贝覆盖该参考基因区域的百分含量低于预设值时,过滤 掉该参考基因对应的基因拷贝座位。过滤的具体过程如下计算参考基因对应
的基因拷贝覆盖该参考基因区域的百分含量,过滤掉百分含量低于预设值(如 50% )的基因拷贝的座位信息,以过滤掉不完整或者可信度低的基因拷贝。其 中计算参考基因对应的基因拷贝覆盖该参考基因区域的百分含量的过程如下
将定位到目标基因组上的基因片段投射到参考基因上,计算出覆盖整个参考基 因的百分含量。
在本发明实施例中,通过将参考基因集中的参考基因定位到目标基因组上, 得到基因拷贝座位,再将有重叠的基因拷贝聚类到一起,形成模糊位点代表基 因座位,最后根据得到的模糊位点代表基因座位,利用动态规划模糊位点定位 算法即可自动检测到染色体的同线性同源区域,且本发明实施例提供的检测方 法敏感度高,复杂度下降,避免了目测时主观因素对染色体同线性同源的判断 的影响;同时本发明实施例通过过滤掉不完整或者可信度低的基因拷贝,从而 降低了检测时的运算量,提高了检测准确性;另外本发明实施例在进行第一轮 检测后,将第一轮的检测结果作为新的座位,进行第二轮检测,从而进一步提 高了染色体同线性同源区域的检测准确性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发 明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的寸呆护范围之内
权利要求
1、一种染色体同线性同源区域的检测方法,其特征在于,所述方法包括下述步骤将参考基因集中的所有参考基因定位到目标基因组上,构成基因拷贝座位;根据所述基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位;根据所述模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。
2、 如权利要求l所述的方法,其特征在于,在所述将参考基因集中的所有 参考基因定位到目标基因组上,构成基因拷贝座位的步骤之后,所述方法还包 括下述步骤计算参考基因对应的基因拷贝覆盖所述参考基因区域的百分含量,并在所述百分含量低于预设值时,过滤掉所述参考基因对应的基因拷贝座位。
3、 如权利要求l所述的方法,其特征在于,所述根据所述基因拷贝座位, 将重叠的基因拷贝聚类到 一起,形成模糊位点基因代表座位的步骤具体为根据所述基因拷贝座位检测重叠的基因拷贝;当重叠区域占每个重叠的基因拷贝的百分比均大于预设值时,将重叠的基 因拷贝聚类到一起,形成模糊位点基因代表座位。
4、 如权利要求l所述的方法,其特征在于,所述根据所述模糊位点代表基 因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域的步骤 具体为将所述模糊位点代表基因座位中每连续预设个模糊位点代表基因座位作为 一组;利用动态规划模糊位点比对算法对每组模糊位点代表基因座位中的两两模 糊位点代表基因座位进行比对,并根据比对结果和预设的打分原则进行打分,得到对应的打分路径;当染色体的 一组区域内至少有 一条打分路径的分值超过预设分值时,则认 为在染色体的所述组区域检测到染色体的同线性同源区域,否则认为在染色体 的所述组区域未检测到染色体的同线性同源区域。
5、 如权利要求4所述的方法,其特征在于,所述比对结果包括匹配、错配 和空位,所述预设的打分原则为如果比对结果为匹配,则得2分;如果比对结 果为错配,则得-l分;如果比对结果为错配,则得-3分。
6、 如权利要求4所述的方法,其特征在于,所述方法还包括下述步骤 将每组模糊位点代表基因座位作为一个新的座位,并将每组模糊位点代表座位的最优打分路径的得分值作为新的座位的分值;采用动态规划模糊位点定位算法检测染色体的每连续预设个新的座位区域 中的同线性同源区域。
7、 如权利要求4所述的方法,其特征在于,所述方法还包括下述步骤 根据所述打分^^径中的最优打分路径得到染色体同线性同源的基因。
8、 如权利要求1至4任一权利要求所述的方法,其特征在于,所述方法还 包括下述步骤将染色体上的模糊位点代表基因座位进行倒序操作;采用动态规划模糊位点定位算法检测染色体的每连续预设个模糊位点代表 基因座位区域中的同线性同源区域。
9、 一种染色体同线性同源区域^r测系统,其特征在于,所述系统包括 参考基因定位单元,用于将参考基因集中的所有参考基因定位到目标基因组上,构成基因拷贝座位;基因拷贝聚类单元,用于根据所述参考基因定位单元得到的基因拷贝座位, 将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位;同线性检测单元,用于根据所述基因拷贝聚类单元得到的模糊位点代表基 因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。
10、 如权利要求9所述的系统,其特征在于,所述系统还包括基因拷贝过滤单元,用于计算参考基因对应的基因拷贝覆盖所述参考基因 区域的百分含量,并在所述百分含量低于预设值肘,过滤掉所述参考基因对应 的基因拷贝座位。
11、 如权利要求9所述的系统,其特征在于,所述同线性检测单元包括 基因座位分组模块,用于将所述模糊位点代表基因座位中每连续预设个模糊位点代表基因座位作为 一组;基因座位比对模块,用于利用动态规划模糊位点比对算法对每组模糊位点 代表基因座位中的两两模糊位点代表基因座位进行比对,并根据比对结果和预 设的打分原则进行打分,得到对应的打分路径;同线性判断模块,用于在染色体的一组区域内至少有一条打分路径的分值 超过预设分值时,判定在染色体的所述组区域检测到染色体的同线性同源区域, 否则认为在染色体的所述组区域未检测到染色体的同线性同源区域。
12、 如权利要求11所述的系统,其特征在于,所述系统还包括 基因座位重定义单元,用于将所述基因座位分组模块得到的每组模糊位点代表基因座位作为 一个新的座位,并将所述基因座位比对模块得到的每组模糊 位点代表座位的最优打分路径的得分值作为新的座位的分值;此时,所述同线性检测单元还用于根据所述基因座位重定义单元重新定义的新的 座位,采用动态规划模糊位点定位算法检测染色体的每连续预设个新的座位区 域内的同线性同源区域。
13、 如权利要求11所述的系统,其特征在于,所述系统还包括 同线性基因确定单元,用于根据所述基因座位比对模块得到的打分路径中的最优打分路径得到染色体同线性同源的基因。
14、 如权利要求9所述的系统,其特征在于,所述系统还包括 基因座位倒置单元,用于将染色体上的模糊位点代表基因座位进行倒序操作;此时,所述同线性检测单元重新采用动态规划模糊位点定位算法检测染色体的每连续预设个模糊位点代表基因座位区域中的同线性同源区域。
全文摘要
本发明适用于基因工程领域,提供了一种染色体同线性同源区域的检测方法和系统,所述方法包括下述步骤将参考基因集中的所有参考基因定位到目标基因组上,构成基因拷贝座位;根据所述基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位;根据所述模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。本发明实施例提供的染色体同线性同源区域的检测方法可自动检测到染色体同线性同源区域,且敏感度高,复杂度低,避免了目测时主观因素对染色体同线性同源区域检测的影响。
文档编号G06F19/18GK101561845SQ200810218339
公开日2009年10月21日 申请日期2008年12月12日 优先权日2008年12月12日
发明者俊 李, 李瑞强, 杨焕明, 建 汪, 俊 王, 白寅琪 申请人:深圳华大基因研究院;深圳华大基因科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1