专利名称:一种染色体同线性同源区域的检测方法和系统的制作方法
技术领域:
本发明属于基因工程领域,尤其涉及一种染色体同线性同源区域的检测方法和系 统。
背景技术:
基因复制是指DNA片段在基因组中复制出一个或更多的拷贝,这种DNA片段可以
是一小段基因组序列、整条染色体、甚至是整个基因组。基因复制是基因组进化最主要的驱
动力之一,是产生具有新功能的基因和进化出新物种的主要原因之一。 基因复制现象广泛存在,据估计,酵母基因组在1亿年前发生过一次全基因组的
复制。全基因复制现象在脊椎动物体内非常罕见,但是在植物体内却非常普遍。很多植物
都在祖先阶段或是近期发生过全基因组复制,如双子叶植物中的祖先基因组复制事件和杨
树近期的全基因组复制事件。从化石记录来看,被子植物是在地球上某一时期产生之后,迅
速蔓延发展的。呈现出一系列突发的进化特点,包括产生新的组织结构,如原始花瓣,心皮
和萼片等。 一些研究结果显示,大豆、马铃薯、烟草都发生过近期的全基因组复制事件,而在
玉米和葡萄中发生的全基因组复制事件却极其古老。现在人们期望能够通过人工选择农作
物品种的基因复制,生产出具有快生长、产量高、个头大等特性的作物。 同线性是指基因组染色体间所含基因及基因的顺序均高度保守,但由于物种内存 在不同程度的重组,基因顺序有时存在变化。通过检测基因组序列的同线性同源区域,可以 掌握物种基因复制事件。目前,检测基因组序列的同线性同源区域的方法主要是对完整的 基因组序列同线性同源区域定位的直接观察(即采用目测的方式),其复杂程度如图5a所 示,其中图5a中的每条线表示一对基因的同源关系。比如,拟南芥是第一个基因组完全测 序植物,把对应的同源关系区域用一条线来表示,沿着染色体具有许多同线性同源区域,这 就是全基因组复制的遗留物,然而,由于全基因组复制经常发生在几百万至几亿年之前,其 产成的基因的快速和大规模缺失,以及后来又发生的其他复制事件(串联重复和随机转座 事件),通过目测从点图或线图中(复杂程度参见图5a)去识别祖先发生的全基因组复制事 件变得极其困难。如果在物种内部通过目测识别同线性同源区域已经足够困难的话,那么 在物种之间进行同线性同源区域的识别就变得更为困难,而且在一些情况下是完全不可行 的。
发明内容
本发明的目的在于提供一种染色体同线性同源区域的检测方法,旨在解决现有的采用目测方式检测染色体同线性同源区域时复杂度高、检测效率低的问题。 本发明是这样实现的,一种染色体同线性同源区域的检测方法,所述方法包括下
述步骤 将参考基因集中的参考基因定位到与染色体对应的目标基因组上,形成基因拷贝 座位; 根据所述基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表 座位; 根据所述模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的 同线性同源区域。 本发明的另一目的在于提供一种染色体同线性同源区域检测系统,所述系统包 括 参考基因定位单元,用于将参考基因集中的参考基因定位到与染色体对应的目标 基因组上,构成基因拷贝座位; 基因拷贝聚类单元,用于根据所述参考基因定位单元得到的基因拷贝座位,将重 叠的基因拷贝聚类到一起,形成模糊位点基因代表座位; 同线性检测单元,用于根据所述基因拷贝聚类单元得到的模糊位点代表基因座 位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。 在本发明实施例中,通过将参考基因集中的参考基因定位到目标基因组上,得到 基因拷贝座位,再将有重叠的基因拷贝聚类到一起,形成模糊位点代表基因座位,最后根据 得到的模糊位点代表基因座位,利用动态规划模糊位点定位算法即可自动检测到染色体的 同线性同源区域,且本发明实施例提供的检测方法敏感度高,复杂度低,避免了目测时主观 因素对染色体同线性同源区域检测的影响。
图1是本发明的染色体同线性同源区域的检测方法的一个实施例的流程图;
图2是本发明的染色体同线性同源区域的检测方法的另一个实施例的流程图;
图3是本发明实施例提供的将参考基因集中的所有参考基因定位到目标基因组 上的示意图; 图4a是本发明实施例提供的原始的在两个染色体上的模糊位点代表基因座位的 示意图; 图4b是本发明实施例提供的根据图4a所示的原始的在两个染色体上的模糊位点 代表基因座位进行打分的实现示意图; 图4c是本发明实施例提供的根据图4b所示得打分过程得到的分值和打分路径示 意图; 图4d是本发明实施例提供的根据图4c所示的最优打分路径得到的染色体同线性 同源的基因示意图; 图5a是现有技术提供的通过目测方式检测染色体同线性同源区域的结果示意 图; 图5b是本发明实施例提供的染色体同线性同源区域检测方法的检测结果示意图; 图6是本发明实施例提供的检测葡萄与杨树基因组所发生的全基因复制事件的 效果图; 图7是本发明的染色体同线性同源区域检测系统的一个实施例的结构框图; 图8是本发明的染色体同线性同源区域检测系统的另一个实施例的结构框图。
具体实施例方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并 不用于限定本发明。 在本发明实施例中,将参考基因集中的参考基因定位到目标基因组上,得到基因 拷贝座位,再将目标基因组上有重叠的基因拷贝聚类到一起,形成模糊位点代表基因座位, 最后根据得到的模糊位点代表基因座位,利用动态规划模糊位点定位算法自动检测到染色 体的同线性同源区域。 图1示出了本发明的染色体同线性同源区域的检测方法的一个实施例的流程图, 详述如下 在步骤S102中,将参考基因集中的参考基因定位到目标基因组上,形成基因拷贝 座位。 在本发明实施例中,通过将参考基因集中的所有参考基因定位到目标基因组上, 可以搜索到参考基因在目标基因组上的基因拷贝。当检测种内染色体之间的同线性同源区 域时,采用物种内的两条染色体作为目标基因组,采用物种自身的基因集作为参考基因集, 即可敏感地搜索到所有基因拷贝;当检测物种之间染色体的同线性同源区域时,采用物种 间的两条染色体作为目标基因组,将两个物种的基因集混和起来作为参考基因集,以便敏 感地搜索到所有的基因拷贝。 其中将参考基因集中的参考基因定位到目标基因组上的具体示例过程如图3所 示,当参考基因集包括参考基因A和参考基因B时,则将参考基因A定位到目标基因组上 时,参考基因A可以与目标基因组上的两个基因片段比对上,从而搜索到与参考基因A对应 的基因拷贝;将参考基因B定位到目标基因组上时,参考基因B可以与目标基因组上的多个 基因片段比对上,从而搜索到多个与参考基因B对应的基因拷贝。在本发明一个实施例中, 可以直接通过例如NCBI-blast软件包中的tblastn把参考基因集定位到目标基因组上,以 搜索基因拷贝。其中tblastn能够比对上低度同源的区域。在使用上述软件时,一般将期 望值(e值)设置为l-10或者更小,其他参数可以采用默认值。 将参考基因集中的所有参考基因定位到目标基因组上,搜索到基因拷贝后,将一 个参考基因在目标基因组上定位的相邻区域连接起来(例如采用solar程序),构成该参考 基因在对应的基因拷贝座位,对于参考基因集中的每个参考基因均进行上述过程,即可形 成参考基因集在目标基因组上的基因拷贝座位。下面举例说明形成基因拷贝座位
将连续的小的比对片段,按照得到最大覆盖度(相对于基因长度)的原则,提出 一些最佳组合的小片段,从而构成一个拷贝座位。如当A基因(长度为1000bp)在基因 组上比对出来的三个片段是l-200bp(对应A基因的l-200bp)、100-220bp(对应A基因的100-220bp)和600-800bp(对应A基因上200-400bp),那么经过solar处理之后,去除掉了 基本被片段l完全包含的2片段,最终保留了基因组的l-200bp,600-800bp两个片段,构成 了A基因的一个基因拷贝座位。 其中,处理多个参考基因的过程是独立的,就是说,处理每个基因的座位的时候, 可以并行处理其他基因在基因组上的比对。 在步骤S104中,根据基因拷贝座位,将目标基因组上重叠的基因拷贝聚类到一 起,形成模糊位点基因代表座位。 同源基因在基因组上的拷贝存在着重叠区域甚至完全重叠的情况。在本发明一个 实施例中,例如采用perl脚本对基因拷贝进行位置判断,检测重叠的基因拷贝,当重叠区 域占每个重叠的基因拷贝的百分比大于预设值时,将重叠的基因拷贝聚合到一起,形成模 糊位点代表基因座位,每个模糊位点代表基因座位表示与一个或者多个基因同源。
举例说明如下如果参考基因A定位到了 1号染色体的1Kbp至3Kbp区域,而参考 基因B定位到1号染色体的1. 2Kbp至3. 3Kbp区域,则二者的重叠区域是1. 2Kbp至3Kbp, 总长为1.8Kbp,当重叠区域占两个参考基因对应的基因拷贝的百分比均大于预设值(如 50% )时,则将两个参考基因对应的基因拷贝聚合到一起,形成模糊位点代表基因座位,由 于重叠区域占参考基因A对应的基因拷贝的百分比为1. 8/(3-1) =90%,重叠区域占参考 基因B对应的基因拷贝的百分比为1.8/(3.3-1.2) =86%,均大于50%。按照每相邻两 个基因拷贝至少有50%的重叠区域(相对于较短的基因拷贝来说)才会聚到一起的原则, 把所有的满足上述条件的基因拷贝聚合到一起,形成模糊位点代表基因座位,如1号染色 体上的1Kbp至3. 3Kbp的模糊位点代表基因座位就是A/B,每个模糊位点代表基因座位至少 和一个基因同源,同时可以和多个基因同源。经上述步骤处理后,原始的在两个染色体上的 模糊位点代表基因座位的效果如图4a所示。 在步骤S106中,根据得到的模糊位点代表基因座位,利用动态规划模糊位点定位 算法检测染色体的同线性同源区域。 其中利用动态规划模糊位点定位算法检测染色体的同线性同源区域的一个示例 步骤如下将两条染色体对应的目标基因组上的模糊位点代表基因座位中的每连续预设个 (该预设个可以根据经验进行设定,如5、7、10、15个或者其他数量)模糊位点代表基因座位 作为一组,将整个染色体对应的目标基因组拆分为若干小的片段,然后利用动态规划模糊 位点比对算法对两个目标基因组中的每两组模糊位点代表基因座位中的两两模糊位点代 表基因座位进行比对,并根据比对结果和与对比结果对应的权重计算分值,得到打分路径。 当某组模糊位点代表基因座位存在分值超过阈值的打分路径时,则确定在染色体的该组模 糊位点代表基因座位区域检测到染色体的同线性同源区域,否则确定在染色体的该组模糊 位点代表基因座位区域未检测到染色体的同线性同源区域。 比对结果通常包括匹配、错配和空位,与对比结果对应的权重可以根据经验设置, 通常为匹配结果设置奖励性权重,为错配和空位结果设置惩罚性权重,且abs (错配的权 重)> abs (空位的权重)(abs表示取绝对值)。在本发明实施例中,当两个模糊位点代表 基因座位具有相同的基因(称为匹配)时,则权重为2;当两个模糊位点代表基因座位不具 有相同的基因(称为错配)时,则权重为-3;当相邻模糊位点代表基因座位之间需添加一 个虚拟的座位才能令前后比对一致(称为空位)时,则权重为-1。
请参阅图4b和图4c,其中图4b为根据图4a所示的原始的在两个染色体对应的目 标基因组上的模糊位点代表基因座位计算分值的过程,图4c为根据图4b所示得打分过程 得到的分值和打分路径示意图。将一条染色体上的模糊位点代表基因座位A/B与另一条染 色体上的模糊位点代表基因座位A/T进行比对,由于两个模糊位点代表基因座位包括相同 的基因A(即匹配),从而得2分;由于一条染色体上的相邻两个模糊位点代表基因座位A/ B和C之间需要添加一个虚拟的座位才能令模糊位点代表基因座位A/B和A/T的比对结果 与模糊位点代表基因座位C和C/S的比对结果一致,从而得-1分;将得到的分值累加得到 分值为1分。根据上述原理,即可根据图4b所示的打分过程得到图4c所示的打分路径,包 括多条打分路径,其中分值最高的打分路径为最优路径。 当根据上述动态规划模糊位点定位算法得到的打分路径中至少有一条路径的分 值高于预设阈值(如6分)时,则判定在染色体的上述区域(从其中一条染色体的模糊位 点代表基因座位A/B到模糊位点代表基因座位J/K/L与另一条染色体的模糊位点代表基因 座位A/T到模糊位点代表基因座位K的区域内)检测到同线性同源区域,否则判定在染色 体的上述区域内未检测到同线性同源区域。 图2示出了本发明的染色体同线性同源区域的检测方法的另一个实施例的流程 图。图2中的步骤202、204和206可以参见图1中步骤102、104和106的对应描述,为简 洁起见在此不再详细描述。和图1不同之处在于,在步骤202之后,还包括
步骤203,计算基因拷贝覆盖对应的参考基因区域的百分含量,当该百分含量低于 预设值时,过滤掉该基因拷贝座位。 其具体示例过程如下计算基因拷贝覆盖对应的参考基因区域的百分含量,过滤 掉百分含量低于预设值(如50% )的基因拷贝座位,以过滤掉不完整或者可信度低的基因 拷贝。其中计算基因拷贝覆盖对应的参考基因区域的百分含量的过程如下将定位到目标 基因组上的基因片段投射到参考基因上,计算出该参考基因对应的基因拷贝覆盖整个参考 基因的百分含量。 请参阅图3,如果参考基因A长1000bp,把参考基因A定位到1号染色体上,定位
出两个区域, 一个是染色体上l-305bp (对应参考基因A的l-300bp,长度差异为碱基的插
入删除导致),另一个是染色体上1001-1300bp (对应参考基因A上299-600bp),这样,将
所有定位区域(l-300bp和299-600bp)投射到参考基因A上,即为l-600bp定位到1号染
色体的l-1300bp这个区间,则该参考基因A对应的基因拷贝覆盖参考基因A的百分比为
600/1000 = 60%,因此,参考基因A对应的基因拷贝座位是完整的;当该百分比小于50%
时,则参考基因A对应的基因拷贝座位为不完整的或者可信度低的,将被过滤掉。 在上面的实施例中,针对定位到目标基因组上的基因拷贝可能不完整或者可信度
低的问题,通过滤掉可信度较低的基因拷贝座位,避免了目标基因组上的不完整或者可信
度低的基因拷贝造成的检测的运算复杂度大、检测效果不精确的问题。 —般来说,根据每连续预设个模糊位点代表基因座位,采用动态规划模糊位点定
位算法就已经可以检测倒染色体同线性同源区域,但考虑到预设个数的模糊位点代表基因
座位中的基因拷贝不足以代表整个染色体的复制,如当将每io个模糊位点代表基因座位
中的基因拷贝作为一组进行同线性同源区域的检测时,由于io个模糊位点代表基因座位
中的基因拷贝跨越的基因组范围一般为100Kbp到1M,这不足以代表整个染色体的复制,为了使染色体同线性同源区域的检测结果更接近实际结果,在本发明另一实施例中,该方法 还包括下述步骤 将每组模糊位点代表基因座位作为一个新的座位,并将每组模糊位点代表座位的 最优打分路径的分值作为新的座位的分值,采用动态规划模糊位点定位算法在每连续预设 个新的座位区域检测染色体的同线性同源区域。 在本发明实施例中,当将每组模糊位点代表基因座位作为一个新的座位时,将该
组模糊位点代表基因座位的最优路径的得分值作为该新的座位的分值。 如将连续预设个模糊位点代表基因座位ABCDEFGH定义为新的座位,命名为la,且
将连续预设个模糊位点代表基因座位ABCDEFGH经步骤S106后得到的最优路径的分值作为
该新的座位A'的分值,这样,可以将步骤S106后得到的连续预设个模糊位点代表基因座位
都定义为新的座位,再采用动态规划模糊位点比对算法从染色体的每连续预设个新的座位
区域检测染色体的同线性同源区域。 当在染色体的上述区域内检测到同线性同源区域时,为了得到染色体上述区域内 具体的哪些基因之间是同线性同源的,在本发明另一实施例中,该方法还包括下述步骤 根据动态规划模糊位点定位算法得到的最优打分路径得到染色体同线性同源的 基因。 当根据动态规划模糊位点定位算法得到的打分路径如图4c所示,其中箭头标记 为最优打分路径,纵向箭头表示包括横向的模糊位点代表基因座位的染色体序列需加一个 空位(用"-"代替),横向街头表示包括纵向的模糊位点代表基因座位的染色体序列需加一 个空位,对角线走向的箭头代表匹配或者错配。则根据图4c所示的最优打分路径得到的染 色体同线性同源的基因如图4d所示。 由于染色体经常发生倒置现象,如座位顺序为A、 B、 C发生倒置后就变成座位顺序 为C、B、A了,为了使染色体同线性同源区域的检测结果更加精确,在本发明另一实施例中, 该方法还包括下述步骤 将染色体上的模糊位点代表基因座位进行倒序操作,并重新执行步骤S106检测 染色体同线性同源区域。 本发明实施例提供的染色体同线性同源区域的检测方法的检测结果如图5b所 示,与图5a所示的通过目测检测染色体同线性同源区域的结果相比较,复杂度明显下降, 同时避免了目测时主观因素对染色体同线性同源的判断的影响。 请参阅图6,为采用染色体同线性同源区域检测方法检测葡萄与杨树基因组所发 生的全基因复制事件的效果图。其中编号为1、2、3的染色体分别为葡萄的6、8、13号染色 体,编号为P1到P13的染色体分别为杨树的l-19号染色体。图中的每条线表示一对同线性 同源区域。因为葡萄染色体(图中1,2,3号)中有相当多区域都能比对到杨树4个区域, 即l对4的关系,说明在杨树和葡萄分化之后,杨树又发生了两次全基因组复制(2*2)。
图7示出了本发明的染色体同线性同源区域检测系统的另一个实施例的结构图。 如图7所示,该检测系统包括参考基因定位单元71、基因拷贝聚类单元72和同线性检测单 元73。其中,参考基因定位单元71用于将参考基因集中的参考基因定位到与染色体对应的 目标基因组上,形成基因拷贝座位;当检测种内染色体之间的同线性同源区域时,采用物种 内的两条染色体作为目标基因组,采用物种自身的基因集作为参考基因集,即可敏感的搜索到所有基因拷贝;当检测物种之间染色体的同线性同源区域时,采用物种间的两个染色 体作为目标基因组,为了敏感的搜索到所有的基因拷贝,需要将两个物种的基因集混和起
来作为参考基因集。基因拷贝聚类单元72,用于根据参考基因定位单元71得到的基因拷贝 座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位。同源基因在基因组上的 拷贝存在着重叠区域甚至完全重叠的情况,在本发明一个实施例中,例如采用perl脚本对 基因拷贝进行位置判断,并将有重叠的基因拷贝聚合到一起,形成模糊位点代表基因座位, 每个模糊位点代表基因座位表示与一个或者多个基因同源。同线性检测单元73,用于根据 基因拷贝聚类单元72得到的模糊位点代表基因座位,利用动态规划模糊位点定位算法检 测染色体的同线性同源区域。 图8示出了本发明的染色体同线性同源区域检测系统的另一个实施例的结构图, 为了便于说明,仅示出了与本发明实施例相关的部分。如图8所示,该染色体同线性同源区 域检测系统包括参考基因定位单元81、基因拷贝过滤单元87、基因拷贝聚类单元82和同线 性检测单元83其中 参考基因定位单元81将参考基因集中的所有参考基因定位到目标基因组上,构 成基因拷贝座位。基因拷贝过滤单元87,用于当参考基因对应的基因拷贝覆盖该参考基因 区域的百分含量低于预设值时,过滤掉该参考基因对应的基因拷贝座位。例如, 一种过滤的 具体过程如下计算参考基因对应的基因拷贝覆盖该参考基因区域的百分含量,过滤掉百 分含量低于预设值(如50% )的基因拷贝的座位信息,以过滤掉不完整或者可信度低的基 因拷贝。其中计算参考基因对应的基因拷贝覆盖该参考基因区域的百分含量的过程如下 将定位到目标基因组上的基因片段投射到参考基因上,计算出覆盖整个参考基因的百分含 量。基因拷贝聚类单元82将定位到目标基因组上重叠的基因拷贝聚类到一起,形成模糊位 点基因代表座位。其具体实现流程如上,在此不再赘述。同线性检测单元83根据得到的模 糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。
在该实施例中,由于定位到目标基因组上的基因拷贝可能不完整或者可信度低, 为了避免目标基因组上的不完整或者可信度低的基因拷贝造成的检测的运算复杂度大,检 测效果不精确的问题。 根据本发明的染色体同线性同源区域检测系统的一个实施例,同线性检测单元83
包括基因座位分组模块831、基因座位比对模块832和同线性判断模块833。 其中,基因座位分组模块831将两条染色体对应的目标基因组上的模糊位点代表
基因座位中每连续预设个模糊位点代表基因座位划分为一组,将整个染色体对应的目标基
因组拆分为若干小的片段。 基因座位比对模块832利用动态规划模糊位点比对算法对两条染色体对应的目 标基因组上的每两组模糊位点代表基因座位中的两两模糊位点代表基因座位进行比对,并 根据比对结果和对应的权重计算分值,得到对应的打分路径。 同线性判断模块833在染色体的一组区域内至少有一条打分路径的分值超过阈 值时,判定在染色体的所述组区域检测到染色体的同线性同源区域,否则判定在染色体的 所述组区域未检测到染色体的同线性同源区域。其具体过程如上所述,在此不再赘述。
—般来说,根据每组预设个模糊位点代表基因座位,采用动态规划模糊位点定位 算法就已经可以检测倒染色体同线性同源区域,但考虑到一组模糊位点代表基因座位中的基因拷贝不足以代表整个染色体的复制,如当将每io个模糊位点代表基因座位中的基因 拷贝作为一组进行同线性同源区域的检测时,由于io个模糊位点代表基因座位中的基因 拷贝跨越的基因组范围一般为100Kbp到IM,这不足以代表整个染色体的复制,为了使染色 体同线性同源区域的检测结果更接近实际结果,在本发明另一实施例中,该系统还包括基 因座位重定义单元84,其将基因座位分组模块831得到的每组模糊位点代表基因座位定义 为一个新的座位,并将基因座位比对模块832得到的每组模糊位点代表座位的最优打分路 径的得分值作为新的座位的分值。此时,同线性检测单元83还用于根据基因座位重定义单 元84重新定义的新的座位,采用动态规划模糊位点定位算法在每连续预设个新的座位检 测染色体的同线性同源区域。 当同线性检测单元83在染色体的每组模糊位点代表基因座位区域内检测到同线 性同源区域,或者在染色体的每连续预设个新的座位区域内检测到同线性同源区域时,为 了得到染色体上述区域内具体的哪些基因之间是同线性同源的,在本发明另一实施例中, 该系统还包括同线性基因确定单元85,其根据动态规划模糊位点定位算法得到的最优打分 路径得到染色体同线性同源的基因。 当根据动态规划模糊位点定位算法得到的打分路径如图4c所示,其中箭头标记 为最优打分路径,纵向箭头表示包括横向的模糊位点代表基因座位的染色体序列需加一个 空位(用"-"代替),横向街头表示包括纵向的模糊位点代表基因座位的染色体序列需加一 个空位,对角线走向的箭头代表匹配或者错配。则根据图4c所示的最优打分路径得到的染 色体同线性同源的基因如图4d所示。 由于染色体经常发生倒置现象,如座位顺序为A、 B、 C发生倒置后就变成座位顺序 为C、B、A了,为了使染色体同线性同源区域的检测结果更加精确,在本发明另一实施例中, 该系统还包括基因座位倒置单元86,其将基因拷贝聚类单元82得到染色体上的模糊位点 代表基因座位进行倒序操作。在进行倒序操作后,同线性检测单元83重新检测染色体同线 性同源区域。 在本发明实施例中,通过将参考基因集中的参考基因定位到目标基因组上,得到 基因拷贝座位,再将有重叠的基因拷贝聚类到一起,形成模糊位点代表基因座位,最后根据 得到的模糊位点代表基因座位,利用动态规划模糊位点定位算法即可自动检测到染色体的 同线性同源区域,且本发明实施例提供的检测方法敏感度高,复杂度下降,避免了目测时主 观因素对染色体同线性同源的判断的影响;同时本发明实施例通过过滤掉不完整或者可信 度低的基因拷贝,从而降低了检测时的运算量,提高了检测准确性;另外本发明实施例在进 行第一轮检测后,将第一轮的检测结果作为新的座位,进行第二轮检测,从而进一步提高了 染色体同线性同源区域的检测准确性。 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
权利要求
一种染色体同线性同源区域的检测方法,其特征在于,所述方法包括下述步骤将参考基因集中的参考基因定位到与染色体对应的目标基因组上,形成基因拷贝座位;根据所述基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位;根据所述模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。
2. 如权利要求l所述的方法,其特征在于,在所述将参考基因集中的参考基因定位到与染色体对应的目标基因组上,形成基因拷贝座位的步骤之后,所述方法还包括下述步骤计算参考基因对应的基因拷贝覆盖所述参考基因区域的百分含量,并在所述百分含量低于预设值时,过滤掉所述参考基因对应的基因拷贝座位。
3. 如权利要求1所述的方法,其特征在于,所述根据所述基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位的步骤具体为根据所述基因拷贝座位检测重叠的基因拷贝;当重叠区域占每个重叠的基因拷贝的百分比均大于预设值时,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位。
4. 如权利要求1所述的方法,其特征在于,所述根据所述模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域的步骤具体为将每个染色体对应的目标基因组中每连续预设个模糊位点代表基因座位划分为一组;对不同染色体对应的目标基因组中的每两组模糊位点代表基因座位中的两两模糊位点代表基因座位进行比对,并根据比对结果和对应的权重计算分值,得到对应的打分路径;当染色体对应的目标基因组中的一组区域内至少有一条打分路径的分值超过阈值时,则确定在所述染色体的所述组区域检测到染色体的同线性同源区域,否则确定在所述染色体的所述组区域未检测到染色体的同线性同源区域。
5. 如权利要求4所述的方法,其特征在于,所述方法还包括下述步骤将每组模糊位点代表基因座位作为一个新的模糊位点代表基因座位,并将每组模糊位点代表座位的最优打分路径的分值作为新的座位的分值;采用动态规划模糊位点定位算法检测染色体的每连续预设个新的座位区域中的同线性同源区域。
6. 如权利要求4所述的方法,其特征在于,所述方法还包括下述步骤根据所述打分路径中的最优打分路径得到染色体同线性同源的基因。
7. 如权利要求1至4任一权利要求所述的方法,其特征在于,所述方法还包括下述步骤将染色体对应的目标基因组上的模糊位点代表基因座位进行倒序操作;采用动态规划模糊位点定位算法检测染色体的每连续预设个模糊位点代表基因座位区域中的同线性同源区域。
8. —种染色体同线性同源区域检测系统,其特征在于,所述系统包括参考基因定位单元,用于将参考基因集中的参考基因定位到与染色体对应的目标基因组上,形成基因拷贝座位;基因拷贝聚类单元,用于根据所述参考基因定位单元得到的基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位;同线性检测单元,用于根据所述基因拷贝聚类单元得到的模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。
9. 如权利要求8所述的系统,其特征在于,所述系统还包括基因拷贝过滤单元,用于计算参考基因对应的基因拷贝覆盖所述参考基因区域的百分含量,并在所述百分含量低于预设值时,过滤掉所述参考基因对应的基因拷贝座位。
10. 如权利要求8所述的系统,其特征在于,所述同线性检测单元包括基因座位分组模块,用于将每个染色体对应的目标基因组中每连续预设个模糊位点代表基因座位划分为一组;基因座位比对模块,用于对不同染色体对应的目标基因组中的每两组模糊位点代表基因座位中的两两模糊位点代表基因座位进行比对,并根据比对结果和对应的权重计算分值,得到对应的打分路径;同线性判断模块,用于在染色体对应的目标基因组中的一组区域内至少有一条打分路径的分值超过阈值时,判定在染色体的所述组区域检测到染色体的同线性同源区域,否则判定在染色体的所述组区域未检测到染色体的同线性同源区域。
11. 如权利要求10所述的系统,其特征在于,所述系统还包括基因座位重定义单元,用于将所述基因座位分组模块得到的每组模糊位点代表基因座位作为一个新的座位,并将所述基因座位比对模块得到的每组模糊位点代表座位的最优打分路径的得分值作为新的座位的分值;此时,所述同线性检测单元还用于根据所述基因座位重定义单元重新定义的新的座位,采用动态规划模糊位点定位算法检测染色体的每连续预设个新的座位区域内的同线性同源区域。
12. 如权利要求10所述的系统,其特征在于,所述系统还包括同线性基因确定单元,用于根据所述基因座位比对模块得到的打分路径中的最优打分路径得到染色体同线性同源的基因。
13. 如权利要求8所述的系统,其特征在于,所述系统还包括基因座位倒置单元,用于将染色体对应的目标基因组上的模糊位点代表基因座位进行倒序操作;此时,所述同线性检测单元重新采用动态规划模糊位点定位算法检测染色体的每连续预设个模糊位点代表基因座位区域中的同线性同源区域。
全文摘要
本发明适用于基因工程领域,提供了一种染色体同线性同源区域的检测方法和系统,所述方法包括下述步骤将参考基因集中的参考基因定位到目标基因组上,形成基因拷贝座位;根据所述基因拷贝座位,将重叠的基因拷贝聚类到一起,形成模糊位点基因代表座位;根据所述模糊位点代表基因座位,利用动态规划模糊位点定位算法检测染色体的同线性同源区域。本发明实施例提供的染色体同线性同源区域的检测方法可自动检测到染色体同线性同源区域,且敏感度高,复杂度低,避免了目测时主观因素对染色体同线性同源区域检测的影响。
文档编号C12Q1/68GK101794346SQ20091025246
公开日2010年8月4日 申请日期2009年12月11日 优先权日2008年12月12日
发明者李瑞强, 杨焕明, 汪建, 王俊, 白寅琪 申请人:深圳华大基因研究院;深圳华大基因科技有限公司