检测逆转座子插入多态性的方法和装置的制造方法

文档序号:8473204阅读:916来源:国知局
检测逆转座子插入多态性的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及生物信息领域,具体的,涉及检测逆转座子多态性的方法和装置。
【背景技术】
[0002] 转座子(TE,Transposableelements)又被称为"跳跃基因",它们通过复制-粘贴 的增殖机制引起基因序列的插入,删除和重排。随着人类基因组测序的完成,人们发现有接 近一半的基因组是由了£组成的。而超过90%的1£是逆转录转座子(代1:1'〇1:四118口〇8〇118), 逆转录转座子又分为包含长末端重复序列的LTR(LongTerminalRepeats)和不包含长 末端重复的non-LTR,绝大多数的人类的TE主要来自于non-LTR逆转录转座子的活性, non-LTR包括LINE-1(LI;longinterspersedelementl),Alu和SVA,它们共同构成了人 类基因组的三分之一。正是因为TE的转座特性,它可以引起个体基因组的结构变异,而并 不是所有TE都具有活性,从能否编码蛋白质来看,只有non-LTR逆转录转座子具有活性,比 如只有一小部分Ll有高活性,它们通过编码特定的酶来进行转座,但是有些TE在生殖细 胞和早期胚胎的生长过程中,这种抑制机制的短暂释放间隙会逃脱这种抑制并产生新的多 态性的插入,从而出现了逆转录转座子的插入多态性(RIPs,retrotransposoninsertion polymorphisms)〇
[0003] 有很多关于RIPs的研宄,已经有一些方法可以检测TE插入,目前,用于检测可移 动元件插入的方法主要分为两类,一是目标法,比如Transposon-Seq,ME-Scan,RC-Seq等, 需要测序前对与TE相关的DNA片段做PCR实验丰富它的序列信息;二是后测序生物信息学 方法,比如VariationHunter,RetroSeq等,用全基因组测序数据来鉴定TE插入的多态性。
[0004] 随着高通量测序技术的发展,能够利用高通量测序数据快速、简便、准确的鉴定TE 插入或者发现新的TE插入的方法仍亟需开发。

【发明内容】

[0005] 本发明旨在至少解决上述问题之一或者提出一种商业选择手段。
[0006] 依据本发明的一方面,本发明提供一种检测逆转座子插入多态性的方法,包括以 下步骤:获取目标个体基因组测序结果,所述测序结果包括多对读段对,每对读段对由两个 读段组成,分别来自一条染色体片段的两端,每对读段对分别来自所述染色体片段的正链 和负链,或者,每对读段对同时来自所述染色体片段的正链或所述染色体片段的负链;将所 述测序结果与参考序列进行比对,获得异常匹配集,所述异常匹配集包括第一类读段对,所 述第一类读段对中的每对读段中的两个读段中的一个至少能够与基因组参考序列匹配,另 一个至少能够与TE参考序列匹配,所述TE参考序列包括以下四种类型中的至少一种:Alu 参考序列、LI参考序列、SVA参考序列和LTR参考序列;按照匹配位置将所述异常匹配集中 的第一类读段中的能够匹配到所述TE参考序列的读段聚类成簇(block),所述簇的大小不 大于一个TE插入的大小;对聚类得到的簇进行处理,其中包括,过滤掉包含的读段的数目 不大于1的簇,以及任选的,将相邻的、最大距离不大于Db且方向相反的簇合并为一个簇, 其中,Db为两个TE的大小;基于获得的处理后的簇,检测所述逆转座子插入多态性。
[0007] 所说的染色体片段通常是将来自目标个体的基因组核酸打断获得的,根据所选用 的测序方法进行相应的文库(library)制备,可选用的测序方法根据来自的测序平台包括 但不限于CG(CompleteGenomics)、Illumina/Solexa、LifeTechnoIogies/IonTorrent和 Roche454,依据所选测序平台进行单端或双端测序文库的制备。在本发明一个实施例中进 行双末端(Pair-endread)测序,获得多对读段对,每对读段对中的两个读段(reads),可 表示为readsl和reads2,readsl和reads2可能都来自相应染色体片段的正链或负链,也 可能分别来自染色体片段的正链和负链。当然,若使用的单端(single-read)测序方法能 够完整获得整个染色体片段的序列,从完整获得的序列的两端分别截取适当长度的序列来 构成一对reads、或者将获得的序列截成两部分序列来构成一对reads也是可行的。本实施 例对所选用的具体测序方法不作限定。所说的正链和负链是相对的,称一条双链序列的一 条单链为正链,就可称另一条单链为负链,在本发明的一个实施例中,将染色体片段的两条 链中的与基因组参考序列相同的那条链称为正链。
[0008] 比对可以利用SOAP(ShortOligonucleotideAnalysisPackage),BWA,Samtools 等软件进行,本实施对此不作限制。所说的参考序列是预先确定的序列,可以是预先获得的 目标个体所属生物类别中的任意的参考模板,例如,同一生物类别的已公开的基因组组装 序列,若目标个体是人类,其基因组参考序列(也称为参考基因组)可选择NCBI数据库提 供的HG19。进一步地,也可以预先配置包含更多参考序列的资源库,在进行序列比对前,先 依据目标个体的性别、人种、地域等因素选择或是测定组装出更接近的序列来作为参考序 列,有助于获得更准确的检测结果。所说的TE参考序列为包含已知的TE特异序列的序列, TE特异性序列包括Alu、Ll、SVA和LTR至少之一。在比对过程中,根据比对参数的设置,例 如设置测序结果中的每条或每对读段最多允许有n个碱基错配(mismatch),n优选为1或 2,若reads中有超过n个碱基发生错配或者比对质量值小于预设值,则视为该条/^treads 无法比对上参考序列。一般利用比对软件进行比对后,都可获得诸如是否为唯一比对即是 否为只比对到参考序列的一个位置、比对上参考序列多个位置的各个比对位置的比对质量 值等评估比对情况的参数。在本发明的一个实施例中,所述比对利用BWA软件进行,设置每 条reads允许的最多错配数为2且比对质量值不小于10,获得异常匹配集包括:将所述测 序结果与所述基因组参考序列比对,获得初级异常匹配集,所述初级异常匹配集包括符合 以下(i)-(iii)至少之一的读段:(i)匹配到所述基因组参考序列的多个位置,(ii)匹配到 所述基因组参考序列的唯一位置,并且比对质量值小于10,(iii)匹配到所述基因组参考 序列的唯一位置,比对质量值大于10,并且匹配到所述基因组参考序列的至少一个次优比 对位置,所称的次优比对为不满足比对上的所有条件但至少满足其中之一的比对情况;将 所述初级异常匹配集比对到所述TE参考序列,获得包含比对上TE参考序列的读段的比对 结果,所述比对结果构成所述异常匹配集。所说的"匹配"或"匹配到"同"比对上"。这样, 将可能支持TE插入的reads都筛选出来。
[0009] 聚类可采用各种聚类算法,本发明对此不作限定。例如,一种简单的做法是,按照 设置的簇的大小不大于1个插入的TE的大小,一般一个插入TE的大小约为1000bp,可设置 一个簇的大小为不大于1000bp,依据匹配位置对reads进行排序,第一条reads的第一个碱 基与某一条reads的最后一个碱基之间的距离不大于lOOObp,就可将所说的第一条reads 和该某一条reads以及其间的所有reads聚类成一个簇,聚类时可不考虑reads的方向,这 里的"第一"、"最后"是相对而言的,指在参考序列上相距最远的。任选的,若相邻的两个簇 其最大距离不大于Db,且方向是相反的,说明这两个簇包含同一个TE插入,可将这两个相邻 的簇合并为一个簇。这里,所说的两个簇之间的最大距离为不考虑簇的方向,为这两个簇中 的在参考序列上距离最远的两个碱基之间的距离。结合簇的大小,可知相邻两个簇之间的 距离是非负值,即最小为〇,即相连。簇的方向为其所包含的方向一致的多数派读段的方向, 例如一个簇中包含的大于一半的reads与参考序列同向,这该簇为正向。
[0010] 在本发明的一个实施例中,所述TE参考序列包括以下四种类型中的至少两种:Alu参考序列、Ll参考序列、SVA参考序列和LTR参考序列。所说的聚类得的簇不大于一个 TE插入大小,基于获得的处理后的簇,检测所述逆转座子插入多态性包括,基于处理后的簇 中的最多读段匹配的TE参考序列类型,确定所述逆转座子插入的类型,以及任选的,基于 处理后的簇中支持该类型逆转座子插入的读段中的方向一致的多数派读段的方向是否与 所述TE参考序列一致,判断所述逆转座子插入的方向。例如,处理后的簇中匹配到Alu参 考序列的读段最多,则判定所发生的TE插入为Alu插入。进一步可选的,当匹配到Alu参 考序列的读段中的方向一致的多数派读段与所述Alu参考序列的方向相反,则判定该Alu 插入突变是逆向插入的。读段的方向是相对的,若一读段与参考序列比对上,即与参考序列 的方向相同,则定义为正向;若一读段的反向互补链与参考序列比对上,即与参考序列的方 向相反,则定义为反向(逆向)。
[0011] 在本发明的一个实施例中,检测所述逆转座子插入多态性还包括确定所述逆转座 子插入的位置,包括获取候选断点集和筛选所述候选断点集,所述候选断点集包含多个候 选断点,获取所述候选断点集包括:将所述处理后的簇中的读段与所述基因组参考序列比 对,将获得的比对结果中的包含至少一个长度不小于IObp的割裂部分的一级读段中的割 裂位置加入到所述候选断点集,定义所述一级读段的大于IObP的割裂部分为二级读段,将 所述二级读段比对到所述基因组参考序列,将获得的比对结果中的包含至少一个长度不小 于IObp的割裂部分的二级读段中的割裂位置加入到所述候选断点集,定义所述二级读段 的大于IObp的割裂部分为三级读段,如此,直至N级读段的任一割裂部分小于10bp,其中, N为自然数,NS2。所说的候选断点为可能的TE插入的位置,所称的断点(breakpoint) 指TE插入的边界点。其中,所说的一级读段为处理后的簇中的割裂读段(split-reads或
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1