检测逆转座子插入多态性的方法和装置的制造方法_2

文档序号:8473204阅读:来源:国知局
者soft-clippedreads),割裂读段指一条reads被切成至少两段,匹配到基因组参考序列 的不同区域的读段。这里,将割裂读段的每段都称为割裂部分,所定义的二级读段实为前述 割裂读段的一部分,所定义的N级读段实为(N-I)级读段的一部分。如此,能够获得割裂读 段支持的所有可能的插入位置边界点,以确定所述逆转座子插入的确切位置。
[0012] 在本发明的一个实施例中,获取所述候选断点集还包括,将i级读段与所述基因 组参考序列的比对结果中的满足任一以下(a)-(c)的错配位置加入到所述候选断点集, (a)所述错配位置包含多聚序列(poly),所述多聚序列包含的碱基满足:6个碱基中至少有 5个是一样的碱基,且所述一样的碱基为A或T,(b)在所述比对结果中支持所述错配的读 段的比例小于1/2,(c)增加和/或删除所述错配位置中的预定碱基数后,将所述i级读段 与所述基因组参考序列重新比对,获得的比对结果显示所述i级读段为割裂的,所述预定 碱基数为所述比对结果中的插入和/或缺失的碱基的数目;其中,所述i级读段为所述一级 读段、所述二级读段至所述N级读段中的至少之一。依据(a)、(b)和/或(c),可以将在所 述比对结果中显示为错配但实际可能是断点的给包含进候选断点集中。其中,(a)是根据 TE特异序列polyA/T尾来设定的;(b)是利用匹配上的读段的支持比例来判定该错配是不 是真实的来设定的,所说的支持所述错配的读段为该读段的错配位置上的碱基与参考序列 的对应位置的碱基不同,如参考序列上的碱基为A,比对上该位点的读段的该位置上的碱基 为非A,则该读段为支持所述错配的读段,所说的支持所述错配的读段的比例为支持所述错 配的读段的数目与比对上该位置的读段的总数的比值;(c)是将比对结果中显示错配的位 置包含的插入/缺失消除后,再次检测判断该错配位置为一个可能的断点的给包含进所述 候选断点集。
[0013] 在本发明的一个实施例中,筛选所述候选断点集包括:过滤掉处理后的簇中匹配 读段的数目不大于2的候选断点,从所述候选断点的位置开始所述匹配读段的长度不小于 l〇bp,所述匹配读段为匹配到所述候选断点的读段,当任一所述匹配读段都不包含所述多 聚序列时,过滤掉处理后的簇中支持读段的比例不大于0. 5的候选断点,所述支持读段的 比例=支持所述候选断点的读段数目/匹配到所述断点的读段数目。经此筛选得的候选断 点集中的候选断点为真实断点。
[0014] 在本发明的一个实施例中,所说方法还包括对所述TE插入所带的靶位点重复序 列的类型进行判定,将满足以下的逆转座子插入判定为带双端靶位点重复序列,两相邻j 级读段在所述基因组参考序列上的距离小于30bp,所述j级读段为所述所述二级读段至所 述N级读段中的至少之一。
[0015] 在本发明的一个实施例中,所述方法还包括,通过以下公式计算所述逆转座子插
【主权项】
1. 一种检测逆转座子插入多态性的方法,其特征在于,包括w下步骤: 获取目标个体基因组测序结果,所述测序结果包括多对读段对,每对读段对由两个读 段组成,分别来自一条染色体片段的两端,每对读段对分别来自所述染色体片段的正链和 负链,或者,每对读段对同时来自所述染色体片段的正链或所述染色体片段的负链; 将所述测序结果与参考序列进行比对,获得异常匹配集,所述异常匹配集包括第一类 读段对,所述第一类读段对中的每对读段中的两个读段中的一个至少能够与基因组参考序 列匹配,另一个至少能够与TE参考序列匹配,所述TE参考序列包括W下四种类型中的至少 一种;Alu参考序列、L1参考序列、SVA参考序列和LTR参考序列; 按照匹配位置将所述异常匹配集中的第一类读段中的能够匹配到所述TE参考序列的 读段聚类成簇,所述簇的大小不大于一个TE插入的大小; 对聚类得到的簇进行处理,其中包括, 过滤掉包含的读段的数目不大于1的簇,W及任选的, 将相邻的、最大距离不大于Db且方向相反的簇合并为一个簇,其中, Db为两个TE插入的大小; 基于获得的处理后的簇,检测所述逆转座子插入多态性。
2. 权利要求1的方法,其特征在于,所述比对利用BWA软件进行; 任选的, 获得异常匹配集,包括, 将所述测序结果与所述基因组参考序列比对,获得初级异常匹配集,所述初级异常匹 配集包括符合W下(i)-(iii)至少之一的读段: (i) 匹配到所述基因组参考序列的多个位置, (ii) 匹配到所述基因组参考序列的唯一位置,并且比对质量值小于10, (iii) 匹配到所述基因组参考序列的唯一位置,比对质量值大于10,并且能够匹配到 所述基因组参考序列的至少一个次优比对位置, 将所述初级异常匹配集比对到所述TE参考序列,获得包含比对上TE参考序列的读段 的比对结果,所述比对结果构成所述异常匹配集。
3. 权利要求1的方法,其特征在于,所述TE参考序列包括W下四种类型中的至少两种: Alu参考序列、L1参考序列、SVA参考序列和LTR参考序列。
4. 权利要求3的方法,其特征在于,基于获得的处理后的簇,检测所述逆转座子插入多 态性,包括, 基于处理后的簇中的最多读段匹配的TE参考序列类型,确定所述逆转座子插入的类 型,W及任选的, 基于处理后的簇中支持该类型逆转座子插入的读段中的方向一致的多数派读段的方 向是否与所述TE参考序列一致,判断所述逆转座子插入的方向。
5. 权利要求1-4任一方法,其特征在于,检测所述逆转座子插入多态性还包括确定所 述逆转座子插入的位置,确定所述逆转座子插入的位置包括获取候选断点集和筛选所述候 选断点集,所述候选断点集包含多个候选断点, 获取所述候选断点集包括, 将所述处理后的簇中的读段与所述基因组参考序列比对,将获得的比对结果中的包含 至少一个长度不小于lObp的割裂部分的一级读段中的割裂位置加入到所述候选断点集, 定义所述一级读段的大于lObp的割裂部分为二级读段, 将所述二级读段比对到所述基因组参考序列,将获得的比对结果中的包含至少一个长 度不小于lObp的割裂部分的二级读段中的割裂位置加入到所述候选断点集,定义所述二 级读段的大于lObp的割裂部分为S级读段, 如此,直至N级读段的任一割裂部分小于lObp,其中, N为自然数,2。
6. 权利要求5的方法,其特征在于,获取所述候选断点集还包括, 将i级读段与所述基因组参考序列的比对结果中的满足任一W下(a)-(c)的错配位置 加入到所述候选断点集, (a)所述错配位置包含多聚序列,所述多聚序列包含的碱基满足;6个碱基中至少有5 个是一样的碱基,且所述一样的碱基为A或T, 化)在所述比对结果中支持所述错配的读段的比例小于1/2, (C)增加和/或删除所述错配位置中的预定碱基数后,将所述i级读段与所述基因组参 考序列重新比对,获得的比对结果显示所述i级读段为割裂读段,所述预定碱基数为所述 比对结果中的插入和/或缺失的碱基的数目, 所述i级读段包括所述一级读段、所述二级读段至所述N级读段中的至少之一。
7. 权利要求6的方法,其特征在于,筛选所述候选断点集包括, 过滤掉处理后的簇中匹配读段的数目不大于2的候选断点,从所述候选断点的位置开 始所述匹配读段的长度不小于lObp,所述匹配读段为匹配到所述候选断点的读段, 当任一所述匹配读段都不包含所述多聚序列时,过滤掉处理后的簇中支持读段的比例 不大于0. 5的候选断点,所述支持读段的比例二支持所述候选断点的读段数目/匹配到所 述断点的读段数目。
8. 权利要求5-7任一方法,其特征在于,还包括, 将满足W下的逆转座子插入判定为带双端祀位点重复序列, 两相邻j级读段在所述基因组参考序列上的距离小于30bp,所述j级读段包括所述所 述二级读段至所述N级读段中的至少之一。
9. 权利要求5-8任一方法,其特征在于,还包括, 通过W下公式计算所述逆转座子插入的杂合概率POfeterINc,Ns),
当M化大于1则判定所述逆转座子插入为杂合,当M化小于1则判定所述逆转座子插 入为纯合,其中, M化=-log2(1-P化eterIN。Ns)), 吨为比对上所述逆转座子插入位置中的截断读段的数目, Ns比对上所述逆转座子插入位置中的跨越读段的数目, Phe= 0. 6和Pw= 0. 1分别是期望杂合概率和期望纯合概率, F(肥)和FOlO)分别是杂合和纯合的权重值,F(肥)=F〇ro) =0. 5, B(Ns,Ne+Ns,Phe)是二项分布的概率,表示指定事件发生的概率为Phe,在Nc+Ns次独立重 复试验中该事件发生化次的概率。
10. -种检测逆转座子插入多态性的装置,其特征在于,包括, 数据输入单元,用于输入数据; 数据输出单元,用于输出数据; 存储单元,用于存储数据,其中包括可执行的程序; 处理器,与所述数据输入单元、数据输出单元及存储单元数据连接,用于执行所述可执 行的程序,所述程序的执行包括完成权利要求1-9任一方法。
【专利摘要】本发明公开一种检测逆转座子插入多态性的方法,包括:获取目标个体基因组测序结果;将测序结果与参考序列比对,获得异常匹配集,异常匹配集包括第一类读段对,第一类读段对中的每对读段中的两个读段中的一个至少能够与基因组参考序列匹配,另一个至少能够与TE参考序列匹配;按照匹配位置将异常匹配集中的第一类读段中的能够匹配到TE参考序列的读段聚类成簇;对聚类得到的簇进行处理,其中包括,过滤掉包含的读段的数目不大于1的簇;基于获得的处理后的簇,检测逆转座子插入多态性。本发明还提供一种检测逆转座子插入多态性的装置。本发明的方法和/或装置,能够快速、简便和准确的鉴定TE插入或者发现新的TE插入。
【IPC分类】G06F19-18
【公开号】CN104794371
【申请号】CN201510213863
【发明人】曾永理, 张小龙, 王烨明, 李贵波, 蒋润泽, 李波, 刘明明, 王延晖
【申请人】深圳华大基因研究院
【公开日】2015年7月22日
【申请日】2015年4月29日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1