确定混合测序数据中读段的样本源的方法及装置制造方法

文档序号:485737阅读:259来源:国知局
确定混合测序数据中读段的样本源的方法及装置制造方法
【专利摘要】本发明提供了一种确定混合测序数据中读段的样本源的方法及装置,混合测序数据由多个读段组成,该方法包括:利用多个标签分别标记多个核酸样本,使得每个核酸样本至少带有一条或多条标签以区分其它核酸样本,记录每个核酸样本与其所带的标签的对应关系;混合多个核酸样本,对混合核酸样本进行核酸序列测定,获得混合测序数据;将混合测序数据与参考序列比对,获得比对结果,从比对结果中筛选出与参考序列不完全匹配而且不匹配部分的长度不小于比标签小1bp的长度的读段;依据筛选出的读段的信息和标签与样本的对应关系,确定混合测序数据中读段源自的核酸样本。
【专利说明】确定混合测序数据中读段的样本源的方法及装置

【技术领域】
[0001]本发明涉及混合数据处理技术,特别是混合测序数据中数据来源的样本的确定方 法和装置。

【背景技术】
[0002] Sanger测序是确定基因分型的金标准,飞行时间质谱检测能够实现定点检测基因 分型,比如深圳华大基因推出的一款产品针对四个耳聋常见突变基因的20个位点进行质 谱检测,这20个位点在我国耳聋人群的致病因素中占据主要作用,还有全外显子组测序, 三种方法都具有各自的局限性,比如Sanger和质谱法通量低、成本高,而全外显子组测序 则不能有效利用全部测序数据。
[0003] 先天性耳聋是一类常见疾病,在我国新生儿中的发病率高于1%。,其中60%以上 是遗传因素导致的。因此,除了常规的医学诊断方法,通过测定相关基因的基因分型、判断 是否发生基因突变,可以辅助医生诊断新生儿是否患有耳聋。
[0004] 根据国内研究人员针对我国人群中耳聋基因突变进行分子流行病学调查的结果, GJB2、GJB3、SLC26A4和12sRNA的突变最为常见,在人群中的突变比例高达40%,在这四个 基因上的突变位点是导致遗传性耳聋发生的常见突变。


【发明内容】

[0005] 本发明一方面提供了一种确定混合测序数据中读段的样本源的方法,混合测序数 据由多个读段组成,该方法包括:A.利用多个标签分别标记多个核酸样本,使得每个核酸 样本至少带有一条或多条标签以区分其它核酸样本,记录所述每个核酸样本与其所带的标 签的对应关系;B.混合所述多个核酸样本,对混合核酸样本进行核酸序列测定,获得混合 测序数据;C.将所述混合测序数据与参考序列比对,获得比对结果,从所述比对结果中筛 选出与所述参考序列不完全匹配而且不匹配部分的长度不小于比A中的标签小lbp的长度 的读段。
[0006] 本发明另一方面提供了一种确定混合测序数据中读段的样本源的装置,混合测序 数据由多个读段组成,该装置包括:样本标记单元,用以实现利用多个标签分别标记多个核 酸样本,使得每个核酸样本至少带有一条或多条标签以区分其它核酸样本,记录每个核酸 样本与其所带的标签的对应关系;混合测序单元,与样本标记单元相连,用以混合获自样本 标记单元的标签标记过的多个核酸样本,以及对混合核酸样本进行核酸序列测定,获得混 合测序数据;比对筛选单元,与混合测序单元相连,用以实现将混合测序数据与参考序列 比对,获得比对结果,以及从比对结果中筛选出与参考序列不完全匹配而且不匹配部分的 长度不小于比所述标签小lbp的长度的读段;归类单元,与样本标记单元和比对筛选单元 相连,用以实现利用从比对筛选单元中筛选出的读段的信息和所述样本标记单元的对应关 系,确定混合测序数据中读段源于的核酸样本。
[0007] 利用本发明一方面提供的确定混合测序数据中数据的样本源的方法或装置,将多 个样本核酸的混合测序后的混合数据正确对应到样本源,使得不浪费测序通量,特别是适 合于每个样本数据量需求相对低而测序通量相对高的平台。

【专利附图】

【附图说明】
[0008] 本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将 变得明显和容易理解,其中:
[0009] 图1是本发明的一个【具体实施方式】中的文库构建示意图;
[0010] 图2是本发明的一个【具体实施方式】中的确定混合测序数据中读段的样本源的装 置示意图。

【具体实施方式】
[0011] 根据本发明的一个实施方式,提供了一种确定混合测序数据中读段的样本源的方 法,混合测序数据是由多个读段组成,所说方法包括:
[0012] A.利用多个标签分别标记多个核酸样本,使得每个核酸样本至少带有一条或多条 标签以区分其它核酸样本,记录所述每个核酸样本与其所带的标签的对应关系;
[0013] B.混合所述多个核酸样本,对混合核酸样本进行核酸序列测定,获得混合测序数 据;
[0014] C.将所述混合测序数据与参考序列比对,获得比对结果,从所述比对结果中筛选 出与所述参考序列不完全匹配而且不匹配部分的长度不小于比A中的标签小lbp的长度的 读段;
[0015] D.依据C中筛选出的读段的信息和A中的对应关系,确定所述混合测序数据中读 段源于的核酸样本。
[0016] 根据本发明的一个【具体实施方式】,A中标签长度为5?12bp。A中的标签可以选 自SEQ ID N0 :27?124所示的序列。SEQ ID N0 :27?124序列见表1,这组标签,是发明 人考虑序列长度、碱基组成、碱基位置比例、与其它标签碱基的关系设计大量序列,多次试 验筛选获得的,这组标签的部分或者全部可以置于同一反应体系中而又相互之间不干扰影 响,而且不千扰常规体系内的其它反应物或反应,比如不影响文库构建中的各反应体系及 反应,测序芯片上的固定序列等。
[0017] 表 1
[0018]

【权利要求】
1. 确定混合测序数据中读段的样本源的方法,所述混合测序数据由多个读段组成,所 述方法包括: A. 利用多个标签分别标记多个核酸样本,使得每个核酸样本至少带有一条或多条标签 以区分其它核酸样本,记录所述每个核酸样本与其所带的标签的对应关系; B. 混合所述多个核酸样本,对混合核酸样本进行核酸序列测定,获得混合测序数据; C. 将所述混合测序数据与参考序列比对,获得比对结果,从所述比对结果中筛选出与 所述参考序列不完全匹配而且不匹配部分的长度不小于比A中的标签小lbp的长度的读 段; D. 依据C中筛选出的读段的信息和A中的对应关系,确定所述混合测序数据中读段源 于的核酸样本。
2. 权利要求1的方法,其特征在于,A中标签长度为5?12bp。
3. 权利要求2的方法,其特征在于,A中的标签选自SEQ ID NO :27?124所示的序列。
4. 权利要求1的方法,其特征在于,A中利用标签标记核酸样本是通过标签引物扩增所 述核酸样本的至少一部分核酸来实现的。
5. 权利要求4的方法,其特征在于,所述标签引物由位于5 '端的标签连接引物序列构 成。
6. 权利要求5的方法,其特征在于,所述标签引物中的标签为选自SEQ ID NO :27?124 所示的序列。
7. 权利要求5的方法,其特征在于,所述标签引物中的引物序列选自SEQ ID NO :1和2, SEQ ID NO :3 和 4, SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO : 11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22, SEQ ID NO :23 和 24 以及 SEQ ID NO :25 和 26 所示的 13 对序列 中的至少1对; 任选的,所述标签引物中的引物序列选自SEQ ID N0:1和2,SEQ ID N0:3和4,SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO :11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22, SEQ ID NO :23和24以及SEQ ID NO :25和26所示的13对序列中的至少2对; 任选的,所述标签引物中的引物序列选自SEQ ID N0:1和2,SEQ ID N0:3和4,SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO :11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22, SEQ ID NO :23和24以及SEQ ID NO :25和26所示的13对序列中的至少5对; 任选的,所述标签引物中的引物序列选自SEQ ID N0:1和2,SEQ ID N0:3和4,SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO :11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22, SEQ ID NO :23和24以及SEQ ID NO :25和26所示的13对序列中的至少10对; 任选的,所述标签引物中的引物序列为SEQ ID NO :1和2, SEQ ID NO :3和4, SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO :11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22, SEQ ID NO :23和24以及SEQ ID NO :25和26所示的13对序列。
8. 权利要求1的方法,其特征在于,在获得混合测序数据之后,去除所述混合测序数据 中长度不小于50bp的读段。
9. 权利要求1的方法,其特征在于,C进一步包括依据所述不匹配部分在读段中的位置 对所述筛选出的读段进行分类,获得第一读段和第二读段,所述第一读段中的读段的两个 末端都与所述参考序列不匹配,所述第二读段中的读段的两个末端中的一个与所述参考序 列不匹配。
10. 权利要求9的方法,其特征在于,比对所述第一读段中的每个读段中的与所述参考 序列都不匹配的两个末端,去除所述两个末端不互相匹配的以及两个末端互相匹配的长度 小于比A中标签小lbp的长度的读段。
11. 权利要求1-10任一方法,其特征在于,B中核酸序列测序是在半导体芯片测序平台 上进行的。
12. 权利要求11的方法,其特征在于,B中核酸序列测定包括混合核酸样本的测序文库 的构建。
13. 确定混合测序数据中读段的样本源的装置,所述混合测序数据由多个读段组成,所 述装置包括: 样本标记单元,用以实现利用多个标签分别标记多个核酸样本,使得每个核酸样本至 少带有一条或多条标签以区分其它核酸样本,记录所述每个核酸样本与其所带的标签的对 应关系; 混合测序单元,与所述样本标记单元相连,用以混合获自所述样本标记单元的标签标 记过的多个核酸样本,以及对混合核酸样本进行核酸序列测定,获得混合测序数据; 比对筛选单元,与所述混合测序单元相连,用以实现将所述混合测序数据与参考序列 比对,获得比对结果,以及从所述比对结果中筛选出与所述参考序列不完全匹配而且不匹 配部分的长度不小于比所述标签小lbp的长度的读段; 归类单元,与所述样本标记单元和所述比对筛选单元相连,用以实现利用从所述比对 筛选单元中筛选出的读段的信息和所述样本标记单元的对应关系,确定所述混合测序数据 中读段源于的核酸样本。
【文档编号】C12Q1/68GK104232760SQ201410427151
【公开日】2014年12月24日 申请日期:2014年8月26日 优先权日:2014年8月26日
【发明者】陈祖煜, 冯大飞 申请人:深圳华大基因医学有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1