确定混合测序数据中读段的样本源的方法及装置制造方法

文档序号：485737阅读：259来源：国知局

确定混合测序数据中读段的样本源的方法及装置制造方法
【专利摘要】本发明提供了一种确定混合测序数据中读段的样本源的方法及装置，混合测序数据由多个读段组成，该方法包括：利用多个标签分别标记多个核酸样本，使得每个核酸样本至少带有一条或多条标签以区分其它核酸样本，记录每个核酸样本与其所带的标签的对应关系；混合多个核酸样本，对混合核酸样本进行核酸序列测定，获得混合测序数据；将混合测序数据与参考序列比对，获得比对结果，从比对结果中筛选出与参考序列不完全匹配而且不匹配部分的长度不小于比标签小1bp的长度的读段；依据筛选出的读段的信息和标签与样本的对应关系，确定混合测序数据中读段源自的核酸样本。
【专利说明】确定混合测序数据中读段的样本源的方法及装置

【技术领域】
[0001]本发明涉及混合数据处理技术，特别是混合测序数据中数据来源的样本的确定方法和装置。

【背景技术】
[0002] Sanger测序是确定基因分型的金标准，飞行时间质谱检测能够实现定点检测基因分型，比如深圳华大基因推出的一款产品针对四个耳聋常见突变基因的20个位点进行质谱检测，这20个位点在我国耳聋人群的致病因素中占据主要作用，还有全外显子组测序，三种方法都具有各自的局限性，比如Sanger和质谱法通量低、成本高，而全外显子组测序则不能有效利用全部测序数据。
[0003] 先天性耳聋是一类常见疾病，在我国新生儿中的发病率高于1%。，其中60%以上是遗传因素导致的。因此，除了常规的医学诊断方法，通过测定相关基因的基因分型、判断是否发生基因突变，可以辅助医生诊断新生儿是否患有耳聋。
[0004] 根据国内研究人员针对我国人群中耳聋基因突变进行分子流行病学调查的结果， GJB2、GJB3、SLC26A4和12sRNA的突变最为常见，在人群中的突变比例高达40%，在这四个基因上的突变位点是导致遗传性耳聋发生的常见突变。

【发明内容】

[0005] 本发明一方面提供了一种确定混合测序数据中读段的样本源的方法，混合测序数据由多个读段组成，该方法包括:A.利用多个标签分别标记多个核酸样本，使得每个核酸样本至少带有一条或多条标签以区分其它核酸样本，记录所述每个核酸样本与其所带的标签的对应关系；B.混合所述多个核酸样本，对混合核酸样本进行核酸序列测定，获得混合测序数据；C.将所述混合测序数据与参考序列比对，获得比对结果，从所述比对结果中筛选出与所述参考序列不完全匹配而且不匹配部分的长度不小于比A中的标签小lbp的长度的读段。
[0006] 本发明另一方面提供了一种确定混合测序数据中读段的样本源的装置，混合测序数据由多个读段组成，该装置包括：样本标记单元，用以实现利用多个标签分别标记多个核酸样本，使得每个核酸样本至少带有一条或多条标签以区分其它核酸样本，记录每个核酸样本与其所带的标签的对应关系；混合测序单元，与样本标记单元相连，用以混合获自样本标记单元的标签标记过的多个核酸样本，以及对混合核酸样本进行核酸序列测定，获得混合测序数据；比对筛选单元，与混合测序单元相连，用以实现将混合测序数据与参考序列比对，获得比对结果，以及从比对结果中筛选出与参考序列不完全匹配而且不匹配部分的长度不小于比所述标签小lbp的长度的读段；归类单元，与样本标记单元和比对筛选单元相连，用以实现利用从比对筛选单元中筛选出的读段的信息和所述样本标记单元的对应关系，确定混合测序数据中读段源于的核酸样本。
[0007] 利用本发明一方面提供的确定混合测序数据中数据的样本源的方法或装置，将多个样本核酸的混合测序后的混合数据正确对应到样本源，使得不浪费测序通量，特别是适合于每个样本数据量需求相对低而测序通量相对高的平台。

【专利附图】

【附图说明】
[0008] 本发明的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：
[0009] 图1是本发明的一个【具体实施方式】中的文库构建示意图；
[0010] 图2是本发明的一个【具体实施方式】中的确定混合测序数据中读段的样本源的装置示意图。

【具体实施方式】
[0011] 根据本发明的一个实施方式，提供了一种确定混合测序数据中读段的样本源的方法，混合测序数据是由多个读段组成，所说方法包括：
[0012] A.利用多个标签分别标记多个核酸样本，使得每个核酸样本至少带有一条或多条标签以区分其它核酸样本，记录所述每个核酸样本与其所带的标签的对应关系；
[0013] B.混合所述多个核酸样本，对混合核酸样本进行核酸序列测定，获得混合测序数据；
[0014] C.将所述混合测序数据与参考序列比对,获得比对结果，从所述比对结果中筛选出与所述参考序列不完全匹配而且不匹配部分的长度不小于比A中的标签小lbp的长度的读段；
[0015] D.依据C中筛选出的读段的信息和A中的对应关系，确定所述混合测序数据中读段源于的核酸样本。
[0016] 根据本发明的一个【具体实施方式】，A中标签长度为5?12bp。A中的标签可以选自SEQ ID N0 :27?124所示的序列。SEQ ID N0 :27?124序列见表1，这组标签，是发明人考虑序列长度、碱基组成、碱基位置比例、与其它标签碱基的关系设计大量序列，多次试验筛选获得的，这组标签的部分或者全部可以置于同一反应体系中而又相互之间不干扰影响，而且不千扰常规体系内的其它反应物或反应，比如不影响文库构建中的各反应体系及反应，测序芯片上的固定序列等。
[0017] 表 1
[0018]

【权利要求】
1. 确定混合测序数据中读段的样本源的方法，所述混合测序数据由多个读段组成，所述方法包括： A. 利用多个标签分别标记多个核酸样本，使得每个核酸样本至少带有一条或多条标签以区分其它核酸样本，记录所述每个核酸样本与其所带的标签的对应关系； B. 混合所述多个核酸样本，对混合核酸样本进行核酸序列测定，获得混合测序数据； C. 将所述混合测序数据与参考序列比对，获得比对结果，从所述比对结果中筛选出与所述参考序列不完全匹配而且不匹配部分的长度不小于比A中的标签小lbp的长度的读段； D. 依据C中筛选出的读段的信息和A中的对应关系，确定所述混合测序数据中读段源于的核酸样本。
2. 权利要求1的方法，其特征在于，A中标签长度为5?12bp。
3. 权利要求2的方法，其特征在于，A中的标签选自SEQ ID NO :27?124所示的序列。
4. 权利要求1的方法，其特征在于，A中利用标签标记核酸样本是通过标签引物扩增所述核酸样本的至少一部分核酸来实现的。
5. 权利要求4的方法，其特征在于，所述标签引物由位于5 '端的标签连接引物序列构成。
6. 权利要求5的方法，其特征在于，所述标签引物中的标签为选自SEQ ID NO :27?124 所示的序列。
7. 权利要求5的方法，其特征在于，所述标签引物中的引物序列选自SEQ ID NO :1和2， SEQ ID NO :3 和 4, SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO : 11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22, SEQ ID NO :23 和 24 以及 SEQ ID NO :25 和 26 所示的 13 对序列中的至少1对；任选的，所述标签引物中的引物序列选自SEQ ID N0:1和2，SEQ ID N0:3和4，SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO :11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22， SEQ ID NO :23和24以及SEQ ID NO :25和26所示的13对序列中的至少2对；任选的，所述标签引物中的引物序列选自SEQ ID N0:1和2，SEQ ID N0:3和4，SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO :11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22， SEQ ID NO :23和24以及SEQ ID NO :25和26所示的13对序列中的至少5对；任选的，所述标签引物中的引物序列选自SEQ ID N0:1和2，SEQ ID N0:3和4，SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO :11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22， SEQ ID NO :23和24以及SEQ ID NO :25和26所示的13对序列中的至少10对；任选的，所述标签引物中的引物序列为SEQ ID NO :1和2, SEQ ID NO :3和4, SEQ ID NO :5 和 6, SEQ ID NO :7 和 8, SEQ ID NO :9 和 10, SEQ ID NO :11 和 12, SEQ ID NO :13 和 14, SEQ ID NO :15 和 16, SEQ ID NO :17 和 18, SEQ ID NO :19 和 20, SEQ ID NO :21 和 22， SEQ ID NO :23和24以及SEQ ID NO :25和26所示的13对序列。
8. 权利要求1的方法，其特征在于，在获得混合测序数据之后，去除所述混合测序数据中长度不小于50bp的读段。
9. 权利要求1的方法，其特征在于，C进一步包括依据所述不匹配部分在读段中的位置对所述筛选出的读段进行分类，获得第一读段和第二读段，所述第一读段中的读段的两个末端都与所述参考序列不匹配，所述第二读段中的读段的两个末端中的一个与所述参考序列不匹配。
10. 权利要求9的方法，其特征在于，比对所述第一读段中的每个读段中的与所述参考序列都不匹配的两个末端，去除所述两个末端不互相匹配的以及两个末端互相匹配的长度小于比A中标签小lbp的长度的读段。
11. 权利要求1-10任一方法，其特征在于，B中核酸序列测序是在半导体芯片测序平台上进行的。
12. 权利要求11的方法，其特征在于，B中核酸序列测定包括混合核酸样本的测序文库的构建。
13. 确定混合测序数据中读段的样本源的装置，所述混合测序数据由多个读段组成，所述装置包括：样本标记单元，用以实现利用多个标签分别标记多个核酸样本，使得每个核酸样本至少带有一条或多条标签以区分其它核酸样本，记录所述每个核酸样本与其所带的标签的对应关系；混合测序单元，与所述样本标记单元相连，用以混合获自所述样本标记单元的标签标记过的多个核酸样本，以及对混合核酸样本进行核酸序列测定，获得混合测序数据；比对筛选单元，与所述混合测序单元相连，用以实现将所述混合测序数据与参考序列比对，获得比对结果，以及从所述比对结果中筛选出与所述参考序列不完全匹配而且不匹配部分的长度不小于比所述标签小lbp的长度的读段；归类单元，与所述样本标记单元和所述比对筛选单元相连，用以实现利用从所述比对筛选单元中筛选出的读段的信息和所述样本标记单元的对应关系，确定所述混合测序数据中读段源于的核酸样本。
【文档编号】C12Q1/68GK104232760SQ201410427151
【公开日】2014年12月24日申请日期:2014年8月26日优先权日:2014年8月26日
【发明者】陈祖煜, 冯大飞申请人:深圳华大基因医学有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈祖煜;冯大飞
技术所有人：深圳华大基因医学有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.食品功能因子基因工程菌种的构建、智能高通量进化筛选 2.发酵工艺优化
2、马老师：1.酶工程与生物催化 2.酿造技术与风味分析 3.生物质资源综合利用
3、林老师：1.酿造微生物育种及关键酿造工艺开发 2. 真菌基因功能及调控网络解析 3.精细化学品、蛋白真菌细胞底盘开发
4、张老师：1.发酵食品安全：危害物相关基因的筛选，危害物产生菌的快速检测，危害物的预警和发酵过程控制 2.真菌次级代谢与调控 3.酿造酒相关研究
5、郭老师：1.现代酿造技术与食品安全 2. 酵母生物学 3.生物基化学品与合成生物学
如您是高校老师，可以点此联系我们加入专家库。