基于高通量测序检测差异表达与可变剪切分析的方法

文档序号:6353985阅读:1502来源:国知局
专利名称:基于高通量测序检测差异表达与可变剪切分析的方法
技术领域
本发明属于生物技术领域,涉及新一代高通量测序技术数据分析。
背景技术
本发明是一种适用于高通量测序技术的新分析方法。高通量测序技术是近两年来生物技术领域的重要突破,新一代的测序技术将传统的Sanger测序效率提高了数百倍,同时价格也大大下降。高通量测序技术的出现使得许多的极有前景的生物医药应用成为可能:1,癌症基因组。2,个性化医疗与诊断。3,药物靶标筛选。高通量测序技术能否在这些领域的取得进展,其关键在于分析方法及软件的创新。本专利提出了一种新的分析方法,可广泛用于高通量测序技术的数据分析。Solexa平台将待扩增并测序的DNA固定于固体表面,使用Bridge PCRamplification 扩增 DNA 片段,并使用 reverse dye terminator 技术进行测序。Solexa 平台运行一次成本约8000美元,可产生 40,000, 000左右的35_70bp的序列数据。Solexa平台成本远低于454平台(以每bp花费计),并且不存在SoLiD技术所存在的G/C偏差的问题,因此在生物学研究领域得到广泛引用。目前Solexa技术主要有两部分应用:l,RNA_Seq,即转录组测序。将细胞或组织内的mRNA反转录为cDNA后,进行扩增并输入Solexa平台测序,得到的结果进行分析后可以得到mRNA的表达量。RNA-seq技术由于拥有精确定量和高灵敏度的特点,被认为将会很快取代Microarray技术。2, ChIP-Seq,即免疫共沉淀测序技术。这项技术可以定位转录因子(transcription factor)与DNA的结合位点(binding site)而在生物医学研究中被广泛应用。目前针对Solexa技术平台的数据分析软件有如下几类:1,序列对位软件,将Solexa测序的reads在基因组上快速定位。2, RNA-seq分析软件,根据RNA-seq的数据确定每个基因的表达量。3,ChlP-seq分析软件,将ChlP-seq的结果解析为转录因子结合位点(transcription factor binding site) [Rozowsky, J., et al., PeakSeq enablessystematic scoring of ChlP—seq experiments relative to controls.Nat Biotechnol,2009.27 (I):p.66-75]。本专利致力于后两类应用,并提出了全新的分析思路以提高分析结果的质量。

发明内容
本发明基于目前的Solexa测序技术,找到了一种新的可以定义差异表达和转录因子结合位点的分析方法,相对于其他分析方法大幅提高了分析精度。本方法的步骤如下:(I)获取Solexa测序序列,将所有序列对参照基因组使用ELAND软件进行对位(Alignment)。将无法对位的序列(如测序质量太低的序列)丢弃。对于有多重对位的序列(multiple hits)保留分数最高或并列最高的对位结果。
(2)将获得的对位序列文件转化成转化成RMI (Read Mass Index) Score。RMI的计算方法如下:RMI = (Read Coverage/MappabiIity) * Adjustment其中Read Coverage为该位点被测序的次数,我们可以利用对位文件直接计算出精确到每bp的Read Coverage。Mappability表示该区段在零假设下被随机序列覆盖的理论值。该理论值及其分布取决于参考基因组,无法用理论公式计算,但我们可以利用参考基因组(ReferenceGenome)进行计算机模拟计算得出。其计算的方法是:将参考基因组拆分为35bp (或者70bp,取决于Solexa测序的长度)的小段,以Ibp为步长,将每一个理论上可能的区段都取出,然后将所有的小段都对原基因组对位。如此得到的对位结果即为Mappability的理论分布。显然,基因组中的重复序列的Mappbility将比唯一的序列Mappability高,这也是我们在计算RMI时要对Mappability进行校正的原因。Adjustment为针对该次测序的校正。Solexa测序的过程中存才测序误差,因此并非所有的序列都可以完美对位(perfect match)到参考基因组上。有一些序列将有Ibp的误差(lbp mismatch),另有一些序列有2bp的误差(多于2bp误差的序列将不予考虑)。本方法对有mismatch的序列有一定罚分,即认为这些序列的可信度比完美对位(perfectmatch)的序列要低。经过试验,本方法将lbp mismatch的序列可信度设为50 2bpmismatch的序列可信度设为25%。(3)经过以上步骤之后,我们得到了全基因组范围内的RMIindex。接下来的步骤是计算RMI的理论分布。接下来将分为两种情况讨论:A, RNA-seq分析。B, Chip-seq分析。(A) RNA-seq分析。RNA-seq分析相对较为简单。一般来说,我们的实验设计为对比两个样本,或者一系列时间序列的样本互相比较。我们通过步骤(2)已经得到实际RMI分布,现在需要计算的是RMI的理论分布。在给定区段内,该分布将是一个二项分布:
权利要求
1.基于高通量测序分析新方法,其特点是基于一个新的指数RMI对高通量测序结果进行快速准确的分析。该方法的特征在于有如下步骤: 步骤1:获取转录本高通量测序RNA-seq)或染色体免疫共沉淀高通量测序(ChlP-seq)数据。
步骤2:根据高通量测序信息,并基于物种基因组序列信息进行校正,估算RMI的经验分布。
步骤3:利用RMI经验分布和测序数据,鉴定差异表达区段或差异结合峰。
全文摘要
本发明基于目前的Solexa测序技术,找到了一种新的可以定义差异表达和转录因子结合位点的分析方法,相对于其他分析方法大幅提高了分析精度。该方法同时适用于转录本高通量测序(RNA-seq)和染色体免疫共沉淀高通量测序(ChlP-seq)两种方法产生的数据进行分析。
文档编号G06F19/20GK103177197SQ20111043560
公开日2013年6月26日 申请日期2011年12月22日 优先权日2011年12月22日
发明者曾华宗 申请人:上海聚类生物科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1