检测生物分子的变化的方法和检测生物调控分子的变化的方法

文档序号:6534876阅读:431来源:国知局
检测生物分子的变化的方法和检测生物调控分子的变化的方法
【专利摘要】本发明公开了一种检测生物分子的变化的方法,该方法包括:(1)用生物芯片或者高通量测序分别测量处理样品和对照样品,分别获得处理数据和对照数据;(2)使用对照数据对处理数据进行正规化,以获得无偏的基因表达差异数值;其中,在正规化中,在处理数据和对应的对照数据之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数,使用具有参数的线性样条模型校正处理数据中的数值,并作为正规化后的数值。本发明还提供了一种通过集成基因表达差异数值和生物调控分子与相应基因的结合强度来检测生物调控分子变化的量化指标的方法。本发明能够有效地挖掘高通量表达数据中的有用信息,并确定基因表达差异的调控机制。
【专利说明】检测生物分子的变化的方法和检测生物调控分子的变化的方法
【技术领域】
[0001]本发明涉及生物医药领域,具体地,涉及一种检测生物分子的变化的方法和一种检测生物调控分子的变化的方法。
【背景技术】
[0002]从DNA到蛋白质的过程称之为基因表达(gene expression),对这个过程的调节即为基因表达调控(regulation of gene expression or gene control)。基因调控是现代分子生物学研究的中心课题之一。因为要了解动植物生长发育规律、形态结构特征及生物学功能,就必须搞清楚基因表达调控的时间和空间概念,掌握了基因调控机制,就等于掌握了一把揭示生物学奥秘的钥匙。
[0003]测量细胞样本、组织样本等的全基因组表达值是功能性基因组学的首要问题。目前的测量技术包括生物芯片、RNA-seq等等,这些技术各有各的优点和缺点。虽然人们希望能够精确地测量出全基因组RNA表达值,但是由于每个技术的局限性,原始的测量值与真实值的误差和偏差不可避免。这就需要对这些原始的测量值做恰当的统计分析。生物芯片(biochip或bioarray)是根据生物分子间特异相互作用的原理,将生化分析过程集成于芯片表面,从而实现对DNA、RNA、多肽、蛋白质以及其他生物成分的高通量快速检测。狭义的生物芯片概念是指通过不同方法将生物分子(寡核苷酸、cDNA、genomic DNA、多肽、抗体、抗原等)固着于硅片、玻璃片(珠)、塑料片(珠)、凝胶、尼龙膜等固相递质上形成的生物分子点阵。
[0004]生物芯片能够高通量、自动化地检测基因的差异,包括cDNA水平上的差异和蛋白水平的差异,因而能够作为研究基因调控的手段之一。但是,生物芯片中的数据往往只能检测那些丰度高的效应生物分子(如在合成、代谢过程中的酶),而对于生物调控分子,如转录因子和micix)RNA,由于其在细胞中丰度低等原因,它们在生物事件中所发生的变化难以在生物芯片的数据中直接反映出来,由此降低了生物芯片数据的利用价值。
[0005]RNA-seq技术是近年来发展的一种新的全基因组RNA表达值的技术,它不需要预先设计探针,是与生物芯片互补的一种技术。
[0006]比较两个或多个细胞样本时,如果通过某种技术获得了它们之间无偏的基因表达差异数值,如何找到导致这些差异的调控机制则是功能性基因组学的一个核心问题。目前直接测量调控过程难度很大,利用调控分子如转录因子或microRNA与DNA的结合强度信息,在广义的中心法则下准确地推断调控机制是一个非常有挑战的计算生物学和生物信息学问题。对人类健康、农业发展、环境保护和能源发展有重要意义。

【发明内容】

[0007]为了提高生物芯片数据的利用价值,进一步有效地挖掘生物芯片数据中的有用信息,本发明提供了一种检测生物分子的变化的方法和一种检测生物调控分子的变化的方法。
[0008]根据本发明提供的检测生物分子的变化的方法,该方法包括:(1)用生物芯片或者高通量测序技术RNA-seq分别测量处理样品和对照样品,分别获得处理数据和对照数据;(2)使用对照数据对处理数据进行正规化,以获得无偏的基因表达差异数值;其中,在正规化中,在处理数据和对应的对照数据之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数,使用具有参数的线性样条模型校正处理数据中的数值,将校正后的数值作为正规化后的数值。
[0009]本发明还提供了一种检测生物调控分子的变化的方法,该方法包括:(1)根据如上所述的方法检测生物分子的变化,获得基因表达差异数值;(2)根据基因表达差异数值,将具有正表达差异值的差异基因和具有负表达差异值的差异基因分别作为分析对象,由差异基因的差异强度和生物调控分子与全体基因的结合强度来确定调控差异基因的生物调控分子的变化。
[0010]通过上述技术方案,本发明能够有效地挖掘生物芯片和RNA-seq数据中的有用信息,确定调控差异基因的生物调控分子的变化,并给出量化指标。
[0011]本发明的其他特征和优点将在随后的【具体实施方式】部分予以详细说明。
【专利附图】

【附图说明】
[0012]图1是正规化前后的数据M值的核密度图;
[0013]图2是本发明各个模块之间的关系示意图。
【具体实施方式】
[0014]以下对本发明的【具体实施方式】进行详细说明。应当理解的是,此处所描述的【具体实施方式】仅用于说明和解释本发明,并不用于限制本发明。
[0015]根据本发明提供的检测生物分子的变化的方法,该方法包括:(I)用生物芯片或者高通量测序分别测量处理样品和对照样品,分别获得处理数据和对照数据;(2)使用对照数据对处理数据进行正规化,以获得无偏的基因表达差异数值;其中,在正规化中,在处理数据和对应的对照数据之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数,使用具有参数的线性样条模型校正处理数据中的数值,将校正后的数值作为正规化后的数值。
[0016]其中,处理数据和对照数据均来自生物芯片,处理数据和对照数据中的数值均对应于生物芯片中的探针的空间位置而排列;将处理数据和对照数据分别按空间位置的排布分隔为多个矩形子集;所述矩形子集的行数和列数分别大于5,且行数和列数的乘积大于100 ;相邻的子集可以存在0-99%的重叠;在处理数据的子集和对应的对照数据的子集之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数;使用具有参数的线性样条模型校正处理数据的子集中的数值,将校正后的数值作为正规化后的数值。
[0017]其中,所述生物芯片可以为cDNA芯片或蛋白芯片。
[0018]其中,特别优选地,相邻的子集中存在30-70%的重叠,更优选存在40-60%的重叠,最优选存在50%的重叠。
[0019]其中,优选地,所述子集的行数和列数分别大于5,且行数和列数的乘积大于100。例如,子集可以具有20-80行,20-80列;优选具有30-70行,30-70列;最优选具有60行,30列。
[0020]其中,线性样条模型可以如式(I)所示:
【权利要求】
1.一种检测生物分子的变化的方法,该方法包括: (1)用生物芯片或者高通量测序分别测量处理样品和对照样品,分别获得处理数据和对照数据; (2)使用对照数据对处理数据进行正规化,以获得无偏的基因表达差异数值; 其中,在正规化中,在处理数据和对应的对照数据之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数;使用具有参数的线性样条模型校正处理数据中的数值,将校正后的数值作为正规化后的数值。
2.根据权利要求1所述的方法,其中,处理数据和对照数据均来自生物芯片,处理数据和对照数据中的数值均对应于生物芯片中的探针的空间位置而排列;将处理数据和对照数据分别按空间位置的排布分隔为多个矩形子集,相邻的矩形子集存在介于0-99%的重叠;在处理数据的矩形子集和对应的对照数据的矩形子集之间建立线性样条模型,用稳健统计估计法估计线性样条模型的参数;使用具有参数的线性样条模型校正处理数据的矩形子集中的数值,将校正后的数值作为正规化后的数值。
3.根据权利要求1或2所述的方法,其中,所述矩形子集的行数和列数分别大于5,且行数和列数的乘积大于100。
4.根据权利要求1或2所述的方法,其中,线性样条模型如式(I)所示:
5.= α + 4^ + Σ4^='=/(5>?.)式⑵

f-1 式(2)中,S、4 > 4(/ = 1,...,《)分别为在式(I)中经过S估计得到的参数值。 5.根据权利要求1或2所述的方法,其中,计算M值的核密度曲线和众数,并使用M值的核密度曲线的众数的绝对值大小来评价正规化和/或生物分子变化的测量值的可信度,所述M值为正规化后的处理数据与对照数据的对数差;M值的核密度曲线的众数的绝对值越大,则指示正规化和/或生物分子变化的测量值的可信度越小…值的核密度曲线的众数的绝对值越小,则指示正规化和/或生物分子变化的测量值的可信度越大。
6.根据权利要求1所述的方法,其中,所述高通量测序为RNA-seq。
7.一种检测生物调控分子的变化的方法,该方法包括: (1)根据权利要求1-6中任意一项所述的方法检测生物分子的变化,获得基因表达差异数值; (2)根据基因表达差异数值,将具有正表达差异值的差异基因和具有负表达差异值的差异基因分别作为分析对象,由差异基因的差异强度和生物调控分子与全体基因的结合强度来确定调控差异基因的生物调控分子的变化。
8.根据权利要求7所述的方法,其中,所述生物调控分子为转录因子或microRNA。
9.根据权利要求7或8所述的方法,其中,对具有负表达差异值的差异基因,确定调控差异基因的生物调控分子变化的量化指标方法包括: (1)记负表达差异值为e= (e1;…,eN),生物调控分子与相应基因的结合强度为b =(h,…,bN);将负表达差异值取绝对值得到e' = (IeJ,-, eN|); (2)将V中的元素按照降序排列,记排列结果为^! = (|e| π(1),…,|e| π(Ν)),其中O (1),…,JI (N))为(1,…,N)的一个排列,满足|e| πω≥…≥e I π (Ν); (3)按照(2)中对表达值的调整相应调整b中的元素位置,记调整结果为b''= (4)计算
10.根据权利要求7或8所述的方法,其中,对具有正表达差异值的差异基因,确定调控差异基因的生物调控分子的变化的方法包括: (1)记正表达差异值为e= (ei,…,eN),生物调控分子与相应基因的结合强度为b =O^1,…,bN);将正表达差异值取绝对值得到e' = (IeJ,-, eN|); (2)将V中的元素按照降序排列,记排列结果为^! = (|e| π(1),…,|e| π(Ν)),其中O (1),…,JI (N))为(1,…,N)的一个排列,满足|e| πω≥…≥e I π (Ν); (3)按照(2)中对表达值的调整相应调整b中的元素位置,记调整结果为b''= (4)计算
【文档编号】G06F19/20GK103729578SQ201410003967
【公开日】2014年4月16日 申请日期:2014年1月3日 优先权日:2014年1月3日
【发明者】李雷, 王琳 申请人:中国科学院数学与系统科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1