预测核酸与蛋白相互作用的新算法的制作方法

文档序号:6444797阅读:507来源:国知局
专利名称:预测核酸与蛋白相互作用的新算法的制作方法
预测核酸与蛋白相互作用的新算法技术领域
本发明属于生物技术领域,涉及核糖核酸(RNA)与蛋白(protein)相互作用的预测方面。
背景技术
本发明是一种预测核酸与蛋白相互作用的新算法。适用于核糖核酸相关的生物医学研究或基础生物学研究。
近些年来的研究表明,核糖核酸,尤其是非编码核糖核酸,可以通过调控相应的蛋白来行使功能。而预测核糖核酸的靶蛋白目前仍然是一个挑战。目前已知的方法都是在核酸水平(DNA或RNA)。值得注意的是,RNA在细胞内不是“裸露”的,而是与蛋白结合在一起的。直接的证据就是在动物体细胞中,正义与反义RNA是很常见的,但是这些RNA不能结合在一起被DICER识别,生成siRNA。蛋白应该起到主要的隔离作用。因此,核糖核酸在细胞内更为广泛的作用方式应该是与蛋白结合。一个典型的例子是SRA基因(steroid receptorRNA activator)。孕酮受体等蛋白质通过形成不同基序与SRA结合,激活孕酮受体的转录因子活性。然而,目前预测RNA靶基因的方法主要是通过核酸互补的方法预测核酸水平的互作,这可能与细胞内的真实情况不符。
在这里,我们提供一种预测核酸与蛋白相互作用的生物信息学方法。我们的方法适用于核糖核酸相关的生物医学研究或基础生物学研究领域。发明内容
为了分析与RNA结合的蛋白,我们首先提取RCSB databank (http: / / www.pdb.0rg/)中所有的RNA与蛋白结合的数据(大约有700对),同时我们手工筛选大约同等数目的阴性数据。预测选取的特征有RNA与蛋白结合的二级结构、氢键、范德华力等。预测模型使用支持向量机。采用10倍交叉证实验证模型的可靠性。最后我们使用RIP(RNA互作蛋白免疫共沉淀)的方法进行实验验证。具体实施步骤如下:
步骤一:提取所有蛋白结构数据;
步骤二:筛选阳性和阴性训练集;
步骤三:提取训练集数据的特征,包括:RNA的二级结构、蛋白的二级结构、氢键和范德华力;
步骤四:建立支持向量机预测模型;
步骤五:采用10倍交叉证实验证模型的可靠性;
步骤六:筛选部分结果,利用RIP(RNA互作蛋白免疫共沉淀)方法进行实验验证。
进一步,所述步骤I中,提取所有蛋白结构数据,其具体过程为:下载所有蛋白结构数据(RCSB databank,网址:http://www.pdb.0rg/)。整理合并相同序列,形成列表。
再进一步,所述步骤2中,筛选阳性和阴性训练集,其具体步骤为:对步骤I中获得的数据中手工筛选RNA与蛋白结合的数据,得到大约有700对,同时我们手工筛选大约同等数目的阴性数据。
又进一步,所述步骤3中,提取训练集数据的特征,其具体过程为:RNA 二级结构由RNAfold 获得(www.tb1.univie.ac.at/ ivo/RNA);蛋白二级结构则由 Chou-Fasman 和Deleage-Roux算法获得;氢键通过Grantham和Zimmerman算法获得;范德华力则是通过Kyte-Dolittle 和 Bull-Breese 获得。
最后,所述步骤4中,建立支持向量机预测模型,软件下载网址:www.csie.ntu.edu.tw/ cjlin/libsvm。
本方法的特征:本发明根据RNA与蛋白结合的结构特点,用于预测RNA的靶蛋白。可直接针对核糖核酸和蛋白进行锁定,以便于进一步的生物学实验验证。
在创新性方面,其特征在于:我们的方法利用了 RNA与蛋白结合的结构特点,在蛋白水平预测RNA的靶基因,可以获得更为全面的RNA的功能信息。与已有的核糖核酸靶基因预测方法相比,预测结果更为可靠。同时该方法可以实现,通过选定的蛋白,预测与之结合的RNA ;或者,通过选定RNA,预测与之结合的靶蛋白。


图1:本发明的基本流程图。
图2:核糖核酸(AK088237)与蛋白(STAT5)的预测结果实例。
图3:利用RIP(RNA互作蛋白免疫共沉淀)技术对预测的结果进行验证。
具体实施方式
下面结合附图对本发明作进一步描述。参照图1 图3,本方法包括以下步骤:
步骤一:提取所有蛋白结构数据;
步骤二:筛选阳性和阴性训练集;
步骤三:提取训练集数据的特征;
步骤四:建立支持向量机预测模型;
步骤五:采用10倍交叉证实验证模型的可靠性;
步骤六:利用RIP(RNA互作蛋白免疫共沉淀)方法进行验证。
下面以AK088237RNA为例。具体实施步骤如下:
步骤一:下载所有蛋白结构数据(RCSBdatabank,网址:http://www.pdb.0rg/)。整理合并相同序列,形成列表。
步骤二:对步骤I中获得的数据,手工筛选RNA与蛋白结合的数据,得到大约有700对,同时我们手工筛选大约同等数目的阴性数据。
步骤三:提取训练集数据的特征,包括:RNA 二级结构由RNAfold获得(www.tb1.univie.ac.at/ ivo/RNA);蛋白 二级结构则由 Chou-Fasman 和 Deleage-Roux 算法获得;氢键通过Grantham和Zimmerman算法获得;范德华力则是通过Kyte-Dolittle和Bull-Breese 获得。
步骤四:建立支持向量机预测模型,软件下载网址:www.csie.ntu.edu.tw/ cjlin/libsvm。
步骤五:采用10倍交叉证实验证模型的可靠性,敏感度70.5%,特异度65.4%。
步骤六:最终,利用RIP(RNA互作蛋白免疫共沉淀)方法进行实验验证。见图2和图3。
以上是对本发明的描述而非限定,基于本发明思想的其它实施方式,均在本发明的保护范围之中。
权利要求
1.本发明根据RNA与蛋白结合的结构特点,用于预测RNA的靶蛋白。可直接针对核糖核酸和蛋白进行锁定,以便于进一步的生物学实验验证,本发明主要包括如下流程:步骤1:提取所有蛋白结构数据;步骤2:筛选阳性和阴性训练集;步骤3:提取训练集数据的特征,包括:RNA的二级结构、蛋白的二级结构、氢键和范德华力;步骤4:建立支持向量机预测模型;步骤5:采用10倍交叉证实验证模型的可靠性;步骤6:筛选部分结果,利用RIP (RNA互作蛋白免疫共沉淀)方法进行实验验证。
2.如权利要求1所述的一种预测核酸与蛋白相互作用的新算法,其特征在于:所述步骤I中,利用深度测序数据获得自然反义微小核糖核酸的候选序列,其具体过程为:下载所有蛋白结构数据(RCSB databank,网址:http://www.pdb.0rg/)。整理合并相同序列,形成列表。
3.如权利要求1所述的一种预测核酸与蛋白相互作用的新算法,其特征在于:所述步骤2中,筛选阳性和阴性训练集,其具体过程为:手工筛选RNA与蛋白结合的数据,得到大约有700对,同时我们手工筛选大约同等数目的阴性数据。
4.如权利要求1所述的一种预测核酸与蛋白相互作用的新算法,其特征在于:所述步骤3中,提取训练集数据的特征,其具体过程为:RNA 二级结构由RNAfold获得(誦.tb1.univie.ac.at/ ivo/RNA);蛋白二级结构则由 Chou-Fasman 和 Deleage-Roux 算法获得;氢键通过Grantham和Zimmerman算法获得;范德华力则是通过Kyte-Dolittle和Bull-Breese 获得。
5.如权利要求1所述的一种预测核酸与蛋白相互作用的新算法,其特征在于:所述步骤4中,建立支持向量机预测模型,软件下载网址:www.csie.ntu.edu.tw/ cjlin/libsvm。
全文摘要
预测核酸与蛋白相互作用的新算法,本发明根据RNA与蛋白结合的结构特点,用于预测RNA的靶蛋白。可直接针对核糖核酸和蛋白进行锁定,以便于进一步的生物学实验验证。本发明主要包括如下流程步骤1提取所有蛋白结构数据;步骤2筛选阳性和阴性训练集;步骤3提取训练集数据的特征,包括RNA的二级结构、蛋白的二级结构、氢键和范德华力;步骤4建立支持向量机预测模型;步骤5采用10倍交叉证实验证模型的可靠性;步骤6筛选部分结果,利用RIP(RNA互作蛋白免疫共沉淀)方法进行实验验证。
文档编号G06F19/24GK103186715SQ20111045895
公开日2013年7月3日 申请日期2011年12月29日 优先权日2011年12月29日
发明者刘极龙 申请人:上海聚类生物科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1