一种预测蛋白质在rna病毒基因中的结合位点的方法

文档序号:10553199阅读:445来源:国知局
一种预测蛋白质在rna病毒基因中的结合位点的方法
【专利摘要】本发明涉及一种预测蛋白质在RNA病毒基因中的结合位点的方法,用于获取RNA病毒基因序列被选为蛋白质结合位点的概率,该方法包括以下步骤:1)获取多条RNA病毒基因序列;2)以设定的单位长度对每条所述RNA病毒基因序列进行位点信息量计算并比较,获得最大位点信息量及该最大位点信息量所对应的位点信息,根据所述位点信息获得结合位点。与现有技术相比,本发明能够迅速地、准确地预测蛋白质在RNA病毒基因中的结合位点的方法,为探究RNA病毒的复制机制提供帮助。
【专利说明】
一种预测蛋白质在RNA病毒基因中的结合位点的方法
技术领域
[0001 ]本发明涉及生物信息技术领域,尤其是涉及一种预测蛋白质在RNA病毒基因中的 结合位点的方法。
【背景技术】
[0002] 从1868年F.Miescher发现核素到1953年沃森和克里克正式提出DNA分子的双螺旋 结构,再到2005年人类基因组计划测序工作的完成,人类在探索生命奥秘的道路上留下了 一串串坚实的脚印。然而近年来随着对RNA分子研究的不断深入,人们逐步意识到RNA具有 远比DNA复杂得多的结构和功能上的多样性,RNA研究已经成为新的热点,一个崭新的RNA世 界正在逐渐展现在人们的面前。
[0003] 病毒是地球上最丰富的微生物之一,它是由一个核酸分子与蛋白质构成的非细胞 结构形态的靠寄生生活的生命体,根据遗传物质的不同可以分为:DAN病毒和RAN病毒。近年 来,由RNA病毒引起的新发或再发性流行病经常成为全球性公共卫生问题,例如轮状病毒、 艾滋病病毒、SARS病毒、埃博拉病毒(EB0V)、甲型H1N1流感病毒等。病毒基因组的复制与表 达是研究病毒致病机理及研制抗病毒药物的核心,RNA病毒特别是单链RNA病毒,依靠其遗 传物质不稳定、基因组进化速度非常快的特点,给疫苗的研制带来巨大的挑战。据悉,从 1967年在德国的马尔堡首次发现埃博拉病毒到如今已接近五十年,埃博拉病毒曾造成多次 大爆发,人体感染初期出现头痛,肌痛、恶心、呕吐、腹泻等,随后可能出现体内外出血、中枢 神经紊乱,最终导致死亡,严重威胁着人类的健康和生命。
[0004] 生物信息学是将计算机科学和数学应用于分子生物学而形成的交叉学科,在基因 组的研究中发挥着重要的作用。它将从实验室得到的生物学信息转化为计算机能够处理的 数字信息,通过对实验数据加工、存储、检索与分析,进而揭示数据所蕴含的生物学意义。信 息量是用于分析蛋白质与核酸相互作用的信息理论,可以应用到调节位点的分析,它首先 是由Schneider等提出的,后经Berg和Stormo等人进行了补充完善,其核心是具有相同亲和 性的序列在进化过程中有相同的概率被与之作用的蛋白质或酶选为结合位点,而结合的自 由能与亲和性直接相关,即寻找与目标病毒类似的病毒核苷酸序列,将其两两比对,若两序 列有同样的自由能,就有同样的结合蛋白质的亲和性,而结合的自由能直接与碱基利用率 相关。

【发明内容】

[0005] 本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种能够迅速地、准 确地预测蛋白质在RNA病毒基因中的结合位点的方法,为探究RNA病毒的复制机制提供帮 助。
[0006] 本发明的目的可以通过以下技术方案来实现:
[0007] -种预测蛋白质在RNA病毒基因中的结合位点的方法,用于获取RNA病毒基因序列 被选为蛋白质结合位点的概率,该方法包括以下步骤:
[0008] 1)获取多条RNA病毒基因序列;
[0009] 2)以设定的单位长度对每条所述RNA病毒基因序列进行位点信息量计算并比较, 获得最大位点信息量及该最大位点信息量所对应的位点信息,根据所述位点信息获得结合 位点,其中,所述位点信息量的计算公式为:
[0010] Hi=~ Z lAbi)\n[p{bf)!p\bi)\
[0011] l=\
[0012]式中,Hi是位点中每个位置的信息量,Hseq是位点信息量,bl表示碱基,有A、C、G、T 四种碱基,P(bl)是各位置中碱基出现的概率,pYbl)是基因组中碱基出现的概率,S是位点 中位置的个数。
[0013] 所述步骤1)中,RNA病毒基因序列通过基因组测序得到或由GenBank数据库中获 取。
[0014]所述步骤1)中,多条RNA病毒基因序列为同一个属或者同一个科的单股正链RNA病 毒基因序列。
[0015]所述步骤1)中,多条RNA病毒基因序列的序列长度差在1 %以内。
[0016]所述步骤2)中的比较过程具体为:
[0017] 201)任意选取一条RNA病毒基因序列作为目标序列,所述目标序列的长度为L,其 它序列作为比较序列,将所述目标序列中由第一个碱基开始的一个分析单位与所有比较序 列末尾的一个分析单位进行位点信息量比较,获得一个4 X S的碱基概率矩阵,S为单位长 度;
[0018] 202)从所述目标序列的第二个碱基依次开始截取一分析单位,将所截取的分析单 位与所有比较序列末尾的一个分析单位进行位点信息量比较,直至目标序列所有碱基均比 较完成,获得L-S+1个4 X S的碱基频率矩阵。
[0019]所述碱基频率矩阵含有单位长度碱基的位置、每个位置相应的信息量值以及最大 位点信息量。
[0020] 与现有技术相比,本发明具有以下有益效果:
[0021] (1)本发明通过对序列的分析单位进行位点信息量比对,从而获得RNA病毒基因序 列被选为蛋白质结合位点的概率,预测最有可能的结合位点,不仅能快速从众多序列中抽 提出结合位点,而且能预测出结合位点中重要的位置。
[0022] (2)本发明在选取RNA病毒基因序列选择同一个属或者同一个科的单股正链RNA病 毒基因序列,且序列长度相近,有效提高了预测的准确性。
[0023] (3)利用本发明方法能预测调节蛋白在病毒基因内的结合位点,为定点突变等分 子生物学实验提供方向,为弄清蛋白质与RNA病毒基因相互作用奠定基础、最终揭示RNA病 毒复制机理做出贡献。
【附图说明】
[0024]图1为本发明的流程示意图;
[0025]图2为本发明结果文本示意图。
【具体实施方式】
[0026] 下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案 为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于 下述的实施例。
[0027] 如图1所示,本实施例提供一种预测蛋白质在RNA病毒基因中的结合位点的方法, 用于获取RNA病毒基因序列被选为蛋白质结合位点的概率,该方法包括:
[0028] 步骤S1:获取多条RNA病毒基因序列。RNA病毒基因序列可通过基因组测试得到,也 可登录NCBI网站的GenBank数据库下载的相关病毒基因的序列进行整理获取。
[0029]优选地,多条RNA病毒基因序列为同一个属或者同一个科的单股正链RNA病毒基因 序列。
[0030] 更进一步地,多条RNA病毒基因序列的序列长度相近,长度差在1%以内。
[0031] 步骤S2:以设定的单位长度对每条所述RNA病毒基因序列进行位点信息量计算并 比较,其中,所述位点信息量的计算公式为:
[0032] "/=- Z /物叫/物)//々/)')] 况=A,C,G,T
[0033] M
[0034]式中,Hi是位点中每个位置的信息量,Hseq是位点信息量,bl表示碱基,有A、C、G、T 四种碱基,P(bl)是各位置中碱基出现的概率,pYbl)是基因组中碱基出现的概率,S是位点 中位置的个数。
[0035] 步骤S3:获得最大位点信息量及该最大位点信息量所对应的位点信息;
[0036] 步骤S4:根据所述位点信息获得结合位点。按照熵的原则,具有最大信息熵的位置 在基因组的功能中起最重要的作用,当几个这样的位置毗连形成一个位点时该位点可能是 基因组的关键区域,具有作为病毒蛋白质与基因序列的结合位点的可能性。
[0037]步骤S2中的比较过程具体为:
[0038] 201)任意选取一条RNA病毒基因序列作为目标序列,所述目标序列的长度为L,其 它序列作为比较序列,将所述目标序列中由第一个碱基开始的一个分析单位与所有比较序 列末尾的一个分析单位进行位点信息量比较,获得一个4 X S的碱基概率矩阵,S为单位长 度,所述碱基频率矩阵含有单位长度碱基的位置、每个位置相应的信息量值以及最大位点 信息量;
[0039] 202)从所述目标序列的第二个碱基依次开始截取一分析单位,将所截取的分析单 位与所有比较序列末尾的一个分析单位进行位点信息量比较,直至目标序列所有碱基均比 较完成,获得L-S+1个4 X S的碱基频率矩阵。
[0040] 在进行RNA病毒基因序列选择时,若所选取的N条为等长序列,则设置一个单位长 度获取分析单位(即为一个word宽度),这个分析单位所包含的连续碱基的数量称单位长 度,单位长度根据具体的分析对象将有所不同;若所选取的N条为不等长序列,则单位长度 就等于最短序列的碱基数,从而使最后获得的碱基频率矩阵包含对该序列的功能所必须的 位置。
[0041]根据上述预测蛋白质在RNA病毒基因中的结合位点的方法的原理进行编程,获得 一利用信息量预测RNA病毒蛋白质结合位点的软件,命名为RSST,该软件的操作流程为: [0042] 步骤一:将通过基因组测序得到的病毒基因序列或者登录NCBI网站的GenBank数 据库下载的相关病毒基因的序列进行整理,以纯序列文本.txt格式保存,测定或者下载整 理的序列需要统一转化为小写字母的形式;
[0043] 从GenBank中下载到17条蛋白质编码序列,如表1为它们的登录号:
[0044] 表 1
[0046]步骤二:新建文件夹,在此举例命名为data,将测序或下载并整理好的序列文本统 一保存在data文件夹中;
[0047] 步骤三:在data文件夹中创建一个新的文本out-data. text,首先输入比对序列总 数M,然后逐一列出需要比对的序列输出文件名及输入文件名,例如out\\19.sk3' .txt和 data\\19?sk3 '?txt;
[OO48] 步骤四:将软件rsst.exe与data文件夹放置在同一个新建文件夹中;
[0049]步骤五:双击鼠标左键,打开软件rsst.exe,将文件夹data中的规定输入与输出格 式的文本out-data. text拖拽到软件rsst ? exe中,点击计算,Calculate Alt+C;
[0050]步骤六:在步骤五弹出的对话框中分别输入所需要比对的序列数量M和word的宽 度S,其中word宽度S指的是蛋白质在基因中结合位点的碱基数,程序将按照以下公式对序 列的位点信息量进行计算,并保留各位点的信息量及位点信息;
[0051 ] lp = E [(%+0] /(/V-t-4)]%>2[4(^ +1.5)/(7V + 4 5)] b=A,t\GS S
[_ ,,工人 i=i
[0053]注:IP是位点中每个位置(position)的信息量,Is是位点(site)的信息量,等于该 位点中每个位置信息量的和,b表示A、C、G、T四个碱基,nib是位置中某个碱基出现的频率,N 为某个位置所具有的总碱基数,实际上,它等于待分析的序列的条数,1表示位置,S则为位 点的长度,在这里等于word的宽度。
[0054]步骤七:软件将自动把以上保留的各位点的信息量及位点的信息以文本格式输出 并保存,打开文本可以看到软件将具有最大位点信息量的位点信息保存在文本结果的中的 最后位置,可以取此最优结果作为实验的最终结果。
[0055]将上述序列输入软件,在输出的结果文本的最后有如下最优结果如图2所示。以图 2所示最优结果为实验最终结果,其中上半部分显示蛋白质在个序列上可能的结合位点信 息,下半部分显示了结合位点的碱基信息及各位置和位点的信息量。
【主权项】
1. 一种预测蛋白质在RNA病毒基因中的结合位点的方法,用于获取RNA病毒基因序列被 选为蛋白质结合位点的概率,其特征在于,该方法包括W下步骤: 1) 获取多条RNA病毒基因序列; 2. W设定的单位长度对每条所述RNA病毒基因序列进行位点信息量计算并比较,获得 最大位点信息量及该最大位点信息量所对应的位点信息,根据所述位点信息获得结合位 点,其中,所述位点信息管?式中,Hl是位点中每个位置的信息量,出eq是位点信息量,bl表示碱基,有A、C、G、T四种碱 基,口化1)是各位置中碱基出现的概率,口*^化1)是基因组中碱基出现的概率,5是位点中位置 的个数。2. 根据权利要求1所述的预测蛋白质在RNA病毒基因中的结合位点的方法,其特征在 于,所述步骤1)中,RNA病毒基因序列通过基因组测序得到或由GenBank数据库中获取。3. 根据权利要求1所述的预测蛋白质在RNA病毒基因中的结合位点的方法,其特征在 于,所述步骤1)中,多条RNA病毒基因序列为同一个属或者同一个科的单股正链RNA病毒基 因序列。4. 根据权利要求3所述的预测蛋白质在RNA病毒基因中的结合位点的方法,其特征在 于,所述步骤1)中,多条RNA病毒基因序列的序列长度差在1 % W内。5. 根据权利要求1所述的预测蛋白质在RNA病毒基因中的结合位点的方法,其特征在 于,所述步骤2)中的比较过程具体为: 201) 任意选取一条RNA病毒基因序列作为目标序列,所述目标序列的长度为L,其它序 列作为比较序列,将所述目标序列中由第一个碱基开始的一个分析单位与所有比较序列末 尾的一个分析单位进行位点信息量比较,获得一个4 X S的碱基概率矩阵,S为单位长度; 202) 从所述目标序列的第二个碱基依次开始截取一分析单位,将所截取的分析单位与 所有比较序列末尾的一个分析单位进行位点信息量比较,直至目标序列所有碱基均比较完 成,获得kS+l个4 X S的碱基频率矩阵。6. 根据权利要求5所述的预测蛋白质在RNA病毒基因中的结合位点的方法,其特征在 于,所述碱基频率矩阵含有单位长度碱基的位置、每个位置相应的信息量值W及最大位点 信息量。
【文档编号】G06F19/20GK105912886SQ201610187739
【公开日】2016年8月31日
【申请日】2016年3月29日
【发明人】苏翠珠, 肖明
【申请人】上海师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1