一种新的融合核苷酸二联体结构信息和物理化学特性的rna序列表示方法

文档序号:9471812阅读:956来源:国知局
一种新的融合核苷酸二联体结构信息和物理化学特性的rna序列表示方法
【技术领域】
[0001] 本发明设及生物信息学、RNA序列伪核巧酸成分和传统的RNA序列分析技术领域, 尤其设及一种新的融合核巧酸二联体结构信息和物理化学特性的RNA序列表示方法。
【背景技术】
[0002] 随着人类基因组的测序完成,生物信息学进入了一个新的发展阶段一一后基因组 时代。基因组计划产生的数W亿计的基因组RNA序列,RNA序列是遗传信息的源泉,如何从 运些序列中找寻生命是如何起源的、又是如何进化、运些基因又是如何使生命体具有活性 的等一系列问题的答案,是当前研究的热点。由于生化实验费时费力,生物信息学作为生物 实验的补充,得到了巨大的发展。原来越多的学者探索出基于系统、人工智能模式识别W及 信息处理等方法对RNA序列的性质、修饰属性W及功能进行预测的模型。运些模型大多是 基于RNA序列离散模型基础上的,所WRNA序列特征的提取是建立有效预测模型的关键。

【发明内容】

[0003]RNA序列是由4种核巧酸组成的一维字符序列,要得出更多的隐含在其中的生物 特性非常困难,为此人们设计了许多伪核巧酸成分采用向量方式来描述RNA序列。核巧酸 成分是4种标准的核巧酸在序列中出现的概率,核巧酸成分将RNA序列表达成了一个4维 的数值向量,核巧酸成分不包括核巧酸的次序信息W及禪合信息,采用此方法的预测成功 率较低。核巧酸二联体组成成分可W将RNA序列表示成16维的数值向量,核巧酸=联体组 成成份法可W将RNA序列表示成48维的向量,它们考虑了RNA序列的局部顺序信息,但还 是不全面。为此学者提出了伪核巧酸组成成分(TNCPseAAC)概念,通过结合核巧酸的位置 信息和伪氨基酸组成成份将RNA序列翻译成蛋白质序列。众所周知,=个核巧酸的密码子 编码翻译成一个氨基酸,因此,一条RNA序列能够翻译成一条蛋白质序列,人们已经设计了 多种反映蛋白质序列局部和全局特性的伪氨基酸成分,如:如复杂度因子、小波变换因子、 PSSM矩阵、Go因子等等,通过运种变换现有伪氨基酸成分方法就可用于RNA序列分析中。
[0004] 除了上述方法外,学者还采用了将RNA序列转换成空间曲线的方法对相关问题进 行研究,如分别对A、C、G、U定义为二维空间的向量,将RNA按照其序列顺序对运些空间向 量进行相加,运样RNA序列转换成二维空间的曲线。
[0005] 为有效地避免空间图形的交叉而导致的信息丢失,迟锐等人提出了一种新的RNA 序列3D图形表示法,根据核巧酸的物理化学性质分别将A、C、G、U定义为=维空间向量, 假设殺判4为一条RNA序列,存在映射使得D映射为一系列数学表达式。因此, 滅巧你鸿)L抑或),其中
(1) 例如,根据上式,给定一条RNA序列ACUGGACCUG能够映射为{(0,0,1),(1,〇,2),(1,1, 3),(0,1,4),(0,1,5),(0,0,6),(1,〇,7),(1,〇,8),(1,1,9),(0,1,10)}。
[0006] 上述运些方法都是基于核巧酸的成分或者是核巧酸的物理化学性质,将RNA转换 成氨基酸序列存在转换起始点难W确定问题,二联体、=联体虽然含有局部信息,但RNA序 列的全局特性还是很难通过二联体和=联体来描述,由于结构信息对预测RNA相关预测非 常有效,所W设计一种新的融合核巧酸结构属性和核巧酸在序列中的位置信息的RNA序列 描述方法非常必要。

【发明内容】

[0007] 本发明要解决的技术问题是提供一种新的融合核巧酸二联体结构信息和物理化 学特性的RNA序列表示方法。
[0008] 为解决W上技术问题,本发明的技术方案是:一种新的融合核巧酸二联体结构信 息和物理化学特性的RNA序列表示方法,其特征在于包括W下步骤: (1) 基于核巧酸二联体物理化学性质构成RNA序列的物理化学矩阵PCM,该矩阵是一个 10X(L-1)的矩阵,其中L为序列长度,10为采用了 10种核巧酸二联体物理化学性质; (2) 对PCM矩阵中的每一行数据采用灰色模型GM(2, 1)进行建模得到描述每行序列整 体特征的3个参数《;、斬...目,10行共30个参数; (3) 对PCM矩阵中每行数值序列计算其自相关因子,得到10满装个参数,运里 :義资|寡也男味松I,运些参数描述了RNA序歹U的局部特征; (4) 对PCM矩阵中各行计算其互相关因子,得到10嘴9 :然藏个参数,运些参数描述了 序列的局部信息; (5) 将PCM矩阵进行转换,数值投影到0-255区间后,转换成二维图像,取图像的几何矩 作为描述RNA序列的整体特征; (6) 将上述所得到的描述RNA序列特征因子结合,最终得到RNA序列的离散向量描述方 法。
[0009] 所述RNA序列可W用下式表示: 巧N声;(2) 其中: A.,、:[A也漁;C); 0 (巧带&狀C;G(料游船C;rI、斯微 ^鐵>表示序列第i个位置上的核巧酸,L为序列长度。
[0010]所述物理化学性质包括:六种结构属性和四种其它种类属性,所述六种结构属性 为:ecl:n城HC三:燃H:HC1、、純戚:HC4:sink'、HC5:;也:HC《>:你说,四种其它种类 属性为巧C',;微浊;娘>;;献?S:沿放哪y:HC》:滿心屯巧妃巧详;HC10:齡eci微巧。
[0011] 所述核巧酸二联体十种属性值如表1所示: 表1十种核巧酸二联体结构和物理化学特性值
所述RNA序列根据核巧酸二联体物理化学性质转换成的物理化学矩阵PCM为:
[0012] 所述灰色理论GM(2, 1)模型适合处理无序的扰动序列,GM(2, 1)模型为一元二 阶微分方程,对PCM矩阵的每一行数建立GM(2, 1)模型:
所述自相关函数是描述随机信号x(t)在任意两个不同时刻tl、t2的取值之间的相关 程度。将PCM矩阵中的每一行作为一组数字序列,可得到自相关因子,
使用可视化技术,将二维矩阵PCM转化为一个彩色图像,称之为RNA序列核巧酸二联 体物理化学特性图;几何矩主要表征图像区域的几何特征,由于其具有旋转、平移、尺度等 特性的不变特征,所w又称为不变矩.在图像处理中,几何不变矩可w作为一个重要的特 征来表示物体,可W据此特征来对图像进行分类等操作.图像/(~、一'>的(P+q)阶几何矩定 义为:
中屯、矩:一幅图像相对于亮度矩屯、所计算出的几何矩.它表示为:
根据上述公式一个图像可W计算出许多几何矩,因为通过测试发现加上其他的几 何矩并不能对预测成功率有明显的提高,所W在本发明中我们只考虑下面=种几何矩: .Mw、i/。;和巧;;,运;个因子描述了RNA序列的全局特征。
[0013] 所述方法用于RNA属性类型预测及RNA修饰位点的预测中,相关预测器的预测成 功率提高4-7%。
[0014] 本发明基于核巧酸二联体结构信息和其它物理化学特性构建RNA序列物理化学 矩阵(PhysicochemicalMatrix,PCM),此矩阵含有RNA序列结构信息和序列顺序信息。 通过对矩阵中的每行计算其自相关因子和行与行之间的互相关因子得到序列局部信息,将 PCM转换成二维图像,计算其图像几何距得到序列全局信息。将所得到的描述序列局部信息 和全局信息的因子相结合,得到RNA序列离散向量描述模型。本方法用于RNA属性类型预测 及RNA修饰位点的位预测中,能明显提高相关预测器的预测成功率,具有广阔的运用前景。
【附图说明】
[0015] 图1为实施例对PCM矩阵进行投影,得到二维的图像。
【具体实施方式】
[0016] 为了使本发明的目的、技术方案及优点更加清楚明白,W下结合实施例,对本发明 进行进一步详细说明。应当理解,此处所描述的具体实施例仅用W解释本发明,并不用于限 定本发明。
[0017] 采用本发明融合核巧酸二联体结构和序列顺序信息构成RNA序列离散模型表示 方法,具体步骤如下: (1)基于核巧酸二联体物理化学性质构成RNA序列物理化学矩阵(Physicochemical Matrix,PCM),PCM是一个10絮;:a-l)的矩阵,其中L为序列长度,10为采用了10种核巧 酸二联体物理化学性质 例如给定长度为51的RNA序列: >example CAAAGGUGACCCACUUCGUUCAUGGACGUUCCCUGAAAUCAGGGACACUAU 基于表1所示十种核巧酸二联体结构和物理化学特性值,根据公式(3)可得到其PCM矩阵如下:
(2 )对PCM矩阵中的每一行(共10行)数据采用灰色模型GM(2, 1)进行建模得到描述 每行序列整体特征的3个参数汉s、汾2、10行共30个参数 根据公式(4-8)将运30个参数按行排列得到1X30维的向量,表示为GM=[-1. 21 0.32 -0.62 -1.20 0.31 -0.39 -0.76 0.11 0.16 -0.88 0.11 -0.05 -1.08 0.09 0.05 -1.18 0.08 -0.11 -0.78 0.25 0.11 -0.92 0.23 -0.17 -0.72 0.02 -0. 06 -0. 67 0. 28 0. 06] (3)对PCM矩阵中每行数值序列计算其自相关因子,得到10游装个参数,运里 1,运些参数描述了RNA序列的局部特征,根据公式(9)、(10); 本例中篆取值为4,因此运个40个参数可W表示1X40维的向量: Auto=[-0. 22 -0.20 0.22 0.11 -0.05 -0.09 0.17 0.07 0.19 0.25 0.04 0.25 -0. 09 -0. 07 -0. 09 -0. 08 -0. 13 0. 11 -0. 17 0. 18 0.化-0. 06 0. 24 0. 25 -0. 23 -0. 36 0. 07 -0. 21 -0. 17 -0. 20 0. 10 -0. 10 -0. 16 0. 05 0. 03 -0. 02 0. 00 0. 04 0. 14 -0. :M] (4)对PCM矩阵中各行计算其互相关因子,得到10洋:9深;:裏个参数,运些参数描述了 序列的局部信息,根据公式(11 ), A取值为4,则共有360个参数,可表示为1X360维的向量 Cross=[-0. 07 -0.03 0.23 0.36 -0.18 0.30 -0.22 0.03 0.25 -0.04 -0.13 -0.04 -0. 12 0. 05 -0. 12 -0. 03 0. 14 -0. 06 -0. 09 0. 03 -0. 01 0. 01 -0. 01 0. 00 0. 09 -0. 04 -0.22 0.16 0.03 0.09 0.30 -0.19 0.27 0.11 0.27 -0.18 -0.09 0.07 0.05 0.01 -0. 07 0. 06 0. 16 0. 15 -0. 09 -0. 22 0. 00 -0. 01 -0. 16 -0. 24 -0. 20 0. 02 0. 02 -0. 16 0. 13 0. 03 0. 06 0. 16 0. 28 -0. 19 -0. 09 -0. 15 -0. 15 -0. 28 -0. 06 0. 00 -0. 06 -0. 07 -0. 11 -0. 06 -0. 13 0. 15 0. 01 0. 07 0. 03 -0. 02 -0. 02 -0. 05 -0. 01 -0. 25 -0. 02 0. 23 -0. 13 -0. 08 0. 17 0. 15 -0. 01 0. 13 0. 01 -0. 22 0. 22 -0. 31 0. 03 0. 26 0. 08 -0. 02 0.19 0.28 0.26 -0.06 0.11 0.03 -0.19 -0.12 0.07 -0.16 -0.03 -0.10 -0.01 0.07 0. 03 0. 03 -0. 04 0. 04 0. 00 0. 00 0. 06 0. 18 -0. 13 0. 20 -0. 18 -0. 13 0. 00 -0. 16 0. 14 0. 24 -0. 14 -0. 17 -0. 04 -0. 04 0. 01 0. 07 -0. 05 0. 15 0. 08 -0. 13 -0. 06 0. 04 0.12 -0.05 0.06 -0.03 -0.09 -0.10 0.27 0.02 0.27 0.02 -0.11 -0.06 -0.07 0.15 0. 24 -0. 16 -0. 18 -0. 04 -0. 02 -0. 07 -0. 02 0. 10 -0. 06 0. 11 -0. 17 0. 06 -0. 25
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1