MoRFs预测模型的生成方法、装置、设备和存储介质与流程

文档序号:20604510发布日期:2020-05-01 21:57阅读:来源:国知局

技术特征:

1.一种morfs预测模型的生成方法,其特征在于,包括:

获取多个分子识别特征morfs片段和多个非morfs片段,每个所述morfs片段由多个第一位点组成,每个所述非morfs片段包括多个第二位点;

提取每个所述第一位点对应的第一特征向量以及每个所述第二位点对应的第二特征向量;

利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型,生成目标预测模型,所述目标预测模型用于预测蛋白质中的位点是否属于morfs片段。

2.根据权利要求1所述的方法,其特征在于,所述第一特征向量的数量和所述第二特征向量的数量相同。

3.根据权利要求1或2所述的方法,其特征在于,所述获取多个morfs片段和多个非morfs片段,包括:

从本征无序蛋白质idps序列库中,筛选多个所述morfs片段;

选取与各所述morfs片段相隔第一预设长度以外的多个所述非morfs片段。

4.根据权利要求1或2所述的方法,其特征在于,所述提取每个所述第一位点对应的第一特征向量以及每个所述第二位点对应的第二特征向量,包括:

对于各所述morfs片段,利用蛋白质对比工具获得该morfs片段所在蛋白质对应的第一位置特异性得分矩阵pssm;

以该morfs片段中的每个所述第一位点为中心,基于所述第一pssm向外扩展第二预设长度,得到各所述第一位点对应的第一子特征向量;并且,以该非morfs片段中的每个所述第二位点为中心,基于所述第一pssm向外扩展所述第二预设长度,得到各所述第二位点对应的第二子特征向量;

根据各所述morfs片段所在蛋白质的氨基酸出现频率和理化性质,获得该morfs片段所在蛋白质的第三子特征向量;

基于所述第三子特征向量和每个所述第一位点对应的所述第一子特征向量,获得每个所述第一位点对应的所述第一特征向量;并且,基于所述第三子特征向量和每个所述第二位点对应的所述第二子特征向量,获得每个所述第二位点对应的所述第二特征向量。

5.根据权利要求4所述的方法,其特征在于,所述方法还包括:

获取待预测蛋白质,所述待预测蛋白质包括n个位点,n为大于1的整数;

提取所述待预测蛋白质的第i位点对应的第i特征向量,其中,i=1,2,…,n;

根据所述第i特征向量和所述目标预测模型,获得第i预测结果,所述第i预测结果用于表征所述第i位点是否属于morfs片段。

6.根据权利要求5所述的方法,其特征在于,

所述提取所述待预测蛋白质的第i位点对应的第i特征向量,包括:

利用所述蛋白质对比工具获得所述待预测蛋白质对应的第二pssm,并以所述第i位点为中心,基于所述第二pssm向外扩展所述第二预设长度,得到所述第i位点对应的第四子特征向量;

根据所述待预测蛋白质的氨基酸出现频率和理化性质,获得所述待预测蛋白质的第五子特征向量;

基于所述第四子特征向量和所述第五子特征向量,获得所述第i位点对应的所述第i特征向量;

所述根据所述第i特征向量和所述目标预测模型,获得第i预测结果,具体为:

将所述第i特征向量输入所述目标预测模型,输出所述第i预测模型。

7.一种morfs预测模型的生成装置,其特征在于,包括:

第一获取模块,用于获取多个分子识别特征morfs片段和多个非morfs片段,每个所述morfs片段由多个第一位点组成,每个所述非morfs片段包括多个第二位点;

第一提取模块,用于提取每个所述第一位点对应的第一特征向量以及每个所述第二位点对应的第二特征向量;

生成模块,用于利用所述第一特征向量和所述第二特征向量训练预先构建的初始预测模型,生成目标预测模型,所述目标预测模型用于预测蛋白质中的位点是否属于morfs片段。

8.根据权利要求7所述的装置,其特征在于,所述装置还包括:

第二获取模块,用于获取待预测蛋白质,所述待预测蛋白质包括n个位点,n为大于1的整数;

第二提取模块,用于提取所述待预测蛋白质的第i位点对应的第i特征向量,其中,i=1,2,…,n;

第三获取模块,用于根据所述第i特征向量和所述目标预测模型,获得第i预测结果,所述第i预测结果用于表征所述第i位点是否属于morfs片段。

9.一种morfs预测模型的生成设备,其特征在于,所述设备包括处理器以及存储器:

所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

所述处理器用于根据所述程序代码中的指令执行权利要求1至6任一项所述的方法。

10.一种存储介质,其特征在于,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1至6任一项所述的方法。


技术总结
本申请公开了一种MoRFs预测模型的生成方法、装置、设备和存储介质,该方法包括:获取多个MoRFs片段和多个非MoRFs片段,每个MoRFs片段由多个第一位点组成,每个非MoRFs片段包括多个第二位点;提取每个第一位点对应的第一特征向量以及每个第二位点对应的第二特征向量;利用第一特征向量和第二特征向量训练预先构建的初始预测模型,生成目标预测模型,该目标预测模型用于预测蛋白质中的位点是否属于MoRFs片段。这样,借助该目标预测模型,即可方便、快速和准确的预测出蛋白质上属于MoRFs片段的位点。

技术研发人员:汤一凡;崔朝辉;赵立军;张霞
受保护的技术使用者:东软集团股份有限公司
技术研发日:2019.12.20
技术公布日:2020.05.01
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1