蛋白质检索模型构建方法、检索方法、设备和存储介质与流程

文档序号:19379395发布日期:2019-12-11 00:12阅读:来源:国知局

技术特征:

1.一种蛋白质检索模型构建方法,其特征在于,包括:

对数据集中的所有蛋白质分别生成溶剂排除表面的三角网格,并进行简化和缺陷修复;

用wks算法计算经前一步骤处理后所有三角网格每个顶点的wks特征,选取适量的wks特征,用k均值算法进行聚类,生成第一词典,根据每个蛋白质的三角网格的每个顶点的wks特征和所述第一词典,计算相应蛋白质的第一bof特征;用hks算法计算经前一步骤处理后所有三角网格每个顶点的hks特征,选取适量的hks特征,用k均值算法进行聚类,生成第二词典,根据每个蛋白质的三角网格的每个顶点的hks特征和所述第二词典,计算相应蛋白质的第二bof特征;

将每一个蛋白质的所述第一bof特征和第二bof特征进行归一化处理并拼接,得到每一个蛋白质的第三bof特征;

根据不同蛋白质的第三bof特征的差异程度进行相似度评估;

模型训练,确定所述三角网格模型面大小及所述第一词典和第二词典大小。

2.根据权利要求1所述的蛋白质检索模型构建方法,其特征在于,所述三角网格模型面大小为4000,所述第一词典和第二词典大小均为1000。

3.根据权利要求1所述的蛋白质检索模型构建方法,其特征在于,所述根据不同蛋白质的第三bof特征的差异程度进行相似度评估,包括:根据归一化后不同蛋白质的所述第三bof特征的l1-范数距离大小评估其形状相似程度。

4.根据权利要求1所述的蛋白质检索模型构建方法,其特征在于,所述模型训练,确定所述三角网格模型面大小及所述第一词典和第二词典大小,包括:

固定所述第一词典和第二词典大小,改变三角网格模型面大小进行训练,根据训练结果确定所述三角网格模型面大小;

依据确定的所述三角网格模型面大小,改变所述第一词典和第二词典大小进行训练,根据训练结果确定所述第一词典和第二词典大小。

5.一种蛋白质检索方法,其特征在于,包括:

将待检索蛋白质输入权利要求1-4任意一项所述的方法所构建的蛋白质检索模型中,生成溶剂排除表面的三角网格,并进行简化和缺陷修复;

用wks算法计算经前一步骤处理后的所述三角网格每个顶点的wks特征,结合所述蛋白质检索模型的第一词典,计算待检索蛋白质的第一bof特征;用hks算法计算经前一步骤处理后的所述三角网格每个顶点的hks特征,结合所述蛋白质检索模型的第二词典,计算待检索蛋白质的第二bof特征;

将所述第一bof特征和第二bof特征进行归一化处理并拼接,得到待检索蛋白质的第三bof特征;

根据所述第三bof特征与所述蛋白质检索模型中已有蛋白质的第三bof特征的差异程度进行相似度评估,输出与所述待检索蛋白质相似的已知蛋白质的信息。

6.根据权利要求5所述的蛋白质检索方法,其特征在于,相似性评估的方法,包括:根据归一化后待检索蛋白质的所述第三bof特征与所述蛋白质检索模型中已有蛋白质的第三bof特征的l1-范数距离大小评估其形状相似程度。

7.一种蛋白质检索模型构建设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的至少一个存储器;

所述至少一个存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-4任意一项所述的蛋白质检索模型构建方法。

8.一种蛋白质检索设备,其特征在于,包括至少一个处理器,以及与所述至少一个处理器通信连接的至少一个存储器;

所述至少一个存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求5或6所述的蛋白质检索方法。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理执行时,实现权利要求1-4任一项所述的蛋白质检索模型构建方法,或,权利要求5或6所述的蛋白质检索方法。


技术总结
本申请公开了一种蛋白质检索模型构建方法、检索方法、设备和存储介质,对数据集中的所有蛋白质分别生成溶剂排除表面的三角网格,对三角网格进行去冗余和去噪声的简化处理,缩短检索时间,提高检索效率;检索算法融合WKS与HKS两种算法,保持了形状描述符在转换过程中的不变性,加强了形状描述符对蛋白质变形的不敏感性,提高了检索精度。

技术研发人员:彭玉旭;彭贤;张广平;罗元盛;黄园媛
受保护的技术使用者:长沙理工大学
技术研发日:2019.08.23
技术公布日:2019.12.10
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1