一种多功能生物活性肽预测方法及系统

文档序号:34308307发布日期:2023-05-31 19:49阅读:111来源:国知局
一种多功能生物活性肽预测方法及系统

本发明属于生物信息计算领域,尤其涉及一种多功能生物活性肽预测方法及系统。


背景技术:

1、生物活性肽在调节身体的多种功能方面起着很重要的作用,例如降低血压、血糖水平和胆固醇。对于生物活性肽,研究人员已经做了大量工作,并且可以获得的实验数据越来越多。因此,在过去的几十年里,越来越多具有多种功能的生物活性肽被鉴定出来。由于其功效、半衰期短和低毒性的特点,多肽药物开发已获得越来越多的市场批准。为了促进多肽疗法的发展,多肽功能的鉴定尤为重要。

2、考虑到生物活性肽筛选的挑战,机器学习可以成为识别生物活性肽潜在功能的有力工具,但以前的方法主要用于解决预测多肽的单功能问题。在过去的几十年里,已经在各个领域提出了许多的多标签分类算法,包括文本、图像、音乐和生物信息学。近年来,因为深度学习将表示学习和分类学习结合到模型中从而展现出很大的潜力。


技术实现思路

1、为了解决了上述技术问题,本发明提出了一种多功能生物活性肽预测方法及系统,具体技术方案如下:

2、一种多功能生物活性肽预测方法,包括以下步骤:

3、s1、对数据进行预处理;对多功能生物活性肽数据集中氨基酸序列数据转换为数字化数据;

4、s2、对数字化数据进行特征提取;先使用多尺度tcn获取序列中不同长度序列模式的信息,然后利用gru得到各序列模式之间的关系,最终得到具有全局信息的特征表示;

5、s3、目标分类;将具有分类功能的全连接神经网络(fcnn)对多功能生物活性肽数据进行分类;

6、s4、模型训练;将多功能生物活性肽数据集按照五折交叉验证的方式划分训练集和验证集,训练集用于对多功能生物活性肽预测模型进行构建与训练,验证集用于进行模型的参数调整,最终获取最优的模型;

7、s5、使用模型进行预测;将序列数据输入到步骤s4的预测模型中进行预测,获得肽序列具备的功能。

8、步骤s1中转换的数据包括词典编码、序列补齐和词嵌入;

9、词典编码:数据集中的每一条肽序列都由a、c、d、e、f、g、h、i、k、l、m、n、p、q、r、s、t、v、w和y二十种氨基酸组成,将肽序列中的氨基酸分别用数字1、2、3、……、20表示;

10、序列补齐:采用补零法将每条序列使用数字0补齐到数据集中设定长度的序列;

11、词嵌入:将词语转换为向量表示,表示序列中每个元素之间的联系。

12、序列补齐中设定长度为517。

13、步骤s4中,多功能生物活性肽数据集中的80%按照五折交叉验证的方式划分训练集和验证集,其余的20%作为测试集。

14、实现上述一种多功能生物活性肽预测方法的系统,包括

15、数据预处理模块,对多功能生物活性肽数据集中氨基酸序列数据转换为数字化数据并进行序列补齐;

16、特征提取器,包括特征提取功能的时间卷积神经网络以及门控循环单元,先使用多尺度tcn获取序列中不同长度序列模式的信息,然后利用gru得到各序列模式之间的关系,最终得到具有全局信息的特征表示;

17、目标分类器,为具有分类功能的全连接神经网络,对多功能生物活性肽数据进行分类;

18、数据集,包括由多功能生物活性肽数据集按照五折交叉验证的方式划分的训练集和验证集,所述训练集用于对多功能生物活性肽预测模型进行构建与训练,验证集用于进行模型的参数调整,所述模型预测肽序列具备的功能。

19、本发明的优点在于:本申请基于多标签学习和时间循环神经网络,我们提出了一个多标签预测器,用以识别生物活性肽的多种功能,包括抗癌、抗糖尿病、抗高血压、抗炎和抗微生物。



技术特征:

1.一种多功能生物活性肽预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种多功能生物活性肽预测方法,其特征在于,步骤s1中转换的数据包括词典编码、序列补齐和词嵌入;

3.根据权利要求2所述的一种多功能生物活性肽预测方法,其特征在于,序列补齐中设定长度为517。

4.根据权利要求1所述的一种多功能生物活性肽预测方法,其特征在于,步骤s4中,多功能生物活性肽数据集中的80%按照五折交叉验证的方式划分训练集和验证集,其余的20%作为测试集。

5.实现权利要求1-4任意一项所述的一种多功能生物活性肽预测方法的系统,其特征在于,包括


技术总结
一种多功能生物活性肽预测方法及系统,方法包括以下步骤:S1、对数据进行预处理;对氨基酸序列数据转换为数字化数据;S2、对数据化数据进行特征提取;先使用多尺度TCN获取序列中不同长度序列模式的信息,然后利用GRU得到各序列模式之间的关系,最终得到具有全局信息的特征表示;S3、目标分类;将具有分类功能的全连接神经网络对多功能生物活性肽数据进行分类;S4、模型训练;将多功能生物活性肽数据集按照五折交叉验证的方式划分训练集和验证集,最终获取最优的模型;S5、使用模型进行预测。本申请基于多标签学习和时间循环神经网络,我们提出了一个多标签预测器,用以识别生物活性肽的多种功能,包括抗癌、抗糖尿病、抗高血压、抗炎和抗微生物。

技术研发人员:宾艳南,范恒辉,夏俊峰
受保护的技术使用者:安徽大学
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1