技术特征:
1.一种基于深度稀疏表示网络的dna结合蛋白识别方法,其特征在于:包括以下具体步骤:s1,获取dna结合蛋白序列数据集,所述dna结合蛋白序列数据集分为训练集和测试集;s2,采用psl-blast软件计算所述dna结合蛋白序列数据集内所有序列的特异性打分矩阵;s3,将所有的所述特异性打分矩阵分别填充或裁剪成相同尺寸的新特异性打分矩阵;s4,采用深度稀疏表示网络构建并训练dna结合蛋白识别分类器模型;s5,将步骤s3中的所述新特异性打分矩阵输入所述dna结合蛋白识别分类器模型内,完成对所述dna结合蛋白序列的识别。2.根据权利要求1所述的基于深度稀疏表示网络的dna结合蛋白识别方法,其特征在于:步骤s4具体包括:s41,将步骤s1中的所述训练集和所述测试集进行行拼接得到拼接数据集其中x
train
为所述训练集,所述训练集x
test
为所述测试集,所述测试集其中,d0表示所述训练集和所述测试集的维度,n表示训练集样本个数,m表示测试集样本个数;s42,将所述拼接数据集x输入包含编码器、解码器和稀疏表示层的深度稀疏表示网络模型中,所述拼接数据集x经过所述编码器输出编码z,z=[z
train
,z
test
],其中,z
train
表示训练集编码,z
test
表示测试集编码,所述编码z经过所述稀疏表示层得到其中即可定义即可定义i
n
是单位矩阵,0
n
×
m
,0
m
均为0矩阵,a为稀疏表示矩阵,通过所述深度稀疏表示网络的目标函数其中,是所述解码器的输出,表示训练集解码,表示测试集解码,所述λ0=0.1和λ1=0.1,λ0和λ1均为正则化参数,即可计算出所述稀疏表示矩阵a;s43,取所述测试集x
test
中任意一个测试样本其对应的测试样本编码为其对应的在所述稀疏表示矩阵a中的相关稀疏编码列为α
i
,定义新向量,定义新向量中的非0元素是和α
i
相关的k类元素,任意一个测试样本的分类公式为完成对所述dna结合蛋白识别分类器模型的构建和训练。3.根据权利要求1所述的基于深度稀疏表示网络的dna结合蛋白识别方法,其特征在于:步骤s2中,采用psi-blast软件生成特异性打分矩阵矩阵,生成的命令为blast+options:-num_iterations 3-db nr-inclusion_ethresh0.001。4.根据权利要求1所述的基于深度稀疏表示网络的dna结合蛋白识别方法,其特征在于:步骤s2中,所述特异性打分矩阵矩阵为pssm,具体公式为诶其中,每个元素表示特定位置特定序列被取代的可能性,l为
蛋白质的序列长度。5.根据权利要求4所述的基于深度稀疏表示网络的dna结合蛋白识别方法,其特征在于:所述步骤s3具体为:当所述序列的pssm行数大于70时,对底部多出来的行裁剪掉;当所述序列的pssm行数小于70时,对底部缺少的的行用0补充。
技术总结
一种基于深度稀疏表示网络的DNA结合蛋白识别方法,包括以下具体步骤:获取DNA结合蛋白序列数据集,分为训练集和测试集;采用PSL-BLAST软件计算DNA结合蛋白序列数据集内所有序列的特异性打分矩阵;将所有的特异性打分矩阵分别填充或裁剪成相同尺寸的新特异性打分矩阵;采用深度稀疏表示网络构建并训练DNA结合蛋白识别分类器模型,将新特异性打分矩阵输入DNA结合蛋白识别分类器模型内,完成对DNA结合蛋白序列的识别。构建并训练出的DNA结合蛋白识别分类器模型是一种端到端的网络,能够明显的提高预测精度,误差较小,采用卷积自编码器可以鲁棒地学习特异性打分矩阵的潜在特征,并通过稀疏表示层进行分类,提高了模型的泛化能力。能力。能力。
技术研发人员:钱昱磬 丁漪杰 吴宏杰
受保护的技术使用者:苏州科技大学
技术研发日:2022.04.08
技术公布日:2022/8/5