基于深度迁移的对HLA抗原呈递预测系统的增强方法与流程

文档序号：27840911发布日期：2021-12-08 01:48阅读：来源：国知局

技术特征：
1.一种基于深度迁移的对hla抗原呈递预测系统的增强方法，其特征在于，包括以下步骤：s1、特征选择与归一化处理，构建原始领域数据作为源域数据集；s2、特征融合与训练求解预训练模型；s3、构建专用的极端不平衡的迁移目标领域数据作为目标域数据集；s4、将s2中得到的预训练模型，利用深度迁移方法迁移到s3中的目标领域数据，以构建深度迁移自适应优化模型；s5、使用深度迁移自适应优化模型，在目标领域数据集上进行hla抗原呈递预测。2.根据权利要求1所述的方法，其特征在于，根据s1中特征选择的不同，选定相应的归一化处理方案，以获取格式、维度统一，便于融合的特征向量，具体为：
‑
长序列特征，使用随机矩阵将其每个氨基酸编码到可学习的到隐空间，再利用长短记忆循环神经网络进行处理；
‑
短序列特征，利用独热方法进行编码，编码后的序列送入多层感知机网络模型进行变换；
‑
向量特征，采用主成分分解pca进行编码，将所有数据的向量形式的特征组合成特征矩阵，应用主成分分解进行矩阵分解；根据隐嵌入维度选择特定数目的矩阵特征向量作编码变换；
‑
标量特征，采用多维尺度放缩，高斯核方法进行编码：将所有数据的标量形式的特征作为高斯核的输入，得到高斯核的协方差矩阵；将矩阵的各列进行多维尺度放缩，得到编码变换的特征向量。3.根据权利要求1所述的方法，其特征在于s1中构建的原始领域数据集是正负样本数量比均衡。4.根据权利要求1所述的方法，其特征在于s1中构建的原始领域数据集时，使用窗口滑动的方法，根据预设的参数阈值，生成阴性序列并使用全局差异打分矩阵筛选生成的序列片段，获得非随机的阴性候选训练集。5.根据权利要求1所述的方法，其特征在于s2中待融合特征选择为：多肽序列特征、上下游序列特征、呈递亲和力特征。6.根据权利要求5所述的方法，其特征在于s2中：多肽序列特征通过以下方法获得标准特征：对于给定多肽肽链氨基酸序列，使用随机矩阵将其每个氨基酸编码到可学习的到隐空间，再利用长短记忆循环神经网络进行处理得到多肽序列特征；进行随机矩阵编码映射后，根据所有数据中最长肽链序列的长度进行补长，以保证编码与映射模型的参数保持一致；上下游序列特征通过以下方法获得标准特征：对于给定基因上下游肽链，利用独热方法进行编码，编码后的上下游序列进行裁剪得到定长的序列，此编码序列送入多层感知机网络模型进行变换，提取特征作为上下游序列特征；呈递亲和力特征通过尺度缩放获得标准特征，以保证模型训练优化过程的数值稳定性。7.根据权利要求1所述的方法，其特征在于s2中构建的预训练优化模型：
式中，f
w
是含可学习参数的预测模型；w表示该模型中可学习参数，包括各融合特征获取时方案权重；w
n
表示对不同样本的损失函数所赋予权重，n表示样本总数；x
n
表示输入的特定数据，y
n
是训练数据中是否呈递结合的真实值，o’是s逻辑函数，非简单加和，模型公式捕捉了潜在的复杂关系；在对模型进行优化后，将相关参数以结构化方法保存为预训练模型。8.根据权利要求1所述的方法，其特征在于，s3中生产阴性候选数据集后，根据不同策略构建目标领域数据；目标领域数据集为阴性样本数量远多于阳性样本数量，以模拟真实预测环境中阴性样本远多于阳性样本的情况。9.根据权利要求1所述的方法，其特征在于s4中构建的深度迁移自适应优化模型：式中，f
′
w
′
是含学习参数的待迁移的预测模型；w
′
表示该模型中可学习参数，包括各融合特征获取时方案权重；loss
s
，loss
c
分别表示在预训练阶段与模型迁移自适应阶段的目标损失函数；λ表示赋予模型迁移自适应阶段的目标损失函数的权重；分别表示s1中构建的原始领域数据集与s3中构建的目标领域数据集上的训练数据特征与是否呈递结合的真实值；n1，n2分别表示s1中构建的原始领域数据集与s3中构建的目标领域数据集上的训练样本数量；在对模型进行优化后，将相关参数以结构化方法保存为自适应后的深度迁移自适应优化模型。10.根据权利要求9所述的方法，其特征在于所述的深度迁移自适应优化模型，根据预训练模型大小与数据规模，选择优化预训练模型中所有可训练参数的全局优化，或仅进行神经网络模型中的最后两层的选顶层优化。11.根据权利要求1所述的方法，其特征在于s2，s4中求解优化模型：多次遍历所有训练数据，利用基于随机梯度优化方法的优化器进行优化，得到最优的模型参数，获得预训练预测模型f
w
与迁移预测模型f
′
w
′
。12.根据权利要求1所述的方法，其特征在于s3所构建的极端不平衡数据中划分出单独的一批数据，用于在s5中验证深度迁移自适应优化模型对于目标领域数据对的预测效果。

技术总结
本发明提出了一种基于深度迁移的对HLA抗原呈递预测系统的增强方法，包括：1)使用全局最大差异打分矩阵生成不同比例的负样本训练集：正负样本均衡的源域数据集，正负样本失衡的目标数据集2)采用多种不同的深度神经网络来编码已知序列信息、多模态特征融合等手段，在正负样本比均衡的源域数据上得到预训练模型3)通过深度迁移方法，将预训练模型迁移至正负样本比极端失衡的目标数据集4)提出创新的“严格准确率(strict PPV)”指标。同于以往其他基于单一数据集与单一人工智能模型的MHC预测方法，本发明能高效地融合多模态信息，快速部署迁移到不用的数据集上，节省了在新环境与数据上重新训练模型的算力与时间成本。据上重新训练模型的算力与时间成本。据上重新训练模型的算力与时间成本。

技术研发人员：方榯楷费才溢徐实
受保护的技术使用者：南京澄实生物科技有限公司
技术研发日：2021.10.15
技术公布日：2021/12/7

完整全部详细技术资料下载

当前第2页1 2