一种肿瘤新抗原预测方法、系统、电子设备及存储介质与流程

文档序号:37298295发布日期:2024-03-13 20:46阅读:15来源:国知局
一种肿瘤新抗原预测方法、系统、电子设备及存储介质与流程

本发明涉及肿瘤新抗原领域,具体涉及一种肿瘤新抗原预测方法、系统、电子设备及存储介质。


背景技术:

1、肿瘤疫苗是指通过将肿瘤组织中或者人体体液中提取的抗原注射入肿瘤患者体内,激活机体免疫系统,诱发肿瘤细胞的特异性免疫反应,以达到控制和治疗肿瘤的目的。早期的肿瘤治疗性疫苗,其开发策略侧重于针对肿瘤中异常表达或过度表达的自身抗原,称为肿瘤相关抗原(tumor associated antigen,taa)。这些抗原在产生临床有效的抗肿瘤免疫反应方面作用微弱,可能是由于taa特异性t细胞受到中枢及外周免疫耐受的影响。

2、基因突变在恶性肿瘤中很常见,包括单核苷酸变异、移码插入和缺失、异常剪接和其他复杂的结构改变。这些遗传改变通常会导致具有新氨基酸序列的突变蛋白质,被免疫系统识别,从而激活抗肿瘤免疫反应,这些肿瘤细胞表达而正常组织不表达的突变蛋白或多肽,被称为肿瘤特异性抗原(tumor specific antigen,tsa)或肿瘤新抗原(tumorneoantigen)。

3、肿瘤新抗原在临床前模型和临床患者中均被证实具有诱导机体特异性免疫反应的能力,它是内源性抗肿瘤免疫反应和肿瘤免疫治疗的重要靶点。不仅如此,增加的肿瘤突变负荷(被认为是新抗原数量的替代物)与更多数量的肿瘤浸润淋巴细胞和生存率提高有关,也与对免疫检查点抑制的反应有关。临床前和临床研究均提示,新抗原是诱发机体有效肿瘤特异性免疫应答的靶标,也是未来肿瘤疫苗取得疗效突破的关键所在。

4、尽管部分肿瘤新抗原疫苗初步临床试验数据显示出其具有较强的免疫原性和靶向肿瘤细胞杀伤的证据,但相对更大比例的新抗原疫苗没有诱导出特异性t细胞反应,特别是cd8+t细胞的激活和扩增的能力。探究其内在原因,除了疫苗的种类(多肽、mrna、dna、病毒)、递送系统、佐剂、注射的频次、联合icis治疗的时机以外,最为关键的因素就是肿瘤新抗原的选择。tmb高的肿瘤可能具有相应的高“数量”的肿瘤新抗原,可选择更多的肿瘤新抗原用于制备疫苗,并对ici有更好的反应。然而,高tmb的发生并不总是与ici的反应一致。除了肿瘤内在的耐药机制,造成这种差异的其他原因可能直接与新抗原的“质量”有关,即新抗原产生th1细胞和/或ctl反应的能力。如何准确筛选出高“质量”的新抗原,已经成为了个体化新抗原疫苗治疗的关键技术之一。2016年12月,在美国癌症研究所(cri)和parker研究所(pici)的发起下,30多家癌症研究机构达成一致,共同成立了新抗原筛查联盟(thetumor epitope selection alliance,tesla),可见新抗原筛选在肿瘤疫苗及肿瘤免疫治疗领域分量之重。

5、新抗原通过各种机制从肿瘤细胞中产生,如基因组突变、异常转录变异体、翻译后修饰和病毒开放阅读框,新抗原可由抗原提呈细胞的主要组织相容性复合体(majorhistocompatibility complex,mhc)递呈。以mhc-i类分子为例,首先,新抗原被以dc细胞为主的抗原提呈细胞吞噬,由蛋白酶体介导的内源蛋白质分解,随后通过与抗原处理相关的转运蛋白(transporters associated with antigen processing,tap)运输到内质网(endoplasmic reticulum,er),在内质网中它们会被加载到mhc-i上,形成pmhc复合体,表达于细胞表面,被cd8+t细胞的tcr识别,在共刺激分子的协同作用下,激活cd8+t细胞,从而产生特异性抗肿瘤免疫反应。以上步骤中的关键点,就是抗原肽与mhc分子强力稳定结合,形成pmhc复合体并展示于抗原提呈细胞或肿瘤细胞表面。

6、目前,通过二代测序技术和相关生物信息学工具可以准确获得病人的体细胞突变信息和hla分型,然而,体细胞突变太多,且并非所有体细胞突变表达的肽段均会产生免疫原性反应,因此,需要计算机预测算法来辅助筛选。新抗原能否被免疫系统识别,即新抗原的免疫原性,其取决于一连串复杂的事件,包括变异表达、肽的加工、转运、与hla分子的结合及递呈等因素。

7、传统的预测模型多针对上述新抗原生物学特征的某个方面,举例:(1)netchop,通过计算机人工神经网络预测蛋白酶体对抗原肽的剪切效率;(2)netmhc,通过计算机人工神经网络预测肽-mhc i类分子的结合力;(3)netmhcpan,同时整合了亲和力以及质谱洗脱配体数据进行训练,通过计算机人工神经网络预测肽-mhc i类分子的亲和力和特定pmhc在细胞表面呈现概率,是目前最广泛应用的新抗原预测模型之一;(4)netctl,通过计算机人工神经网络预测蛋白酶体对抗原肽的剪切效率(整合了netchop)、通过位置权重矩阵预测tap对抗原肽的转运效率,通过计算机人工神经网络预测肽-mhc i类分子的结合力(整合了netmhc),最后给出综合评分;(5)mixmhcpred,整合了质谱洗脱配体数据,通过位置权重矩阵进行训练,预测特定pmhc在细胞表面呈现概率;(6)mhcflurry,同时整合了亲和力以及质谱洗脱配体数据进行训练,通过计算机人工神经网络预测肽-mhc i类分子的结合力和特定pmhc在细胞表面呈现概率;(7)netmhcstabpan,通过计算机人工神经网络预测肽-mhc i类分子结合的稳定性。(8)tsnad、pvac-seq等集成预测工具,本质上是整合前期基因突变的生信分析步骤与后期新抗原预测步骤,其预测模块仍然是通过计算机人工神经网络预测肽-mhc i类分子的亲和力。由于传统的预测模型,其输入的特征仅仅针对上述新抗原生物学特征的某个方面,而算法也仅仅采用位置权重矩阵或全连接神经网络,因此,其预测效能有限。以其中最具代表性的传统模型是netmhcpan ba为例,有研究报道,该模型预测出的新抗原可被提呈到细胞表面的不足5%,而其中能被mhc结合并识别,最终能诱导出机体免疫反应的新抗原还不到1%。

8、近年来,部分新抗原预测新模型deephlapan、iedb immunogenicity、deepimmuno-cnn、seq2neo-cnn被开发出来,虽然这些模型通常纳入新抗原诱发机体免疫反应的多个关键步骤为数据特征,也采了用高级别的计算机人工神经网络算法,如卷积神经网络、深度学习,但是这些模型训练时选择的新抗原的生物学特征不尽相同,也没有在多种标准测试数据集上对这些新模型进行效能对比,因此无法证明这些新模型和其构建方案的优劣。

9、综上所述,临床目前迫切需要一种预测效能更好的计算机新抗原预测新模型及其通用构建方案,为后续个体化新抗原疫苗设计服务。


技术实现思路

1、本发明的目的是提供一种肿瘤新抗原预测方法、系统、电子设备及存储介质,利用多维度的肿瘤突变抗原特征对其进行综合评分,根据该评分进行排序,从而筛选出肿瘤新抗原,本发明构建出的模型解决了现有新抗原预测模型筛选效能较差的缺点。

2、为实现上述目的,本发明提供的技术方案是:

3、一种肿瘤新抗原预测方法,其特征在于,包括以下步骤:

4、步骤(1):获取肿瘤新抗原训练数据;

5、步骤(2):将肿瘤新抗原训练数据经预处理后,获取全部肿瘤新抗原预测关键特征,得到可信数据,构成可信数据集;

6、步骤(3):采用可信数据集,根据肿瘤新抗原预测关键特征,通过卷积神经网络和全连接神经网络建立深度学习模型,进行模型训练获得预测模型;

7、步骤(4):使用得到的预测模型进行肿瘤新抗原的预测;

8、其中,步骤(2)所述的肿瘤新抗原预测关键特征包括肽段字符串、hla分型字符串、提呈分数、pmhc亲和力、pmhc结合稳定性五个关键特征。

9、为优化上述技术方案,采取的具体措施/限定还包括:

10、步骤(1)中,所述的获取肿瘤新抗原训练数据是在公开数据库中输入限定条件,经筛选得到不同表位的t细胞体外实验结果数据。

11、步骤(2)中,所述的将肿瘤新抗原训练数据经预处理,具体为以下步骤:去除获得的取肿瘤新抗原训练数据中hla表型不明确的数据,然后剔除重复数据并精筛。

12、所述的剔除重复数据并精筛包括:

13、若得到一项或多项实验结论均一致的多条数据行,则保留其中一条数据行,去除其余重复数据;

14、若得到一项或多项实验结论不一致的多条数据行,则计算抗原定性栏中阴性和阳性的相对比例,不一致率低于1:3则标注为可信数据,并按照抗原定性栏中比例高的结论保留一条数据行;所述的不一致率是指,同一条抗原肽及同样的hla分型,其体外实验结论相反的比例,实验结论包括阳性和阴性。

15、步骤(2)中,所述的获取全部肿瘤新抗原预测关键特征,具体为:根据可信数据集中的肽段字符串及对应的hla分型字符串,计算出该肽段字符串的提呈分数、pmhc亲和力和pmhc结合稳定性。

16、步骤(3)中,所述的采用可信数据集,根据肿瘤新抗原预测关键特征,通过卷积神经网络和全连接神经网络建立深度学习模型,进行模型训练获得预测模型,具体为:

17、采用tensorflow构建模型,读取可信数据集中的数据并存储于数据框,定义一个用于将公开数据库的筛选框中的文本标签转换为二进制目标值的函数;从可信数据集中的数据提取抗原肽及其表位特征,使肽段字符串与hla分型字符串合并,并使用分词器对其进行标记化,格式化成一定长度的序列文本数据;

18、通过嵌入层将序列文本数据映射到多维向量空间,通过卷积层和池化层从序列文本数据中提取特征,而后通过压平层将卷积层的输出展平,然后通过全连接层学习特征;另构建一个包含多个神经元的全连接层,以处理数值型数据部分,包括:提呈分数、pmhc亲和力和pmhc结合稳定性;

19、而后,将序列文本数据和数值型数据的输出对应连接在一起,通过深度模型的输出层,输出一个具有多个神经元的向量;最后通过sigmoid激活函数将其缩减为一个神经元,用于进行二分类预测。

20、在卷积层和全连接层中,采用leaky rectified linear unit和sigmoid激活函数进行激活,引入非线性;在输出层中使用二元交叉熵损失函数作为成本函数,通过adam优化算法建立优化器,对输出进行优化,采用自适应学习率作为优化器的输入,采用小批量梯度下降算法,设置批次的大小和最大迭代次数,当验证集的损失函数不再上升时,获得最终的预测模型。

21、本发明还保护一种肿瘤新抗原预测系统,包括:

22、数据获取模块,用于获取肿瘤新抗原训练数据;

23、预处理模块,用于将肿瘤新抗原训练数据经预处理后,获取全部肿瘤新抗原预测关键特征,得到可信数据,构成可信数据集;

24、模型训练模块,用于采用可信数据集,根据肿瘤新抗原预测关键特征,通过卷积神经网络和全连接神经网络建立深度学习模型,进行模型训练获得预测模型。

25、预测模块,用于使用得到的预测模型进行肿瘤新抗原的预测。

26、本发明还保护一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行计算机程序时,实现如上所述的肿瘤新抗原预测方法。

27、本发明还保护一种计算机可读存储介质,存储有计算机程序,所述计算机程序使计算机执行如上所述的肿瘤新抗原预测方法。

28、与现有技术相比,本发明的有益效果是:

29、本发明纳入新抗原重要的生物学特征,构建一种肿瘤新抗原预测新模型:从公开数据库中获得训练数据,剔除重复数据,根据实验方法获取其中的可信数据集,选择肽段字符串、hla分型字符串、提呈分数、pmhc亲和力、pmhc结合稳定性作为五个关键特征,采用卷积神经网络和全连接神经网络建立深度学习模型,最后进行模型训练,直至验证集预测性能达到最佳后停止训练,获得最终模型,其输出为突变肽的免疫原性综合评分。

30、为证实其预测优效性,本发明从公开文献中获得测试数据,将该方案获得的最终预测模型与其他现有文献报道的预测模型进行对比;从临床患者中获得本地测试数据,将该方案获得的最终预测模型与其他现有文献报道的预测模型进行对比。本发明通过与多个基准数据集上比较,证实了该方案构建的预测模型具有更好的预测效能,适用于个体化肿瘤新抗原的预测模型的构建。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1