一种基于多组学数据识别非经典肿瘤新抗原的装置与方法

文档序号:37112968发布日期:2024-02-22 21:12阅读:13来源:国知局
本发明涉及生物信息学,特别是涉及一种基于多组学数据识别非经典肿瘤新抗原的装置与方法。
背景技术
::1、近年来,肿瘤免疫治疗在多个临床试验中得到了广泛应用,并显示出巨大的抗癌潜力。肿瘤新抗原的鉴定对于肿瘤疫苗等多种癌症免疫疗法的开发必不可少。肿瘤新抗原又可称为肿瘤特异性抗原,其仅在肿瘤细胞中表达,绕过了中枢免疫耐受,在被人类白细胞抗原(human leukocyte antigen,hla)呈递到细胞表面后能够引起t细胞的免疫应答,促使免疫系统识别并杀伤肿瘤细胞,因而是肿瘤免疫治疗的理想靶点。2、经典的肿瘤新抗原源自基因组蛋白质编码区域发生的体细胞突变,长期以来都是研究的焦点。然而,在人类基因组中大约98%的区域为非编码区,且越来越多的证据表明当前的基因组注释低估了基因组的蛋白质编码能力,因此仅将蛋白质编码区作为新抗原的唯一来源是有局限的。各种非规范的开放阅读框(open reading frame,orf),例如长链非编码rna(long non-coding rna,lncrna)和环状rna(circular rna,circrna)等在内的非编码转录本,编码转录本的3’和5’非翻译区或者是完全嵌入在编码区域但使用不同的orf,非规范翻译起始以及内含子保留等被发现也存在翻译蛋白的可能性。质谱(mass spectrum,ms)分析是直接鉴定hla结合肽的唯一方法,利用多组学数据构建定制的蛋白质组数据库可以用于识别未注释的非规范多肽。laumont等人(参见文献laumont et al.(2018)noncoding regions are the main source oftargetable tumor-specificantigens.l.sci.transl.med.10,eaau5516)利用基于ms的蛋白质组学方法鉴定出了蛋白质编码区来源以外的肿瘤新抗原,并发现非编码区是新抗原的主要来源。然而,膨胀的多肽数据库搜索空间可能会导致较高的误报率,需要灵敏且准确的蛋白质组学方法来可靠地识别这些非经典肽。3、非规范翻译多肽相较于典型的体细胞突变多肽来说,通常与正常多肽具有更低的相似性,从而具有更强的免疫原性。因此,有效地筛选由非规范翻译多肽产生的非经典肿瘤新抗原,对扩大肿瘤免疫肽组库(尤其是对于突变负荷低的肿瘤类型)以及提高肿瘤免疫治疗效果具有重要意义。技术实现思路1、为了克服现有技术的不足,本发明的目的是提供一种基于多组学数据识别非经典肿瘤新抗原的装置与方法。2、为实现上述目的,本发明提供了如下方案:3、一种基于多组学数据识别非经典肿瘤新抗原的装置,包括:4、肿瘤特异性检测模块,用于利用肿瘤及癌旁组织的基因组和转录组测序数据进行肿瘤体细胞突变检测和肿瘤特异性表达分析;5、候选多肽获取模块,用于根据肿瘤体细胞突变检测和肿瘤特异性表达分析结果,获取非规范翻译的候选多肽;6、候选新抗原确定模块,用于鉴定肿瘤组织中的人类白细胞抗原分型,并根据非规范翻译的候选多肽与人类白细胞抗原分型的结合亲和力确定候选新抗原;7、环状rna鉴定模块,用于利用所述肿瘤及癌旁组织的转录组测序数据鉴定环状rna;8、特异性环状rna数据筛选模块,用于从所鉴定的环状rna中筛选出肿瘤特异性环状rna数据;9、hla呈递多肽鉴定模块,用于鉴定肿瘤特异性环状rna数据的人类白细胞抗原呈递多肽;10、环状rna来源新抗原确定模块,用于基于所述人类白细胞抗原呈递多肽与人类白细胞抗原分型的结合亲和力获得候选的环状rna来源新抗原。11、优选地,所述肿瘤特异性检测模块,包括:12、非规范翻译数据收集子模块,用于收集ribo-seq数据支持的人类非规范翻译orf数据,构建非规范翻译orf数据库;13、数据获取子模块,用于获取肿瘤及癌旁组织的rna-seq数据和/或dna-seq数据,以及肿瘤组织的蛋白质组学质谱数据;14、体细胞突变检测子模块,用于对rna-seq和/或dna-seq数据进行肿瘤体细胞突变检测得到肿瘤体细胞突变检测结果;15、肿瘤特异性表达分析子模块,用于基于肿瘤和癌旁组织的rna-seq数据、胸腺髓质上皮细胞rna-seq数据,以及健康组织表达数据,进行肿瘤特异性表达分析得到肿瘤特异性表达分析结果。16、优选地,所述候选多肽获取模块,包括:17、候选多肽获取子模块,用于根据肿瘤体细胞突变检测和肿瘤特异性表达分析结果,以及非规范翻译orf数据库,获取非规范翻译的候选多肽;所述非规范翻译的候选多肽包括:非编码区突变多肽和肿瘤特异性表达多肽。18、优选地,所述肿瘤特异性表达多肽是通过以下标准筛选的:19、(1)在肿瘤样本中tpm>0,在癌旁样本以及胸腺髓质上皮细胞样本的tpm=0;(2)在癌旁样本和胸腺髓质上皮细胞样本的tpm<0.31,且在肿瘤样本中的表达量是正常样本的5倍以上;(3)gtex每个健康组织(睾丸除外)中≥90%样本的转录本表达量tpm<1;(4)肿瘤组织的表达量是gtex健康组织(睾丸除外)中≥90%样本的表达量的两倍以上。20、优选地,所述候选新抗原确定模块,包括:21、蛋白质组数据库构建子模块,用于将非规范翻译的候选多肽与规范翻译蛋白质合并构建定制的蛋白质组数据库;22、非规范多肽序列搜索子模块,用于使用蛋白质组学搜库软件,基于肿瘤组织的蛋白质组学质谱数据对定制的蛋白质组数据库中的多肽序列进行搜索,识别与谱图匹配的非规范多肽序列;23、新抗原确定子模块,用于鉴定肿瘤组织中的人类白细胞抗原分型,根据非规范翻译的候选多肽与人类白细胞抗原分型的结合亲和力确定候选新抗原。24、优选地,所述特异性环状rna数据筛选模块,包括:25、可信环状rna构建子模块,用于使用ciri-full或cycler工具,重建所鉴定的环状rna的全长序列,并保留在肿瘤组织中存在且在癌旁组织中不存在的环状rna,得到可信环状rna;26、环状rna滤除子模块,用于从所述可信环状rna中滤除正常组织的环状rna得到肿瘤特异性环状rna数据。27、优选地,所述hla呈递多肽鉴定模块,包括:28、开放阅读框搜索子模块,用于寻找肿瘤特异性环状rna数据中的开放阅读框;29、内部核糖体进入位点序列识别模块,用于使用deepcip工具,识别肿瘤特异性环状rna数据中存在的内部核糖体进入位点序列;30、翻译蛋白确定模块,用于根据开放阅读框和内部核糖体进入位点序列获得肿瘤特异性环状rna翻译蛋白。31、呈递多肽鉴定子模块,用于将肿瘤特异性环状rna翻译蛋白加入到定制的蛋白质组数据库中,用于质谱数据搜索,鉴定人类白细胞抗原呈递多肽。32、本发明还提供了一种基于多组学数据识别非经典肿瘤新抗原的方法,其特征在于,包括:33、利用肿瘤及癌旁组织的基因组和转录组测序数据进行肿瘤体细胞突变检测和肿瘤特异性表达分析;34、根据肿瘤体细胞突变检测和肿瘤特异性表达分析结果,获取非规范翻译的候选多肽;35、鉴定肿瘤组织中的人类白细胞抗原分型,并根据蛋白质组学数据以及非规范翻译的候选多肽与人类白细胞抗原分型的结合亲和力确定候选新抗原;36、利用所述肿瘤及癌旁组织的转录组测序数据鉴定环状rna;37、从所鉴定的环状rna中筛选出肿瘤特异性环状rna数据;38、鉴定肿瘤特异性环状rna数据的人类白细胞抗原呈递多肽;39、基于蛋白质组学数据以及所述人类白细胞抗原呈递多肽与人类白细胞抗原分型的结合亲和力获得候选的环状rna来源新抗原。40、本发明还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现上述的一种基于多组学数据识别非经典肿瘤新抗原的方法中的步骤。41、本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的一种基于多组学数据识别非经典肿瘤新抗原的方法中的步骤。42、根据本发明提供的具体实施例,本发明公开了以下技术效果:43、本发明提供了一种基于多组学数据识别非经典肿瘤新抗原的装置与方法,与现有技术相比,本发明整合了基因组、转录组和蛋白质组等多组学数据,所提出的装置和方法在rna类型上同时考虑了线性rna和环状rna来源的非规范翻译orf产生的新抗原,能够更全面、准确地预测非经典来源的新抗原,这对于扩展肿瘤新抗原筛选范围具有重要意义,有助于进一步筛选到具有更强免疫原性的肿瘤新抗原靶标。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1