基于分段标注的肿瘤免疫靶点确定方法与流程

文档序号:34006309发布日期:2023-04-29 20:37阅读:39来源:国知局
基于分段标注的肿瘤免疫靶点确定方法与流程

本技术涉及计算生物领域领域,且更为具体地,涉及一种基于分段标注的肿瘤免疫靶点确定方法。


背景技术:

0、技术背景

1、近年来,随着抗体制备等相关技术的成熟,免疫肿瘤(immuno-oncology, i-o)治疗发展迅速,已经成为继手术、放疗、化疗、靶向治疗后癌症的另一有效治疗手段。i-o治疗的目标是启动或重启患者的癌症-肿瘤循环,放大免疫效应,但不造成无限制的自身免疫应答。最有效的i-o治疗方案可能是选择性针对每例患者的限速步骤进行治疗。

2、在对患者进行治疗时,前提条件是在基因层面确定肿瘤免疫靶点,也就是,在分子层面确定细胞的基因序列中的肿瘤免疫靶点。传统的方法是通过大量的临床试验来进行肿瘤免疫靶点确定,但这种方法不仅耗时耗力,而且会耗费巨量的经济成本,一般消费者无法承受。

3、近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。此外,深度学习以及神经网络在图像分类、物体检测、语义分割、文本翻译等领域,也展现出了接近甚至超越人类的水平。

4、深度学习以及神经网络的发展为肿瘤免疫靶点确定提供了新的解决思路和方案。


技术实现思路

1、为了解决上述技术问题,提出了本技术。本技术的实施例提供了一种基于分段标注的肿瘤免疫靶点确定方法,其通过基于自然语义理解的人工智能模型,将基因序列看作为文本序列,通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率,以确定基因序列中的肿瘤免疫靶点。

2、根据本技术的一个方面,提供了一种基于分段标注的肿瘤免疫靶点确定方法,其包括:

3、获取待确定肿瘤免疫靶点的基因序列;

4、将所述基因序列划分为多个分段以获得多个基因读段数据;

5、将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量;

6、分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量;

7、计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵;

8、将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵;

9、将所述多个校正后基因读段特征向量排列为基因读段特征矩阵;

10、将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵;

11、将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量;以及

12、将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。

13、在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量,包括:分别将所述多个基因读段数据中的atcg碱基序列进行独热编码,以将所述多个基因读段数据中的atcg碱基序列分别转化为输入向量以获得输入向量的序列;以及,使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。

14、在上述基于分段标注的肿瘤免疫靶点确定方法中,所述分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量,包括:以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量;其中,所述公式为:

15、

16、其中,表示所述多个基因读段特征向量中各个基因读段特征向量,和分别表示所述多个基因读段特征向量中各个基因读段特征向量的均值和方差,且是所述多个基因读段特征向量中各个基因读段特征向量的长度,是以2为底的对数,且是权重超参数。

17、在上述基于分段标注的肿瘤免疫靶点确定方法中,所述计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵,包括:以如下公式来计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到多个余弦相似性;其中,所述公式为:

18、

19、其中分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量,分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量的各个位置的特征值,表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量之间的余弦相似性;以及,将所述多个余弦相似性进行二维排列以得到所述余弦相似性矩阵。

20、在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵,包括:使用所述卷积神经网络的各层在层的正向传递中分别对输入数据进行:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的全局均值池化以得到池化特征矩阵;以及,对所述池化特征矩阵进行非线性激活处理以得到激活特征矩阵;其中,所述深度卷积神经网络的最后一层的输出为所述余弦相似性特征矩阵。

21、在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量,包括:将所述基因语义拓扑特征矩阵进行基于行向量或列向量的拆分以得到所述多个基因语义拓扑特征向量。

22、在上述基于分段标注的肿瘤免疫靶点确定方法中,所述将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,包括:使用所述分类器以如下公式对所述基因语义拓扑特征向量进行处理以获得所述分类结果,其中,所述公式为:

23、

24、其中,到为权重矩阵,到为偏置向量,为所述基因语义拓扑特征向量。

25、根据本技术的另一方面,提供了一种基于分段标注的肿瘤免疫靶点确定系统,包括:

26、基因序列获取单元,用于获取待确定肿瘤免疫靶点的基因序列;

27、分段单元,用于将所述基因序列划分为多个分段以获得多个基因读段数据;

28、全局特征提取单元,用于将所述多个基因读段数据输入基于转换器的上下文编码器以得到多个基因读段特征向量;

29、特征值校正单元,用于分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到多个校正后基因读段特征向量;

30、余弦相似性矩阵生成单元,用于计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到与所述多个校正后基因读段特征向量对应的余弦相似性矩阵;

31、余弦相似性特征矩阵生成单元,用于将所述余弦相似性矩阵通过作为特征提取器的卷积神经网络以得到余弦相似性特征矩阵;

32、节点排列单元,用于将所述多个校正后基因读段特征向量排列为基因读段特征矩阵;

33、基因语义拓扑特征矩阵生成单元,用于将所述余弦相似性特征矩阵与所述基因读段特征矩阵通过图神经网络以获得基因语义拓扑特征矩阵;

34、基因语义拓扑特征向量拆分单元,用于将所述基因语义拓扑特征矩阵拆分为与所述基因读段特征向量具有相同维度的多个基因语义拓扑特征向量;以及

35、肿瘤免疫靶点分类单元,用于将每个所述基因语义拓扑特征向量通过分类器以获得分类结果,所述分类结果表示所述基因语义拓扑特征向量对应的基因读段数据属于肿瘤免疫靶点的概率值。

36、在上述基于分段标注的肿瘤免疫靶点确定系统中,所述全局特征提取单元,进一步用于:分别将所述多个基因读段数据中的atcg碱基序列进行独热编码,以将所述多个基因读段数据中的atcg碱基序列分别转化为输入向量以获得输入向量的序列;以及,使用所述基于转换器的上下文编码器的转换器对所述输入向量的序列进行基于全局的上下文语义编码以获得所述多个基因读段特征向量。

37、在上述基于分段标注的肿瘤免疫靶点确定系统中,所述特征值校正单元,进一步用于:以如下公式分别对所述多个基因读段特征向量中各个基因读段特征向量进行特征值校正以得到所述多个校正后基因读段特征向量;其中,所述公式为:

38、

39、其中,表示所述多个基因读段特征向量中各个基因读段特征向量,和分别表示所述多个基因读段特征向量中各个基因读段特征向量的均值和方差,且是所述多个基因读段特征向量中各个基因读段特征向量的长度,是以2为底的对数,且是权重超参数。

40、在上述基于分段标注的肿瘤免疫靶点确定系统中,所述余弦相似性矩阵生成单元,进一步用于:以如下公式来计算每两个所述校正后基因读段特征向量之间的余弦相似性以得到多个余弦相似性;其中,所述公式为:

41、

42、其中分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量,分别表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量的各个位置的特征值,表示所述多个校正后基因读段特征向量中每两个所述校正后基因读段特征向量之间的余弦相似性;以及,将所述多个余弦相似性进行二维排列以得到所述余弦相似性矩阵。

43、在上述基于分段标注的肿瘤免疫靶点确定系统中,所述余弦相似性特征矩阵生成单元,进一步用于:使用所述卷积神经网络的各层在层的正向传递中分别对输入数据进行:对所述输入数据进行卷积处理以得到卷积特征图;对所述卷积特征图进行沿通道维度的全局均值池化以得到池化特征矩阵;以及,对所述池化特征矩阵进行非线性激活处理以得到激活特征矩阵;其中,所述深度卷积神经网络的最后一层的输出为所述余弦相似性特征矩阵。

44、在上述基于分段标注的肿瘤免疫靶点确定系统中,所述基因语义拓扑特征向量拆分单元,进一步用于:将所述基因语义拓扑特征矩阵进行基于行向量或列向量的拆分以得到所述多个基因语义拓扑特征向量。

45、在上述基于分段标注的肿瘤免疫靶点确定系统中,所述肿瘤免疫靶点分类单元,进一步用于:使用所述分类器以如下公式对所述基因语义拓扑特征向量进行处理以获得所述分类结果,其中,所述公式为:

46、

47、其中,到为权重矩阵,到为偏置向量,为所述基因语义拓扑特征向量。

48、根据本技术的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的基于分段标注的肿瘤免疫靶点确定系统方法。

49、根据本技术的又一方面,提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的基于分段标注的肿瘤免疫靶点确定系统方法。

50、与现有技术相比,本技术提供的基于分段标注的肿瘤免疫靶点确定方法,其通过基于自然语义理解的人工智能模型,将基因序列看作为文本序列,通过对其分段标注来确定每个基因读段属于肿瘤免疫靶点的概率,以确定基因序列中的肿瘤免疫靶点。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1