风险人群的预测方法、装置、终端设备及存储介质与流程

文档序号:26752238发布日期:2021-09-25 02:51阅读:102来源:国知局
风险人群的预测方法、装置、终端设备及存储介质与流程

1.本技术涉及人工智能技术领域,尤其涉及一种风险人群的预测方法、风险人群的预测装置、终端设备及计算机可读存储介质。


背景技术:

2.癌症是一种侵袭性疾病,治疗过程漫长且成本高昂,但大部分的治疗仅能够增加患者从诊断到死亡的存活时间。疾病都讲究“早发现早治疗”,对于癌症来说,也不例外。其中癌症风险人群的预测作为一项重要手段,能够提供有效信息,辅助医生进行诊断。
3.目前关于癌症风险人群的预测模型的研究层出不穷,但大部分预测模型对高风险人群预测的准确率较低,难以起到对高风险人群的提醒作用。


技术实现要素:

4.有鉴于此,本技术实施例提供了一种风险人群的预测方法、风险人群的预测装置、终端设备及计算机可读存储介质,能够提升高风险人群的预测准确率,帮助实现对高风险人群的及时提醒。
5.本技术实施例的第一方面提供了一种风险人群的预测方法,包括:
6.获取待测数据,上述待测数据为待测用户的基因表达谱数据;
7.将上述待测数据输入已训练的多任务预测模型进行预测,得到预测结果,上述预测结果用于指示上述待测用户属于风险人群的概率;
8.其中,上述已训练的多任务预测模型通过以下步骤训练而得:
9.获取至少两种癌症的训练样本,上述训练样本为各个癌症的基因表达谱数据;
10.将每种癌症的训练样本输入待训练的多任务预测模型的输入层进行预处理;
11.利用上述待训练的多任务预测模型的共享层对预处理后的每种癌症的训练样本进行卷积操作和自注意力操作,得到每种癌症的训练样本向量;
12.将每种癌症的训练样本向量输入上述待训练的多任务预测模型的特定任务层进行预测,得到每种癌症的训练预测结果;
13.根据每种癌症的训练预测结果对上述待训练的多任务预测模型进行优化,得到上述已训练的多任务预测模型。
14.第一获取模块,用于获取待测数据,上述待测数据为待测用户的基因表达谱数据;
15.预测模块,用于将上述待测数据输入已训练的多任务预测模型进行预测,得到预测结果,上述预测结果用于指示上述待测用户属于风险人群的概率;
16.第二获取模块,用于获取至少两种癌症的训练样本,上述训练样本为各个癌症的基因表达谱数据;
17.训练预处理模块,用于将每种癌症的训练样本输入待训练的多任务预测模型的输入层进行预处理;
18.训练样本处理模块,用于利用上述待训练的多任务预测模型的共享层对预处理后
的每种癌症的训练样本进行卷积操作和自注意力操作,得到每种癌症的训练样本向量;
19.训练预测模块,用于将每种癌症的训练样本向量输入上述待训练的多任务预测模型的特定任务层进行预测,得到每种癌症的训练预测结果;
20.模型优化模块,用于根据每种癌症的训练预测结果对上述待训练的多任务预测模型进行优化,得到上述已训练的多任务预测模型。
21.本技术实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在上述存储器中并可在终端设备上运行的计算机程序,上述处理器执行上述计算机程序时实现第一方面提供的风险人群的预测方法的各步骤。
22.本技术实施例的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现第一方面提供的风险人群的预测方法的各步骤。
23.实施本技术实施例提供的一种风险人群的预测方法、风险人群的预测装置、终端设备及计算机可读存储介质具有以下有益效果:
24.通过先获取不少于两种癌症的训练样本,然后利用该训练样本对预先搭建的多任务预测模型进行训练,得到已训练的多任务预测模型。该训练过程是基于多任务深度学习进行的,即使是小规模的训练样本也能够提供更多癌症领域的共享信息。因此训练完成的多任务预测模型能够学习不同癌症的特征之间的交互关系,以增强每种癌症风险人群的分类性能。最后基于已训练的多任务预测模型基于待测数据预测待测用户是否为某一癌症的风险人群,能够提高风险人群预测结果的准确性,为用户提供及时有效的癌症风险预警信息。
附图说明
25.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
26.图1是本技术实施例提供的一种风险人群的预测方法的实现流程图;
27.图2是本技术实施例提供的一种多任务预测模型训练方法的实现流程图;
28.图3是本技术实施例提供的一种卷积操作和自注意力操作的实现流程图;
29.图4是本技术实施例提供的一种风险人群的预测装置的结构框图;
30.图5是本技术实施例提供的一种终端设备的结构框图。
具体实施方式
31.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
32.本技术实施例所涉及的风险人群的预测方法,可以由终端设备,例如笔记本电脑、超级移动个人计算机(ultra

mobile personal computer,umpc)、上网本或个人数字助理(personal digital assistant,pda)执行。
33.本技术实施例涉及的风险人群的预测方法,应用于智慧医疗场景中,从而推动智慧城市的建设。
34.请参阅图1,图1示出了本技术实施例提供的一种风险人群的预测方法的实现流程图。该预测方法包括:
35.步骤101、获取待测数据。
36.在预测用户是否为某一癌症的风险人群之前,需要先获取该用户的基因表达数据,即先获取待测数据。在本技术实施例中,基因表达谱数据可以是mrna表达谱数据,又称二代测序基因表达谱数据。
37.在一个实施例中,基因表达谱数据可以是多模态数据,例如利用影像学、医疗文本以及基因为外在表现形式的多元化数据。多模态数据的应用更贴近现实场景,不仅更容易获得,而且更利于预测模型学习相关癌症的完整特征,提高风险人群预测的准确性。
38.步骤102、将待测数据输入已训练的多任务预测模型进行预测,得到预测结果。
39.在获得待测数据之后,即可将该待测数据输入预先训练完成的多任务预测模型中进行预测,得到预测结果。其中,预测结果用于指示待测用户属于风险人群的概率,该概率能够为用户提供有效的癌症风险预警信息。
40.由上可以看出,本实施例提供的一种风险人群的预测方法,通过已训练的多任务模型对待测数据进行预测有助于提高癌症风险人群预测结果的准确性。为医生和待测用户提供有效的癌症风险预警信息。
41.请参阅图2,图2是本技术实施例提供的一种多任务预测模型训练方法的实现流程图。该训练方法包括:
42.步骤201、获取至少两种癌症的训练样本。
43.多任务预测模型是基于多任务深度学习进行训练的。多任务深度学习是一种归纳迁移的学习机制,通过利用隐含在多个相关任务中的训练信号,确定出特定领域的共享信息,从而提高模型对每个任务分类的精确度。该训练方法能够解决在模型训练过程中,因训练样本不足所带来的模型泛化能力差以及过拟合的问题。为了能够让多任务预测模型学习到癌症领域的共享信息,需要获取不少于两种癌症的基因表达谱数据作为训练样本。
44.步骤202、通过训练样本,对待训练的多任务预测模型进行训练,得到已训练的多任务预测模型。
45.在获得训练样本之后,即可基于该训练样本对多任务预测模型进行训练得到训练完成的多任务预测模型。
46.在一些实施例中,为了能够让多任务预测模型更全面的学习癌症的特征,上述步骤201具体包括:
47.针对每种癌症:
48.a1、获取癌症的多模态数据,多模态数据包括影像数据、电子病历和基因组数据。
49.对于每一种癌症,可以获取该癌症的多模态数据。其中多模态数据包括但不限于影像数据、电子病历和基因组数据,该数据可以从肿瘤基因组图谱(tcga)数据库进行下载。具体地,可以下载指定数量的多模态数据,例如每种癌症下载150例多模态数据。
50.a2、对多模态数据中的每种数据分别进行特征表示,得到多个特征向量。
51.获得的多模态数据中的每种数据,也即影像数据、电子病历和基因组数据,均属于
高维度数据,不利于模型的训练。因此需要对每种数据分别利用特征进行表示,降低样本维度,特征表示后可以得到每种数据对应的特征向量。
52.a3、对多个特征向量进行叠加操作或者串联操作,得到癌症的训练样本。
53.在得到多个特征向量之后,即可对多个特征执行叠加操作或者串联操作,得到一个综合对应癌症各方面特征的向量,该向量即为对应癌症的训练样本。
54.在一些实施例中,为了获得预测准确率较高的多任务预测模型,上述步骤202具体包括:
55.b1、将每种癌症的训练样本输入输入层进行预处理。
56.多任务预测模型包括输入层、共享层和特定任务层。将训练样本输入多任务预测模型中,会先输入到输入层,输入层可以对训练样本进行预处理。之所以需要对训练样本进行预处理,是因为:第一,输入的数据单位可能会不一致,会导致模型的收敛速度慢,训练时间长;第二,数据范围大的数据在模型分类过程中的作用可能偏大,而数据范围小的作用可能会偏小,对模型的预测造成干扰。基于以上两个原因进行训练样本的预处理操作,具体地,预处理操作可以包括数据标准化及数据归一化等处理操作。
57.需要注意的是,在本技术实施例中,输入层可以包括至少两个输入单元,每个输入单元对应接收一种癌症的训练样本。即两种以上癌症的样本是并列输入,有别于现有技术中将多个癌症的训练样本作为一个整体的数据集进行输入。本技术的预测方法能够让多任务预测模型学习到各个癌症的特征之间的相互作用,确定出癌症领域的共享信息。
58.b2、利用共享层对预处理后的每种癌症的训练样本进行卷积操作和自注意力操作,得到每种癌症的训练样本向量。
59.在对训练样本执行预处理之后,可以利用共享层学习各个训练样本之间特征的相互作用,以获得癌症领域的共享信息。具体地利用共享层对预处理后的每种癌症的训练样本分别进行卷积操作和自注意力操作。
60.在一些实施例中,卷积操作和自注意力操作的过程可以参阅图3,即上述步骤b2具体包括:
61.b21、分别对每个训练样本执行第一卷积操作,得到每个训练样本的第一向量;
62.先对每个训练样本都执行第一卷积操作(即为图3中的f
c
),训练样本是高维的基因序列表达特征向量或训练样本向量,可以通过指定维度的卷积核将高维输入映射为稠密(dense)向量,以实现降维。其中卷积核大小可以为1维。
63.b22、对每个训练样本的第一向量分别执行第二卷积操作、第三卷积操作以及第四卷积操作,得到每个训练样本的第二向量、第三向量以及第四向量。
64.在利用共享层学习各个训练样本的特征的交互作用之前,先对每个样本的第一向量分别执行三次卷积操作(分别为图3中的f
cq
,f
ck
,f
cv
),得到每个训练样本的第二向量、第三向量以及第四向量。参阅图3,以第一训练样本x1为例,其第二向量为q1,第三向量为k1,第四向量为v1,其它训练样本以此类推。其中,三次卷积操作之间的参数有所不同,具体设置可以根据实际需要进行调整。
65.b23、针对每个训练样本:
66.b231、将训练样本的第二向量分别与各个训练样本的第三向量做点积运算,得到至少两个点积值;
67.b231、分别对每个点积值执行softmax操作,得到每个点积值的分布概率;
68.b231、将每个分布概率作为权重对各个训练样本的第四向量进行加权平均运算,得到训练样本的训练样本向量。
69.针对每个训练样本,对其执行的自注意力操作。为了便于理解,以第一训练样本x1为例:在得到q1之后,通过将q1分别与k1、k2…
k
n
做点积运算,得到n个点积值。其中n与癌症数量相对应,如果获取的是两种癌症的训练样本,那么n为2。得到n个点积值之后,分别对每个点积值执行softmax操作,得到每个点积值的分布概率w。由于有n个点积值,那么执行softmax操作之后,即可获得n个分布概率:w1、w2…
w
n
。得到分布概率之后,将n个分布概率作为权重,为所有训练样本的第三向量v1、v2…
v
n
进行一一对应的加权操作。即w1为v1的权重,w2为v2的权重,

,w
n
为v
n
的权重,最后计算加权后的所有训练样本的第三向量的平均值,作为第一训练样本x1在共享层的输出,即第一训练样本向量z1。通过该方法输出的z1,可以学习到q1与其他任务的特征之间的交互关系。对于剩余训练样本x2、x3…
x
n
,以此类推,执行和第一训练样本x1同样的操作,即可获得所有训练样本对应的训练样本向量,由此实现模型对癌症风险人群的分类性能的显著提升。
70.需要注意的是,上述预测方法阐述的是单头的自注意力操作,同样也可以采用多头的注意力操作。在进行第二卷积操作、第三卷积操作以及第四卷及操作的时候,选取不同的卷积和大小得到头部,其余部分transformer结构相同,在此不再赘述。
71.b3、将每种癌症的训练样本向量输入特定任务层进行预测,得到每种癌症的训练预测结果。
72.在得到每种癌症的训练样本向量之后,即可将其输入到多任务模型的特定任务层进行预测。其中,特定任务层包括多个任务预测单元,一个训练样本向量输入一个任务预测单元中进行预测,分别得到每种癌症的训练预测结果。
73.b4、根据每种癌症的训练预测结果对待训练的多任务预测模型进行优化,得到已训练的多任务预测模型。
74.在得到每种癌症的训练预测结果之后,即可根据该训练预测结果对待训练的多任务预测模型进行优化,以得到训练完成的多任务预测模型。
75.在一个实施例中,待训练的多任务模型的优化过程如下:
76.c1、根据每种癌症的训练预测结果计算预测损失值的平均值;
77.c2、判断平均值是否小于设定阈值:
78.c3、若平均值小于设定阈值,则停止训练,得到已训练的多任务预测模型;
79.c4、若平均值大于或等于设定阈值,则返回执行将每种癌症的训练样本输入输入层进行预处理的步骤及其后续步骤,直至平均值小于设定阈值,停止训练,得到已训练的多任务预测模型。
80.每个任务预测单元对应输出一种癌症的训练预测结果。在得到每种癌症所对应的训练预测结果之后,可以计算出这些训练预测结果各自的预测损失值,并求取预测损失值的平均值,将该平均值作为训练误差。当训练误差小于设定阈值时,则说明多任务预测模型已经收敛,也即多任务训练模型已经训练完成。但是,如果训练误差还没有小到可以认为多任务预测模型已经收敛的程度,则需要进一步对模型进行训练,也即返回执行步骤b1及其后续步骤,直到该多任务训练模型收敛,得到训练完成的多任务训练模型为止,结束训练。
81.需要注意的是,本技术的预测方法具备通用性,不单可用于癌症风险人群的分类任务,还使得基于广义上的采用多组学、多模态特征的疾病预后、生存分析预测成为应用方向。多组学、多模态数据往往包含众多数据源以及数据类型(包含高通量分子化验结果、影像学、病理诊断以及电子病历档案等),尤其是高通量的测序数据,特征维度远大于样本数量,面临维数灾难的挑战。在整合多模态数据时,进行简单的特征拼接进一步加剧维数灾难,需要对每一种类型的数据特征分别进行降维,极度依赖为具体任务特殊设计的特征筛选过程。因此,模型无法高效且有效地在异构数据上进行学习。
82.而在本技术实施例中,通过多任务深度学习的方式对多任务预测模型进行训练,可以解决单个任务样本的不足所带来的模型过拟合以及预测结果不准确的问题,并能够减少特征空间高维带来的不利影响。其中,将至少两种癌症的基因表达谱数据作为训练样本并行输入,利用模型的共享层实现不同任务之间的信息共享,即使对于小规模的训练样本数据,也能够提取出更多的癌症领域内的共享信息,以增强每种癌症风险人群的分类性能,并提高模型的泛化能力。该多任务预测模型不仅可以同时对不同癌症的小规模数据集进行分类,而且可以采用密切相关的数据集来帮助学习更好的表现形式并提高分类性能。
83.在一些实施例中,上述预测方法还包括:
84.将上述待测数据、预测结果和/或已训练的多任务预测模型上传至区块链(blockchain)中。
85.其中,为了保证数据的安全性和对用户的公正透明性,可以将各个待测数据、预测结果和/或已训练的多任务预测模型上传至区块链进行存证。用户随后即可通过各自的设备从区块链中下载获得待测数据、预测结果和/或已训练的多任务预测模型,以便查证这些数据是否被篡改。本实施例所指区块链是采用分布式数据存储、点对点传输、共识机制及加密算法等计算机技术的新型应用模式。区块链,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
86.此外,本技术实施例还提供了一种风险人群的预测装置。
87.请参阅图4,图4是本技术实施例提供的一种风险人群的预测装置的结构框图。本实施例中该终端设备包括的各单元用于执行图1至图3对应的实施例中的各步骤。具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图4,风险人群的预测装置40包括:
88.第一获取模块41,用于获取待测数据,待测数据为待测用户的基因表达谱数据;
89.预测模块42,用于将待测数据输入已训练的多任务预测模型进行预测,得到预测结果,预测结果用于指示待测用户属于风险人群的概率;
90.第二获取模块,用于获取至少两种癌症的训练样本,训练样本为各个癌症的基因表达谱数据;
91.训练预处理模块,用于将每种癌症的训练样本输入待训练的多任务预测模型的输入层进行预处理;
92.训练样本处理模块,用于利用待训练的多任务预测模型的共享层对预处理后的每种癌症的训练样本进行卷积操作和自注意力操作,得到每种癌症的训练样本向量;
93.训练预测模块,用于将每种癌症的训练样本向量输入待训练的多任务预测模型的特定任务层进行预测,得到每种癌症的训练预测结果;
94.模型优化模块,用于根据每种癌症的训练预测结果对待训练的多任务预测模型进行优化,得到已训练的多任务预测模型。
95.作为本技术一实施例,训练样本处理模块可以包括:
96.第一处理单元,用于分别对每个训练样本执行第一卷积操作,得到每个训练样本的第一向量;
97.第二处理单元,用于对每个训练样本的第一向量分别执行第二卷积操作、第三卷积操作以及第四卷积操作,得到每个训练样本的第二向量、第三向量以及第四向量;
98.第三处理单元,用于针对每个训练样本:
99.将训练样本的第二向量分别与各个训练样本的第三向量做点积运算,得到至少两个点积值;
100.分别对每个点积值执行softmax操作,得到每个点积值的分布概率;
101.将每个分布概率作为权重对各个训练样本的第四向量进行加权平均运算,得到训练样本的训练样本向量。
102.作为本技术一实施例,模型优化模块可以包括:
103.预测损失值计算单元,用于根据每种癌症的训练预测结果计算预测损失值的平均值;
104.模型优化单元,用于判断平均值是否小于设定阈值:
105.若平均值小于设定阈值,则停止训练,得到已训练的多任务预测模型;
106.若平均值大于或等于设定阈值,则再次触发训练预处理单元的执行,直至平均值小于设定阈值,停止训练,得到已训练的多任务预测模型。
107.作为本技术一实施例,第一获取模块可以包括:
108.第一获取单元,用于针对每种癌症,获取癌症的多模态数据,多模态数据包括影像数据、电子病历和基因组数据;
109.特征表示单元,用于对多模态数据中的每种数据分别进行特征表示,得到多个特征向量;
110.向量组合单元,用于对多个特征向量进行叠加操作或者串联操作,得到癌症的训练样本。
111.作为本技术一实施例,上述预测模型可以包括:
112.数据上传模块,用于在将待测数据输入已训练的多任务预测模型进行预测,得到预测结果之后,将待测数据和/或预测结果和/或已训练的多任务预测模型上传至区块链中。
113.应当理解的是,图4示出的风险人群的预测装置的结构框图中,各单元用于执行图1至图3对应的实施例中的各步骤,而对于图1至图3对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1至图3以及图1至图3所对应的实施例中的相关描述,此处不再赘述。
114.图5是本技术另一实施例提供的一种终端设备的结构框图。如图5所示,该实施例的终端设备50包括:处理器51、存储器52以及存储在上述存储器52中并可在上述处理器51
上运行的计算机程序53,例如风险人群的预测方法的程序。处理器51执行上述计算机程序53时实现上述各个风险人群的预测方法各实施例中的步骤,例如图1所示的101至102,或者图2所示的201至202。或者,所述处理器51执行所述计算机程序53时实现上述图4对应的实施例中各单元的功能,例如,图4所示的单元41至42的功能,具体请参阅图4对应的实施例中的相关描述,此处不赘述。
115.示例性的,所述计算机程序53可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器52中,并由所述处理器51执行,以完成本技术。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序53在所述终端50中的执行过程。例如,所述计算机程序53可以被分割成数据获取模块和预测模块,各模块具体功能如上所述。
116.所述转台设备可包括,但不仅限于,处理器51、存储器52。本领域技术人员可以理解,图5仅仅是终端设备50的示例,并不构成对终端设备50的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述转台设备还可以包括输入输出设备、网络接入设备、总线等。
117.所称处理器51可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field

programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
118.所述存储器52可以是所述终端设备50的内部存储单元,例如终端设备50的硬盘或内存。所述存储器52也可以是所述终端设备50的外部存储设备,例如所述终端设备50上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,所述存储器52还可以既包括所述终端设备50的内部存储单元也包括外部存储设备。所述存储器52用于存储所述计算机程序以及所述转台设备所需的其他程序和数据。所述存储器52还可以用于暂时地存储已经输出或者将要输出的数据。
119.以上所述实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1