数据的分析方法和装置、存储介质及处理器与流程

文档序号:32403697发布日期:2022-12-02 19:52阅读:53来源:国知局
数据的分析方法和装置、存储介质及处理器与流程

1.本技术涉及人工智能技术领域,具体而言,涉及一种数据的分析方法和装置、存储介质及处理器。


背景技术:

2.随着我国老龄化程度逐年提高,进行疾病风险预测是非常重要的。疾病风险预测是人工智能和医学结合产生的。随着机器学习技术的发展和应用,基于机器学习的方法逐渐成为主流方法,但是相关技术中的神经网络模型是通过个人的历史病历数据进行训练得到,没有重复考虑到群体属性的问题,并且现有的神经网络模型仅仅通过病历中的疾病的特征信息对病例标签进行预测,导致得到的预测概率值的准确度不是很高,并较难预估某一病历的疾病风险。
3.针对上述相关技术中神经网络模型通过病历中的特征信息进行病例标签预测的准确度比较低的问题,目前尚未提出有效的解决方案。


技术实现要素:

4.本技术实施例提供了一种数据的分析方法和装置、存储介质及处理器,以至少解决相关技术中神经网络模型通过病历中的特征信息进行病例标签预测的准确度比较低的技术问题。
5.根据本技术实施例的一个方面,提供了一种数据的分析方法,包括:从目标对象的目标病历中获取第一数据信息,其中,所述第一数据信息中至少包括:第一属性信息和第一就诊信息;通过目标预测模型中的特征嵌入模块对所述第一属性信息和所述第一就诊信息进行映射处理,得到第一目标向量序列;通过所述目标预测模型中的多头自注意力模块对所述第一目标向量序列进行时序编码,得到第二目标向量序列;依据所述第二目标向量序列,得到所述目标病历对应的目标信息,其中,所述目标信息中至少包括:第一目标病例标签及所述第一目标病例标签的概率值。
6.进一步地,通过所述目标预测模型中的特征嵌入模块对所述第一属性信息和所述第一就诊信息进行映射,得到第一目标向量序列包括:基于目标存储区域中存储的诊断数据信息,随机生成预设维度的第一向量集;依据所述第一向量集将所述目标病历中除就诊日期之外的第一就诊信息映射为第一初始向量序列;通过绝对时间对日期进行编码,得到第二向量集;依据所述第二向量集将所述就诊日期映射为第二初始向量序列;基于所述目标存储区域存储的属性信息,随机生成所述预设维度的第三向量集;依据所述第三向量集将所述第一属性信息映射为第三初始向量序列;将所述第一初始向量序列、所述第二初始向量序列和所述第三初始向量序列进行拼接,得到所述第一目标向量序列。
7.进一步地,依据所述第二目标向量序列,得到所述目标病历对应的目标信息包括:通过所述第二目标向量序列进行预测,得到初始信息,其中,所述初始信息由多个初始病例标签及所述初始病例标签的概率值组成;将概率值符合预设要求的初始病例标签作为所述
第一目标病例标签;将所述第一目标病例标签和所述第一目标病例标签的概率值作为所述目标信息。
8.进一步地,在得到所述初始信息之后,所述方法还包括:若所述初始病例标签的概率值均不符合所述预设要求,则所述目标预测模型输出第一预设提示。
9.进一步地,在依据所述第二目标向量序列,得到所述目标病历对应的目标信息之后,所述方法还包括:从第一目标向量序列中选取每个第一目标病例标签对应的向量序列,得到多个第三目标向量序列;依据第二目标向量序列和所述第三目标向量序列,通过所述目标预测模型预测所述每个第一目标病例标签的时间信息,得到多个预测时间。
10.进一步地,所述目标预测模型通过以下步骤训练得到:确定样本病历;获取所述样本病历的第二数据信息对应的第四目标向量序列,其中,所述第二数据信息中至少包括:第二属性信息和第二就诊信息;获取历史医疗数据信息,其中,所述历史医疗数据信息至少包括一个病历集合;从所述历史医疗数据信息中统计得到第一目标群体的病历集合中出现预设的各类病例标签的概率值,其中,所述第一目标群体是所述样本病历中病例所对应的病例群体;依据所述第四目标向量序列,计算得到所述样本病历中的历史就诊时间间隔;依据所述第四目标向量序列的数量构造蒙版,并依据所述蒙版对所述第四目标序列进行遮挡处理,得到处理后的第四目标向量序列;将所述处理后的第四向量目标序列、所述第一目标群体的病历集合中出现预设的各类病例标签的概率值和所述历史就诊时间间隔作为训练集,并依据所述训练集对初始预测模型进行训练,生成所述目标预测模型。
11.进一步地,依据所述训练集对初始预测模型进行训练,生成所述目标预测模型包括:将所述训练集输入到所述初始预测模型中,得到预设的各类病例标签的预测概率值和出现所述各类病例标签的时间信息;依据每个预测概率值和所述第一目标群体的病历集合中出现预设的各类病例标签的概率值进行损失计算,得到第一预测损失函数;依据出现所述各类病例标签的时间信息和所述历史就诊时间间隔进行损失计算,得到第二预测损失函数;将所述第一预测损失函数和所述第二预测损失函数作为目标损失函数;依据所述目标损失函数对所述初始预测模型进行训练,得到所述目标预测模型。
12.进一步地,在依据所述第二目标向量序列,得到所述目标病历对应的目标信息之后,所述方法还包括:通过所述目标病历对应的目标信息,对第二目标群体的病例标签及病例标签的概率值进行预测,得到预测结果,其中,所述第二目标群体是所述目标病历中病例所对应的病例群体。
13.进一步地,在依据所述第二目标向量序列,得到所述目标病历对应的目标信息之后,所述方法还包括:依据所述目标病历的每个第一目标病例标签的概率值对所述第一目标病例标签进行随机选择,得到第二目标病例标签;将从所述第一目标向量序列得到的所述第二目标病例标签对应的向量序列输入所述目标预测模型进行时间预测,得到所述第二目标病例标签的时间信息;依据所述第二目标病例标签和所述第二目标病例标签的时间信息对所述第二目标向量序列进行更新,得到更新后的第二目标向量序列,并继续执行通过所述目标预测模型对所述更新后的第二目标向量序列进行处理,直至所述目标预测模型输出第二预设提示,或者所述目标预测模型输出的时间信息大于预设时间限制,其中,第二预设提示用于表征所述目标病历中不存在所述目标预测模型当前预测出的病例标签。
14.根据本技术实施例的另一方面,还提供了一种数据的分析方法,包括:获取客户端
发送的从目标对象的目标病历中获取的第一数据信息,其中,所述第一数据信息中至少包括:第一属性信息和第一就诊信息;在云服务器中通过目标预测模型中的特征嵌入模块对所述第一属性信息和所述第一就诊信息进行映射处理,得到第一目标向量序列;通过所述目标预测模型中的多头自注意力模块对所述第一目标向量序列进行时序编码,得到第二目标向量序列;依据所述第二目标向量序列,得到所述目标病历对应的目标信息,其中,所述目标信息中至少包括:第一目标病例标签及所述第一目标病例标签的概率值;将所述目标信息返回至所述客户端。
15.根据本技术实施例的另一方面,还提供了一种数据的分析装置,包括:第一获取单元,用于从目标对象的目标病历中获取第一数据信息,其中,所述第一数据信息中至少包括:第一属性信息和第一就诊信息;映射单元,用于通过目标预测模型中的特征嵌入模块对所述第一属性信息和所述第一就诊信息进行映射处理,得到第一目标向量序列;编码单元,用于通过所述目标预测模型中的多头自注意力模块对所述第一目标向量序列进行时序编码,得到第二目标向量序列;分析单元,用于依据所述第二目标向量序列,得到所述目标病历对应的目标信息,其中,所述目标信息中至少包括:第一目标病例标签及所述第一目标病例标签的概率值。
16.进一步地,所述映射单元包括:第一生成模块,用于基于目标存储区域中存储的诊断数据信息,随机生成预设维度的第一向量集;第一映射模块,用于依据所述第一向量集将所述目标病历中除就诊日期之外的第一就诊信息映射为第一初始向量序列;编码模块,用于通过绝对时间对日期进行编码,得到第二向量集;第二映射模块,用于依据所述第二向量集将所述就诊日期映射为第二初始向量序列;第二生成模块,用于基于所述目标存储区域存储的属性信息,随机生成所述预设维度的第三向量集;第三映射模块,用于依据所述第三向量集将所述第一属性信息映射为第三初始向量序列;拼接模块,用于将所述第一初始向量序列、所述第二初始向量序列和所述第三初始向量序列进行拼接,得到所述第一目标向量序列。
17.进一步地,所述分析单元包括:预测模块,用于通过所述第二目标向量序列进行预测,得到初始信息,其中,所述初始信息由多个初始病例标签及所述初始病例标签的概率值组成;第一确定模块,用于将概率值符合预设要求的初始病例标签作为所述第一目标病例标签;第二确定模块,用于将所述第一目标病例标签和所述第一目标病例标签的概率值作为所述目标信息。
18.进一步地,所述装置还包括:输出单元,用于在得到所述初始信息之后,若所述初始病例标签的概率值均不符合所述预设要求,则所述目标预测模型输出第一预设提示。
19.进一步地,所述装置还包括:选取单元,用于在依据所述第二目标向量序列,得到所述目标病历对应的目标信息之后,从第一目标向量序列中选取每个第一目标病例标签对应的向量序列,得到多个第三目标向量序列;第一预测单元,用于依据第二目标向量序列和所述第三目标向量序列,通过所述目标预测模型预测所述每个第一目标病例标签的时间信息,得到多个预测时间。
20.进一步地,所述目标预测模型通过以下步骤训练得到:确定单元,用于确定样本病历;第二获取单元,用于获取所述样本病历的第二数据信息对应的第四目标向量序列,其中,所述第二数据信息中至少包括:第二属性信息和第二就诊信息;第三获取单元,用于获
取历史医疗数据信息,其中,所述历史医疗数据信息至少包括一个病历集合;从所述历史医疗数据信息中统计得到第一目标群体的病历集合中出现预设的各类病例标签的概率值,其中,所述第一目标群体是所述样本病历中病例所对应的病例群体;计算单元,用于依据所述第四目标向量序列,计算得到所述样本病历中的历史就诊时间间隔;构造单元,用于依据所述第四目标向量序列的数量构造蒙版,并依据所述蒙版对所述第四目标序列进行遮挡处理,得到处理后的第四目标向量序列;训练单元,用于将所述处理后的第四向量目标序列、所述第一目标群体的病历集合中出现预设的各类病例标签的概率值和所述历史就诊时间间隔作为训练集,并依据所述训练集对初始预测模型进行训练,生成所述目标预测模型。
21.进一步地,所述训练单元包括:输出模块,用于将所述训练集输入到所述初始预测模型中,得到预设的各类病例标签的预测概率值和出现所述各类病例标签的时间信息;第一计算模块,用于依据每个预测概率值和所述第一目标群体的病历集合中出现预设的各类病例标签的概率值进行损失计算,得到第一预测损失函数;第二计算模块,用于依据出现所述各类病例标签的时间信息和所述历史就诊时间间隔进行损失计算,得到第二预测损失函数;第三确定模块,用于将所述第一预测损失函数和所述第二预测损失函数作为目标损失函数;训练模块,用于依据所述目标损失函数对所述初始预测模型进行训练,得到所述目标预测模型。
22.进一步地,所述装置还包括:第二预测单元,用于在依据所述第二目标向量序列,得到所述目标病历对应的目标信息之后,通过所述目标病历对应的目标信息,对第二目标群体的病例标签及病例标签的概率值进行预测,得到预测结果,其中,所述第二目标群体是所述目标病历中病例所对应的病例群体。
23.进一步地,所述装置还包括:选择单元,用于在依据所述第二目标向量序列,得到所述目标病历对应的目标信息之后,依据所述目标病历的每个第一目标病例标签的概率值对所述第一目标病例标签进行随机选择,得到第二目标病例标签;第三预测单元,用于将从所述第一目标向量序列得到的所述第二目标病例标签对应的向量序列输入所述目标预测模型进行时间预测,得到所述第二目标病例标签的时间信息;更新单元,用于依据所述第二目标病例标签和所述第二目标病例标签的时间信息对所述第二目标向量序列进行更新,得到更新后的第二目标向量序列,并继续执行通过所述目标预测模型对所述更新后的第二目标向量序列进行处理,直至所述目标预测模型输出第二预设提示,或者所述目标预测模型输出的时间信息大于预设时间限制,其中,第二预设提示用于表征所述目标病历中不存在所述目标预测模型当前预测出的病例标签。
24.根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述存储介质存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的数据的分析方法。
25.根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述任意一项所述的数据的分析方法。
26.在本技术实施例中,采用以下步骤:从目标病历中获取第一数据信息,其中,所述第一数据信息中至少包括:第一属性信息和第一就诊信息;通过目标预测模型中的特征嵌入模块对所述第一属性信息和所述第一就诊信息进行映射处理,得到第一目标向量序列;通过所述目标预测模型中的多头自注意力模块对所述第一目标向量序列进行时序编码,得
到第二目标向量序列;依据所述第二目标向量序列,得到所述目标病历对应的目标信息,其中,所述目标信息中至少包括:第一目标病例标签及所述第一目标病例标签的概率值,解决了相关技术中神经网络模型通过病历中的特征信息进行病例标签预测的准确度比较低的技术问题。通过目标预测模型中的特征嵌入模块将目标病历中的第一数据信息映射为第一目标向量序列,通过目标预测模型的多头自注意力模块对第一目标向量序列进行时序编码,得到第二目标向量序列,最后利用第二目标向量序列进行病例标签预测,能够准确得到目标病历的各类病例标签的预测概率值,进而达到提高预测的病例标签的准确度的效果。
附图说明
27.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
28.图1是根据本发明实施例一提供的计算机终端的示意图;
29.图2是根据本技术实施例一提供的数据的分析方法的流程图;
30.图3是根据本技术实施例一提供的多头自注意力模块的示意图;
31.图4是根据本技术实施例一提供的特征嵌入模块数据处理的示意图;
32.图5是根据本技术实施例一提供的预测就诊时间的示意图;
33.图6是根据本技术实施例一提供的可选的数据的分析方法的示意图;
34.图7是根据本技术实施例二提供的数据的分析方法的流程图;
35.图8是根据本技术实施例三提供的数据的分析装置的示意图;
36.图9是根据本技术实施例四提供的计算机终端的示意图。
具体实施方式
37.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
38.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
39.首先,在对本技术实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
40.icd-10:国际疾病分类(international classification of diseases,icd),是依据疾病的某些特征,按照规则将疾病分门别类,并用编码的方法来表示的系统。
41.特征嵌入:feature embedding多用于自然语言处理算法,是指将每个词或属性映
射成指定维度的向量的过程。
42.多头自注意力模型:自注意力模型是一种序列特征的深度编码模型,通过计算当前位置与所有其他位置的相对贡献来产生下一层模型的输出。多头自注意力模型由多个自注意力模型的并行和拼接得到的。
43.实施例1
44.根据本技术实施例,还提供了一种数据的分析方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
45.本技术实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据的分析方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括处理器集合102(处理器集合102可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置、以及处理器集合102可以包括处理器集合,图1中采用102a,102b,
……
,102n来示出)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为bus总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
46.应当注意到的是上述处理器集合102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本技术实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
47.存储器104可用于存储应用软件的软件程序以及模块,如本技术实施例中的数据的分析方法对应的程序指令/数据存储装置,处理器集合102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据的分析方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器集合102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
48.传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(network interface controller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(radio frequency,rf)模块,其用于通过无线方式与互联网进行通讯。
49.显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
50.在上述运行环境下,本技术提供了如图2所示的数据的分析方法。图2是根据本申
请实施例1的数据的分析方法的流程图。
51.步骤s201,从目标对象的目标病历中获取第一数据信息,其中,第一数据信息中至少包括:第一属性信息和第一就诊信息。
52.步骤s202,通过目标预测模型中的特征嵌入模块对第一属性信息和第一就诊信息进行映射处理,得到第一目标向量序列。
53.步骤s203,通过目标预测模型中的多头自注意力模块对第一目标向量序列进行时序编码,得到第二目标向量序列。
54.步骤s204,依据第二目标向量序列,得到目标病历对应的目标信息,其中,目标信息中至少包括:第一目标病例标签及第一目标病例标签的概率值。
55.具体地,获取需要进行病例标签预测的目标病历的第一数据信息,第一数据信息中可以包括目标病历中的某一病例的第一属性信息和某一病例的第一就诊信息,其中,第一属性信息可以包括某一病例的性别、年龄、统筹区、医疗保险类型等属性中的一个或多个,就诊数据信息可以包括诊断、手术操作、费用、就诊时长、就诊日期等信息中的一个或多个。一个病历可能有0个或多个就诊数据。
56.然后将上述的第一数据信息输入目标预测模型中,目标预测模型输出目标病历的目标信息,目标信息中至少包括第一目标病例标签及第一目标病例标签的概率值,其中,第一目标病例标签可以指的是某一类型的疾病,例如,高血压、心脏病等。
57.通过目标预测模型中的特征嵌入模块对第一属性信息和第一就诊信息进行映射,得到第一目标向量序列;通过目标预测模型中的多头自注意力模块对第一目标向量序列进行时序编码,得到第二目标向量序列;通过第二目标向量序列对目标病历进行预测,得到目标信息。
58.具体地,得到第一目标向量序列的方法为:通过目标预测模型中的特征嵌入模块将各种类型的数据转化为第一目标向量序列(特征嵌入序列)。得到第二目标向量序列的方法为:通过目标预测模型中的多头自注意力模块对特征嵌入序列(即上述的第一目标向量序列)进行时序编码,得到第二目标向量序列。如图3所示,将第一目标向量序列分别通过三个不同的线性层进行处理,然后通过缩放点乘积注意力进行权重计算,最后经过集中层和线性层得到第二目标向量序列。通过第二目标向量序列对目标病历进行预测,输出目标病历的目标信息(即各类病例标签和对应的概率值)。
59.需要说明的是,在对目标预测模型训练时,是将目标病历中病例对应的病例群体出现各类病例标签的概率值作为真实值的,通过上述的概率值计算得到目标损失函数,然后再通过目标损失函数对目标预测模型进行训练。这样得到的目标预测模型能够充分考虑到目标病历对应的群体属性,并且目标预测模型是根据目标病历中的就诊特征信息得到的具有时间特征信息的第二目标向量序列对发病的可能性进行预测,因此能够提高疾病预测的准确性。
60.通过目标预测模型中的特征嵌入模块将各种类型的数据转化为第一目标向量序列包括以下步骤:基于目标存储区域中存储的诊断数据信息,随机生成预设维度的第一向量集;依据第一向量集将除就诊日期之外的第一就诊信息映射为第一初始向量序列;通过绝对时间对日期进行编码,得到第二向量集;依据第二向量集将就诊日期映射为第二初始向量序列;基于目标存储区域存储的属性信息,随机生成预设维度的第三向量集;依据第三
向量集将第一属性信息映射为第三初始向量序列;将第一初始向量序列、第二初始向量序列和第三初始向量序列进行拼接,得到第一目标向量序列。
61.具体地,将同一类型的数据(例如,均为就诊数据或者为属性数据,如图4所示)中各种数据按照各自的嵌入字典映射成向量,再将得到的向量拼接成该类数据的最终嵌入向量。嵌入字典即为上述的第一向量集、第二向量集和第三向量集。嵌入字典的生成方式为:就诊数据中的就诊日期使用绝对时间编码来得到对应的嵌入字典,其他类型的数据随机产生(对应上述的基于目标存储区域中存储的诊断数据信息,随机生成预设维度的第一向量集、通过绝对时间对日期进行编码,得到第二向量集和基于目标存储区域存储的属性信息,随机生成预设维度的第三向量集)。
62.具体而言,将目标存储区域中存储的诊断数据信息转换为对应的预设维度的向量,得到上述的第一向量集,然后将第一就诊信息与第一向量集进行匹配,得到对应的第一初始向量序列,例如,在第一向量集中的高血压这一疾病对应的向量为第一向量,然后在第一就诊信息中出现的高血压对应匹配的向量为第一向量;同理,将所有的时间转换为绝对时间对应的向量,得到第二向量集;将第一诊断数据中的就诊时间与第二向量集进行匹配,得到第二初始向量集;得到第三向量集和第三初始向量序列的方法与上述方法一致,在此不在赘述。
63.需要说明的是,目标存储区域中存储的诊断数据信息指的是现在已知的一些疾病的数据信息,例如,icd-10:国际疾病分类中包括的给类疾病。
64.在一可选的实施例中,如图4所示的特征嵌入序列(即上述的第一目标向量序列)的生成过程,将就诊数据信息和属性信息中的各个数据映射为对应的向量,然后将向量进行拼接,得到上述的第一目标向量序列。具体地,如图4所示,属性信息相当于图4中的基本信息,包括性别、年龄、统筹区和医保类型等信息;就诊数据信息主要包括诊断、手术/操作、费用、日期、时长等;将基础信息和就诊数据进行分词处理,得到对应的各个词语,将每一词语与上述的第一向量集、第二向量集和第三向量集进行一一匹配,得到对应的向量,然后将得到的向量进行拼接,进而得到上述的第一目标向量序列。
65.通过将数据转换为对应的向量序列,有助于模型对其中包含的特征信息进行识别,进而准确预测疾病的概率值。
66.在进行预测时,由于目标预测模型可以预测大量现有病例标签的概率值,但是在预测时有一些概率值是非常的低,所以没有必要将所有的概率值均输出出来,所以在本发明实施例一提供的数据的分析方法中,还作了以下限定:通过第二目标向量序列进行预测,得到初始信息,其中,初始信息由多个初始病例标签及初始病例标签的概率值组成;将概率值符合预设要求的初始病例标签作为第一目标病例标签;将第一目标病例标签和第一目标病例标签的概率值作为目标信息。
67.具体地,目标预测模型根据第二目标向量序列得到目标预测模型能预测的所有种类的病例标签和对应的概率值(即上述的多个初始病例标签及初始病例标签的概率值)。对得到的所有种类的病例标签和对应的概率值进行筛选,得到目标信息。例如,将概率值前10名的病例标签作为第一目标病例标签,或者概率值满足高于30%的病例标签作为第一目标病例标签(对应上述的将概率值符合预设要求的初始病例标签作为第一目标病例标签)。那么如果没有初始病例标签符合要求,则输出第一预设提示,第一预设提示表征目标病历中
出现各类病例标签(各类疾病)的概率非常的低(例如,低于0.1%)。
68.通过对所有种类的病例标签和对应的概率值进行筛选,能够提高目标预测模型的输出效率,提高用户体验。
69.目标预测模型还可用于预测目标病历中未来出现各类病例标签的时间信息,主要包括:从第一目标向量序列中选取每个第一目标病例标签对应的向量序列,得到多个第三目标向量序列;依据第二目标向量序列和第三目标向量序列,通过目标预测模型预测每个第一目标病例标签的时间信息,得到多个预测时间。
70.具体地,通过目标预测模型可以预测目标病历中未来出现某一病例的时间信息(即可以通过目标预测模型可以预测得到多个预测时间)。例如,可以通过目标预测模型预测得到目标病历会在未来某一时间出现高血压这一病例,通俗的说就是,目标病历对应的目标对象会在未来某一时间针对高血压这一疾病去医院就诊。
71.时间预测是针对每个目标病例标签的时间信息进行预测,从第一目标向量序列中选取每个第一目标病例标签对应的向量序列,得到对应的第三目标向量序列(也可以叫做特征嵌入序列)。利用第三目标向量序列和带有时序特征的第二目标向量序列得到第一目标病例标签的时间信息。
72.如图5所示,通过特征嵌入模块得到第一目标向量序列,通过多头自注意力模块得到第二目标向量序列,然后从第一目标向量序列中选择要预测的第一目标病例标签对象的向量序列(即第三目标向量序列),对第二目标向量序列和第三目标向量序列进行拼接处理,最后利用拼接后的序列对第一目标病例标签的就诊时间进行预测,得到上述的预测时间。
73.通过目标预测模型实现对病例标签发生时间的预测,有助于目标病历中的病例及时关注身体健康问题,以及可用于卫健、医药、商保等对群体病例发病规律有分析需求的场景。
74.目标预测模型通过以下步骤训练得到:确定样本病历;获取样本病历的第二数据信息对应的第四目标向量序列,其中,第二数据信息中至少包括:第二属性信息和第二就诊信息;获取历史医疗数据信息,其中,所述历史医疗数据信息至少包括一个病历集合;从历史医疗数据信息中统计得到第一目标群体的病历集合中出现预设的各类病例标签的概率值,其中,第一目标群体是样本病历中病例所对应的病例群体;依据第四目标向量序列,计算得到样本病历中的历史就诊时间间隔;依据第四目标向量序列的数量构造蒙版,并依据蒙版对第四目标序列进行遮挡处理,得到处理后的第四目标向量序列;将处理后的第四向量目标序列、第一目标群体的病历集合中出现预设的各类病例标签的概率值和历史就诊时间间隔作为训练集,并依据训练集对初始预测模型进行训练,生成目标预测模型。
75.将训练集输入到初始预测模型中,得到预设的各类病例标签的预测概率值和出现各类病例标签的时间信息;依据每个预测概率值和第一目标群体的病历集合中出现预设的各类病例标签的概率值进行损失计算,得到第一预测损失函数;依据出现各类病例标签的时间信息和历史就诊时间间隔进行损失计算,得到第二预测损失函数;将第一预测损失函数和第二预测损失函数作为目标损失函数;依据目标损失函数对初始预测模型进行训练,得到目标预测模型。
76.具体地,在对目标预测模型进行训练时,是将病历中病例对应的群体的病历集合
中出现各类病例标签的概率值作为真实值的。通俗的说,选择样本病历后,根据样本病历中的出现的各类病例标签或者目标病历中的各类属性信息去选择对应的目标群体。例如,目标病历是一个女性,年龄在20-30岁,医保类型为职工医疗,则可以根据这些信息得到对应有相同属性的群体。或者目标病历中出现了高血压、心脏病等病例标签,则可以从历史医疗数据信息找到出现这些病例标签的群体,上述的这些群体都可以作为上述的第一目标群体。病例标签可以用来指代各类疾病,例如高血压,心脏病等;病例集合,指的是各类疾病的集合,例如高血压、心脏病等病例标签就可以作为个病例集合;
77.具体地,训练使用动态蒙版、概率生成两部分来产生训练集,对于任意一个样本病历的特征嵌入序列x0,x1,x2,...xn(对应上述的第四目标向量序列),其中,x0是样本病历中的属性信息,x1-xn是样本病历中的就诊数据信息,对于每一个k=0,1,...n-1,k为自然数,按照如下方式构造训练集:
78.a.若k=0,即样本病历的特征嵌入序列中只包括属性信息,则从历史数据中统计与样本病历中的病例的属性相同的群体(即上述的第一目标群体)出现预设的各类病例标签的概率p。
79.b.若k》=1,从历史数据统计与当前疾病序列k-2,k-1,k一致的群体(即上述的第一目标群体)出现预设的各类病例标签的概率p。
80.c.计算x_k+1的病例标签出现的时间与上一次就诊时间的时间间隔t(即上述的就诊时间间隔)。
81.d.根据第四目标向量序列的数量构造对应数量的蒙版[m0,m1,m2,...,mn],其中mi取值0或1,构造规则可以首先设定[m0,m1,...mk]为1,[m_k+1,...m_n]为0,再按照随机翻转m_i的值,即将原来的1翻转为0,将原来的0翻转为1,以此实现对训训练集的变化。通过蒙版对第四目标序列进行遮挡处理,蒙版值为1为未遮挡,蒙版值为0为将对应的序列进行了遮挡。
[0082]
需要说明的是,随机翻转m_i的值是说在训练时,需要对遮挡的序列进行更换,并非一直只对某些序列进行遮挡。
[0083]
在对目标预测模型进行训练时,将上述概率p的预测损失和时间间隔t的预测损失做加权平均,作为最终损失函数。也就是说将训练集输入到初始预测模型中,得到预设的各类疾病的预测概率值和各类疾病的预测就诊时间。预设的各类疾病指的是当前已知的疾病。利用预测概率值和上述概率p计算得到第一预测损失函数,利用预测就诊时间与上述的时间间隔t进行计算得到第二预测损失函数,可以对第一预测损失函数和第二预测损失函数进行加权平均计算,得到目标损失函数。最后利用目标损失函数对模型进行训练,得到目标预测模型。
[0084]
根据目标群体的病历集合中出现预设的各类病例标签的概率值对模型进行训练,得到目标预测模型,提高了病例标签预测的准确性,并且得到的预测概率值还可以评估目标群体的病历集合中出现各类病例标签的概率值,从而得到从微观到宏观的桥梁。通过个体对群体进行评估,进而通过群体的发病率实现对医保基金的运行状况和发展趋势进行有效监控与预测。
[0085]
在本发明实施例一提供的数据的分析方法中,通过个体对群体进行评估包括:通过目标病历对应的目标信息,对第二目标群体的病例标签及病例标签的概率值进行预测,
得到预测结果,其中,第二目标群体是目标病历中病例所对应的病例群体。
[0086]
具体地,由于根据目标群体的病历集合中出现预设的各类病例标签的概率值对模型进行训练,得到目标预测模型,所以得到的目标病历的目标信息中蕴含了目标病历所属群体的发病概率信息,所以,可以通过目标病历的目标信息,对目标病历中病例所对应的病例群体的病例标签及病例标签的概率值进行预测,得到预测结果,通过预测结果可以实现对医保基金的运行状况和发展趋势进行有效监控与预测。
[0087]
本发明提供的目标预测模型根据个体历史特征生成符合其细分条件下人群发病的概率,从而构建了从微观到宏观的桥梁。目标预测模型不仅可用于医保数据分析、并可用于卫健、医药、商保等对细分人群发病规律有分析需求的场景。
[0088]
在本发明提供的目标预测模型还可以预测得到目标病历的年度就诊时间序列(年度时间信息序列),具体包括以下内容:依据目标病历的每个第一目标病例标签的概率值对第一目标病例标签进行随机选择,得到第二目标病例标签;将从第一目标向量序列得到的第二目标病例标签对应的向量序列输入目标预测模型进行时间预测,得到第二目标病例标签的时间信息;依据第二目标病例标签和第二目标病例标签的时间信息对第二目标向量序列进行更新,得到更新后的第二目标向量序列,并继续执行通过目标预测模型对更新后的第二目标向量序列进行处理,直至目标预测模型输出第二预设提示,或者目标预测模型输出的时间信息大于预设时间限制,其中,第二预设提示用于表征目标病历中不存在目标预测模型当前预测出的病例标签。
[0089]
具体地,对于某一个目标病历的嵌入特征序列x0,x1,x2,...xn,通过运行训练好的目标预测模型进行处理,得到全部病例标签的预测概率(对应上述的多个第一目标病例标签的概率值),并按照预测概率随机选择一个病例标签,将该病例标签的特征向量(embedding)输入目标预测模型中预测其时间信息,并通过选择的病例标签和对应的预测时间信息更新嵌入特征序列为x0,x1,x2,...x_n+1。重复上述过程直至下一个病例标签的输出为“健康”(即上述的第二预设提示),或者就诊时间大于预设时间(例如,预测一年的病例标签的时间信息)限制,进而通过上述步骤可以预测得到目标病历的年度就诊时间序列。
[0090]
在一可选的实施例中,可以采用如图6所示的示意图实现对数据的分析工作。如图6所示,选择对应的样本病历对模型训练,得到目标预测模型。通过目标预测模型中的特征嵌入和时序编码得到待预测病历的目标向量序列,并根据目标向量序列进行疾病预测和就诊时间预测,通过可以通过目标预测模型可以进行模型推理,得到目标病历的年度就诊时间序列。
[0091]
目标预测模型主要有以下技术效果:在训练阶段时让模型学习个体与群体的关系,使模型具有细粒度的特性。能够根据个体历史信息分析当前病例标签的出现概率。并且通过内置时间特征嵌入和发病时间预测,能够以天为粒度预测出未来出现病例标签的时间间隔。
[0092]
在本发明实施例一提供的数据的分析方法中,通过从目标病历中获取第一数据信息,其中,第一数据信息中至少包括:第一属性信息和第一就诊信息;通过目标预测模型中的特征嵌入模块对第一属性信息和第一就诊信息进行映射处理,得到第一目标向量序列;通过目标预测模型中的多头自注意力模块对第一目标向量序列进行时序编码,得到第二目标向量序列;依据第二目标向量序列,得到目标病历对应的目标信息,其中,目标信息中至
少包括:第一目标病例标签及第一目标病例标签的概率值,解决了相关技术中神经网络模型通过病历中的特征信息进行病例标签预测的准确度比较低的技术问题。通过目标预测模型中的特征嵌入模块将目标病历中的第一数据信息映射为第一目标向量序列,通过目标预测模型的多头自注意力模块对第一目标向量序列进行时序编码,得到第二目标向量序列,最后利用第二目标向量序列进行病例标签预测,能够准确得到目标病历的各类病例标签的预测概率值,进而达到提高预测概率值准确性的效果。
[0093]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0094]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例的方法。
[0095]
实施例2
[0096]
根据本技术实施例,还提供了一种数据的分析方法,如图7所示,该方法包括:
[0097]
步骤s701,获取客户端发送的从目标对象的目标病历中获取的第一数据信息,其中,第一数据信息中至少包括:第一属性信息和第一就诊信息。
[0098]
步骤s702,在云服务器中通过目标预测模型中的特征嵌入模块对第一属性信息和第一就诊信息进行映射处理,得到第一目标向量序列;通过目标预测模型中的多头自注意力模块对第一目标向量序列进行时序编码,得到第二目标向量序列;依据第二目标向量序列,得到目标病历对应的目标信息,其中,目标信息中至少包括:第一目标病例标签及第一目标病例标签的概率值。
[0099]
步骤s703,将目标信息返回至客户端。
[0100]
具体地,将目标病历的第一数据信息通过客户端发送到云服务器,在云服务器中将第一数据信息输入目标预测模型中,得到目标病历的目标信息。
[0101]
通过云服务实现对目标病历的病例标签的预测,提升了数据的分析方法的效率,并且减少了本地终端的存储压力。
[0102]
在云服务器中,对数据的分析的具体方法与实施例一中的方法相同,在此不再赘述。
[0103]
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本技术并不受所描述的动作顺序的限制,因为依据本技术,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本技术所必须的。
[0104]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施
例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例的方法。
[0105]
实施例3
[0106]
根据本技术实施例,还提供了一种用于实施上述数据的分析方装置,如图8所示,该装置包括:第一获取单元801,映射单元802,编码单元803和分析单元804。
[0107]
第一获取单元801,用于从目标对象的目标病历中获取第一数据信息,其中,第一数据信息中至少包括:第一属性信息和第一就诊信息;
[0108]
映射单元802,用于通过目标预测模型中的特征嵌入模块对第一属性信息和第一就诊信息进行映射处理,得到第一目标向量序列;
[0109]
编码单元803,用于通过目标预测模型中的多头自注意力模块对第一目标向量序列进行时序编码,得到第二目标向量序列;
[0110]
分析单元804,用于依据第二目标向量序列,得到目标病历对应的目标信息,其中,目标信息中至少包括:第一目标病例标签及第一目标病例标签的概率值。
[0111]
在本发明实施例三提供的数据的分析装置中,通过第一获取单元801从目标病历中获取第一数据信息,其中,第一数据信息中至少包括:第一属性信息和第一就诊信息;映射单元802通过目标预测模型中的特征嵌入模块对第一属性信息和第一就诊信息进行映射处理,得到第一目标向量序列;编码单元803通过目标预测模型中的多头自注意力模块对第一目标向量序列进行时序编码,得到第二目标向量序列;分析单元804依据第二目标向量序列,得到目标病历对应的目标信息,其中,目标信息中至少包括:第一目标病例标签及第一目标病例标签的概率值,解决了相关技术中神经网络模型通过病历中的特征信息进行病例标签预测的准确度比较低的技术问题。通过目标预测模型中的特征嵌入模块将目标病历中的第一数据信息映射为第一目标向量序列,通过目标预测模型的多头自注意力模块对第一目标向量序列进行时序编码,得到第二目标向量序列,最后利用第二目标向量序列进行病例标签预测,能够准确得到目标病历的各类病例标签的预测概率值,进而达到提高预测概率值准确性的效果。
[0112]
可选地,在本发明实施例三提供的数据的分析装置中,映射单元包括:第一生成模块,用于基于目标存储区域中存储的诊断数据信息,随机生成预设维度的第一向量集;第一映射模块,用于依据第一向量集将目标病历中除就诊日期之外的第一就诊信息映射为第一初始向量序列;编码模块,用于通过绝对时间对日期进行编码,得到第二向量集;第二映射模块,用于依据第二向量集将就诊日期映射为第二初始向量序列;第二生成模块,用于基于目标存储区域存储的属性信息,随机生成预设维度的第三向量集;第三映射模块,用于依据第三向量集将第一属性信息映射为第三初始向量序列;拼接模块,用于将第一初始向量序列、第二初始向量序列和第三初始向量序列进行拼接,得到第一目标向量序列。
[0113]
可选地,在本发明实施例三提供的数据的分析装置中,分析单元包括:预测模块,用于通过第二目标向量序列进行预测,得到初始信息,其中,初始信息由多个初始病例标签及初始病例标签的概率值组成;第一确定模块,用于将概率值符合预设要求的初始病例标
签作为第一目标病例标签;第二确定模块,用于将第一目标病例标签和第一目标病例标签的概率值作为目标信息。
[0114]
可选地,在本发明实施例三提供的数据的分析装置中,该装置还包括:输出单元,用于在得到初始信息之后,若初始病例标签的概率值均不符合预设要求,则目标预测模型输出第一预设提示。
[0115]
可选地,在本发明实施例三提供的数据的分析装置中,该装置还包括:选取单元,用于在依据第二目标向量序列,得到目标病历对应的目标信息之后,从第一目标向量序列中选取每个第一目标病例标签对应的向量序列,得到多个第三目标向量序列;第一预测单元,用于依据第二目标向量序列和第三目标向量序列,通过目标预测模型预测每个第一目标病例标签的时间信息,得到多个预测时间。
[0116]
可选地,在本发明实施例三提供的数据的分析装置中,目标预测模型通过以下步骤训练得到:确定单元,用于确定样本病历;第二获取单元,用于获取样本病历的第二数据信息对应的第四目标向量序列,其中,第二数据信息中至少包括:第二属性信息和第二就诊信息;第三获取单元,用于获取历史医疗数据信息,其中,所述历史医疗数据信息至少包括一个病历集合;从历史医疗数据信息中统计得到第一目标群体的病历集合中出现预设的各类病例标签的概率值,其中,第一目标群体是样本病历中病例所对应的病例群体;计算单元,用于依据第四目标向量序列,计算得到样本病历中的历史就诊时间间隔;构造单元,用于依据第四目标向量序列的数量构造蒙版,并依据蒙版对第四目标序列进行遮挡处理,得到处理后的第四目标向量序列;训练单元,用于将处理后的第四向量目标序列、第一目标群体的病历集合中出现预设的各类病例标签的概率值和历史就诊时间间隔作为训练集,并依据训练集对初始预测模型进行训练,生成目标预测模型。
[0117]
可选地,在本发明实施例三提供的数据的分析装置中,训练单元包括:输出模块,用于将训练集输入到初始预测模型中,得到预设的各类病例标签的预测概率值和出现各类病例标签的时间信息;第一计算模块,用于依据每个预测概率值和第一目标群体的病历集合中出现预设的各类病例标签的概率值进行损失计算,得到第一预测损失函数;第二计算模块,用于依据出现各类病例标签的时间信息和历史就诊时间间隔进行损失计算,得到第二预测损失函数;第三确定模块,用于将第一预测损失函数和第二预测损失函数作为目标损失函数;训练模块,用于依据目标损失函数对初始预测模型进行训练,得到目标预测模型。
[0118]
可选地,在本发明实施例三提供的数据的分析装置中,该装置还包括:第二预测单元,用于在依据第二目标向量序列,得到目标病历对应的目标信息之后,通过目标病历对应的目标信息,对第二目标群体的病例标签及病例标签的概率值进行预测,得到预测结果,其中,第二目标群体是目标病历中病例所对应的病例群体。
[0119]
可选地,在本发明实施例三提供的数据的分析装置中,该装置还包括:选择单元,用于在依据第二目标向量序列,得到目标病历对应的目标信息之后,依据目标病历的每个第一目标病例标签的概率值对第一目标病例标签进行随机选择,得到第二目标病例标签;第三预测单元,用于将从第一目标向量序列得到的第二目标病例标签对应的向量序列输入目标预测模型进行时间预测,得到第二目标病例标签的时间信息;更新单元,用于依据第二目标病例标签和第二目标病例标签的时间信息对第二目标向量序列进行更新,得到更新后
的第二目标向量序列,并继续执行通过目标预测模型对更新后的第二目标向量序列进行处理,直至目标预测模型输出第二预设提示,或者目标预测模型输出的时间信息大于预设时间限制,其中,第二预设提示用于表征目标病历中不存在目标预测模型当前预测出的病例标签。
[0120]
此处需要说明的是,上述的第一获取单元801,映射单元802,编码单元803和分析单元804中的步骤s201至步骤s204,四个单元与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在实施例一提供的计算机终端10中。
[0121]
需要说明的是,本技术上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同,但不仅限于实施例1所提供的方案。
[0122]
实施例4
[0123]
本技术的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述的计算机终端也可以替换为移动终端等终端设备。
[0124]
可选地,在本实施例中,上述的计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
[0125]
在本实施例中,上述的计算机终端可以执行数据的分析方法中以下步骤的程序代码:从目标对象的目标病历中获取第一数据信息,其中,第一数据信息中至少包括:第一属性信息和第一就诊信息;通过目标预测模型中的特征嵌入模块对第一属性信息和第一就诊信息进行映射处理,得到第一目标向量序列;通过目标预测模型中的多头自注意力模块对第一目标向量序列进行时序编码,得到第二目标向量序列;依据第二目标向量序列,得到目标病历对应的目标信息,其中,目标信息中至少包括:第一目标病例标签及第一目标病例标签的概率值。
[0126]
上述的计算机终端还可以执行数据的分析方法中以下步骤的程序代码:通过目标预测模型中的特征嵌入模块对第一属性信息和第一就诊信息进行映射,得到第一目标向量序列包括:基于目标存储区域中存储的诊断数据信息,随机生成预设维度的第一向量集;依据第一向量集将目标病历中除就诊日期之外的第一就诊信息映射为第一初始向量序列;通过绝对时间对日期进行编码,得到第二向量集;依据第二向量集将就诊日期映射为第二初始向量序列;基于目标存储区域存储的属性信息,随机生成预设维度的第三向量集;依据第三向量集将第一属性信息映射为第三初始向量序列;将第一初始向量序列、第二初始向量序列和第三初始向量序列进行拼接,得到第一目标向量序列。
[0127]
上述的计算机终端还可以执行数据的分析方法中以下步骤的程序代码:依据第二目标向量序列,得到目标病历对应的目标信息包括:通过第二目标向量序列进行预测,得到初始信息,其中,初始信息由多个初始病例标签及初始病例标签的概率值组成;将概率值符合预设要求的初始病例标签作为第一目标病例标签;将第一目标病例标签和第一目标病例标签的概率值作为目标信息。
[0128]
上述的计算机终端还可以执行数据的分析方法中以下步骤的程序代码:在得到初始信息之后,该方法还包括:若初始病例标签的概率值均不符合预设要求,则目标预测模型输出第一预设提示。
[0129]
上述的计算机终端还可以执行数据的分析方法中以下步骤的程序代码:在依据第二目标向量序列,得到目标病历对应的目标信息之后,该方法还包括:从第一目标向量序列中选取每个第一目标病例标签对应的向量序列,得到多个第三目标向量序列;依据第二目标向量序列和第三目标向量序列,通过目标预测模型预测每个第一目标病例标签的时间信息,得到多个预测时间。
[0130]
上述的计算机终端还可以执行数据的分析方法中以下步骤的程序代码:目标预测模型通过以下步骤训练得到:确定样本病历;获取样本病历的第二数据信息对应的第四目标向量序列,其中,第二数据信息中至少包括:第二属性信息和第二就诊信息;获取历史医疗数据信息,其中,所述历史医疗数据信息至少包括一个病历集合;从历史医疗数据信息中统计得到第一目标群体的病历集合中出现预设的各类病例标签的概率值,其中,第一目标群体是样本病历中病例所对应的病例群体;依据第四目标向量序列,计算得到样本病历中的历史就诊时间间隔;依据第四目标向量序列的数量构造蒙版,并依据蒙版对第四目标序列进行遮挡处理,得到处理后的第四目标向量序列;将处理后的第四向量目标序列、第一目标群体的病历集合中出现预设的各类病例标签的概率值和历史就诊时间间隔作为训练集,并依据训练集对初始预测模型进行训练,生成目标预测模型。
[0131]
上述的计算机终端还可以执行数据的分析方法中以下步骤的程序代码:依据训练集对初始预测模型进行训练,生成目标预测模型包括:将训练集输入到初始预测模型中,得到预设的各类病例标签的预测概率值和出现各类病例标签的时间信息;依据每个预测概率值和第一目标群体的病历集合中出现预设的各类病例标签的概率值进行损失计算,得到第一预测损失函数;依据出现各类病例标签的时间信息和历史就诊时间间隔进行损失计算,得到第二预测损失函数;将第一预测损失函数和第二预测损失函数作为目标损失函数;依据目标损失函数对初始预测模型进行训练,得到目标预测模型。
[0132]
上述的计算机终端还可以执行数据的分析方法中以下步骤的程序代码:在依据第二目标向量序列,得到目标病历对应的目标信息之后,该方法还包括:通过目标病历对应的目标信息,对第二目标群体的病例标签及病例标签的概率值进行预测,得到预测结果,其中,第二目标群体是目标病历中病例所对应的病例群体。
[0133]
上述的计算机终端还可以执行数据的分析方法中以下步骤的程序代码:在依据第二目标向量序列,得到目标病历对应的目标信息之后,该方法还包括:依据目标病历的每个第一目标病例标签的概率值对第一目标病例标签进行随机选择,得到第二目标病例标签;将从第一目标向量序列得到的第二目标病例标签对应的向量序列输入目标预测模型进行时间预测,得到第二目标病例标签的时间信息;依据第二目标病例标签和第二目标病例标签的时间信息对第二目标向量序列进行更新,得到更新后的第二目标向量序列,并继续执行通过目标预测模型对更新后的第二目标向量序列进行处理,直至目标预测模型输出第二预设提示,或者目标预测模型输出的时间信息大于预设时间限制,其中,第二预设提示用于表征目标病历中不存在目标预测模型当前预测出的病例标签。
[0134]
可选地,图9是根据本技术实施例的一种计算机终端的结构框图。如图9所示,该计算机终端10可以包括:一个或多个(图9中仅示出一个)处理器、存储器。
[0135]
其中,存储器可用于存储软件程序以及模块,如本技术实施例中的数据的分析方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从
而执行各种功能应用以及数据处理,即实现上述的数据的分析方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0136]
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:从目标对象的目标病历中获取第一数据信息,其中,第一数据信息中至少包括:第一属性信息和第一就诊信息;通过目标预测模型中的特征嵌入模块对第一属性信息和第一就诊信息进行映射处理,得到第一目标向量序列;通过目标预测模型中的多头自注意力模块对第一目标向量序列进行时序编码,得到第二目标向量序列;依据第二目标向量序列,得到目标病历对应的目标信息,其中,目标信息中至少包括:第一目标病例标签及第一目标病例标签的概率值。
[0137]
可选的,上述的处理器还可以执行下述步骤:通过目标预测模型中的特征嵌入模块对第一属性信息和第一就诊信息进行映射,得到第一目标向量序列包括:基于目标存储区域中存储的诊断数据信息,随机生成预设维度的第一向量集;依据第一向量集将目标病历中除就诊日期之外的第一就诊信息映射为第一初始向量序列;通过绝对时间对日期进行编码,得到第二向量集;依据第二向量集将就诊日期映射为第二初始向量序列;基于目标存储区域存储的属性信息,随机生成预设维度的第三向量集;依据第三向量集将第一属性信息映射为第三初始向量序列;将第一初始向量序列、第二初始向量序列和第三初始向量序列进行拼接,得到第一目标向量序列。
[0138]
可选的,上述的处理器还可以执行下述步骤:依据第二目标向量序列,得到目标病历对应的目标信息包括:通过第二目标向量序列进行预测,得到初始信息,其中,初始信息由多个初始病例标签及初始病例标签的概率值组成;将概率值符合预设要求的初始病例标签作为第一目标病例标签;将第一目标病例标签和第一目标病例标签的概率值作为目标信息。
[0139]
可选的,上述的处理器还可以执行下述步骤:在得到初始信息之后,该方法还包括:若初始病例标签的概率值均不符合预设要求,则目标预测模型输出第一预设提示。
[0140]
可选的,上述的处理器还可以执行下述步骤:在依据第二目标向量序列,得到目标病历对应的目标信息之后,该方法还包括:从第一目标向量序列中选取每个第一目标病例标签对应的向量序列,得到多个第三目标向量序列;依据第二目标向量序列和第三目标向量序列,通过目标预测模型预测每个第一目标病例标签的时间信息,得到多个预测时间。
[0141]
可选的,上述的处理器还可以执行下述步骤:目标预测模型通过以下步骤训练得到:确定样本病历;获取样本病历的第二数据信息对应的第四目标向量序列,其中,第二数据信息中至少包括:第二属性信息和第二就诊信息;获取历史医疗数据信息,其中,所述历史医疗数据信息至少包括一个病历集合;从历史医疗数据信息中统计得到第一目标群体的病历集合中出现预设的各类病例标签的概率值,其中,第一目标群体是样本病历中病例所对应的病例群体;依据第四目标向量序列,计算得到样本病历中的历史就诊时间间隔;依据第四目标向量序列的数量构造蒙版,并依据蒙版对第四目标序列进行遮挡处理,得到处理后的第四目标向量序列;将处理后的第四向量目标序列、第一目标群体的病历集合中出现
预设的各类病例标签的概率值和历史就诊时间间隔作为训练集,并依据训练集对初始预测模型进行训练,生成目标预测模型。
[0142]
可选的,上述的处理器还可以执行下述步骤:依据训练集对初始预测模型进行训练,生成目标预测模型包括:将训练集输入到初始预测模型中,得到预设的各类病例标签的预测概率值和出现各类病例标签的时间信息;依据每个预测概率值和第一目标群体的病历集合中出现预设的各类病例标签的概率值进行损失计算,得到第一预测损失函数;依据出现各类病例标签的时间信息和历史就诊时间间隔进行损失计算,得到第二预测损失函数;将第一预测损失函数和第二预测损失函数作为目标损失函数;依据目标损失函数对初始预测模型进行训练,得到目标预测模型。
[0143]
可选的,上述的处理器还可以执行下述步骤:在依据第二目标向量序列,得到目标病历对应的目标信息之后,方法还包括:通过目标病历对应的目标信息,对第二目标群体的病例标签及病例标签的概率值进行预测,得到预测结果,其中,第二目标群体是目标病历中病例所对应的病例群体。
[0144]
可选的,上述的处理器还可以执行下述步骤:在依据第二目标向量序列,得到目标病历对应的目标信息之后,该方法还包括:依据目标病历的每个第一目标病例标签的概率值对第一目标病例标签进行随机选择,得到第二目标病例标签;将从第一目标向量序列得到的第二目标病例标签对应的向量序列输入目标预测模型进行时间预测,得到第二目标病例标签的时间信息;依据第二目标病例标签和第二目标病例标签的时间信息对第二目标向量序列进行更新,得到更新后的第二目标向量序列,并继续执行通过目标预测模型对更新后的第二目标向量序列进行处理,直至目标预测模型输出第二预设提示,或者目标预测模型输出的时间信息大于预设时间限制,其中,第二预设提示用于表征目标病历中不存在目标预测模型当前预测出的病例标签。
[0145]
本领域普通技术人员可以理解,图9所示的结构仅为示意,计算机终端也可以是智能手机(如android手机、ios手机等)、平板电脑、掌上电脑以及移动互联网设备(mobile internet devices,mid)、pad等终端设备。图9其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示不同的配置。
[0146]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,rom)、随机存取器(random access memory,ram)、磁盘或光盘等。
[0147]
本技术的实施例还提供了一种计算机可读存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的数据的分析方法所执行的程序代码。
[0148]
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
[0149]
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:从目标对象的目标病历中获取第一数据信息,其中,第一数据信息中至少包括:第一属性信息和第一就诊信息;通过目标预测模型中的特征嵌入模块对第一属性信息和第一就诊信息进行映射处理,得到第一目标向量序列;通过目标预测模型中的多头自注意力模块对第一目
标向量序列进行时序编码,得到第二目标向量序列;依据第二目标向量序列,得到目标病历对应的目标信息,其中,目标信息中至少包括:第一目标病例标签及第一目标病例标签的概率值。
[0150]
上述存储介质还被设置为存储用于执行以下步骤的程序代码:通过目标预测模型中的特征嵌入模块对第一属性信息和第一就诊信息进行映射,得到第一目标向量序列包括:基于目标存储区域中存储的诊断数据信息,随机生成预设维度的第一向量集;依据第一向量集将目标病历中除就诊日期之外的第一就诊信息映射为第一初始向量序列;通过绝对时间对日期进行编码,得到第二向量集;依据第二向量集将就诊日期映射为第二初始向量序列;基于目标存储区域存储的属性信息,随机生成预设维度的第三向量集;依据第三向量集将第一属性信息映射为第三初始向量序列;将第一初始向量序列、第二初始向量序列和第三初始向量序列进行拼接,得到第一目标向量序列。
[0151]
上述存储介质还被设置为存储用于执行以下步骤的程序代码:依据第二目标向量序列,得到目标病历对应的目标信息包括:通过第二目标向量序列进行预测,得到初始信息,其中,初始信息由多个初始病例标签及初始病例标签的概率值组成;将概率值符合预设要求的初始病例标签作为第一目标病例标签;将第一目标病例标签和第一目标病例标签的概率值作为目标信息。
[0152]
上述存储介质还被设置为存储用于执行以下步骤的程序代码:在得到初始信息之后,该方法还包括:若初始病例标签的概率值均不符合预设要求,则目标预测模型输出第一预设提示。
[0153]
上述存储介质还被设置为存储用于执行以下步骤的程序代码:在依据第二目标向量序列,得到目标病历对应的目标信息之后,该方法还包括:从第一目标向量序列中选取每个第一目标病例标签对应的向量序列,得到多个第三目标向量序列;依据第二目标向量序列和第三目标向量序列,通过目标预测模型预测每个第一目标病例标签的时间信息,得到多个预测时间。
[0154]
上述存储介质还被设置为存储用于执行以下步骤的程序代码:目标预测模型通过以下步骤训练得到:确定样本病历;获取样本病历的第二数据信息对应的第四目标向量序列,其中,第二数据信息中至少包括:第二属性信息和第二就诊信息;获取历史医疗数据信息,其中,所述历史医疗数据信息至少包括一个病历集合;从历史医疗数据信息中统计得到第一目标群体的病历集合中出现预设的各类病例标签的概率值,其中,第一目标群体是样本病历中病例所对应的病例群体;依据第四目标向量序列,计算得到样本病历中的历史就诊时间间隔;依据第四目标向量序列的数量构造蒙版,并依据蒙版对第四目标序列进行遮挡处理,得到处理后的第四目标向量序列;将处理后的第四向量目标序列、第一目标群体的病历集合中出现预设的各类病例标签的概率值和历史就诊时间间隔作为训练集,并依据训练集对初始预测模型进行训练,生成目标预测模型。
[0155]
上述存储介质还被设置为存储用于执行以下步骤的程序代码:依据训练集对初始预测模型进行训练,生成目标预测模型包括:将训练集输入到初始预测模型中,得到预设的各类病例标签的预测概率值和出现各类病例标签的时间信息;依据每个预测概率值和第一目标群体的病历集合中出现预设的各类病例标签的概率值进行损失计算,得到第一预测损失函数;依据出现各类病例标签的时间信息和历史就诊时间间隔进行损失计算,得到第二
预测损失函数;将第一预测损失函数和第二预测损失函数作为目标损失函数;依据目标损失函数对初始预测模型进行训练,得到目标预测模型。
[0156]
上述存储介质还被设置为存储用于执行以下步骤的程序代码:在依据第二目标向量序列,得到目标病历对应的目标信息之后,该方法还包括:通过目标病历对应的目标信息,对第二目标群体的病例标签及病例标签的概率值进行预测,得到预测结果,其中,第二目标群体是目标病历中病例所对应的病例群体。
[0157]
上述存储介质还被设置为存储用于执行以下步骤的程序代码:在依据第二目标向量序列,得到目标病历对应的目标信息之后,该方法还包括:依据目标病历的每个第一目标病例标签的概率值对第一目标病例标签进行随机选择,得到第二目标病例标签;将从第一目标向量序列得到的第二目标病例标签对应的向量序列输入目标预测模型进行时间预测,得到第二目标病例标签的时间信息;依据第二目标病例标签和第二目标病例标签的时间信息对第二目标向量序列进行更新,得到更新后的第二目标向量序列,并继续执行通过目标预测模型对更新后的第二目标向量序列进行处理,直至目标预测模型输出第二预设提示,或者目标预测模型输出的时间信息大于预设时间限制,其中,第二预设提示用于表征目标病历中不存在目标预测模型当前预测出的病例标签。
[0158]
上述本技术实施例序号仅仅为了描述,不代表实施例的优劣。
[0159]
在本技术的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0160]
在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
[0161]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0162]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0163]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0164]
以上仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为
本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1