一种基于边信息的体检数据补全方法、装置及应用与流程

文档序号：17473421发布日期：2019-04-20 05:58阅读：284来源：国知局

本发明属于数据统计和人工智能领域，具体涉及一种基于边信息的体检数据补全方法、装置及应用。

背景技术：

传统体检方案是经过一系列的体检以进行疾病筛查：根据不同的病症需要，在医生或者医疗手册的安排建议下进行相关生理特征项目的体检，再由医生通过相关的生理特征体检结果对患者可能患有的疾病进行诊断。由于体检项目繁多，不同的医院、医生以及时代都具有不同的检查方式，导致体检项目纷繁杂乱，无法统一，造成相关医疗资源的浪费和使病患无畏受累。

随着科技的不断发展，不同体检项目隐含的生理特征相关性以及生理特征与疾病之间的影响程度等医疗知识的研究趋于完善，矩阵补全和边信息问题也得到了发展。矩阵补全(matrixcompletion，简记为:mc)就是根据已知元素估计未知元素，从而把矩阵恢复完整的过程，是人工智能研究项目中的一个重点难点，其任务是通过人工智能算法对不完整的矩阵进行补全。该任务在数据挖掘，电商营销、工程控制、图像和视频处理中皆有重要的应用。

在医疗项目中，不同医疗体检项目的统一有赖于矩阵补全算法，通过相关的体检项目推测未知的体检项目的效果。但是，因为矩阵补全技术目前往往通过线性变换、局部信息插值等方法，但是在利用背景知识进行非线性变换的研究较少，结果也不够完善。

边信息(sideinformation)是指利用已有的信息y辅助对信息x进行编码，可以使得信息x的编码长度更短。边信息见多用户信源编码。一个通俗的例子是：假设到马场去赌马，根据每个马的赔率可以得到一个最佳的投资方案。但是如果知道赌马的一些历史数据，例如上几场的胜负情况，那么可以得出一个更优的投资方案。赌马中的历史数据就是边信息。

边信息算法是基于边信息补全矩阵中缺失信息的算法，即在信息流中找到相关和不相关的数据点，约束和辅助矩阵补全技术的完善，应用于各种需要矩阵补全的领域。边信息法还是传统机器学习中的一个分支，在与人工神经网络和深度学习的结合上也没有足够的尝试。

医疗领域中，数据缺失如此严重，带标签数据稀少的情况也很常见，但却鲜有矩阵补全方法应用。

技术实现要素：

本发明的目的是提供一种基于边信息的体检数据补全方法、装置，能够根据已有的信息来补全体检数据和疾病结果。

本发明的另一目的是提供一种基于边信息的体检数据补全装置的应用，该装置用于重构疾病。

为实现上述发明目的，提供以下技术方案：

第一方面，一种基于边信息的体检数据补全方法，包括以下步骤：

(1)构建列表示生理特征和疾病亚型，行表示患者，元素值为患者的生理特征检测值和疾病类型的体检-疾病矩阵；列表示疾病亚型，行表示致病因子，元素值为致病因子导致患疾病的概率的致病因子-疾病矩阵；以及列表示生理特征，行表示致病因子，元素值为致病因子与生理特征的相关性的致病因子-体检矩阵；

(2)针对体检-疾病矩阵，根据体检项目数据补充生理特征检测值，根据医生的主观诊断结果补充疾病类型；针对致病因子-疾病矩阵和致病因子-体检矩阵，根据医学知识，补充已知致病因子导致已知疾病亚型的概率，补充已知致病因子与生理特征的相关性；

(3)分别在体检-疾病矩阵和致病因子-疾病矩阵，体检-疾病矩阵和致病因子-体检矩阵，以及致病因子-疾病矩阵和致病因子-体检矩阵建立编码解码网络d2fnet，d2cnet以及f2cnet；

(4)联合训练编码解码网络d2fnet，d2cnet以及f2cnet，当训练结束后，致病因子-疾病矩阵和致病因子-体检矩阵已经被补全；

(5)将待补全的体检-疾病矩阵输入到d2fnet，d2cnet中，利用补全的致病因子-疾病矩阵、致病因子-体检矩阵和f2cnet，经计算补全体检-疾病矩阵。

该体检数据补全方法能够根据已有的数据信息，通过编码和解码的方式对未知的信息进行补全，极大地减轻了一声繁重的工作量，减轻患者的经济和身体负担，此外，还能够帮助不同的医院、医生统一应用不同的体检结果，保证医疗资源不浪费。第二方面，一种基于边信息的体检数据补全装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，

所述计算机存储器中存有通过第一方面所述的基于边信息的体检数据补全方法补全的致病因子-疾病矩阵、致病因子-体检矩阵以及d2fnet，d2cnet以及f2cnet的参数；

所述计算机处理器执行所述计算机程序时实现以下步骤：

接收输入的待补全的体检-疾病矩阵，利用补全的致病因子-疾病矩阵、致病因子-体检矩阵、d2fnet，d2cnet以及f2cnet对体检-疾病矩阵进行计算，输出补全的体检-疾病矩阵。

该体检数据补全装置能够根据已有的数据信息和确定的致病因子-疾病矩阵、致病因子-体检矩阵，通过编码和解码的方式对未知的信息进行补全，极大地减轻了一声繁重的工作量，减轻患者的经济和身体负担，此外，还能够帮助不同的医院、医生统一应用不同的体检结果，保证医疗资源不浪费。第三方面，一种利用如第二方面所述的基于边信息的体检数据补全装置获得疾病结果的应用，根据输出的补全体检-疾病矩阵，查找获得疾病结果。

根据该体检数据补全装置输出的补全体检-疾病矩阵获得的预测疾病亚型，准确率能达到95％以上，能辅助医生进行疾病诊断。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的体检-疾病矩阵的一个示意形式；

图2是实施例提供的致病因子-疾病矩阵的一个示意形式；

图3是实施例提供的致病因子-体检矩阵的一个示意形式；

图4是实施例提供的在体检-疾病矩阵、致病因子-疾病矩阵、以及致病因子-体检矩阵之间构建的编码解码网络的示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了解决体检费钱费力以及医生体检工作繁重的问题，本实施例提供的基于边信息的体检数据补全方法，具体包括以下步骤：

s101、构建体检-疾病矩阵、致病因子-疾病矩阵以及致病因子-体检矩阵。

针对体检-疾病矩阵，列表示生理特征和疾病亚型，行表示患者，元素值为患者的生理特征检测值和疾病类型。其中，生理特征是指人体的一些生理信息，一般都是体检的项目，包括身高、体重、心率、血常规20相等，疾病亚型是医生主观诊断的疾病类型，如高血压、糖尿病等。图1给出了一个示意性的体检-疾病矩阵，不包含任何真实信息，仅用于描述体检-疾病矩阵的结构。根据图1所示，行表示不同的患者，列表示不同的体检项目，如球蛋白、洪锡标、谷丙转氨酶等，列还表示患者的体检结果，如a、b、c、d、e、f、g等。

体检-疾病矩阵中，对于以阴阳表示的生理特征，以阳表示的生理特征对应的检测值用1表示，以阴表示的生理特征对应的检测值用0表示。

针对致病因子-疾病矩阵，列表示疾病亚型，分为显性和隐性，对于已知的疾病即为显性疾病亚型，对于未知的疾病即为隐性疾病亚型，行表示致病因子，致病因子也分为显性和隐性，已知的致病因子即为显性致病因子，未知致病因子为隐性致病因子，元素值为致病因子导致患疾病的概率。假设致病因子-疾病矩阵为m×n的矩阵，其行m代表m种致病因子，其中仅有m(<m)种是显性的，其列n代表n种疾病亚型，其中仅有n(<n)种是显性的。图2是一个示例性的致病因子-疾病矩阵，其中，疾亚型a、b、c、d、e、f、g为已知类型的疾病，剩余未知类型1、未知类型2、未知类型3、未知类型4即为未知疾病亚型，a、b、c为已知类型的致病因子，其余6种为未知致病因子。若如图2情况，则m＝9，m＝3；n＝11，n＝7。其中，m和n的一定要大于m和n；而至于大多少，则通过经验进行适当的估计。

对于已知疾病亚型和已知致病因子组成的m×n矩阵，其元素值，也就是致病因子导致患疾病的概率(即致病因子和疾病之间的发生概率)是根据医学知识或医学知识证明进行补全的，即图2中的数字0.4、0.1等数值根据医学知识或医学知识证明填充，即实现对致病因子-疾病矩阵的边信息建立，m×n的矩阵中未知疾病亚型和未知致病因子对应的元素值无法填充，则空着。

针对致病因子-体检矩阵，列表示生理特征(也就是体检数据)，行表示致病因子，元素值为致病因子与生理特征的相关性，该相关性是根据医疗知识和医学统计成果构建的，根据相关的程度可以用高、中、低表示，如附图3所示；还可以用正数权重表示正相关，用负数权重表示负相关，用0表示不相关，即实现了对致病因子-体检矩阵的边信息建立。

步骤102，分别在体检-疾病矩阵和致病因子-疾病矩阵，体检-疾病矩阵和致病因子-体检矩阵，以及致病因子-疾病矩阵和致病因子-体检矩阵建立编码解码网络d2fnet，d2cnet以及f2cnet，如图4所示。

其中，d2fnet，d2cnet以及f2cnet的网络结构均为由卷积层搭建的自编码器和反卷积搭建的自解码器。卷积层和反卷积层一般为3～4层，且在每个层上建立一个重建目标函数，在自解码器中，要求各层对应的重建差值尽量小。

若体检-疾病矩阵、致病因子-疾病矩阵以及致病因子-体检矩阵的尺寸较大，则使用resnext等大容量的神经网络进行编码，并利用与神经网络中的卷积层相对应的反卷积层搭建自解码器，其中，神经网络不能包含会导致信息损失的pooling层，需要将其中的pooling层和dropout层去除。

s103，联合训练编码解码网络d2fnet，d2cnet以及f2cnet，当训练结束后，致病因子-疾病矩阵和致病因子-体检矩阵已经被补全。

当补全致病因子-疾病矩阵时，采用d2fnet和f2cnet对致病因子-疾病矩阵进行补全，具体地，

对于d2fnet，以体检-疾病矩阵作为输入变量，采用自编码器对体检-疾病矩阵进行编码产生重构致病因子-疾病矩阵，采用自解码器对重构致病因子-疾病矩阵进行解码，产生重构体检-疾病矩阵，以体检-疾病矩阵与重构体检-疾病矩阵的离差平方和损失函数，和因子-疾病矩阵与重构因子-疾病矩阵的离差平方和损失函数之和作为d2fnet的损失函数l1；

对于f2cnet，以致病因子-体检矩阵作为输入变量，采用自编码器对致病因子-体检矩阵进行编码产生重构致病因子-疾病矩阵，采用自解码器对重构致病因子-疾病矩阵进行解码，产生重构致病因子-体检矩阵，以致病因子-体检矩阵与重构致病因子-体检矩阵的离差平方和损失函数，和致病因子-疾病矩阵与重构致病因子-疾病矩阵的离差平方和损失函数之和作为f2cnet的损失函数l2；

以损失函数l1和损失函数l2之和l¹作为补全致病因子-疾病矩阵的总损失函数。

当补全致病因子-体检矩阵时，采用f2cnet和d2cnet对致病因子-体检矩阵进行补全，具体地，

对于f2cnet，以致病因子-疾病矩阵作为输入变量，采用自编码器对致病因子-疾病矩阵进行编码产生重构致病因子-体检矩阵，采用自解码器对重构致病因子-体检矩阵进行解码，产生重构致病因子-疾病矩阵，以致病因子-疾病矩阵与重构致病因子-疾病矩阵的离差平方和损失函数，和致病因子-体检矩阵与重构致病因子-体检矩阵的离差平方和损失函数之和作为f2cnet的损失函数l3；

对于d2cnet，以体检-疾病矩阵作为输入变量，采用自编码器对体检-疾病矩阵进行编码产生重构致病因子-体检矩阵，采用自解码器对重构致病因子-体检矩阵进行解码，产生重构体检-疾病矩阵，以体检-疾病矩阵与重构体检-疾病矩阵的离差平方和损失函数，和致病因子-疾病矩阵与重构致病因子-疾病矩阵的离差平方和损失函数之和作为d2cnet的损失函数l4；

以损失函数l3和损失函数l4之和l²作为补全致病因子-体检矩阵的总损失函数。

当补全体检-疾病矩阵时，采用d2cnet和d2fnet对体检-疾病矩阵进行补全，具体地，

对于d2cnet，以致病因子-体检矩阵作为输入变量，采用自编码器对致病因子-体检矩阵进行编码产生重构体检-疾病矩阵，采用自解码器对重构体检-疾病矩阵进行解码，产生重构致病因子-体检矩阵，以致病因子-体检矩阵与重构致病因子-体检矩阵的离差平方和损失函数，和体检-疾病矩阵与重构体检-疾病矩阵的离差平方和损失函数之和作为d2cnet的损失函数l5；

对于d2fnet，以致病因子-疾病矩阵作为输入变量，采用自编码器对致病因子-疾病矩阵进行编码产生重构体检-疾病矩阵，采用自解码器对重构体检-疾病矩阵进行解码，产生重构致病因子-疾病矩阵，以致病因子-疾病矩阵与重构致病因子-疾病矩阵的离差平方和损失函数，和体检-疾病矩阵与重构体检-疾病矩阵的离差平方和损失函数之和作为d2fnet的损失函数l6；

以损失函数l5和损失函数l6之和l³作为补全体检-疾病矩阵的总损失函数。

联合训练时，以l¹、l²以及l³三者之和作为总损失函数，反向传递，更新d2fnet，d2cnet以及f2cnet的网络参数和补全致病因子-疾病矩阵、致病因子-体检矩阵。

上述体检-疾病矩阵是一个元素值完整的矩阵，致病因子-疾病矩阵和致病因子-体检矩阵仅是通过信息建立的不完整矩阵，即均不包括未知致病因子和未知疾病亚型对应的元素值，通过s103的联合训练，利用体检-疾病矩阵和d2fnet，d2cnet以及f2cnet三个网络的自编码和解码功能补全相应的致病因子-疾病矩阵和致病因子-体检矩阵，这样就找到了未知致病因子与未知疾病亚型之间的发生概率，以及未知致病因子与生理特征之间的相关性。

s104，将待补全的体检-疾病矩阵输入到d2fnet，d2cnet中，利用补全的致病因子-疾病矩阵、致病因子-体检矩阵和f2cnet，经计算补全体检-疾病矩阵。

本实施例还提供了一种基于边信息的体检数据补全装置，包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序，计算机存储器中存有上述体检数据补全方法补全的致病因子-疾病矩阵、致病因子-体检矩阵以及d2fnet，d2cnet以及f2cnet的参数；

计算机处理器执行所述计算机程序时实现以下步骤：

上述体检数据补全方法和装置能够根据已有的数据信息和确定的致病因子-疾病矩阵、致病因子-体检矩阵，通过编码和解码的方式对未知的信息进行补全，极大地减轻了一声繁重的工作量，减轻患者的经济和身体负担，此外，还能够帮助不同的医院、医生统一应用不同的体检结果，保证医疗资源不浪费。当上述体检数据补全装置输出补全的体检-疾病矩阵后，该体检-疾病矩阵中即包含有补全的疾病类型，医生可以根据补全体检-疾病矩阵，查找获得疾病结果，该疾病结果准确率能达到95％以上，能辅助医生进行疾病诊断。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴健;陈晋泰;郭若乾;冯芮苇;雷璧闻;王文哲;陆逸飞;吴福理
技术所有人：浙江大学山东工业技术研究院
我是此专利的发明人

上一篇：一种实现数据存储的方法及装置与流程
上一篇：一种二氧化碳驱油用集油井口的集油罐放置装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。