基于缺失数据的实体匹配方法及装置与流程

文档序号:28502372发布日期:2022-01-15 05:05阅读:来源:国知局

技术特征:
1.一种基于缺失数据的实体匹配方法,其特征在于,所述方法包括:针对用户病理数据构造表征矩阵,所述表征矩阵中行元素为用户在不同病理特征上的特征值;将所述表征矩阵分解为特征矩阵和系数矩阵,所述系数矩阵中行元素为抽象后用户在不同病理特征上的特征值;以所述系数矩阵中行元素作为用户病理数据中实体的表征向量,根据所述实体的表征向量进行用户实体匹配,得到实体匹配结果。2.根据权利要求1所述的方法,其特征在于,所述针对用户病理数据构造表征矩阵,具体包括:通过对接各个医疗平台中用户病理数据,根据所述用户病理数据对应的属性状态定义用户在不同病理特征上的特征值;以所述用户在不同病理特征上的特征值作为行元素,构造表征矩阵。3.根据权利要求2所述的方法,其特征在于,所述通过对接各个医疗平台中用户病理数据,根据所述用户病理数据对应的属性状态定义用户在不同病理特征上的特征值,具体包括:通过对接各个医疗平台中用户病理数据,遍历查询所述用户在不同病理特征上是否存在属性值信息;若存在,则确定所述用户病理数据对应的属性状态为完整状态,定义所述属性值信息为用户在相应病理特征上的特征值;若不存在,则确定所述用户病理数据对应的属性状态为缺失状态,定义缺失字符为用户在相应病理特征上的特征值。4.根据权利要求1所述的方法,其特征在于,所述将所述表征矩阵分解为特征矩阵和系数矩阵,具体包括:根据所述表征矩阵的维度特征,确定矩阵分解模型的表现形式以及所述矩阵分解模型的损失函数,所述矩阵分解模型包括特征矩阵和系数矩阵;利用随机梯度下降或者最小二乘法对所述矩阵分解模型中特征矩阵和系数矩阵进行多次分解的迭代训练,以使得分解得到的特征矩阵和系数矩阵相乘最大化还原表征矩阵。5.根据权利要求4所述的方法,其特征在于,所述根据所述表征矩阵的维度特征,确定矩阵分解模型的表现形式以及所述矩阵分解模型的损失函数,具体包括:根据所述表征矩阵的维数特征分别设置所述矩阵分解模型中特征矩阵和系数矩阵的维数特征,并以所述特征矩阵和系数矩阵的维数特征定义矩阵分解模型的表现形式,所述特征矩阵和系数矩阵相乘得到所述表征矩阵;根据所述特征矩阵和系数矩阵相乘得到的矩阵与所述表征矩阵形成的差值,定义所述矩阵分解模型的损失函数。6.根据权利要求4所述的方法,其特征在于,所述利用随机梯度下降或者最小二乘法对所述矩阵分解模型中特征矩阵和系数矩阵进行多次分解的迭代训练,以使得分解得到的特征矩阵和系数矩阵相乘最大化还原表征矩阵,具体包括:使用符合正态分布的随机数来填充所述特征矩阵和系数矩阵,对所述矩阵分解模型进行初始化;
利用随机梯度下降或者最小二乘法对初始化后的特征矩阵和系数矩阵进行多次分解的迭代训练;将每次分解后特征矩阵和系数矩阵带入至所述损失函数,计算每次分解后损失函数的损失值当判定所述损失函数输出的损失值符合收敛条件时,输出分解得到的特征矩阵和系数矩阵。7.根据权利要求1-6中任一项所述的方法,其特征在于,所述以所述系数矩阵中行元素作为用户实体的表征向量,根据所述用户实体的表征向量对所述用户病理数据进行用户实体匹配,得到实体匹配结果具体,包括:以所述系数矩阵中行元素作为用户病理数据中实体的表征向量,计算任意两个实体的表征向量之间的距离值;若所述距离值在预设阈值范围内,则判定两个实体的表征向量代表相同用户实体。8.一种基于缺失数据的实体匹配装置,其特征在于,所述装置包括:构造单元,用于针对用户病理数据构造表征矩阵,所述表征矩阵中行元素为用户在不同病理特征上的特征值;分解单元,用于将所述表征矩阵分解为特征矩阵和系数矩阵,所述系数矩阵中行元素为抽象后用户在不同病理特征上的特征值;匹配单元,用于以所述系数矩阵中行元素作为用户病理数据中实体的表征向量,根据所述实体的表征向量进行用户实体匹配,得到实体匹配结果。9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

技术总结
本发明涉及数字医疗技术领域,揭露一种基于缺失数据的实体匹配方法,包括:针对用户病理数据构造表征矩阵,所述表征矩阵中行元素为用户在不同病理特征上的特征值;将所述表征矩阵分解为特征矩阵和系数矩阵,所述系数矩阵中行元素为抽象后用户在不同病理特征上的特征值;以所述系数矩阵中行元素作为用户病理数据中实体的表征向量,根据所述实体的表征向量进行用户实体匹配,得到实体匹配结果。本发明能够最大限度利用原有用户病理数据信息,针对缺失数据未使用填补操作的方式引入更多的错误值,保证数据质量的同时,提高实体匹配的效果。提高实体匹配的效果。提高实体匹配的效果。


技术研发人员:徐啸
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2021.10.29
技术公布日:2022/1/14
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1