基于缺失数据的实体匹配方法及装置与流程

文档序号:28502372发布日期:2022-01-15 05:05阅读:71来源:国知局
基于缺失数据的实体匹配方法及装置与流程

1.本发明涉及数字医疗技术领域,尤其是涉及到基于缺失数据的实体匹配方法、装置、计算机设备及计算机存储介质。


背景技术:

2.随着医疗信息化和生物技术的高速发展,医疗数据的类型和规模正以前所未有的速度快速增长,但在医疗数据发展的过程中,由于信息系统技术规范、基础信息数据标准的不统一,缺失数据在医疗数据中是普遍存在的,当对患者病理数据实体进行匹配时,对于存在缺失数据的情况,很难去衡量带有缺失值的患者实体记录与其他完整或同样含有缺失值的患者记录之间的距离关系,严重影响实体匹配效果。
3.相关技术中,可通过先对缺失数据进行填补,然后在对填补后数据进行实体匹配,然而,已有针对缺失数据进行填补的方式无法保证填补数据的准确性,甚至可能向缺失数据中填补错误值,从而使得填补后数据的质量下降,影响实体匹配的效果。


技术实现要素:

4.有鉴于此,本发明提供了一种基于缺失数据的实体匹配方法、装置、计算机设备及计算机存储介质,主要目的在于解决现有技术针对缺失数据进行填补的方式无法保证填补数据的准确性,影响实体匹配效果的问题。
5.依据本发明一个方面,提供了一种基于缺失数据的实体匹配方法,该方法包括:
6.针对用户病理数据构造表征矩阵,所述表征矩阵中行元素为用户在不同病理特征上的特征值;
7.将所述表征矩阵分解为特征矩阵和系数矩阵,所述系数矩阵中行元素为抽象后用户在不同病理特征上的特征值;
8.以所述系数矩阵中行元素作为用户病理数据中实体的表征向量,根据所述实体的表征向量进行用户实体匹配,得到实体匹配结果。
9.在本发明另一实施例中,所述针对用户病理数据构造表征矩阵,具体包括:
10.通过对接各个医疗平台中用户病理数据,根据所述用户病理数据对应的属性状态定义用户在不同病理特征上的特征值;
11.以所述用户在不同病理特征上的特征值作为行元素,构造表征矩阵。
12.在本发明另一实施例中,所述通过对接各个医疗平台中用户病理数据,根据所述用户病理数据对应的属性状态定义用户在不同病理特征上的特征值,具体包括:
13.通过对接各个医疗平台中用户病理数据,遍历查询所述用户在不同病理特征上是否存在属性值信息;
14.若存在,则确定所述用户病理数据对应的属性状态为完整状态,定义所述属性值信息为用户在相应病理特征上的特征值;
15.若不存在,则确定所述用户病理数据对应的属性状态为缺失状态,定义缺失字符
为用户在相应病理特征上的特征值。
16.在本发明另一实施例中,所述将所述表征矩阵分解为特征矩阵和系数矩阵,具体包括:
17.根据所述表征矩阵的维度特征,确定矩阵分解模型的表现形式以及所述矩阵分解模型的损失函数,所述矩阵分解模型包括特征矩阵和系数矩阵;
18.利用随机梯度下降或者最小二乘法对所述矩阵分解模型中特征矩阵和系数矩阵进行多次分解的迭代训练,以使得分解得到的特征矩阵和系数矩阵相乘最大化还原表征矩阵。
19.在本发明另一实施例中,述根据所述表征矩阵的维度特征,确定矩阵分解模型的表现形式以及所述矩阵分解模型的损失函数,具体包括:
20.根据所述表征矩阵的维数特征分别设置所述矩阵分解模型中特征矩阵和系数矩阵的维数特征,并以所述特征矩阵和系数矩阵的维数特征定义矩阵分解模型的表现形式,所述特征矩阵和系数矩阵相乘得到所述表征矩阵;
21.根据所述特征矩阵和系数矩阵相乘得到的矩阵与所述表征矩阵形成的差值,定义所述矩阵分解模型的损失函数。
22.在本发明另一实施例中,所述利用随机梯度下降或者最小二乘法对所述矩阵分解模型中特征矩阵和系数矩阵进行多次分解的迭代训练,以使得分解得到的特征矩阵和系数矩阵相乘最大化还原表征矩阵,具体包括:
23.使用符合正态分布的随机数来填充所述特征矩阵和系数矩阵,对所述矩阵分解模型进行初始化;
24.利用随机梯度下降或者最小二乘法对初始化后的特征矩阵和系数矩阵进行多次分解的迭代训练;
25.将每次分解后特征矩阵和系数矩阵带入至所述损失函数,计算每次分解后损失函数的损失值当判定所述损失函数输出的损失值符合收敛条件时,输出分解得到的特征矩阵和系数矩阵。
26.在本发明另一实施例中,所述以所述系数矩阵中行元素作为用户实体的表征向量,根据所述用户实体的表征向量对所述用户病理数据进行用户实体匹配,得到实体匹配结果具体,包括:
27.以所述系数矩阵中行元素作为用户病理数据中实体的表征向量,计算任意两个实体的表征向量之间的距离值;
28.若所述距离值在预设阈值范围内,则判定两个实体的表征向量代表相同用户实体。
29.依据本发明另一个方面,提供了一种基于缺失数据的实体匹配装置,所述装置包括:
30.构造单元,用于针对用户病理数据构造表征矩阵,所述表征矩阵中行元素为用户在不同病理特征上的特征值;
31.分解单元,用于将所述表征矩阵分解为特征矩阵和系数矩阵,所述系数矩阵中行元素为抽象后用户在不同病理特征上的特征值;
32.匹配单元,用于以所述系数矩阵中行元素作为用户病理数据中实体的表征向量,
根据所述实体的表征向量进行用户实体匹配,得到实体匹配结果。
33.在本发明另一实施例中,所述构造单元包括:
34.定义模块,用于通过对接各个医疗平台中用户病理数据,根据所述用户病理数据对应的属性状态定义用户在不同病理特征上的特征值;
35.构造模块,用于以所述用户在不同病理特征上的特征值作为行元素,构造表征矩阵。
36.在本发明另一实施例中,所述定义模块包括:
37.查询子模块,用于通过对接各个医疗平台中用户病理数据,遍历查询所述用户在不同病理特征上是否存在属性值信息;
38.确定子模块,用于若存在,则确定所述用户病理数据对应的属性状态为完整状态,定义所述属性值信息为用户在相应病理特征上的特征值;
39.所述确定子模块,还用于若不存在,则确定所述用户病理数据对应的属性状态为缺失状态,定义缺失字符为用户在相应病理特征上的特征值。
40.在本发明另一实施例中,所述分解单元包括:
41.确定模块,用于根据所述表征矩阵的维度特征,确定矩阵分解模型的表现形式以及所述矩阵分解模型的损失函数,所述矩阵分解模型包括特征矩阵和系数矩阵;
42.训练模块,用于利用随机梯度下降或者最小二乘法对所述矩阵分解模型中特征矩阵和系数矩阵进行多次分解的迭代训练,以使得分解得到的特征矩阵和系数矩阵相乘最大化还原表征矩阵。
43.在本发明另一实施例中,所述确定模块,具体用于根据所述表征矩阵的维数特征分别设置所述矩阵分解模型中特征矩阵和系数矩阵的维数特征,并以所述特征矩阵和系数矩阵的维数特征定义矩阵分解模型的表现形式,所述特征矩阵和系数矩阵相乘得到所述表征矩阵;
44.所述确定模块,具体还用于根据所述特征矩阵和系数矩阵相乘得到的矩阵与所述表征矩阵形成的差值,定义所述矩阵分解模型的损失函数。
45.在本发明另一实施例中,所述训练模块包括:
46.初始化子模块,用于使用符合正态分布的随机数来填充所述特征矩阵和系数矩阵,对所述矩阵分解模型进行初始化;
47.训练子模块,用于利用随机梯度下降或者最小二乘法对初始化后的特征矩阵和系数矩阵进行多次分解的迭代训练;
48.计算子模块,用于将每次分解后特征矩阵和系数矩阵带入至所述损失函数,计算每次分解后损失函数的损失值当判定所述损失函数输出的损失值符合收敛条件时,输出分解得到的特征矩阵和系数矩阵。
49.在本发明另一实施例中,所述匹配单元包括:
50.计算模块,用于以所述系数矩阵中行元素作为用户病理数据中实体的表征向量,计算任意两个实体的表征向量之间的距离值;
51.判定模块,用于若所述距离值在预设阈值范围内,则判定两个实体的表征向量代表相同用户实体。
52.依据本发明又一个方面,提供了一种计算机设备,包括存储器和处理器,所述存储
器存储有计算机程序,所述处理器执行所述计算机程序时实现基于缺失数据的实体匹配方法的步骤。
53.依据本发明再一个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于缺失数据的实体匹配方法的步骤。
54.借由上述技术方案,本发明提供一种基于缺失数据的实体匹配方法及装置,针对用户病理数据构造表征矩阵,该表征矩阵中行元素为用户在不同病理特征上的特征值,并将表征矩阵分解为特征矩阵和系数矩阵,该系数矩阵中行元素为抽象后用户在不同病理特征上的特征值,进一步以系数矩阵中行元素作为用户病理数据中实体的表征向量,根据实体的表征向量进行用户实体匹配,得到实体匹配结果。与现有技术中针对用户病理数据填补缺失数据后进行实体匹配的方式相比,本技术通过将用户病理数据构造为表征矩阵的形式,并针对用户病理数据中无法进行实体匹配的缺失数据使用分解后系数矩阵来抽象表示,能够最大限度利用原有用户病理数据信息,有没有额外使用填补操作的方式引入更多的错误值,保证数据质量的同时,将参差不齐的缺失数据整合到统一的向量空间上,提供了更准确的实体匹配结果。
附图说明
55.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
56.图1示出了本发明实施例提供的一种基于缺失数据的实体匹配方法的流程示意图;
57.图2示出了本发明实施例提供的另一种基于缺失数据的实体匹配方法的流程示意图;
58.图3示出了本发明实施例提供的一种基于缺失数据的实体匹配装置的结构示意图;
59.图4示出了本发明实施例提供的另一种基于缺失数据的实体匹配装置的结构示意图。
具体实施方式
60.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
61.本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
62.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机
视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
63.本发明实施例提供了一种基于缺失数据的实体匹配方法,通过将用户病理数据构造为表征矩阵的形式,并针对用户病理数据中无法进行实体匹配的缺失数据使用分解后系数矩阵来抽象表示,能够最大限度利用原有用户病理数据信息,提供了更准确的实体匹配结果,如图1所示,该方法包括:
64.101、针对用户病理数据构造表征矩阵。
65.通常情况下,各大医院在提供医疗服务的过程中,均会产生大量非结构化的临床文档数据,这里可以借用规则提取的方式将非结构化的临床文档数据进行结构化处理,得到用户病理数据。其中,用户病理数据为用户就诊过程产生的文档数据,可以包括用户基本信息、就诊项目以及检查结果信息等,就诊项目可以为用户的血压、血糖、微量元素等,针对每个检查项目对应有检查结果信息,通常表现为指标值的形式,如具体数值,还可以是逻辑值的形式,如阴性阳性。
66.本实施例在针对用户病理数据构造表征矩阵的过程中,表征矩阵中每一行的数值代表每个用户在不同病理特征上的特征值,每一列的数值代表不同用户在相同病理特征上的特征值,也就是说,针对每个用户的用户病理数据都会形成相同维数的数值向量。
67.在本发明实施例中,执行主体可以为基于缺失数据的实体匹配装置,具体应用在医疗平台的服务器端,主要用于对用户病理数据进行实体匹配,以将匹配一致的实体的用户病理数据进行合并处理,以节省医疗数据的资源占用,可以理解的是,由于用户病理数据可能存在一定的缺失数据,对于包含有缺失数据的用户病理数据很难去直接进行实体匹配,这里针对用户病理数据构造表征矩阵,以根据用户病理数据中的完整数据来强化缺失数据的表达,构造的表征矩阵无需对缺失数据进行填补,充分利用了已有数据资源,提高实体匹配效果。
68.上述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
69.102、将所述表征矩阵分解为特征矩阵和系数矩阵。
70.考虑到表征矩阵中用户在不同病理特征上的特征值可能为缺失状态,而针对缺失状态的特征值无法进行实体匹配,这里将表征矩阵分解为特征矩阵和系数矩阵,系数矩阵中行元素为抽象后用户在不同病理特征上的特征值,且在疾病特征维数上与表征矩阵不同,在用户维数上与表征矩阵相同,也就是说,系数矩阵中行元素所代表的疾病特征与表征矩阵中行元素的疾病特征具有不同的含义,抽象后用户在不同疾病特征上的特征值相当于表征矩阵中经过合并处理后疾病特征的特征值,目的是针对表征矩阵中的缺失病理特征使用其他相似的疾病特征来合并表示,以提升表征矩阵中缺失病理特征的表达,特征矩阵为抽象后不同用户在相同病理特征上的特征值,且在病理特征维数上与表征矩阵相同,在疾病特征维数上与表征矩阵不同,由于系数矩阵和特征矩阵的维数相比表征矩阵较低,本技术中使用系数矩阵来表征实体用户,能够将存在缺失状态的病理特征与其他相似病理特征上的特征值进行合并处理,以形成抽象后用户在不同病理特征上的特征值,来完整表示用户在不同病理特征上的特征值,具有更高的实用价值。
71.具体将表征矩阵分解为特征矩阵和系数矩阵过程中,可以首先根据表征矩阵的维数确定特征矩阵和系数矩阵的维数,并随机生成特征矩阵和系数矩阵,然后使用梯度下降算法或者交替最小二乘法对特征矩阵和系数矩阵进行训练,使得特征矩阵和系数矩阵的乘积最好地恢复表征矩阵,即特征矩阵和系数矩阵的乘积越接近表征矩阵,训练效果越好。
72.103、以所述系数矩阵中行元素作为用户病理数据中实体的表征向量,根据所述实体的表征向量进行用户实体匹配,得到实体匹配结果。
73.可以理解的是,由于用户在各个医院的就诊记录不同,所就诊项目以及检查结果具有差异性,使得用户病理数据中可能包含有完整的数据和缺失的数据,对于完整的数据,可直接进行实体匹配,而对于缺失的数据,由于存在一定的缺失值,很难去进行实体匹配,例如,用户病理数据中显示用户a的第一条就诊记录包含就诊项目血糖,用户a的第二条就诊记录并未包含就诊项目血糖,此时很难确定两条就诊记录均为用户a的。这里通过系数矩阵中行元素作为用户病理数据中实体的表征向量,可通过计算任意两个实体的表征向量之间的相似度数值,根据相似度数值来判断两个实体是否为相同的用户实体,对于相同的用户实体则进行关联处理,这里可以针对两个用户病理数据中相同特征病理上的特征值进行关联。
74.本发明实施例提供的一种基于缺失数据的实体匹配方法,,针对用户病理数据构造表征矩阵,该表征矩阵中行元素为用户在不同病理特征上的特征值,并将表征矩阵分解为特征矩阵和系数矩阵,该系数矩阵中行元素为抽象后用户在不同病理特征上的特征值,进一步以系数矩阵中行元素作为用户病理数据中实体的表征向量,根据实体的表征向量进行用户实体匹配,得到实体匹配结果。与现有技术中针对用户病理数据填补缺失数据后进行实体匹配的方式相比,本技术通过将用户病理数据构造为表征矩阵的形式,并针对用户病理数据中无法进行实体匹配的缺失数据使用分解后系数矩阵来抽象表示,能够最大限度利用原有用户病理数据信息,有没有额外使用填补操作的方式引入更多的错误值,保证数据质量的同时,将参差不齐的缺失数据整合到统一的向量空间上,提供了更准确的实体匹配结果。
75.本发明实施例提供了另一种基于缺失数据的实体匹配方法,通过将用户病理数据构造为表征矩阵的形式,并针对用户病理数据中无法进行实体匹配的缺失数据使用分解后系数矩阵来抽象表示,能够最大限度利用原有用户病理数据信息,提供了更准确的实体匹配结果,如图2所示,所述方法包括:
76.201、通过对接各个医疗平台中用户病理数据,根据所述用户病理数据对应的属性状态定义用户在不同病理特征上的特征值。
77.这里用户病理数据相当于医疗文本数据,该医疗文本数据可以是医疗电子记录(electronic healthcare record)、电子化的个人健康记录,包括病例、心电图、医学影像等一系列具有保存备查价值的电子化记录。
78.由于用户病理数据相当于结构化的数据,该结构化的数据通常按照病例规范制定表格,设置医护人员必须填写固定项目,便于查询、统计和分析。这里医疗平台中会记录用户就诊过程形成的数据,具体可以通过对接各个医疗平台中用户病理数据,遍历查询用户在不同病理特征上是否存在属性值信息,该属性信息作为反映用户就诊过程的检测结果,若存在,则确定用户病理数据对应的属性状态为完整状态,定义属性值信息为用户在相应
病理特征上的特征值,若不存在,则确定用户病理数据对应的属性状态为缺失状态,定义缺失字符为用户在相应病理特征上的特征值。
79.202、以所述用户在不同病理特征上的特征值作为行元素,构造表征矩阵。
80.对于给定用户病理数据通常会包含多个用户实体的用户病理数据,可将每个用户实体的用户病理数据作为矩阵中的一行m维的数值向量,由n个实体用户组成的用户病理数据构成了n*m维的矩阵p
n*m
,其中,每一行元素表示用户实体在不同病理特征上的特征值,每一列元素表示不同用户实体在相同病理特征上的特征值。
81.这里可以将用户病理数据形成数据实例t={ti|i=1,

n},其中,ti为第i个用户实体的用户病理数据,每个用户病理数据由m个病理特征上的属性值f=(e1,e2,

,em)组成,即ti=(ti[e1],

,ti[ej],

,ti[em]),为了使得构造表征矩阵更接近与实际应用场景,这里数据实体t中用户病理数据,可由含有缺失值的数据实例m和完整的数据实例c组成,数据实例m和数据实例c的并集组成t,即m∪c=t。
[0082]
203、根据所述表征矩阵的维度特征,确定矩阵分解模型的表现形式以及所述矩阵分解模型的损失函数。
[0083]
具体可以根据表征矩阵的维数特征分别设置矩阵分解模型中特征矩阵和系数矩阵的维数特征,并以特征矩阵和系数矩阵的维数特征定义矩阵分解模型的表现形式,该特征矩阵和系数矩阵相乘得到表征矩阵,并根据特征矩阵和系数矩阵相乘得到的矩阵与表征矩阵形成的差值,定义矩阵分解模型的损失函数。
[0084]
这里表征矩阵的维数特征相当于矩阵的行维数和列维数,对于矩阵分解模型中定义的两个矩阵的维数特征需要满足乘积得到表征矩阵,该矩阵分解模型可以表示为p
n*m
=r
n*k
*f
k*m
,其中,p
n*m
为表征矩阵,r
n*k
为矩阵分解后的一个矩阵,f
k*m
为矩阵分解后的另一个矩阵,表征矩阵p
n*m
的维数特征为n*m,矩阵分解模型中定义的两个矩阵的维数特征需要在行维数和列维数上具有n和m,其中一个矩阵r
n*k
的维数特征为n*k,另一个矩阵f
k*m
的维数特征为k*m,这样分解后两个矩阵的乘积得到表征矩阵,k表征分解后矩阵r
n*k
的列维数,以及分解后矩阵f
k*m
的列维数。
[0085]
这里损失函数相当于最小化特征矩阵和系数矩阵相乘得到的矩阵与表征矩阵形成的差值,可以表示为
[0086]
其中为范数,即为矩阵r各个元素的绝对值平方的总和,例如,
[0087]
204、利用随机梯度下降或者最小二乘法对所述矩阵分解模型中特征矩阵和系数矩阵进行多次分解的迭代训练,以使得分解得到的特征矩阵和系数矩阵相乘最大化还原表征矩阵。
[0088]
具体可以使用符合正态分布的随机数来填充特征矩阵和系数矩阵,对矩阵分解模型进行初始,利用随机梯度下降或者最小二乘法对初始化后的特征矩阵和系数矩阵进行多次分解的迭代训练,并将每次分解后特征矩阵和系数矩阵带入至损失函数,计算每次分解后损失函数的损失值当判定损失函数输出的损失值符合收敛条件时,输出分解得到的特征矩阵和系数矩阵。
[0089]
这里在矩阵分解模型中特征矩阵和系数矩阵进行多次分解的迭代训练过程中,矩阵分解过程使用损失函数进行收敛判断,如果损失函数输出的损失值小于预设值,说明训练结果满足收敛条件,输出分解后的特征矩阵和系数矩阵。
[0090]
205、以所述系数矩阵中行元素作为用户病理数据中实体的表征向量,计算任意两个实体的表征向量之间的距离值。
[0091]
可以理解的是,由于系数矩阵与表征矩阵具有相同的行维数,该系数矩阵相当于表征矩阵的重表示矩阵,其中每一行向量ri=(r
i1
,r
i2
,

,r
ik
,)与表征矩阵每一行向量具有相同的表示意义,即用户在不同病理特征上的特征值,但系数矩阵与表征矩阵具有不同的列维数,也就是说,系数矩阵中每一行可能并不具有与表征矩阵相同数量的病理特征数量,相当于抽象后用户在不同病理特征上的特征值,不过代表相同的实体用户。
[0092]
206、若所述距离值在预设阈值范围内,则判定两个实体的表征向量代表相同用户实体。
[0093]
这里计算任意两个实体的表征向量之间的距离值的过程可以首先选择系数矩阵中两个向量ri和rj,计算公式为其中,为r
il
为系数矩阵中第i行第l列的元素值,r
jl
为系数矩阵中第j行第l列的元素值。
[0094]
如果两个向量ri和rj之间的距离在给定阈值ε范围内,即d
ij
≤ε,则判定两个实体的向量表征代表相同用户实体,进一步可以将代表相同用户实体的用户病理数据进行关联处理,以节省数据资源占用。
[0095]
反之,如果两个向量ri和rj之间的距离超过了给定阈值ε范围,即d
ij
》ε,则判定两个实体的向量表征不是相同用户实体。
[0096]
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种基于缺失数据的实体匹配装置,如图3所示,所述装置包括:构造单元31、分解单元32、匹配单元33。
[0097]
构造单元31,可以用于针对用户病理数据构造表征矩阵,所述表征矩阵中行元素为用户在不同病理特征上的特征值;
[0098]
分解单元32,可以用于将所述表征矩阵分解为特征矩阵和系数矩阵,所述系数矩阵中行元素为抽象后用户在不同病理特征上的特征值;
[0099]
匹配单元33,可以用于以所述系数矩阵中行元素作为用户病理数据中实体的表征向量,根据所述实体的表征向量进行用户实体匹配,得到实体匹配结果。
[0100]
本发明实施例提供的一种基于缺失数据的实体匹配装置,,针对用户病理数据构造表征矩阵,该表征矩阵中行元素为用户在不同病理特征上的特征值,并将表征矩阵分解为特征矩阵和系数矩阵,该系数矩阵中行元素为抽象后用户在不同病理特征上的特征值,进一步以系数矩阵中行元素作为用户病理数据中实体的表征向量,根据实体的表征向量进行用户实体匹配,得到实体匹配结果。与现有技术中针对用户病理数据填补缺失数据后进行实体匹配的方式相比,本技术通过将用户病理数据构造为表征矩阵的形式,并针对用户病理数据中无法进行实体匹配的缺失数据使用分解后系数矩阵来抽象表示,能够最大限度利用原有用户病理数据信息,有没有额外使用填补操作的方式引入更多的错误值,保证数据质量的同时,将参差不齐的缺失数据整合到统一的向量空间上,提供了更准确的实体匹配结果。
[0101]
作为图3中所示基于缺失数据的实体匹配装置的进一步说明,图4是根据本发明实施例另一种基于缺失数据的实体匹配装置的结构示意图,如图4所示,所述构造单元31包括:
[0102]
定义模块311,可以用于通过对接各个医疗平台中用户病理数据,根据所述用户病理数据对应的属性状态定义用户在不同病理特征上的特征值;
[0103]
构造模块312,可以用于以所述用户在不同病理特征上的特征值作为行元素,构造表征矩阵。
[0104]
在具体应用场景中,如图4所示,所述定义模块311包括:
[0105]
查询子模块3111,可以用于通过对接各个医疗平台中用户病理数据,遍历查询所述用户在不同病理特征上是否存在属性值信息;
[0106]
确定子模块3112,可以用于若存在,则确定所述用户病理数据对应的属性状态为完整状态,定义所述属性值信息为用户在相应病理特征上的特征值;
[0107]
所述确定子模块3112,还可以用于若不存在,则确定所述用户病理数据对应的属性状态为缺失状态,定义缺失字符为用户在相应病理特征上的特征值。
[0108]
在具体应用场景中,如图4所示,所述分解单元32包括:
[0109]
确定模块321,可以用于根据所述表征矩阵的维度特征,确定矩阵分解模型的表现形式以及所述矩阵分解模型的损失函数,所述矩阵分解模型包括特征矩阵和系数矩阵;
[0110]
训练模块322,可以用于利用随机梯度下降或者最小二乘法对所述矩阵分解模型中特征矩阵和系数矩阵进行多次分解的迭代训练,以使得分解得到的特征矩阵和系数矩阵相乘最大化还原表征矩阵。
[0111]
在具体应用场景中,所述确定模块321,具体可以用于根据所述表征矩阵的维数特征分别设置所述矩阵分解模型中特征矩阵和系数矩阵的维数特征,并以所述特征矩阵和系数矩阵的维数特征定义矩阵分解模型的表现形式,所述特征矩阵和系数矩阵相乘得到所述表征矩阵;
[0112]
所述确定模块321,具体还可以用于根据所述特征矩阵和系数矩阵相乘得到的矩阵与所述表征矩阵形成的差值,定义所述矩阵分解模型的损失函数。
[0113]
在具体应用场景中,如图4所示,所述训练模块322包括:
[0114]
初始化子模块3221,可以用于使用符合正态分布的随机数来填充所述特征矩阵和系数矩阵,对所述矩阵分解模型进行初始化;
[0115]
训练子模块3222,可以用于利用随机梯度下降或者最小二乘法对初始化后的特征矩阵和系数矩阵进行多次分解的迭代训练;
[0116]
计算子模块3223,可以用于将每次分解后特征矩阵和系数矩阵带入至所述损失函数,计算每次分解后损失函数的损失值当判定所述损失函数输出的损失值符合收敛条件时,输出分解得到的特征矩阵和系数矩阵。
[0117]
在具体应用场景中,如图4所示,所述匹配单元33包括:
[0118]
计算模块331,可以用于以所述系数矩阵中行元素作为用户病理数据中实体的表征向量,计算任意两个实体的表征向量之间的距离值;
[0119]
判定模块332,可以用于若所述距离值在预设阈值范围内,则判定两个实体的表征向量代表相同用户实体。
[0120]
需要说明的是,本实施例提供的一种基于缺失数据的实体匹配装置所涉及各功能单元的其他相应描述,可以参考图1、图2中的对应描述,在此不再赘述。
[0121]
基于上述如图1、图2所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1、图2所示的基于缺失数据的实体匹配方法。
[0122]
基于这样的理解,本技术的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施场景所述的方法。
[0123]
基于上述如图1、图2所示的方法,以及图3、图4所示的虚拟装置实施例,为了实现上述目的,本技术实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1、图2所示的基于缺失数据的实体匹配方法
[0124]
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(radio frequency,rf)电路,传感器、音频电路、wi-fi模块等等。用户接口可以包括显示屏(display)、输入单元比如键盘(keyboard)等,可选用户接口还可以包括usb接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、wi-fi接口)等。
[0125]
本领域技术人员可以理解,本实施例提供的基于缺失数据的实体匹配装置的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0126]
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
[0127]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本技术可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本技术的技术方案,与目前现有技术相比,本技术中通过将用户病理数据构造为表征矩阵的形式,并针对用户病理数据中无法进行实体匹配的缺失数据使用分解后系数矩阵来抽象表示,能够最大限度利用原有用户病理数据信息,有没有额外使用填补操作的方式引入更多的错误值,保证数据质量的同时,将参差不齐的缺失数据整合到统一的向量空间上,提供了更准确的实体匹配结果。
[0128]
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本技术所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
[0129]
上述本技术序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本技术的几个具体实施场景,但是,本技术并非局限于此,任何本领域的技术人员能思之的变化都应落入本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1