一种分层机构名称多维匹配方法、装置、设备及存储介质与流程

文档序号:33633223发布日期:2023-03-28 23:42阅读:30来源:国知局
一种分层机构名称多维匹配方法、装置、设备及存储介质与流程

1.本发明属于自然语言处理技术领域,具体涉及一种分层机构名称多维匹配方法、装置、设备及存储介质。


背景技术:

2.在自然语言处理的文本数据分析领域中,常见需要对机构(例如医疗机构和医学研究机构等)名称进行对齐:医学期刊出版的学术论文都会带有文章作者所属的机构名称,这些名称可能是该机构的规范名称也可能是作者随笔输入的。假如需要归一化所有的机构名称,或者需要通过这些机构名称来关联第三方机构的相关数据(以便进行进一步的数据汇总和分析),那么如何将实际上是同一机构但其名称可能略有不同的至少两个机构名称进行关联,就成为了一个必须要解决的问题。
3.目前,业界解决上述问题的现有方案一般有如下三种:基于文本搜索的方案、基于机器学习或者编辑距离的方案和基于人工比对和校准的方案。
4.基于文本搜索的方案主要是先建立机构名称的数据集,然后将待匹配的机构名称以文本搜索的方式在机构名称数据集中进行搜索和匹配,最后把搜索结果中排名第一的机构名称作为匹配结果。但是这种方案的显著缺点就是正确率较低。因为目前的搜索系统主流是依赖诸如bm25算法的tf-idf(term frequency

inverse document frequency,词频-逆向文档频率)模型(其主要原理是:在词频方面,如果某个搜索词在被搜索文档中出现了多次,那么该文档匹配本次搜索的分数会增加;而在逆文档频率方面,如果成功匹配的搜索词在所有文档中出现的次数非常少,那么所匹配的文档的分数也会增加),使得在机构名称匹配这个问题上,tf-idf模型显然有所不足:(11)机构匹配搜索的是待匹配的机构名称,标准数据集所包含的文本数据也只有机构名称,词频特征会失效;(12)逆文档频率在文本内容较长的情况下表现良好,但在机构名称这种短语文本上效果会下降;(13)机构名称一般具有分层组织结构特点(例如有省级人民医院、市级人民医院和县级人民医院等三个层次),使得经分词后所得到的多个检索词,如果其中某个词在标准数据集中出现的次数比较少,很可能是该词本身在机构名称中出现得比较少,并不一定说明该词比较重要,例如机构名称中所包含的且带有地域特征的词很可能在标准数据集中出现多次,但不能说明这些词不重要。
5.基于机器学习或者编辑距离的方案经常被用来辅助文本分析问题,如果用在机构名称匹配这个问题上,该方案会根据机构名称的词向量特征结合诸如编辑距离等字符串比对特征建立一个分类学习模型。但是这种方案也有如下缺点:(21)构建模型成本高,监督式学习模型需要大量已标注的数据,这些数据一般来说需要人工标注。雇佣自然语言处理方面的数据科学家来完成模型构建和推理流程,价格不菲;(22)模型的效果不稳定,需要反复迭代,很容易出现过拟合的现象;(23)模型不易扩展,一旦需要应用于其他同类问题,整体模型需要重建。
6.基于人工比对和校准的方案的缺点显然就是费时费力,且无法复用以解决同类问
题。


技术实现要素:

7.本发明的目的是提供一种分层机构名称多维匹配方法、装置、计算机设备及计算机可读存储介质,用以解决现有分层机构名称匹配方案所存在正确率较低、构建模型成本高、模型的效果不稳定、模型不易扩展以及人工费时费力的问题。
8.为了实现上述目的,本发明采用以下技术方案:
9.第一方面,提供了一种分层机构名称多维匹配方法,包括:
10.获取待匹配分层机构名称与在标准分层机构名称集合中各个标准分层机构名称的搜索相关度,其中,所述搜索相关度在区间[0,1]内取值;
[0011]
获取所述待匹配分层机构名称与所述各个标准分层机构名称的字符串相似度,其中,所述字符串相似度在区间[0,1]内取值;
[0012]
对所述待匹配分层机构名称依次进行分词处理和地域实体识别处理,得到地域实体集合,其中,所述地域实体集合中包含有至少一个规范化的地域实体名词;
[0013]
按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的地域相似度:
[0014][0015]
式中,n表示正整数,rsn表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的地域相似度,count()表示集合元素总数统计函数,ed表示所述待匹配分层机构名称的地域实体集合,sdn表示所述第n个标准分层机构名称的且包含有至少一个规范化的地域实体名词的地域特征集合,max()表示求最大值函数,∩表示交集符号;
[0016]
按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度:
[0017]
pn=h
ss
*ssn+h
zs
*zsn+h
rs
*rsn[0018]
式中,pn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的综合匹配度,ssn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的搜索相关度,zsn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的字符串相似度,h
ss
、h
zs
和h
rs
分别为在区间[0,1]内取值的第一类权重系数,并且有h
ss
+h
rs
+h
zs
=1;
[0019]
将在所述标准分层机构名称集合中与综合匹配度最大值对应的标准分层机构名称作为所述待匹配分层机构名称的匹配结果并进行输出。
[0020]
基于上述发明内容,提供了一种用于对分层机构名称进行精准匹配的多维度匹配方案,即先获取待匹配分层机构名称与各个标准分层机构名称的搜索相关度、字符串相似度和地域相似度,然后采用线性加权模型在搜索相关度、字符串相似度和地域相似度等维度上进行多维融合,得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度,最后将与综合匹配度最大值对应的标准分层机构名称作为所述待匹配分层机构名称的匹配结果并进行输出,如此在匹配过程中,不但会考虑词频-逆文档特征,还会考虑机构名的文本固有特征及组成机构名的各个词的地域位置关系,进而可以显著提高匹配准确
率,并且无需建模,可降低成本,以及还可以泛化解决类似问题,便于实际应用和推广。
[0021]
在一个可能的设计中,获取待匹配分层机构名称与在标准分层机构名称集合中各个标准分层机构名称的搜索相关度,包括:
[0022]
将标准分层机构名称集合导入到elasticsearch搜索引擎中;
[0023]
以待匹配分层机构名称为输入信息,应用所述elasticsearch搜索引擎返回得到所述待匹配分层机构名称与在所述标准分层机构名称集合中各个标准分层机构名称的且基于bm25算法得到的相关性评分;
[0024]
对所述待匹配分层机构名称与所述各个标准分层机构名称的相关性评分进行归一化处理,得到所述待匹配分层机构名称与所述各个标准分层机构名称的搜索相关度。
[0025]
在一个可能的设计中,所述bm25算法采用如下公式:
[0026][0027]
式中,n表示正整数,x表示所述待匹配分层机构名称,dn表示在所述标准分层机构名称集合中第n个标准分层机构名称,score
bm25
(x,dn)表示所述待匹配分层机构名称与所述第n个标准分层机构名称的相关性评分,m表示正整数,m表示所述待匹配分层机构名称的词总数,d表示所述标准分层机构名称集合,tm表示在所述待匹配分层机构名称中的第m个词,表示所述第m个词在所述标准分层机构名称集合中的出现次数,表示所述第m个词在所述第n个标准分层机构名称中的出现次数。
[0028]
在一个可能的设计中,对所述待匹配分层机构名称与所述各个标准分层机构名称的相关性评分进行归一化处理,得到所述待匹配分层机构名称与所述各个标准分层机构名称的搜索相关度,包括:
[0029]
从所述标准分层机构名称集合中提取出在相关性评分维度上处于前k名的k个标准分层机构名称,得到用于替换所述标准分层机构名称集合的标准分层机构名称候选集合,其中,k表示不小于8的正整数;
[0030]
按照如下公式计算得到所述待匹配分层机构名称与在所述标准分层机构名称候选集合中各个标准分层机构名称的搜索相关度:
[0031][0032]
式中,k表示正整数,ssk表示所述待匹配分层机构名称与在所述标准分层机构名称候选集合中第k个标准分层机构名称的搜索相关度,scorek表示所述待匹配分层机构名称与所述第k个标准分层机构名称的相关性评分,score
min
表示所述待匹配分层机构名称与所述标准分层机构名称候选集合所具有的相关性评分最小值,score
max
表示所述待匹配分层机构名称与所述标准分层机构名称候选集合所具有的相关性评分最大值。
[0033]
在一个可能的设计中,获取所述待匹配分层机构名称与所述各个标准分层机构名称的字符串相似度,包括:
[0034]
获取所述待匹配分层机构名称与所述各个标准分层机构名称的编辑距离相似度,其中,所述编辑距离相似度在区间[0,1]内取值;
[0035]
获取所述待匹配分层机构名称与所述各个标准分层机构名称的j-w距离相似度,
其中,所述j-w距离相似度在区间[0,1]内取值;
[0036]
按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的杰卡德相似度:
[0037][0038]
式中,n表示正整数,zs
n,jc
表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的杰卡德相似度,tx表示所述待匹配分层机构名称的词集合,tdn表示所述第n个标准分层机构名称的词集合;
[0039]
按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的最长公共字符串相似度:
[0040][0041]
式中,zs
n,lcs
表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的最长公共字符串相似度,x表示所述待匹配分层机构名称,dn表示所述第n个标准分层机构名称;lcs(x,dn)表示所述待匹配分层机构名称与所述第n个标准分层机构名称所具有的最长公共子字符串长度;
[0042]
按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的字符串相似度:
[0043]
zsn=k
bd
*zs
n,bd
+k
jw
*zs
n,jw
+k
jc
*zs
n,jc
+k
lcs
*zs
n,lcs
[0044]
式中,zsn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的字符串相似度,zs
n,bd
表示所述待匹配分层机构名称与所述第n个标准分层机构名称的编辑距离相似度,zs
n,jw
表示所述待匹配分层机构名称与所述第n个标准分层机构名称的j-w距离相似度,k
bd
、k
jw
、k
jc
和k
lcs
分别为在区间[0,1]内取值的第二类权重系数,并且有k
bd
+k
jw
+k
jc
+k
lcs
=1。
[0045]
在一个可能的设计中,在计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的地域相似度之后,所述方法还包括:
[0046]
若所述待匹配分层机构名称与所述第n个标准分层机构名称的地域相似度为零,则根据地域关系数据库检查所述地域实体集合ed中的各个地域实体名词与所述地域特征集合sdn中的各个地域实体名词是否存在地域从属关系;
[0047]
若所述地域实体集合ed中的第一地域实体名词与所述地域特征集合sdn中的第二地域实体名词存在地域从属关系,则进一步判断所述第一地域实体名词是否为所述第二地域实体名词的行政中心或者所述第二地域实体名词是否为所述第一地域实体名词的行政中心;
[0048]
若是,则将所述待匹配分层机构名称与所述第n个标准分层机构名称的地域相似度更新为预设的第一数值,否则将所述待匹配分层机构名称与所述第n个标准分层机构名称的地域相似度更新为预设的第二数值,其中,所述第一数值在区间[0,1]内取值,所述第二数值也在区间[0,1]内取值但小于所述第一数值。
[0049]
在一个可能的设计中,所述第一类权重系数采用如下公式提前确定:
[0050][0051]
式中,rp
ss
表示在已匹配分层机构名称集合中仅基于搜索相关度最大值就能正确匹配所述标准分层机构名称中的某个标准分层机构名称的已匹配分层机构名称子集合,rp
zs
表示在所述已匹配分层机构名称集合中仅基于字符串相关度最大值就能正确匹配所述标准分层机构名称中的某个标准分层机构名称的已匹配分层机构名称子集合,rp
rs
表示在所述已匹配分层机构名称集合中仅基于地域相似度最大值就能正确匹配所述标准分层机构名称中的某个标准分层机构名称的已匹配分层机构名称子集合。
[0052]
第二方面,提供了一种分层机构名称多维匹配装置,包括有搜索相关度获取模块、字符串相似度获取模块、地域实体获取模块、地域相似度计算模块、综合匹配度计算模块和匹配结果确定模块;
[0053]
所述搜索相关度获取模块,用于获取待匹配分层机构名称与在标准分层机构名称集合中各个标准分层机构名称的搜索相关度,其中,所述搜索相关度在区间[0,1]内取值;
[0054]
所述字符串相似度获取模块,用于获取所述待匹配分层机构名称与所述各个标准分层机构名称的字符串相似度,其中,所述字符串相似度在区间[0,1]内取值;
[0055]
所述地域实体获取模块,用于对所述待匹配分层机构名称依次进行分词处理和地域实体识别处理,得到地域实体集合,其中,所述地域实体集合中包含有至少一个规范化的地域实体名词;
[0056]
所述地域相似度计算模块,通信连接所述地域实体获取模块,用于按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的地域相似度:
[0057][0058]
式中,n表示正整数,rsn表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的地域相似度,count()表示集合元素总数统计函数,ed表示所述待匹配分层机构名称的地域实体集合,sdn表示所述第n个标准分层机构名称的且包含有至少一个规范化的地域实体名词的地域特征集合,max()表示求最大值函数,∩表示交集符号;
[0059]
所述综合匹配度计算模块,分别通信连接所述搜索相关度获取模块、所述字符串相似度获取模块和所述地域相似度计算模块,用于按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度:
[0060]
pn=h
ss
*ssn+h
zs
*zsn+h
rs
*rsn[0061]
式中,pn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的综合匹配度,ssn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的搜索相关度,zsn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的字符串相似度,h
ss
、h
zs
和hrs
分别为在区间[0,1]内取值的第一类权重系数,并且有h
ss
+h
rs
+h
zs
=1;
[0062]
所述匹配结果确定模块,通信连接所述综合匹配度计算模块,用于将在所述标准分层机构名称集合中与综合匹配度最大值对应的标准分层机构名称作为所述待匹配分层机构名称的匹配结果并进行输出。
[0063]
第三方面,本发明提供了一种计算机设备,包括有依次通信连接的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任意可能设计所述的分层机构名称多维匹配方法。
[0064]
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面或第一方面中任意可能设计所述的分层机构名称多维匹配方法。
[0065]
第五方面,本发明提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面或第一方面中任意可能设计所述的分层机构名称多维匹配方法。
[0066]
上述方案的有益效果:
[0067]
(1)本发明创造性提供了一种用于对分层机构名称进行精准匹配的多维度匹配方案,即先获取待匹配分层机构名称与各个标准分层机构名称的搜索相关度、字符串相似度和地域相似度,然后采用线性加权模型在搜索相关度、字符串相似度和地域相似度等维度上进行多维融合,得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度,最后将与综合匹配度最大值对应的标准分层机构名称作为所述待匹配分层机构名称的匹配结果并进行输出,如此在匹配过程中,不但会考虑词频-逆文档特征,还会考虑机构名的文本固有特征及组成机构名的各个词的地域位置关系,进而可以显著提高匹配准确率,并且无需建模,可降低成本,以及还可以泛化解决类似问题,便于实际应用和推广;
[0068]
(2)还可以精细得到权重系数,以便进行准确的多维融合,进一步提升匹配准确性。
附图说明
[0069]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0070]
图1为本技术实施例提供的分层机构名称多维匹配方法的流程示意图。
[0071]
图2为本技术实施例提供的分层机构名称多维匹配装置的结构示意图。
[0072]
图3为本技术实施例提供的计算机设备的结构示意图。
具体实施方式
[0073]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将结合附图和实施例或现有技术的描述对本发明作简单地介绍,显而易见地,下面关于附图结构的描述仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,
还可以根据这些附图获得其他的附图。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。
[0074]
应当理解,尽管本文可能使用术语第一和第二等等来描述各种对象,但是这些对象不应当受到这些术语的限制。这些术语仅用于区分一个对象和另一个对象。例如可以将第一对象称作第二对象,并且类似地可以将第二对象称作第一对象,同时不脱离本发明的示例实施例的范围。
[0075]
应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a、单独存在b或者同时存在a和b等三种情况;又例如,a、b和/或c,可以表示存在a、b和c中的任意一种或他们的任意组合;对于本文中可能出现的术语“/和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,a/和b,可以表示:单独存在a或者同时存在a和b等两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。
[0076]
实施例:
[0077]
如图1所示,本实施例第一方面提供的所述分层机构名称多维匹配方法,可以但不限于由具有一定计算资源的计算机设备执行,例如由平台服务器、个人计算机(personal computer,pc,指一种大小、价格和性能适用于个人使用的多用途计算机;台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(personal digital assistant,pda)或可穿戴设备等电子设备执行。如图1所示,所述分层机构名称多维匹配方法,可以但不限于包括有如下步骤s1~s6。
[0078]
s1.获取待匹配分层机构名称与在标准分层机构名称集合中各个标准分层机构名称的搜索相关度,其中,所述搜索相关度在区间[0,1]内取值。
[0079]
在所述步骤s1中,所述待匹配分层机构名称即为需要标准化的、具有分层组织结构特点且以字符串形式呈现的机构名称数据,可以但不限于为某个具体的医疗机构名称或医学研究机构名称。所述标准分层机构名称集合即为多个标准分层机构名称的集合,其中的标准分层机构名称即为已标准化的、具有分层组织结构特点且以字符串形式呈现的机构名称数据;所述标准分层机构名称集合可以包含有机构别名以及机构所处的地域信息(即省、市和县等信息),例如“马鞍山市传染病医院”又名“马鞍山市第四人民医院”,等等。所述搜索相关度是指以文本搜索方式在所述标准分层机构名称集合中对所述待匹配分层机构名称进行搜索和匹配,然后得到的且用于进行搜索排名的依据。优选的,获取待匹配分层机构名称与在标准分层机构名称集合中各个标准分层机构名称的搜索相关度,包括但不限于有如下步骤s11~s13。
[0080]
s11.将标准分层机构名称集合导入到elasticsearch搜索引擎中。
[0081]
在所述步骤s11中,所述标准分层机构名称集合即作为搜索基础数据,所述elasticsearch搜索引擎是一个基于lucene的且具有分布式多用户能力的现有搜索引擎,因此可以基于常规方式将所述标准分层机构名称集合导入到所述elasticsearch搜索引擎中。
[0082]
s12.以待匹配分层机构名称为输入信息,应用所述elasticsearch搜索引擎返回得到所述待匹配分层机构名称与在所述标准分层机构名称集合中各个标准分层机构名称的且基于bm25算法得到的相关性评分。
[0083]
在所述步骤s12中,即是应用所述elasticsearch搜索引擎来以文本搜索方式在所述标准分层机构名称集合中对所述待匹配分层机构名称进行搜索和匹配;若某个标准分层机构名称有别名,则还需要针对该别名进行搜索和匹配,并得到所述待匹配分层机构名称与该别名的且基于bm25算法得到的相关性评分。所述bm25算法是一种用来评价搜索词和文档之间相关性的现有算法。由于机构名称属于名词短语或者专有名称,因此它经过分词后再基于分词后所得的词袋进行搜索和匹配,会与一般的且在很长的文档中匹配被检索词的情况有所不同,故而本实施例还根据分层机构名称的短语匹配特征对bm25算法的原公式进行调优改造。bm25算法的原公式如下:
[0084][0085]
式中的符号含义均为现有公知常识,例如其中的doccount表示索引中的文档数量,相当于本实施例中所述标准分层机构名称集合的元素总数。对于该原公式,可将调节因子k1设置为0,使词频项失效;idf(ti)为逆文档项,也就是某个词在文档集中出现的频率越低,那么该词匹配后就会使其评分增大,故而鉴于本实施例所面临的问题,可将idf计算公式调整如下:这样调整可使得在同样的doccount和下,新的idf要大于原来的idf(ti),且随着的减小,增长速度加快,即所述bm25算法优选采用如下公式:
[0086][0087]
式中,n表示正整数,x表示所述待匹配分层机构名称,dn表示在所述标准分层机构名称集合中第n个标准分层机构名称,score
bm25
(x,dn)表示所述待匹配分层机构名称与所述第n个标准分层机构名称的相关性评分,m表示正整数,m表示所述待匹配分层机构名称的词总数,d表示所述标准分层机构名称集合,tm表示在所述待匹配分层机构名称中的第m个词,表示所述第m个词在所述标准分层机构名称集合中的出现次数,表示所述第m个词在所述第n个标准分层机构名称中的出现次数。
[0088]
s13.对所述待匹配分层机构名称与所述各个标准分层机构名称的相关性评分进行归一化处理,得到所述待匹配分层机构名称与所述各个标准分层机构名称的搜索相关度。
[0089]
在所述步骤s13中,考虑基于bm25算法得到的相关性评分是未经规范化的,也就是说其值没有明确上限,因此需要对其进行规范化处理,使所述搜索相关度在区间[0,1]内取值,故此需要进行所述归一化处理。同时出于节约处理时间和降低计算复杂度的考虑,优选
的,对所述待匹配分层机构名称与所述各个标准分层机构名称的相关性评分进行归一化处理,得到所述待匹配分层机构名称与所述各个标准分层机构名称的搜索相关度,包括但不限于有如下步骤s131~s132。
[0090]
s131.从所述标准分层机构名称集合中提取出在相关性评分维度上处于前k名的k个标准分层机构名称,得到用于替换所述标准分层机构名称集合的标准分层机构名称候选集合,其中,k表示不小于8的正整数。
[0091]
在所述步骤s131中,假设所述标准分层机构名称集合中有20000个标准分层机构名称,k取值为10,若基于所述标准分层机构名称集合进行后续计算,则计算次数需要20000次,而若基于所述标准分层机构名称候选集合进行后续计算,则计算次数仅需要10次,可大幅度降低计算复杂度,利于快速得到匹配结果。
[0092]
s132.按照如下公式计算得到所述待匹配分层机构名称与在所述标准分层机构名称候选集合中各个标准分层机构名称的搜索相关度:
[0093][0094]
式中,k表示正整数,ssk表示所述待匹配分层机构名称与在所述标准分层机构名称候选集合中第k个标准分层机构名称的搜索相关度,scorek表示所述待匹配分层机构名称与所述第k个标准分层机构名称的相关性评分,score
min
表示所述待匹配分层机构名称与所述标准分层机构名称候选集合所具有的相关性评分最小值,score
max
表示所述待匹配分层机构名称与所述标准分层机构名称候选集合所具有的相关性评分最大值。
[0095]
s2.获取所述待匹配分层机构名称与所述各个标准分层机构名称的字符串相似度,其中,所述字符串相似度在区间[0,1]内取值。
[0096]
在所述步骤s2中,所述字符串相似度用于在整体字符串信息上反映所述待匹配分层机构名称与所述各个标准分层机构名称的相似程度。具体的,包括但不限于有如下步骤s21~s25。
[0097]
s21.获取所述待匹配分层机构名称与所述各个标准分层机构名称的编辑距离相似度,其中,所述编辑距离相似度在区间[0,1]内取值。
[0098]
在所述步骤s21中,具体的编辑距离可以但不限于采用莱文斯坦距离(levenshtein distance),因此可以通过常规方式获取所述待匹配分层机构名称与所述各个标准分层机构名称的编辑距离相似度。
[0099]
s22.获取所述待匹配分层机构名称与所述各个标准分层机构名称的j-w距离相似度,其中,所述j-w距离相似度在区间[0,1]内取值。
[0100]
在所述步骤s22中,具体的j-w距离即为jaro-winkler distance(其是一个度量两个字符序列之间的编辑距离的字符串度量标准,是由william e.winkler在1990年提出的jaro distance度量标准的一种变体),因此可以通过常规方式获取所述待匹配分层机构名称与所述各个标准分层机构名称的j-w距离相似度。
[0101]
s23.按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的杰卡德相似度:
[0102][0103]
式中,n表示正整数,zs
n,jc
表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的杰卡德相似度,tx表示所述待匹配分层机构名称的词集合,tdn表示所述第n个标准分层机构名称的词集合。
[0104]
s24.按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的最长公共字符串相似度:
[0105][0106]
式中,zs
n,lcs
表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的最长公共字符串相似度,x表示所述待匹配分层机构名称,dn表示所述第n个标准分层机构名称;lcs(x,dn)表示所述待匹配分层机构名称与所述第n个标准分层机构名称所具有的最长公共子字符串长度。
[0107]
s25.按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的字符串相似度:
[0108]
zsn=k
bd
*zs
n,bd
+k
jw
*zs
n,jw
+k
jc
*zs
n,jc
+k
lcs
*zs
n,lcs
[0109]
式中,zsn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的字符串相似度,zs
n,bd
表示所述待匹配分层机构名称与所述第n个标准分层机构名称的编辑距离相似度,zs
n,jw
表示所述待匹配分层机构名称与所述第n个标准分层机构名称的j-w距离相似度,k
bd
、k
jw
、k
jc
和k
lcs
分别为在区间[0,1]内取值的第二类权重系数,并且有k
bd
+k
jw
+k
jc
+k
lcs
=1。
[0110]
在所述步骤s25中,所述第二类权重系数k
bd
、k
jw
、k
jc
和k
lcs
可以举例分别为0.25。
[0111]
s3.对所述待匹配分层机构名称依次进行分词处理和地域实体识别处理,得到地域实体集合,其中,所述地域实体集合中包含有至少一个规范化的地域实体名词。
[0112]
在所述步骤s3中,所述分词处理和所述地域实体识别处理均可采用现有方式实现,其中,所述分词处理可具体采用jieba分词插件,并可以添加自定义字典和同义词来进行优化,例如,“医院”这个词经常出现在医疗机构名称中,可将其停用以避免这个无效词的干扰;所述地域实体识别处理可具体选用现有的paddlepaddle-python实体识别工具。此外,识别出的地域实体名词需要规划化,可分为省-市-县三个层次,例如需要把“广东”规范化为“广东省”。
[0113]
s4.按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的地域相似度:
[0114][0115]
式中,n表示正整数,rsn表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的地域相似度,count()表示集合元素总数统计函数,ed表示所述待匹配分层机构名称的地域实体集合,sdn表示所述第n个标准分层机构名称的且包含有至少一个规范化的地域实体名词的地域特征集合,max()表示求最大值函数,∩表
示交集符号。
[0116]
在所述步骤s4中,所述地域特征集合中的地域实体名词可提前参照所述步骤s3得到;若rsn等于零,则表示所述待匹配分层机构名称与所述第n个标准分层机构名称在表面上并无交集,但是考虑可能还存在潜在的地域从属关系,优选的,在计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的地域相似度之后,所述方法还包括但不限于有如下步骤s411~s413。
[0117]
s411.若所述待匹配分层机构名称与所述第n个标准分层机构名称的地域相似度为零,则根据地域关系数据库检查所述地域实体集合ed中的各个地域实体名词与所述地域特征集合sdn中的各个地域实体名词是否存在地域从属关系。
[0118]
在所述步骤s411中,所述地域关系数据库用于反映预先确定的且省与市以及市与县等的地域从属关系,例如广州市属于广东省,且为省会城市。此外,所述地域关系数据库可具体采用postgressql的插件ltree来进行数据库维护,以及检查所述地域实体集合ed中的各个地域实体名词与所述地域特征集合sdn中的各个地域实体名词是否存在地域从属关系。
[0119]
s412.若所述地域实体集合ed中的第一地域实体名词与所述地域特征集合sdn中的第二地域实体名词存在地域从属关系,则进一步判断所述第一地域实体名词是否为所述第二地域实体名词的行政中心或者所述第二地域实体名词是否为所述第一地域实体名词的行政中心。
[0120]
s413.若是,则将所述待匹配分层机构名称与所述第n个标准分层机构名称的地域相似度更新为预设的第一数值,否则将所述待匹配分层机构名称与所述第n个标准分层机构名称的地域相似度更新为预设的第二数值,其中,所述第一数值在区间[0,1]内取值,所述第二数值也在区间[0,1]内取值但小于所述第一数值。
[0121]
在所述步骤s413中,所述第一数值可以举例为0.3;所述第二数值可以举例为0.15。
[0122]
s5.按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度:
[0123]
pn=h
ss
*ssn+h
zs
*zsn+h
rs
*rsn[0124]
式中,pn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的综合匹配度,ssn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的搜索相关度,zsn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的字符串相似度,h
ss
、h
zs
和h
rs
分别为在区间[0,1]内取值的第一类权重系数,并且有h
ss
+h
rs
+h
zs
=1。
[0125]
在所述步骤s5中,考虑分层机构名称可以描述为这三部分:地域信息、机构组织信息和特征信息;例如,“重庆医科大学附属口腔医院”,地域信息为“重庆”,机构组织信息为“医科大学”,特征信息为“口腔”,因此本实施例即是针对于这三类信息,外加上整个字符串的整体信息,来采用线性加权模型在搜索相关度、字符串相似度和地域相似度等维度上进行多维融合,得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度,以便后续准确得到匹配结果。
[0126]
s6.将在所述标准分层机构名称集合中与综合匹配度最大值对应的标准分层机构名称作为所述待匹配分层机构名称的匹配结果并进行输出。
[0127]
由此基于前述步骤s1~s6所描述的分层机构名称多维匹配方法,提供了一种用于对分层机构名称进行精准匹配的多维度匹配方案,即先获取待匹配分层机构名称与各个标准分层机构名称的搜索相关度、字符串相似度和地域相似度,然后采用线性加权模型在搜索相关度、字符串相似度和地域相似度等维度上进行多维融合,得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度,最后将与综合匹配度最大值对应的标准分层机构名称作为所述待匹配分层机构名称的匹配结果并进行输出,如此在匹配过程中,不但会考虑词频-逆文档特征,还会考虑机构名的文本固有特征及组成机构名的各个词的地域位置关系,进而可以显著提高匹配准确率,并且无需建模,可降低成本,以及还可以泛化解决类似问题,便于实际应用和推广。
[0128]
本实施例在前述第一方面的技术方案基础上,还提供了一种如何提前确定第一类权重系数的可能设计一,即所述第一类权重系数采用如下公式提前确定:
[0129][0130]
式中,rp
ss
表示在已匹配分层机构名称集合中仅基于搜索相关度最大值就能正确匹配所述标准分层机构名称中的某个标准分层机构名称(即将在所述标准分层机构名称集合中与搜索相关度最大值对应的某个标准分层机构名称作为已匹配分层机构名称的匹配结果)的已匹配分层机构名称子集合,rp
zs
表示在所述已匹配分层机构名称集合中仅基于字符串相关度最大值就能正确匹配所述标准分层机构名称中的某个标准分层机构名称(即将在所述标准分层机构名称集合中与字符串相关度最大值对应的某个标准分层机构名称作为已匹配分层机构名称的匹配结果)的已匹配分层机构名称子集合,rp
rs
表示在所述已匹配分层机构名称集合中仅基于地域相似度最大值就能正确匹配所述标准分层机构名称中的某个标准分层机构名称(即将在所述标准分层机构名称集合中与地域相似度最大值对应的某个标准分层机构名称作为已匹配分层机构名称的匹配结果)的已匹配分层机构名称子集合。前述确定方式可在针对多个待匹配分层机构名称的匹配过程中逐渐迭代优化;最后经过精通多个字符串距离算法原理的专家反复观察错误匹配项的字符串特征,精细微调得到所述第一类权重系数为h
ss
=0.45、h
zs
=0.4和h
rs
=0.15。
[0131]
由此基于前述可能设计一,可以精细得到第一类权重系数,以便进行准确的多维融合,进一步提升匹配准确性。此外,针对所述第二类权重系数,也可以采用类似手段进行精细确定,于此不再赘述。
[0132]
如图2所示,本实施例第二方面提供了一种实现第一方面或可能设计一所述的分层机构名称多维匹配方法的虚拟装置,包括有搜索相关度获取模块、字符串相似度获取模块、地域实体获取模块、地域相似度计算模块、综合匹配度计算模块和匹配结果确定模块;
[0133]
所述搜索相关度获取模块,用于获取待匹配分层机构名称与在标准分层机构名称集合中各个标准分层机构名称的搜索相关度,其中,所述搜索相关度在区间[0,1]内取值;
[0134]
所述字符串相似度获取模块,用于获取所述待匹配分层机构名称与所述各个标准分层机构名称的字符串相似度,其中,所述字符串相似度在区间[0,1]内取值;
[0135]
所述地域实体获取模块,用于对所述待匹配分层机构名称依次进行分词处理和地域实体识别处理,得到地域实体集合,其中,所述地域实体集合中包含有至少一个规范化的地域实体名词;所述地域相似度计算模块,通信连接所述地域实体获取模块,用于按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的地域相似度:
[0136][0137]
式中,n表示正整数,rsn表示所述待匹配分层机构名称与在所述标准分层机构名称集合中第n个标准分层机构名称的地域相似度,count()表示集合元素总数统计函数,ed表示所述待匹配分层机构名称的地域实体集合,sdn表示所述第n个标准分层机构名称的且包含有至少一个规范化的地域实体名词的地域特征集合,max()表示求最大值函数,∩表示交集符号;所述综合匹配度计算模块,分别通信连接所述搜索相关度获取模块、所述字符串相似度获取模块和所述地域相似度计算模块,用于按照如下公式计算得到所述待匹配分层机构名称与所述各个标准分层机构名称的综合匹配度:
[0138]
pn=h
ss
*ssn+h
zs
*zsn+h
rs
*rsn[0139]
式中,pn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的综合匹配度,ssn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的搜索相关度,zsn表示所述待匹配分层机构名称与所述第n个标准分层机构名称的字符串相似度,h
ss
、h
zs
和h
rs
分别为在区间[0,1]内取值的第一类权重系数,并且有h
ss
+h
rs
+h
zs
=1;
[0140]
所述匹配结果确定模块,通信连接所述综合匹配度计算模块,用于将在所述标准分层机构名称集合中与综合匹配度最大值对应的标准分层机构名称作为所述待匹配分层机构名称的匹配结果并进行输出。
[0141]
本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果,可以参见第一方面或可能设计一所述的分层机构名称多维匹配方法,于此不再赘述。
[0142]
如图3所示,本实施例第三方面提供了一种执行如第一方面或可能设计一所述的分层机构名称多维匹配方法的计算机设备,包括有依次通信连接的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面或可能设计一所述的分层机构名称多维匹配方法。具体举例的,所述存储器可以但不限于包括随机存取存储器(random-access memory,ram)、只读存储器(read-only memory,rom)、闪存(flash memory)、先进先出存储器(first input first output,fifo)和/或先进后出存储器(first input last output,filo)等等;所述处理器可以但不限于采用型号为stm32f105系列的微处理器。此外,所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。
[0143]
本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果,可以参见第一方面或可能设计一所述的分层机构名称多维匹配方法,于此不再赘述。
[0144]
本实施例第四方面提供了一种存储包含如第一方面或可能设计一所述的分层机构名称多维匹配方法的指令的计算机可读存储介质,即所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面或可能设计一所述的分层机构名称
多维匹配方法。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(memory stick)等计算机可读存储介质,所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。
[0145]
本实施例第四方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果,可以参见如第一方面或可能设计一所述的分层机构名称多维匹配方法,于此不再赘述。
[0146]
本实施例第五方面提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面或可能设计一所述的分层机构名称多维匹配方法。其中,所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程装置。
[0147]
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1