术语匹配方法、装置、终端和计算机可读存储介质与流程

文档序号:24306869发布日期:2021-03-17 00:59阅读:来源:国知局

技术特征:

1.一种术语匹配方法,其特征在于,包括:

根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;

为每个所述相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度,其中,所述加权求和相似度的值用于表示所述第一术语和所述第二术语的匹配度。

2.根据权利要求1所述的术语匹配方法,其特征在于,具体包括:

在第一术语系统中指定一个术语,作为所述第一术语,在第二术语系统中任取一个术语,作为所述第二术语;

根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;

为每个所述相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;

通过多次改变所述第二术语的取值,每改变一次第二术语则进行一次计算,从而生成多个加权求和相似度,其中加权求和相似度的最大值用于表示所述第一术语系统中指定一个术语与所述第二术语系统中的第二术语的匹配度。

3.根据权利要求1所述的术语匹配方法,其特征在于,具体包括:

在第一术语系统中取一个术语,作为所述第一术语,在第二术语系统中取一个术语,作为所述第二术语;

根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;

为每个所述相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度;

通过多次改变所述第一术语和所述第二术语的取值,进行计算,从而生成多个加权求和相似度;

对多个加权求和相似度进行求和运算,生成总匹配度值,所述总匹配度值用于表示所述第一术语系统和所述第二术语系统的匹配度。

4.根据权利要求3所述的术语匹配方法,其特征在于,计算过程具体还包括:

在赋予权重的步骤中,通过多种权重组合对多个相似度值进行加权求和,以使每种权重组合对应生成一个总匹配度值,多种权重组合则生成多个总匹配度值;

记录多个总匹配度值中的最大值,用于表示所述第一术语系统与所述第二术语系统的匹配结果。

5.根据权利要求1至4中任一项所述的术语匹配方法,其特征在于,所述根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值,具体包括:

计算出所述第一术语与所述第二术语的余弦相似度、杰卡德相似度以及哈希相似度,对应生成余弦相似度值、杰卡德相似度值以及哈希相似度值。

6.根据权利要求5所述的术语匹配方法,其特征在于,计算所述第一术语与所述第二术语的余弦相似度,具体包括:

基于分词词典对所述第一术语和所述第二术语进行分词,基于停用词词典对所述第一术语和所述第二术语进行去停用词,生成对应于所述第一术语的第一词组列表和对应于所述第二术语的第二词组列表;

对所述第一词组列表和所述第二词组列表进行编码,得到对应于所述第一词组列表的第一词频向量以及对应于所述第二词组列表的第二词频向量;

计算所述第一词频向量和第二词频向量之间的余弦值,其中,所述余弦值即所述第一词频向量和第二词频向量的相似度,余弦值越大表示相似度越高。

7.根据权利要求5所述的术语匹配方法,其特征在于,计算所述第一术语与所述第二术语的杰卡德相似度,具体包括:

基于分词词典对所述第一术语和所述第二术语进行分词,基于停用词词典对所述第一术语和所述第二术语进行去停用词,生成对应于所述第一术语的第一词组列表和对应于所述第二术语的第二词组列表;

对所述第一词组列表和所述第二词组列表进行编码,得到对应于所述第一词组列表的第一词频向量以及对应于所述第二词组列表的第二词频向量;

计算所述第一词频向量与所述第二词频向量的交集与并集的比值,以获取杰卡德相似度值,其中,所述杰卡德相似度值越大表示相似度越高。

8.根据权利要求5所述的术语匹配方法,其特征在于,计算所述第一术语与所述第二术语的哈希相似度,具体包括:

基于分词词典对所述第一术语和所述第二术语进行分词,基于停用词词典对所述第一术语和所述第二术语进行去停用词,生成对应于所述第一术语的第一词组列表和对应于所述第二术语的第二词组列表;

将所述第一词组列表和所述第二词组列表中的每个词转换为哈希值数字串,所述哈希值数字串乘以词的权重,得到每个词的序列串;

将词组列表中的多个词的序列串相加,得到对应于所述第一词组列表的第一术语序列串,以及对应于所述第二词组列表的第二术语序列串;

将所述第一术语序列串和所述第二术语序列串转换为二进制串;

计算所述第一术语序列串和所述第二术语序列串的二进制串之间的海明距离;

根据所述海明距离确定所述第一术语和所述第二术语之间的哈希相似度,其中,所述哈希相似度值越大表示相似度越高。

9.一种术语匹配装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时能够实现如权利要求1至8中任一项所述的术语匹配方法限定的步骤。

10.一种终端,其特征在于,包括:

如权利要求9所述的术语匹配装置。

11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被执行时,实现如权利要求1至8中任一项所述的术语匹配方法的步骤。


技术总结
本发明提供了一种术语匹配方法、装置、终端、和计算机可读存储介质,其中,术语匹配方法包括:根据多种相似度计算算法计算出第一术语与第二术语的相似度,对应于多种相似度计算算法生成多个相似度值;为每个相似度值赋予权重,多个相似度值分别与对应的权重相乘,乘积结果相加,得到多个相似度值的加权求和相似度,其中,加权求和相似度的值用于表示第一术语和第二术语的匹配度。通过本发明的技术方案能够实现术语系统(术语词典)之间术语的自动匹配,代替人工操作,降低错误率,有助于促进医疗数据集成、分析和再利用。

技术研发人员:王利;宋志朋
受保护的技术使用者:深圳中兴网信科技有限公司
技术研发日:2019.09.16
技术公布日:2021.03.16
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1