基于词嵌入的多源异构水利领域数据融合方法

文档序号:26050643发布日期:2021-07-27 15:25阅读:229来源:国知局
基于词嵌入的多源异构水利领域数据融合方法

本发明涉及知识图谱技术领域,尤其涉及一种基于词嵌入的多源异构水利领域数据融合方法。



背景技术:

2012年,google公司首次提出了一个新的概念——知识图谱,其通过引入知识图谱来结构化关于搜索目标的信息,以此提高搜索的质量。从内容上看,知识图谱主要由相互连接的实体和他们的属性构成;而本质上,其可被视作基于语义网络构建的知识库,其中每条知识可以由一条三元组表示。例如(阳澄湖,位置,苏州),刻画了真实世界中的一条知识(事实):阳澄湖位于苏州。由于真实世界很多场景都适用于用知识图谱进行表示,近年来,关于知识图谱的构建以及应用工作成为一个新的研究热点。当前,一大批优质的知识图谱在业界涌现,例如freebase等,其被广泛应用于真实世界应用中。

“水无形而有万形”,治水与用水是维系民生的千年难题。水利领域由于固有的时间跨度上的连续性和空间跨度上的广泛分布,会持续不断地产生海量领域数据,这些水利领域数据尤其适合使用知识图谱来管理。防洪排涝、水环境、水资源以及水生态等诸多问题,需要广泛的知识和复杂的推理,知识图谱可以作为水利领域专家和普通从业者存储、管理以及利用知识的强有力工具。

传统上,水利行业一般采用基于关键字的搜索技术,难以利用对象间的关系进行信息检索。另一方面,不同数据来源的相同实体或者属性可能以不同的文本来表述,基于关键字的搜索技术难以处理多源异构数据的检索问题。



技术实现要素:

发明目的:针对上述现有技术存在的问题与不足,本发明的目的是提供一种基于词嵌入的多源异构水利领域数据融合方法,该方法可以为多源异构水利领域数据中的实体与属性找到相似实体与属性,助力多源异构水利领域数据的链接与融合,提升水利领域数据检索的召回率,提高水利专业从业人员信息检索的效率。

技术方案:为实现上述发明目的,本发明采用的技术方案为一种基于词嵌入的多源异构水利领域数据融合方法,包括以下步骤:

(1.1)对于当前给定的水利领域数据,将实体和属性分开,生成候选实体对和候选属性对;

(1.2)对于所述步骤(1.1)生成的候选实体对和候选属性对,分别计算其中的两个实体或者属性的中文字面量、英文字面量以及向量表示层面的相似度;

(1.3)结合所述步骤(1.2)计算出的中文字面量、英文字面量以及向量表示层面的相似度,计算出实体对的相似度和属性对的相似度;

(1.4)将所述步骤(1.3)计算出的相似度与预设的阈值进行比较,相似度低于所述阈值的候选实体对与候选属性对被过滤,相似度高于所述阈值的候选实体对与候选属性对被保留,筛选出匹配实体对和匹配属性对。

进一步地,所述候选实体对由两个候选实体组成,所述候选属性对由两个候选属性组成,所述步骤(1.2)包括以下步骤:

(2.1)根据雅卡尔指数计算两个候选实体或者属性中文名称的字符串相似度;

(2.2)根据编辑距离计算两个候选实体或者属性英文名称的字符串相似度;

(2.3)根据余弦距离计算两个候选实体或者候选属性嵌入向量层面的相似度。

进一步地,所述步骤(2.3)包括以下步骤:

(3.1)对于所述步骤(1.1)生成的候选实体和候选属性,使用cbow词向量模型得到候选实体和候选属性的向量表示;

(3.2)根据所述步骤(3.1)得到的每个候选实体、候选属性的向量表示,取出表示当前候选实体对或者候选属性对的向量表示,计算候选实体对或者候选属性对的向量表示的余弦相似度。

进一步地,所述步骤(1.3)包括以下步骤:

(4.1)根据水利领域数据特征,确定中文字面量、英文字面量以及向量表示层面的相似度在实体对与属性对的相似度中所占的权重,确保中文字面量、英文字面量以及向量表示层面的相似度所占权重之和为1;

(4.2)根据所述步骤(4.1)确定的权重,计算中文字面量、英文字面量以及向量表示层面的相似度的加权平均数作为实体对的相似度和属性对的相似度。

有益效果:(1)匹配多源异构水利数据中的相似实体与属性,助力多源异构水利领域数据的融合。(2)本发明能够作为一个部件应用在传统的基于关键字的水利领域数据检索方法中,提高检索的召回率,进而提高水利领域从业人员检索数据的效率。

附图说明

图1是本发明的整体流程图。

具体实施方式

下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

为了更好地发挥知识的聚集效应,需要将多源异构数据进行链接和融合。机器学习领域的词嵌入技术,能够将不同知识图谱中的实体与属性投影到统一的低维向量空间,实现多源异构数据的链接与融合。

本发明使用知识图谱管理水利领域数据,使用词向量技术进行知识图谱中相似实体对与相似属性对的匹配,实现多源异构水利领域数据的融合。将水利知识图谱划分为实体和属性两部分,分别对这两部分进行多源异构数据的融合、相似概念的匹配。首先对候选实体对或候选属性对中的候选实体或候选属性分别计算中文字面量、英文字面量和向量表示层面的相似度。然后对上述三种相似度计算加权平均值,得到候选实体对或候选属性对的相似度。最后使用预设的相似度阈值和匹配数量上限来过滤候选实体对与候选属性对,得到匹配实体对与匹配属性对。

本发明的整体流程如图1所示,包括4个部分:将当前知识图谱划分为候选实体对与候选属性对,对候选实体对或候选属性对分别计算中文字面量、英文字面量以及向量表示层面的相似度,对上述三种相似度计算加权平均值作为候选实体对或者候选属性对的相似度,根据预设的阈值筛选出匹配实体对或者候选属性对。

具体实施方法分别说明如下:

1.将当前知识图谱划分为候选实体对与候选属性对

对于当前给定的一个知识图谱,将三元组中头尾实体与属性区分开,生成实体集和属性集。针对实体集,将其中的实体两两匹配,计算一对实体名称字面量的相似度,相似度低于阈值的实体对直接被过滤;针对属性集,计算一对属性名称字面量的相似度,相似度低于阈值的属性对直接被过滤。本发明中,使用雅卡尔指数计算此处字面量相似度,相似度阈值设为0.4。雅卡尔指数,又称交并比,用于度量有限样本集合的相似度,定义为两个集合交集大小与并集大小之间的比例,计算方式为:

j(a,b)=|a∩b|÷|a∪b|

式中,a与b表示需要计算雅卡尔指数的两个集合,j(a,b)表示计算出的两个集合的雅卡尔指数,|a∩b|表示两个集合交集的大小,|a∪b|表示两个集合并集的大小。

在本发明中,将两个候选实体或者候选属性拆分为中文词条的集合,然后计算两个词条集合的雅卡尔指数作为中文字面量层面的相似度。

2.对候选实体对或候选属性对计算中英文字面量以及向量表示的相似度

计算候选实体对或候选属性对中文字面量的相似度,使用雅卡尔指数。计算候选实体对或候选属性对英文字面量的相似度,使用编辑距离。编辑距离通过计算将一个字符串处理为另一个字符串所需的最小操作次数来度量两个字符串的差异程度。本发明中使用莱文斯坦距离,定义的原子编辑操作包括删除、加入和替换一个字符。使用如下方式将两个候选实体或候选属性的编辑距离规范化为0-1之间的相似度量:

s(c,d)=1-l(c,d)÷max(|c|,|d|)

式中,c与d表示需要度量相似度的两个字符串,s(c,d)表示计算出的两个字符串的基于编辑距离的相似度,l(c,d)表示两个字符串的编辑距离,max(|c|,|d|)表示两个字符串中较长字符串的长度。用编辑距离除以两个字符串长度的较大值,度量两个字符串的差异程度,值被规范化到0-1之间。

运用词嵌入模型在给定的知识图谱上训练得到实体、属性的向量表示,获取候选实体对或候选属性对中两个实体或者属性对应的向量表示,计算候选实体对或候选属性对向量表示的相似度,使用余弦相似度。余弦相似度通过测量两个向量夹角的余弦值来度量他们之间的相似性,两个向量夹角的余弦值可以通过欧几里得点积公式求出:

cos(θ)=(e·f)÷(|e|·|f|)

式中,e与f表示需要计算夹角余弦的两个向量,θ表示两个向量的夹角,e·f表示两个向量的点积,|e|·|f|表示两个向量长度的乘积,cos(θ)表示两个向量夹角的余弦值。

本发明中使用的表示学习模型为word2vec算法中的cbow(continuousbags-of-words)模型。word2vec算法基于分布式假设,认为一篇文档的词频代表了文档的主题,并且上下文环境相似的两个词具有相近的语义。cbow模型使用上下文来预测中心词,即训练输入是一个特征词的上下文相关的词对应的词向量,输出是特定的中心词的词向量。

3.对三种相似度计算加权平均值作为候选实体对或候选属性对的相似度

上述步骤2中已经计算出候选实体对或候选属性对在中文字面量、英文字面量以及向量表示层面的相似度。为了得到候选实体对或候选属性对的相似度,需要对上述三种相似度计算加权平均数,记中文字面量相似度为a,英文字面量相似度为b,向量表示相似度为c,加权平均数为d:

d=α*a+β*b+γ*c

式中,α,β,γ分别是三部分相似度在最终候选实体对或候选属性对相似度中所占的权重,本发明中设置为α=0.6,β=0.3,γ=0.1。

4.根据预设的阈值筛选出匹配实体对或者候选属性对

步骤3中计算出了每一个候选实体对或者候选属性对的相似度,本发明的目的是通过使用词嵌入技术进行多源异构水利领域数据的融合,需要使用预设的阈值过滤掉相似度较低的候选实体对与候选属性对,提高准确率。预设的相似度阈值为0.6,相似度低于该阈值的候选实体对与候选属性对被过滤,相似度高于该阈值的候选实体对与候选属性对被保留。

由于存在某些实体或者属性的相似属性过多的情况,使用一个匹配实体与匹配属性的上限值来约束匹配的实体或者属性的数量,本发明中限制为10,即保留每个实体或者属性相似度高于相似度阈值0.6的且相似度大小排名前10的候选实体或者候选属性,作为最终生成的匹配实体对与匹配属性对。

本发明使用的基于词向量的多源异构水利领域数据融合方法能匹配多源异构水利领域数据中的相似实体与相似属性,提高水利领域信息检索的召回率,使用阈值和上限的双重约束能提高检索结果的准确率。下表一中给出几个范例,表第一列为对象实体或属性,第二列为与其相似度较高的实体或属性(按相似度降序排列)。

表1:本发明中匹配实体对或匹配属性对范例

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1