一种基于混合进化算法的实例共指消解方法

文档序号:9750782阅读:933来源:国知局
一种基于混合进化算法的实例共指消解方法
【技术领域】
[0001 ]本发明属于计算机信息领域,具体地,本发明涉及一种基于混合进化算法的实例 共指消解方法。
【背景技术】
[0002]定义:
[0003]本体:本体是一个三元组(C,P,I ),其中C表示本体中的概念集合,P表示本体中的 关系集合,I表示本体中的实例集合,是概念对应的实际数据对象。
[0004] 本体概念体系结构:用于表示本体中的概念和概念之间关系的数学模型。
[0005] 概念档案:指的是通过本体概念体系结构构建的概念信息集合,包括概念自身的 信息和周边概念的信息。
[0006] 实例档案:指的是通过L0D链接结构构建的实例信息结合,包括实例自身的信息和 该实例周边实例的信息
[0007] f-Measure:又称为f-Score,是IR(信息检索)领域的常用的一个评价标准。
[0008] MatchFmeasure:在本体匹配领域中,用于近似f-measure值的一种本体匹配结果 的度量技术,该技术可以克服f-measure在计算过程中需要实现给出标准的结果的缺陷。
[0009] 链接开放数据网(Linked Open Data,L0D)是实现语义网的里程碑。随着越来越多 的数据集被公布和并依据已有的数据链接规则同L0D上数据集关联,这使得不同数据集中 的共指链接变得越来越重要:这些链接能够实现分布在不同地区的相同实例对象的集成。 但是,由于L0D中的由不同团队开发的相同数据实例很可能用不同的识别符来标记,导致 数据集间存在实例异质问题。如何消除数据集中的异质问题,即实例共指消解问题,成为 L0D发展的关键。目前常用的技术有两种:
[0010] (1)基于本体的语义相似度度量技术
[0011]基于本体的语义相似度度量技术通过两个本体实例中的信息来估计它们的相似 程度。总的来说,目前已有的基于本体的语义相似度度量技术可以分为以下两类:1)基于边 的语义相似度度量技术。该类技术通过两个实例在本体中的互相关联的强度来估计二者的 相似程度,关联的强度通常是通过一个基于距离的相似度函数计算本体中实例间的距离来 获得。例如,Rada等通过计算连接本体中两个实例的最短路径来估计二者的相似度值。2)基 于节点的语义相似度度量技术。该类技术关注于评价本体中对于实例的定义信息,如实例 自身的信息和实例的信息量。例如,Batet等通过计算两个实例自身相同属性与不同属性的 比值来估计二者的相似程度;Resnik提出通过估计两个实例共同父实例的最大信息量来估 计二者的相似程度。
[0012] (2)实例共指消解技术
[0013]在R.Rada,H提出的经典模型中,关于两个实例是否共指同一个实例是通过集成两 个实例所有属性对的相似度值来决定的。这一模型是实例共指消解领域大部分技术的基 础。还有一种基于静态分析和推荐解析式的实例共指消解技术被提出并用于寻找相似的实 例。ObjectCoref是一中基于半监督学习算法的自适应的系统,该系统可以通过静态的度量 技术来区分不同的属性-值对。还有一种无监督的学习算法被提出以确定一些特殊的属性 对。SERMI是一种务监督的方法,该方法分为确定相似属性的选择阶段和确定相似属性值 的识别阶段。Zhishi. links是一个分布式的系统,该系统通过特殊的索引过程和字符串相 似度度量技术来识别和过滤相似的实例对象。
[0014] 现有的基于本体的相似度度量技术的缺点如下:(1)基于边的语义相似度度量技 术过分依赖本体的实例分类结构,简单的实例分类结构会极大影响该类相似度度量技术的 准确性;(2)基于节点的语义相似度度量技术未能使用本体的实例分类结构中的信息、也无 法处理同义词近义词的情况,对于实例描述简单或存在大量同义词近义词的描述情况,该 类相似度度量技术的准确度不高。本发明提出的基于本体的相似度度量技术综合使用了本 体分类结构信息、外部词典信息和本体中实例描述信息以提高相似度度量技术的普适性和 语义识别能力。
[0015] 现有的实例共指消解技术在确定相同实例的过程中都没有考虑这些实例的上层 本体结构,待处理的实例的规模过于庞大导致共指消解过程的效率低下。此外,现有的实例 共指消解技术过于依赖实例间的关联关系,很差的实例体系结构会极大影响已有技术的有 效性。

【发明内容】

[0016] 为解决上述问题,本发明提供了一种基于混合进化算法的实例共指消解方法。本 发明提出基于本体概念层匹配的实例数据集划分方案来降低待处理的实例的规模,同时将 实例共指消解问题建模为组合优化问题并设计混合进化算法求解,在保证实例匹配结果质 量的前提下最大程度地降低了本体实例集规模对求解效率的影响。
[0017] 为达到上述技术效果,本发明的技术方案是:
[0018] -种基于混合进化算法的实例共指消解方法,包括如下步骤:
[0019] 步骤1)构建本体中的概念档案和实例档案,确定实例的相似度度量方案,具体包 括如下步骤:
[0020] 1.1)给定两个本体,两个本体分别包含有若干概念,每个概念包含有若干实例;两 个本体均建立对应的概念档案和实例档案;
[0021 ] 1.2)将一个本体中的概念与另一个本体中的概念进行配对形成概念对,配对的方 法为:根据本体概念体系结构将相似的概念进行匹配;
[0022] 1.3)使用MatchFmeasure评价方法评价匹配的两个概念,两个概念的相似度超过 阈值,则确定两个概念匹配成为概念对;将形成概念对的两个概念进行实例相似度匹配;
[0023] 步骤2)确定实例的相似度度量方案,进行实例相似度匹配:
[0024] 2.1)将概念对中一个概念里的实例与另一个概念里的实例进行随机配对形成实 例对;
[0025] 2.2)判断相似的实例对:
[0026]使用电子词典度量技术判断形成实例对的两个实例的名称是否匹配:若两个实例 是同义词,则相似度值取值为1;若一个实例为另一个实例的上位词则相似度值取值为〇. 5; 若电子词典度量技术判断形成实例对的两个实例不匹配,则根据实例档案,使用基于语言 的相似度度量技术判断形成实例对的两个实例是否匹配,具体方法如下:
[,7] ⑴
[0_ (2)
[0029] 其中,ei表示一个实例的实例档案,的表示另一个实例的实例档案;Sim( ei,e2)表 示基于的的两个实例之间的相似度计算函数;sim(e2,ei)表示基于的的两个实例之间的相 似度计算函数;Iprof(ei) ^prof(e2) |为ei和e2中相同元素的个数,|prof(ei) |为ei中元素 的个数;|prof(e2) |为e2中元素的个数;
[0030] 若0< |sim(ei,e2)-sim(e2,ei) | <σ,σ = 〇·1,则确定形成实例对的两个实例匹配;
[0031]步骤3)使用基于进化算法的实例共指消解技术获得最优的实例匹配方案,包括如 下步骤:
[0032] 3.1)使用MatchFmeasure评价方法对每次实例对的匹配结果进行评价:
[0033] 3.2)使用进化算法重复步骤2),使用MatchFmeasure评价方法评价每次本体中所 有实例的匹配结果,直至得到最优解,最优解为两个本体最优的实例匹配方案。
[0034] 进一步的改进,所述步骤3)中的进化算法为混合进化算法。
[0035] 进一步的改进,所述混合进化算法的适应度函数采用f-measure度量,遗传算子为 赌轮盘算子,交叉算子为单点交叉算子。
[0036] 进一步的改进,所述混合进化算法采用局部搜索算法。
[0037] 进一步的改进,所述局部搜索算法为爬山算法。
[0038] 进一步的改进,步骤1.1)中,实例档案中的实例周边实例的信息为通过L0D链接结 构连接深度为2的周边实例的集合。
[0039]本发明的优点:
[0040]同现有的基于本体的语义相似度度量技术相比:
[0041] (1)无需调试任何参数,应用方便。
[0042] (2)综合使用本体分类结构信息、外部词典信息和本体中实例描述信息,普适性 强、语义识别能力高。
[0043] (3)采用了新的非对称式度量结构,提高了语义识别能力。
[0044] 同现有的实例共指消解技术相比:
[0045] (1)通过本体概念层匹配结果来划分待匹配的实例数据集以缩小实例数据集规 模、提高匹配的效率。
[0046] (2)首次将实例共指消解问题建模为组合优化问题并设计混合进化算法求解,降 低对本体中实例体系结构的依赖,提高了技术的普适性和匹配结果的质量。
【具体实施方
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1