一种基于混合进化算法的实例共指消解方法

文档序号：9750782阅读：933来源：国知局

一种基于混合进化算法的实例共指消解方法
【技术领域】
[0001 ]本发明属于计算机信息领域，具体地，本发明涉及一种基于混合进化算法的实例共指消解方法。
【背景技术】
[0002]定义：
[0003]本体:本体是一个三元组(C，P，I )，其中C表示本体中的概念集合，P表示本体中的关系集合，I表示本体中的实例集合，是概念对应的实际数据对象。
[0004] 本体概念体系结构:用于表示本体中的概念和概念之间关系的数学模型。
[0005] 概念档案：指的是通过本体概念体系结构构建的概念信息集合，包括概念自身的信息和周边概念的信息。
[0006] 实例档案:指的是通过L0D链接结构构建的实例信息结合，包括实例自身的信息和该实例周边实例的信息
[0007] f-Measure:又称为f-Score，是IR(信息检索)领域的常用的一个评价标准。
[0008] MatchFmeasure:在本体匹配领域中，用于近似f-measure值的一种本体匹配结果的度量技术，该技术可以克服f-measure在计算过程中需要实现给出标准的结果的缺陷。
[0009] 链接开放数据网(Linked Open Data,L0D)是实现语义网的里程碑。随着越来越多的数据集被公布和并依据已有的数据链接规则同L0D上数据集关联，这使得不同数据集中的共指链接变得越来越重要:这些链接能够实现分布在不同地区的相同实例对象的集成。但是，由于L0D中的由不同团队开发的相同数据实例很可能用不同的识别符来标记，导致数据集间存在实例异质问题。如何消除数据集中的异质问题，即实例共指消解问题，成为 L0D发展的关键。目前常用的技术有两种：
[0010] (1)基于本体的语义相似度度量技术
[0011]基于本体的语义相似度度量技术通过两个本体实例中的信息来估计它们的相似程度。总的来说，目前已有的基于本体的语义相似度度量技术可以分为以下两类:1)基于边的语义相似度度量技术。该类技术通过两个实例在本体中的互相关联的强度来估计二者的相似程度，关联的强度通常是通过一个基于距离的相似度函数计算本体中实例间的距离来获得。例如，Rada等通过计算连接本体中两个实例的最短路径来估计二者的相似度值。2)基于节点的语义相似度度量技术。该类技术关注于评价本体中对于实例的定义信息，如实例自身的信息和实例的信息量。例如，Batet等通过计算两个实例自身相同属性与不同属性的比值来估计二者的相似程度;Resnik提出通过估计两个实例共同父实例的最大信息量来估计二者的相似程度。
[0012] (2)实例共指消解技术
[0013]在R.Rada，H提出的经典模型中，关于两个实例是否共指同一个实例是通过集成两个实例所有属性对的相似度值来决定的。这一模型是实例共指消解领域大部分技术的基础。还有一种基于静态分析和推荐解析式的实例共指消解技术被提出并用于寻找相似的实例。ObjectCoref是一中基于半监督学习算法的自适应的系统，该系统可以通过静态的度量技术来区分不同的属性-值对。还有一种无监督的学习算法被提出以确定一些特殊的属性对。SERMI是一种务监督的方法，该方法分为确定相似属性的选择阶段和确定相似属性值的识别阶段。Zhishi. links是一个分布式的系统，该系统通过特殊的索引过程和字符串相似度度量技术来识别和过滤相似的实例对象。
[0014] 现有的基于本体的相似度度量技术的缺点如下：（1)基于边的语义相似度度量技术过分依赖本体的实例分类结构，简单的实例分类结构会极大影响该类相似度度量技术的准确性；（2)基于节点的语义相似度度量技术未能使用本体的实例分类结构中的信息、也无法处理同义词近义词的情况，对于实例描述简单或存在大量同义词近义词的描述情况，该类相似度度量技术的准确度不高。本发明提出的基于本体的相似度度量技术综合使用了本体分类结构信息、外部词典信息和本体中实例描述信息以提高相似度度量技术的普适性和语义识别能力。
[0015] 现有的实例共指消解技术在确定相同实例的过程中都没有考虑这些实例的上层本体结构，待处理的实例的规模过于庞大导致共指消解过程的效率低下。此外，现有的实例共指消解技术过于依赖实例间的关联关系，很差的实例体系结构会极大影响已有技术的有效性。

【发明内容】

[0016] 为解决上述问题，本发明提供了一种基于混合进化算法的实例共指消解方法。本发明提出基于本体概念层匹配的实例数据集划分方案来降低待处理的实例的规模，同时将实例共指消解问题建模为组合优化问题并设计混合进化算法求解，在保证实例匹配结果质量的前提下最大程度地降低了本体实例集规模对求解效率的影响。
[0017] 为达到上述技术效果，本发明的技术方案是：
[0018] -种基于混合进化算法的实例共指消解方法，包括如下步骤：
[0019] 步骤1)构建本体中的概念档案和实例档案，确定实例的相似度度量方案，具体包括如下步骤：
[0020] 1.1)给定两个本体，两个本体分别包含有若干概念，每个概念包含有若干实例;两个本体均建立对应的概念档案和实例档案；
[0021 ] 1.2)将一个本体中的概念与另一个本体中的概念进行配对形成概念对，配对的方法为:根据本体概念体系结构将相似的概念进行匹配；
[0022] 1.3)使用MatchFmeasure评价方法评价匹配的两个概念，两个概念的相似度超过阈值，则确定两个概念匹配成为概念对;将形成概念对的两个概念进行实例相似度匹配；
[0023] 步骤2)确定实例的相似度度量方案，进行实例相似度匹配：
[0024] 2.1)将概念对中一个概念里的实例与另一个概念里的实例进行随机配对形成实例对；
[0025] 2.2)判断相似的实例对：
[0026]使用电子词典度量技术判断形成实例对的两个实例的名称是否匹配:若两个实例是同义词，则相似度值取值为1;若一个实例为另一个实例的上位词则相似度值取值为〇. 5; 若电子词典度量技术判断形成实例对的两个实例不匹配，则根据实例档案，使用基于语言的相似度度量技术判断形成实例对的两个实例是否匹配，具体方法如下：
[，7] ⑴
[0_ (2)
[0029] 其中，ei表示一个实例的实例档案，的表示另一个实例的实例档案;Sim( ei，e2)表示基于的的两个实例之间的相似度计算函数;sim(e2，ei)表示基于的的两个实例之间的相似度计算函数；Iprof(ei) ^prof(e2) |为ei和e2中相同元素的个数，|prof(ei) |为ei中元素的个数；|prof(e2) |为e2中元素的个数；
[0030] 若0< |sim(ei，e2)-sim(e2，ei) | <σ，σ = 〇·1，则确定形成实例对的两个实例匹配；
[0031]步骤3)使用基于进化算法的实例共指消解技术获得最优的实例匹配方案，包括如下步骤：
[0032] 3.1)使用MatchFmeasure评价方法对每次实例对的匹配结果进行评价：
[0033] 3.2)使用进化算法重复步骤2)，使用MatchFmeasure评价方法评价每次本体中所有实例的匹配结果，直至得到最优解，最优解为两个本体最优的实例匹配方案。
[0034] 进一步的改进，所述步骤3)中的进化算法为混合进化算法。
[0035] 进一步的改进，所述混合进化算法的适应度函数采用f-measure度量，遗传算子为赌轮盘算子，交叉算子为单点交叉算子。
[0036] 进一步的改进，所述混合进化算法采用局部搜索算法。
[0037] 进一步的改进，所述局部搜索算法为爬山算法。
[0038] 进一步的改进，步骤1.1)中，实例档案中的实例周边实例的信息为通过L0D链接结构连接深度为2的周边实例的集合。
[0039]本发明的优点：
[0040]同现有的基于本体的语义相似度度量技术相比：
[0041] (1)无需调试任何参数，应用方便。
[0042] (2)综合使用本体分类结构信息、外部词典信息和本体中实例描述信息，普适性强、语义识别能力高。
[0043] (3)采用了新的非对称式度量结构，提高了语义识别能力。
[0044] 同现有的实例共指消解技术相比：
[0045] (1)通过本体概念层匹配结果来划分待匹配的实例数据集以缩小实例数据集规模、提高匹配的效率。
[0046] (2)首次将实例共指消解问题建模为组合优化问题并设计混合进化算法求解，降低对本体中实例体系结构的依赖，提高了技术的普适性和匹配结果的质量。
【具体实施方

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：薛醒思;
技术所有人：福建工程学院;
我是此专利的发明人

上一篇：词典降维方法及装置、信息分类方法及装置的制造方法
上一篇：一种数据解析方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。