一种改进的本体概念词汇语义相似度求解方法与流程

文档序号:11063462阅读:338来源:国知局
一种改进的本体概念词汇语义相似度求解方法与制造工艺

本发明涉及语义网络技术领域,具体涉及一种改进的本体概念词汇语义相似度求解方法。



背景技术:

目前,语义相似度计算被广泛应用于信息检索、语义web、自然语言处理等领域。前人主要从概念的名称、属性、结构等方面来综合考虑概念的相似度。之前有先将概念相似度计算分为两层:“初始相似度”和“通过非上下位关系体现的相似度”,前者主要利用概念之间的距离计算得到,后者则是在前人计算的基础上,通过概念的非上下位关系计算得到;再综合二者就可得到领域本体内概念的实际相似度。除此之外,还有主要通过概念间的上下位关系以及其它因素来计算领域内部概念之间的语义相似度。例如,有人提出了一种综合的相似度计算方法,即先根据两个概念名称的相似性过滤出最相关的概念,再分别基于概念实例、概念属性和概念关系计算概念相似度,并进行综合。由于本体能够将领域中的各种概念和关系进行显示地、形式地表达,因此本体在概念语义相似度计算中发挥重要作用,针对于概念在本体树中的层次深度、距离以及待比较词间的词形相似度等影响因子,综合考虑以上因子,本发明提出了一种改进的本体概念词汇语义相似度求解方法。



技术实现要素:

针对如何更精准获得每一个术语的相似术语问题以及考虑词形、本体概念等影响因子,本发明提供了一种改进的本体概念词汇语义相似度求解方法。

为了解决上述问题,本发明是通过以下技术方案实现的:

步骤1:初始化统计方法模块。

步骤2:将待比较词(c1,c2)输入初始化统计方法模块中。

步骤3:将待比较词(c1,c2)映射到本体概念模块中。

步骤4:分别选取待比较词(c1,c2)对应深度最大的本体概念g1、g2

步骤5:计算待比较词(c1,c2)对应深度最大的两本体概念间距离dis(g1,g2)。

步骤6:待比较词(c1,c2)之间的词形相似度xingsim(c1,c2)。

步骤7:综合上述步骤,计算两待比较词(c1,c2)的相似度sim(c1,c2)。

本发明有益效果是:

1、此计算词汇相似度方法在量化概念上更接近专家的经验值。

2、此方法更充分、更综合考虑了待比较词(c1,c2)对应深度最大的本体概念间的距离等因素,大大的提高了语义相似度结果的准确度。

3、更好的提高了本体推理的效果。

4、又考虑了词语本身具有的词形相似度、语义相似度结果的准确度得到了更好提高。

5、更符合实际应用效果。

附图说明

图1一种改进的本体概念词汇语义相似度求解方法结构流程图

具体实施方式

为解决更精准的获得每一个术语的相似术语问题以及考虑词形、本体概念等影响因子,结合图1对本发明进行了详细说明,其具体实施步骤如下:

步骤1:初始化统计方法模块。

步骤2:将待比较词(c1,c2)输入初始化统计方法模块中。

步骤3:将待比较词(c1,c2)映射到本体概念模块中。

步骤4:分别选取待比较词(c1,c2)对应深度最大的本体概念g1、g2,其具体描述如下:

待比较词(c1,c2)与概念之间是一对多的关系,当选取的概念深度越深,则待比较词(c1,c2)则越具体,更方便计算待比较词(c1,c2)的语义相似度。这个深度在统计模块块中很容易找到,例如在《知网》中找到词语对应的本体概念。

步骤5:计算待比较词(c1,c2)对应深度最大的两本体概念间距离dis(g1,g2),需先求两本体概念间义原项的相似度sim(g1,g2),再计算两本体概念间相对深度deepth(g1,g2),具体计算过程如下:

5.1)两本体概念间义原项的相似度sim(g1,g2)

设c1对应深度最大的本体概念g1中含有n个义原,即g1∈(y1,y2,…,yn),c2对应深度最大的本体概念g2中含有m个义原,即g2∈(y1′,y2′,…,ym′)。

分别两两计算g1与g2中义原的相似度,即sim(yi,yj′),i∈(1,2,…,n)、

j∈(1,2,…,m),可以得g1与g2中义原项相似度矩阵J(g1,g2),如下:

根据上述矩阵找出每个行向量中义原平均相似度averageSi,即

最后得到两本体概念间义原项的相似度sim(g1,g2),如下:

由于两本体概念间距离dis(g1,g2)与义原项的相似度sim(g1,g2)成反比,所以对sim(g1,g2)进行归一化处理,即得

α为光滑系数,具体由用户指定。

5.2)计算两本体概念间相对深度deepth(g1,g2)

deepth(g1,g2)=d1-d2

上式d1为c1对应深度最大的本体概念g1在模块中的深度值,同理d2为c2对应深度最大的本体概念g2在模块中的深度值,这个根据模块可以很容易得出。

5.3)计算待比较词(c1,c2)对应深度最大的两本体概念间距离dis(g1,g2)

上式A+B=1,A、B分别为sim(g1,g2)、deepth(g1,g2)的权重比例,这个由专家给出。

对dis(g1,g2)进行归一化处理,即

上式β可以通过非线性回归迭代估计确定。

步骤6:待比较词(c1,c2)之间的词形相似度xingsim(c1,c2),需先知词长相似率与词性相似率,其具体计算过程如下:

6.1)词长相似率rateword(c1,c2)

6.2)词性相似率wordsim(c1,c2)

上式n为待比较词(c1,c2)中词性相似个数,len(c1)为词c1的长度,len(c2)为c2的长度。

6.3)待比较词(c1,c2)之间的词形相似度xingsim(c1,c2)

步骤7:综合上述步骤,计算两待比较词C∈(c1,c2)的相似度sim(c1,c2),其具体计算过程如下:

sim(c1,c2)=A′dis(g1,g2)归一化+B′xingsim(c1,c2)

上式A′、B′为权重因子,当A′>0.5时,两本体概念间距离dis(g1,g2)对相似度sim(c1,c2)的影响较大,否则,词形相似度wordsim(c1,c2)对相似度sim(c1,c2的影响较大。根据经验可得,前者对sim(c1,c2)影响更大。

一种改进的本体概念词汇语义相似度求解方法,其伪代码计算过程:

输入:初始化模块,待比较词(c1,c2)

输出:待比较词(c1,c2)相似度sim(c1,c2)。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1