一种藏语语义本体创建及词汇扩充方法

文档序号:6511808阅读:230来源:国知局
一种藏语语义本体创建及词汇扩充方法
【专利摘要】本发明涉及少数民族文字处理方法,尤其涉及一种可以实现藏语语义本体创建及词汇扩充方法。其包括1)基于知网中文词库,建立上层本体;2)利用电子词典的释义,扩充上层本体中出现的概念的同义词;3)在多语言本体库中进行上层本体概念的上下位关系模式匹配算法,扩充上层本体概念;4)查找扩充后的本体概念的近义词;5)基于本体概念词汇语义相似度算法进行相似度从高到低的排序;6)对排序结果进行修订,编辑本体。本发明基于知网中文词库,建立上层本体,本体中的上下位关系定义了概念和概念之间的层次,基于这种上下位关系,可以获得更多语义新词,充实已有的藏语语义本体的词汇,极大的提高藏语信息处理精度。
【专利说明】一种藏语语义本体创建及词汇扩充方法
【技术领域】
[0001]本发明涉及少数民族文字处理方法,尤其涉及一种可以实现藏语语义本体创建及词汇扩充方法。
【背景技术】
[0002]词典中定义的概念本身并没有二义性,它能唯一地、准确地指向现实世界中的实体或对象。但在句处理中,句中的概念是由词表示的。例如概念词“木马”在下面三个句子中至少可以表示三种概念:
[0003](I)木马是一种玩具。
[0004](2)木马是一种运动器械。
[0005](3)木马是一种病毒。
[0006]因此所谓概念二义性,就是由于一个概念词可以表示多个概念引起的。而藏语也会因为上下文语境的不同,其汉语有不同译文:
[0007]
【权利要求】
1.一种藏语语义本体创建及词汇扩充方法,其特征在于,包括下列步骤: 1)基于知网中文词库,建立上层本体; 2)利用电子词典的释义,扩充上层本体中出现的概念的同义词; 3)在多语言本体库中进行上层本体概念的上下位关系模式匹配算法,扩充上层本体概念; 4)查找扩充后的本体概念的近义词; 5)基于本体概念词汇语义相似度算法进行相似度从高到低的排序; 6)对排序结果进行修订,编辑本体。
2.如权利要求1所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,步骤3)所述的上下位关系是:如果给定概念Cl和C2,Cl的同义集合为{Cl,Cl',…},C2的同义集合为{C2,C2',…},若C2的外延包含Cl的外延,则认为Cl和C2具有上下位关系,其中Cl称为C2的下位概念,C2称为Cl的上位概念,记作hr (Cl, C2)。
3.如权利要求1所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,步骤3)所述的上下位关系模式包括单对单模式、多对单模式、单对多模式、多对多模式和多层次模式。
4.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,所述的单对单模式只提取一个下位概念Cl和一个上位概念C2,组成一个上下位关系hr (Cl, C2)。
5.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,所述的多对单模式提取多个下位概念Cl,C2,…,Cm和一个上位概念Cm+1,组成一组上下位关系hr (Cl, Cm+1), hr (C2, Cm+1),…,hr (Cm, Cm+1)。
6.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,所述的单对多模式提取一个下位概念Cl和多个上位概念C2,C3, -,Cm,组成一组上下位关系hr (Cl, C2),hr (Cl, C3),…,hr (Cl, Cm)。
7.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,所述的多对多模式提取多个下位概念Cl, C2,…,Cm和多个上位概念Cm+1, Cm+2,…,Cm+n,组成一组上下位关系 hr (Cl, Cm+1), hr (C2, Cm+1),…,hr (Cm, Cm+1),...,hr (Cl, Cm+2), hr (C2, Cm+2),…,hr (Cm, Cm+2),…,hr (Cl, Cm+n), hr (C2, Cm+n),…,hr(Cm, Cm+n)。
8.如权利要求3所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,所述的多层次模式提取一组概念Cl,C2, C3,使得hr (Cl, C2),hr (C2, C3)多层上下位关系成立。
9.如权利要求1所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,所述模式匹配为:上下位关系模式集合?=^1^2,一,?!11},语料库6,G中含有句子集合S={sl, s2,…,sn},对任意s e S,若通过模式匹配算法得到pl, p2,…,pk(pi e P, i=l, 2,…k)与s匹配,记作(s,{?1^2,"%?1^}),若不存在模式与8相匹配,则记作('(.)1。
10.如权利要求9所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,模式匹配组成部分包括:基本模式、匹配句子、提取关系。
11. 如权利要求1所述的一种藏语语义本体创建及词汇扩充方法,其特征在于,步骤3)所述的上下位关系模式匹配算法包括下列步骤: 1)输入上下位关系模式集合P,语料库G ;2)预处理,将语料G分割转换为句子序列S={sl,s2,…,sn}; 3)若S不为空,对每一个句子se S,对s先进行分词处理; 4)在P中搜索s所满足的上下位关系模式,得到s所满足上下位关系模式pl,p2,…,pk(pi e P, i=l, 2,…k); 5)根据pl,p2,…,pk中每个模式的上位概念域和下位概念域属性提取对应的上位概念部分和下位概念部分; 6)输出所有匹配结.果。
【文档编号】G06F17/27GK103473222SQ201310421642
【公开日】2013年12月25日 申请日期:2013年9月16日 优先权日:2013年9月16日
【发明者】邱莉榕 申请人:中央民族大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1