一种基于语义匹配驱动的自然语言知识获取方法

文档序号:6379034阅读:490来源:国知局
专利名称:一种基于语义匹配驱动的自然语言知识获取方法
一种基于语义匹配驱动的自然语言知识获取方法技术领域
本发明属于计算机自然语言理解领域,特别涉及一种基于语义匹配驱动的自然语言知识获取方法。
背景技术
在知识集成中,大量的知识被蕴含在自然语言语句中,只有实现了自然语言语句的自动分析,才能有效获取语句中所蕴含的知识。因此,自然语言处理技术就成为了知识集成的关键基础技术。
自然语言处理技术主要有基于规则的方法和基于统计的方法两种思路,但这两种方法都没有充分地利用语义信息,很难取得高质量的处理结果。因此,研究者越来越重视语义的作用,出现了基于Wordnet、hownet、framenet等词汇语义知识库来分析自然语言的方法,但这些知识库中所包含语义信息的描述粒度太粗,没有表示到词素的层次,也不够准确。这些缺点致使很难利用它们形成一套系统的语句处理方法和模型。
在基于语义的语句分析方面,学者们作了一定程度的研究姚天顺研究过基于语义驱动的自然语言理解,但词汇语义的描述比较粗糙,对语义信息的利用也不够充分, 分析方法也不够系统;HPSG方法是基于词汇信息驱动的,但词汇的信息主要是用来描述语法规则的 ,对语义的描述过少也不够准确,与汉语的特点不相适应。文献(Tom 0H, Janyce ff,Exploiting Semantic Role Resources for Preposition Disambiguation[J]. Computational Linguistics, 2008, 35 (2) : 151-184.)研究了将语料树库与 framenet 相结合的介词短语消歧,文献(Patwardhan S, Banerjee S, Pedersen T. Using measures of semantic relatedness for word sense disambiguation[C]. Proceedings of the 4th International Conference on Intelligent Text Processing and Computational Linguistics (CICLING-03) ,Mexico City, 2003 241 - 257.)研究了使用语义关系进行词汇语义消歧。虽然这些研究取得一定的成果,但还没有形成一套系统地利用语义信息进行自然语言处理的模型和方法。
要形成一个完整的自然语言处理的语义模型,必须较为准确地表示词汇的语义, 应具体到词素的级别才可能满足语义模型的要求,而现有的词汇语义表示方式大多没有对此进行深入的研究。格语法使用“格”来描述深层语义关系,但格语法仅仅被用来进行语法分析,很少用格来描述词汇的语义。模态是描述动作执行状态关键因素之一,自然语言中很多词汇的准确语义在本质上蕴含了某个动作概念的模态,而现有的各种词汇语义表示方式没有考虑模态,因此很难准确地描述概念的语义。本体能够严格地表示概念语义,本体一般使用描述逻辑来表示所有概念;但描述逻辑中将概念之间的语义关系进行平等的对待,没有对动作性概念的语义关系的本质特征进行特殊的语义解释和处理。发明内容
针对现有技术中存在的不足,本发明的目的在于提供一种利用语义信息来进行自然语言处理并获取其中所蕴含的知识的基于语义匹配驱动的自然语言知识获取方法。
本发明的技术方案是这样实现的为了能够自动分析自然语言并获取中所蕴含的知识,提出了一个自然语言处理的语义模型,该模型使用一个假设公理来判定最佳语法分析方案。为了满足该模型的语义表示需求,对描述逻辑进行了特殊化处理,使之能够更适合地表示自然语言词汇语义。基于该模型,提出了一种基于词汇语义匹配驱动的自然语言分析方法;该方法利用语义匹配信息,结合少量自然语言中常见的语法规则,根据语义匹配值,能够在多种符合语法的分析方案中,选择一种比较符合语义逻辑的分析方案作为最终的分析结果,通过该方法可以进行自然语言语句分析并获取其中所蕴含的知识。本发明基于语义匹配驱动的自然语言知识获取方法,包括如下过程
(I)定义自然语言处理的语义模型包括定义词汇间的语义匹配关系;定义词汇的语义修饰目标;以及定义语句的语义匹配值;
(2)定义词汇语义的表示方法;
(3)定义词汇间的语义匹配关系包括名词-名词间的语义匹配关系;名词-动词间的语义匹配关系;名词-形容词的语义匹配关系;并列语义匹配关系;副词的语义匹配关系;量词的语义匹配关系;代词的语义匹配关系;以及语法匹配关;
(4)定义语句处理方法涉及语义结构的三个层次及其文法;包括获取最佳语法分析方案的思路,获取最佳的语法分析方案,以及简单子句的最佳语义匹配值等几部分;
(5)将分析结果转化为知识点。
本发明的有益效果是本发明提出了一个自然语言处理的语义模型。在该模型中, 提出了语义匹配的概念,使用一个假设公理来判定最佳语法分析方案。由于使用该模型必须具有较为准确的词汇语义表示方式,本发明对基于描述逻辑的语义表示方式作了特殊化处理,其特点为
(I)将“格”和“模态”作为基本的语义关系;
(2)对描述逻辑进行了变型、限制并赋予特殊的语义解释,使之便于表示自然语言的词汇语义;
基于该模型,本发明提出了一种基于语义匹配驱动的自然语言处理的方法,该方法具有以下的特点
(I)提出了基于语义匹配的自底向上的简单子句归结法;
(2)语句分析的目的和结果是获得语句中隐含的知识。


图I是本发明基于语义匹配驱动的自然语言知识获取方法中基于语义关系的词汇定义;
图2是本发明基于语义匹配驱动的自然语言知识获取方法中文法规则示意图。
具体实施方式
本发明基于语义匹配驱动的自然语言知识获取方法的具体实现过程如下
步骤I :
(Ia)定义词汇间的语义匹配关系14
定义I :在词汇语义知识库中,任意两个实词^和^之间具有的内在语义联系,称为语义匹配关系。用函数match(Wx,Wy)来表示其密切程度,函数的值就是语义匹配值。语义匹配关系与具体语句无关。假如Wx与Wy之间没有语义匹配关系,则设置match (ffx, ffY) =MAX, MAX是一个大常数。
(Ib)定义2 :语句中的任意实词Wi(除去谓语中心词)均语义修饰于另外一个实词Wei,称Wei是Wi语义修饰目标。
(Ic)定义3 :在特定的语法分析方案Ai的情况下,假设V为谓语中心词,S为V的施动者,O为V的承受者,Wi是语句中的一个实词且!(Wi e {S,V, O}), Wei是Wi的语义修饰目标,用函数match (Wi, Wei)表示其语义匹配值,那么,整个语句的语义匹配值¥&111 可以用公式(I)来表示
vauleAi = kSvo :! (match(S, V) + match(0,V)) - Kw Σ ^matcliiWi, W(;i)i=i(I)
S和0的语义修饰目标是V,η是实词的个数(不包括S,V,O),Ksto和Kwi为权值系数。需要注意的是,值越小表示语义匹配程度越大。
(Id)假设公理I (最佳语法分析公理)假设一个语句具有m种语法分析方案,最符合语义逻辑的语法分析方案Ai满足条件=A^argmin (ValueAi),即语义匹配值最小的语法分析方案是最佳语法分析方案。
步骤2
(2a)定义4(基本概念)在构建语义库前所设定的、无需进行语义定义的、并在语句分析和推理时由系统进行特别语义解释处理的有限符号集合,基本概念数量极少,用 Cwb= {WB1, WfWBk}表不,默认每个基本概念Wm继承于根概念。
(2b)定义5(格)表示动作类概念与其他事物之间相关情况的深层语义关系的特殊基本概念集合,用Cve=IC1, CfCj表不。例如“原因”是一个表不动作原因的一个格。
(2c)定义6(模态)表示动作类概念的执行状态的特殊基本概念集合,用Cvm= {M1; MfM1J表不。例如“完成”是一个表不动作已经执行完毕的一个模态。
(2d)定义7(基本的语义关系)在构建语义库前所设定的、不可改变的、并在语句分析时需要进行特别语义解释处理的语义关系,包括如下语义关系
Rc (V, C,W)格语义关系用以表示动作类概念V与概念W具有格为C的深层语义关系,其中c e Cvc;
Rm(V, M)模态语义关系用以表示动作类概念V的执行状态为M,其中C e Cvm ;
Rap(WjP)属性语义关系用以表示概念P是名词类概念W的一个属性的语义关系;
Ras (W,S)状态语义关系用以表示概念S是名词类概念W的一个状态的语义关系;
Rd(W)继承语义关系概念的语义定义式中只能使用一次,例如W1继承于W2 ;
Rp(W1, W2)描述部分语义关系的有限集合说明概念W2的语义是W1的语义的一部分;
Rw(W1, W2)描述整体关系的有限集合说明概念W1语义包含W2 ;
Rvs (V, W)表示动作V的施动者是W的语义关系,Rvo (V, W)表示动作V的承受者是 W的语义关系。
(2e)定义8 (扩展语义关系)在构建语义库过程中所新定义的语义关系集合,数量不限。在语句分析时,所有的扩展语义关系具有统一的处理方法,不进行特殊的处理。用 Re (W1, W2)表示,说明被定义的概念W是巧和^之间的一种语义关系。在非定义式中,用 Rk (W,W1, W2)表示W1和W2之间存在名为W的扩展语义关系。
(2f)基于基本描述逻辑,对其概念定义按规则1-7进行限制和变换,成为本文的概念语义定义方法。
规则I (概念定义规则)
I)假如Wbi,Wb2是基本概念,R1, R2是语义关系,则新符号
W= I Wbi I R1 (Wbi) I ] Wbi I R1 (W81) IR1 (Wbi) UR2 (Wb2) | R1 (Wbi) η
R2 (Wb2)是概念;
2)假如Wbi,Wb2是概念,R1,R2是语义关系,则新符号
W=^wbi I n R1 (Wr1) U Wbi U R1 (Wbi) | R1 (Wbi) UR2 (Wb2)丨 Ri (Wbi) Π
R2 (Wb2)是概念;
在规则I中没有概念并、概念交、量词的使用规则,它们的处理方式见规则2-2。规则2-3是为了把概念的定义方式转化为一组语义关系,并且要求名词满足单继承的原则。
规则2 (概念并的处理规则)假如W1, W2是概念,WpW2的最近共同祖先概念为WP, 当新概念W具有W=Wi U W2的语义时,由于单继承规则,可将W定义为W=Rd (Wp) n (Rp(ffP, W1) URp(Wp,W2))。例如,双亲=Rd(人)n (Rp(人,父亲)U Rp(人,母亲))。
规则3 (概念交的处理规则)假如W1,W2是概念,当新概念W具有W=W1 n W2的语义时,由于单继承规则,可将W定义为W=Rd (W1) n Rff(W17W2)或W=Rd (W2) H Rw(W2jW1)0
规则2和规则3只不过是将概念并、概念交转换了一种表示方式而已,只需规定该两种表示方式的特定语义解释即可,这样做是为了解决多继承问题和保证单继承原则的一种变通手段,作用类似于java中的接口,以加快概念的检索和匹配的速度。
在自然语言中,名词均会在语义上直接或间接继承于基本概念,为了更清晰准确的表示名词的语义,要求名词语义表示时采用单继承的原则,对于具有多继承语义的概念, 采用规则2和规则3来处理。及物动词在语义上表示名词对另一个名词所做施加的一个动作;不及物动词则表示名词自身的一种变化;形容词在语义上均表示名词或名词间的状态或属性;副词在语义上均表示动作的执行情况(模态)和相关情况(格)。因此,可用满足规则4的方式来表示自然语言中各类词汇的语义。
规则4(概念分类定义规则)自然语言中概念按性质被分类表示为名词、动词、形容词、副词。假设用Def(W)表示概念W的定义式,Num(R,W)为定义式中语义关系R的出现次数,每类词汇定义应满足如下规则
名词的单继承满足条件(Rd(Wp) cDef(W)) n (Num(Rn, W)=l)的概念W。
动词:满足条件(Rvs(W1) U (Rvo (W2)) [ Def (W) Γ (Num (Rvs,W1) =1)
n (Num (Rvo, W2) =1)。
形容词:满足条件(Rap(W,W1)URas(W,W1)) Def Cf)) Π
(Num (Rap, W) =1) η (Num (Ras,W)=l)。
副词满足条件(札(W1,D^Def(W)) n (Num(R , W)二I)。
规则5 (量词的处理规则)量词(V全称量词和存在量词3)没有得到特殊的对待,被作为”次数”格语义关系的一个值表示动作的次数,作为“数量”属性语义关系的值来表示名词的个数。因为这不影响自然语言的语法结构分析,在推理时根据动作的“次数”格和名词“数量”属性的值进行具体分析。
规则6 (实例设置规则)在定义概念W时,假如定义式中的概念Wi出现m次,而这 m次出现指代的η个语义{S1; SJ,则可用{W,ff#l-ff#n-l},来区别W的η个语义,ff#i在推理时可解释为实例。
规则7 (多义词处置规则)自然语言中有很多多义词,假如多义词W具有η个语义{S1; SfSJ,则针对每一个具体语义定义一个概念,共定义η个概念{W@1,W@2…獅η}来区别表示这η个不同语义。
(2g)假设公理2 :继承语义关系具有单向传递性,下层概念继承上层概念所具有语义关系。
定理I。根据继承关系RD,所有名词构成一棵树。
根据规则1-7和定义4-8,可以定义自然语言中词汇的语义。假设用一条有向线段来表示语义关系的话,根据定理I和词汇的定义和规则可知,词汇W的语义可以由名词树中的一组有向线段来表不。
步骤3
(3a)定义名词-名词间的语义匹配关系
定义9 (关联词汇集)名词定义式中所包含的所有词汇的集合,用Ckw表示。例如附I中的名词W的关联词汇集
Cew= {ff, Wp, Wrl, Wr2, Wr3, Wr4, Wr5, Wv, WvJ
在下文的分析中用~为表示继承语义关系,Wx - ffY表示Wx继承于Wy,并且规定 W ~ W。
(I)基本语义匹配关系
定义10 (直接语义匹配关系)如果词汇WX、WY满足下述条件,用符号Wxn Wy表示
条件假设Wy的关联词汇集是C ,则
3 Wz Π (Wz E Cwy) Π (W产 Wz)。
当WxrWy时,match (Wx, ffY) =KT*d (Wx, Wz)。
Kt为匹配关系系数,根据所匹配的关系R的类型,设置为不同的常数,一般有 I ^ Kt ^ 3ο
例如附I中{W^W^WwWd^W^Ww}中的每个词汇都与W具有直接语义匹配关系。
定义11(继承语义匹配关系)洳果词汇^為满足下述条件’用符号!^ Wy表示
条件3Wzn (wxr Wz) n (wYocwz)
当WxrWy时,match (Wx, ffY) =match (Wx, Wz) +d (ffY, Wz)。
例如附I 中 Iffdrt, Wdvc, Wdr2, Wd2,Wdr3, Wdr4, Wdr5I 与 Wdl,Wd2 具有继承语义匹配关系。
定义语义距离函数d(Wx,Wy):表示具有继承关系的两个词汇Wx,Wy之间的继承次数。
(2)包含语义匹配关系
定义12 (显式语义包含关系)如果词汇Wx、Wy满足下述条件,用符号Wx Θ Wy表/Jn ο
条件存在概念Wz,满足条件
3Wz (Rw(WY, Wz) CDef (Wy)) Π (Wx^Wz)
当Wx Θ Wy 时,有 match (Wx,Wy) =Kp* (d (Wx,Wz)。Kp 为包含匹配关系系数。
定义13 (隐含语义包含关系):如果词汇\、Wy满足下述条件,用符号Wx〇Wy表/Jn ο
条件存在概念Wz,满足条件
3 Wz (Rp(Wz, Wx) C Def (Wx)) fl (WzocWy )
当Wx 〇 Wy 时,match (Wx, ffY) =Kp* (d(Wz, ffY))。
定义14 (包含语义匹配关系):如果词汇Wx、Wy满足下述条件,用符号Wx ◎ Wy表示
条件=(WxOWy)U (WxOWy) U (3WZ ((WxOWz) H (WzOWy)))
当Wx ◎ Wy 时,match (ffx, ffY)=
min {match (ffx, Wz) +match (Wz, ffY), match (ffx, ffY)}
定理3 :当词汇WX、WY满足WX€)WY时,WY具有WX的语义关系。
(3b)名词-动词间的语义匹配关系
名词-动词的语义匹配关系可以分为两类
I) SVO语义匹配关系名词可能作施动者或动作的承受者
2)格语义匹配关系名词与动词具有格语义匹配关系
假设动词为V,V的定义中的施动名词为Stl,受动名词为(V由于在定义时已经将 S0设置为可能实施V的最高层名词,O0设置为承受该动作的最高层名词,所以只有同Stl或 O0具有某种关系的名词S和名词O才有可能执行动作V,即构成SVO的语义匹配。SVO语义匹配有6种情况,其值可用Valuesw表示,计算公式如下
Valuesvo=match (S, S。)+match (O, O0)
定义15 (常规SVO语义匹配关系):满足条件(S OC S0) η (O- O0)。
定义16 (重载SVO语义匹配关系)满足条件
((SO n (aRvo(Rvo(V, W) CDef (S)) fl (OD) U ((O^O0) Π
(3Rvs(Rvs(V, W) cDef (O)) Γ (S^W))
对于名词S和O以及动词V,当V的定义中不满足SVO匹配时,而S、0的定义说明它们满足SVO匹配。
例戒指=Rd (饰品)n Rvs (佩戴,人)n Rvq(佩戴,饰品)n Rc(佩戴,位置,手), 由于“戒指”中包含了 Rvs(佩戴,人),所以{人,佩戴,戒指}构成重载SVO语义匹配关系。
定义17 (包含SVO语义匹配关系):满足条件((S(DStl) H (O-O0)) U ((S-S0) H (O ◎ O0))。
例班级=Rd(集合)n Rff(集合,学生),由于“学生”可以“吃” “饭”,“学生”是 “班级”的一部分,所以{班级,吃,饭}构成整体SVO语义匹配关系。
定义18(相似SVO语义匹配关系):满足条件((S^Sci) H (O-O0)) U ((S-S0) H (O …O0))。18
定义19 (比喻SVO语义匹配关系):在下述条件下,猜测语句中可能存在比喻
条件I :在整个语句中没有任何名词可以满足前四种SVO匹配。
条件2 :语句中存在名词S或0,满足!(S OC S0) n (Ooc Otl),猜测将S比喻为S。。
或条件3 :语句中存在名词S或0,满足(So^Stl) η ! (O ~ O。),猜测将O比喻为O。。
对于比喻SVO 语义匹配关系,Valuesvo=Kp* (match (S, ffP) +match (O, Wp))
Kf为权值系数,Wp是S和Stl的最近共同祖先。因为属于猜测性质,Kf的值应比较大,以防止不良影响。
定义20(格语义匹配关系)对于名词W和动词V,满足3Rc(V,L Wc) C Def (V) n (W^Wc) O
match (W,V) =Kc*d(ff, Wc),Kc 为权值系数。
(3c)名词_形容词的语义匹配关系
对于形容词Wva和名词WN,满足
3W((Ras(W, W1) U (Rap (W,W1)) cDef (Wva) n (W产W)),
match (ffVA, ffN) =KA*d (ffN, ff),Ka 为权值系数(一般 KA=1)。
(3d)并列语义匹配关系
并列语义匹配关系仅用于语句中并列结构的判断,以确定连词的辖域。
定义21 (语义相似)由于名词定义采用了单继承的方法,两个名词Wx、Wy虽然在定义式中没有继承关系,但在语义上Wx却可能是Wy的一种,相当于描述逻辑中的概念蕴含, 用符号Wx - Wy表示。可对描述逻辑中的Tableau算法加以改进,以判断概念语义相似关系O
定义22 (名词并列语义匹配关系)对于两个名词Wx,Wy可用match (ffx, WY) =Kt* (d (ffx, WE) +d (ffY, WE))计算出一个数值,作为启发信息,We是WX、WY的距离最近的共同祖先节点。当满足Wx - Wy时,也可能是并列关系。
定义23 (动词并列语义匹配关系)对于两个动词Vx,Vy可用match (ffx, WY) =KT*(d(Sxo,SY0)+d(0X0, Oyo))计算出一个数值,作为启发信息,{Sxo, SY0, Oxo, OycJ 是 Wx,Wy 定义中的施动者和受动者。
(3e)其它类词汇间的语义匹配关系
副词的语义匹配关系关于副词修饰形容词和副词,也有很复杂的情况,本文暂不作讨论,假设副词可以语义匹配于动词、形容词和副词,规定match^,W2) =O0量词的语义匹配关系词汇库应保存量词与名词的关联关系。假如量词W可以修饰名词Wn,则规定 match (ff, WN) =0 ;否则match (ff, ffN) =MAX。代词的语义匹配关系根据代词的指代关系,将代词替换成相应的名词进行处理,比如把“我”按“人”处理。
(3f)语法匹配关系
特别注意前面的各种语义匹配关系是内在的,与具体语句无关。在具体的语句中,可能某些类型的词汇互相修饰,但词汇本身之间并没有内在的语义关系,只是在本语句内可能有语义修饰关系的一种语法现象(即语法上的修饰关系),主要包括以下两种情况
(I)不常见的词类间修饰关系动词-动词之间;副词-名词之间;形容词-动词之间等。例如“喜欢游泳” “老实说”等;这些都属于语法匹配关系,词汇本身之间没有内在的语义匹配关系,只是在语句中具有语法上的修饰关系而已。在语句分析过程中其语义匹配值可用match (Wx, WY) =MAX/Kg计算,Kg是类型权值(一般情况下Ke=l,或满足Ke〈l. 5)。
(2)词类活用,例如形容词经常会被活用为副词,这种情况本文不考虑。
步骤4:
(4a)定义语义结构的三个层次及其文法
要根据本文的语义模型进行语句分析,必须具有适合语义模型的语句抽象表示方法。任何语句都是由结构比较简单的语句经过迭代而形成的,短语被看成语句内的一个组成部分。为了满足语义模型的语义分析需要,根据语义结构的复杂程度和特点可以将语句的语义结构划分为三个层次简单句、特殊简单句、复杂句。
定义24 (简单句)仅有一个动词或形容词作谓语的语句Cs,可用文法G1来抽象描述。
用格语法的思想设计文法G1,设计思路假设V是谓语,S是V的施动者;0是V的承受者,AB是前置定语;Aa是后置定语;PD是状语或补语,相当于格语法中的一组格;P。是一个的格内容;n是名词;NP为名词短语。
文法G1中的规则数目较多(详细的规则数目较多,略),其关键规则的设计思路如下
DCs- PdAbSAaPdVPdAbOAaPd (SV0的出现顺序有10种,附2是其中的一种)
2)S — n| SAaAbS(多个词汇作施动者,如图2中的S)
3) Pd-Pc I PdPc
S、0、Ab、Aa、P。中的介词、连词、助词、数词、量词等词汇的使用规则可以很容易的写出来。
文法的Gl的具体表示方式如下
权利要求
1.基于语义匹配驱动的自然语言知识获取方法,包括如下过程(1)定义自然语言处理的语义模型包括定义词汇间的语义匹配关系;定义词汇的语义修饰目标;以及定义语句的语义匹配值;(2)定义词汇语义的表示方法;(3)词汇间的语义匹配关系包括名词-名词间的语义匹配关系;名词-动词间的语义匹配关系;名词-形容词的语义匹配关系;并列语义匹配关系;副词的语义匹配关系;量词的语义匹配关系;代词的语义匹配关系;以及语法匹配关;(4)定义语句处理方法涉及语义结构的三个层次及其文法;包括获取最佳语法分析方案的思路,获取最佳的语法分析方案,以及简单子句的最佳语义匹配值等几部分;(5)将分析结果转化为知识点。
2.根据权利要求I所述的基于语义匹配驱动的自然语言知识获取方法,其中步骤(I) 按如下过程执行(Ia)定义词汇间的语义匹配关系定义I :在词汇语义知识库中,任意两个实词 和^之间具有的内在语义联系,称为语义匹配关系,其中副词按实词对待;用函数match (Wx,Wy)来表示其密切程度,函数的值就是语义匹配值;语义匹配关系与具体语句无关;假如Wx与Wy之间没有语义匹配关系,则设置 match (Wx, ffY) =MAX, MAX 是一个大常数;(Ib)定义2:语句中的除去谓语中心词之外的任意实词Wi均语义修饰于另外一个实词Wei,称Wei是Wi语义修饰目标;(Ic)定义3 :在任意的语法分析方案Ai的情况下,假设V为谓语中心词,S为V的施动者,O为V的承受者,Wi是语句中的一个实词且!(Wi e {S,V, O}), Wei是Wi的语义修饰目标,用函数match (Wi7Wci)表示其语义匹配值,那么,整个语句的语义匹配值ValueAi,可以用公式⑴来表示DVanIeΛι = Ksvo (match(S, V) + rnatch(0, V)) + KV ^itch(WpW7cj)i=i(I)S和0的语义修饰目标是V,η是不包括S,V和O的实词的个数,Ksvtj和Kwi为权值系数, 语义匹配值越小表示语义匹配程度越大;(Id)假设公理I——最佳语法分析公理假设一个语句具有m种语法分析方案,最符合语义逻辑的语法分析方案Ai满足条件-Ai = argmin (ValueAi),即语义匹配值最小的语法分析方案是最佳语法分析方案。
3.根据权利要求I所述的基于语义匹配驱动的自然语言知识获取方法,其中步骤(2) 按如下过程执行(2a)定义4——基本概念在构建语义库前所设定的、无需进行语义定义的、并在语句分析和推理时由系统进行特别语义解释处理的有限符号集合,基本概念数量极少,用 Cwb= {WB1, WfWBk}表不,默认每个基本概念Wm继承于根概念;(2b)定义5——格表示动作类概念与其他事物之间相关情况的深层语义关系的特殊基本概念集合,用Cvc= (C1, CfCj表不;(2c)定义6——模态表示动作类概念的执行状态的特殊基本概念集合,用CvmHM1, MfMj表不;(2d)定义7——基本的语义关系在构建语义库前所设定的、不可改变的、并在语句分析时需要进行特别语义解释处理的语义关系,包括如下语义关系Rc (V, C,W)格语义关系用以表示动作类概念V与概念W具有格为C的深层语义关系, 其中C e Cvc ;R1 (V, M)模态语义关系用以表示动作类概念V的执行状态为M,其中C e Cvm ;Rap(W,P)属性语义关系用以表示概念P是名词类概念W的一个属性的语义关系;Ras(W,S)状态语义关系用以表示概念S是名词类概念W的一个状态的语义关系; Rd(W)继承语义关系概念的语义定义式中只能使用一次;Rpd1, W2)描述部分语义关系的有限集合说明概念W2的语义是W1的语义的一部分; Rff (W1, W2)描述整体关系的有限集合说明概念W1语义包含W2 ;Rvs (V,W)表示动作V的施动者是W的语义关系,Rvo (V, W)表示动作V的承受者是W的语义关系;(2e)定义8——扩展语义关系在构建语义库过程中所新定义的语义关系集合,数量不限;在语句分析时,所有的扩展语义关系具有统一的处理方法,不进行特殊的处理;用 Re(W1, W2)表示,说明被定义的概念W是W1和W2之间的一种语义关系;在非定义式中,用 Rk (W,W1, W2)表示W1和W2之间存在名为W的扩展语义关系;(2f)基于基本描述逻辑,对其概念定义按规则I到规则7进行限制和变换,成为概念语义定义方法;规则I—概念定义规则1)假如WB1,Wb2是基本概念,R1,R2是语义关系,则新符号W= I ffB11,R1 (Wbi) I q Wbi U R1 (Wbi) I Rj (Wm) U R2 (Wb2) I R1 (Wbi)门 R2 (Wb2)是概念;2)假如WB1,Wb2是概念,R1,R2是语义关系,则新符号W=,Wbi I,R1 (Wb1) I -,WbiURi (Wbi) | R1 (Wbi) UR2 (Wb2)丨 Ri (Wbi)门 R2 (Wb2)是概念;在规则I中没有概念并、概念交、量词的使用规则,它们的处理方式见规则2、规则3,它们是为了把概念的定义方式转化为一组语义关系,并且要求名词满足单继承的原则;规则2—概念并的处理规则假如W1, W2是概念,W1, W2的最近共同祖先概念为WP, 当新概念W具有W=Wi U W2的语义时,由于单继承规则,可将W定义为W=Rd (Wp) H (Rp(ffP, W1) U Rp(WpjW2));规则3——概念交的处理规则假如W1, W2是概念,当新概念w具有W=Wi H W2的语义时,由于单继承规则,可将W定义为W=Rd (W1) n Rff(W17W2)或W=Rd (W2) H Rff(W27W1);规则4——概念分类定义规则自然语言中概念按性质被分类表示为名词、动词、形容词和副词;假设用Def(W)表示概念W的定义式,Num(R,W)为定义式中语义关系R的出现次数,每类词汇定义应满足如下规则名词的单继承:满足条件(Rd(Wp) [Def(W)) Γ (Num(RD, W)=l)的概念W ;动词:满足条件(Rvs(W1) U (Rv0(W2))cDef(W) Π (Num(Rvs,W1)二I)Π (Num (Rvo,W2) =1);形容词满足条件(Rap (W,W1) U Ras (W,W1)) [Def (W)) Π(Num(Rap, W)=l) n (Num(Ras, W)=l);副词满足条件(Rm (W1, Dc=Def(W)) Γ (Num(Rh, W)=l);规则5—量词的处理规则量词没有得到特殊的对待,被作为”次数”格语义关系的一个值表示动作的次数,作为“数量”属性语义关系的值来表示名词的个数;规则6—实例设置规则在定义概念W时,假如定义式中的概念Wi出现m次,而这m 次出现指代的η个语义(S1,S^SJ,则可用{Ι,·1····η-1},来区别W的η个语义,W#i在推理时可解释为实例;规则7——多义词处置规则自然语言中有很多多义词,假如多义词W具有η个语义 {S1; S^SJ,则针对每一个具体语义定义一个概念,共定义η个概念{W@1,W@2···獅η}来区别表示这η个不同语义;(2g)假设公理2 :继承语义关系具有单向传递性,下层概念继承上层概念所具有语义关系;定理I :根据继承关系RD,所有名词构成一棵树;根据规则I到规则7和定义4到定义8,可以定义自然语言中词汇的语义;假设用一条有向线段来表示语义关系的话,根据定理I和词汇的定义和规则可知,词汇W的语义可以由名词树中的一组有向线段来表不。
4.根据权利要求I所述的基于语义匹配驱动的自然语言知识获取方法,其中步骤(3) 按如下过程执行(3a)定义名词-名词间的语义匹配关系定义9——关联词汇集名词定义式中所包含的所有词汇的集合,用Ckw表示;用~为表示继承语义关系,Wx - Wy表示Wx继承于WY,并且规定W ~ W ;(1)基本语义匹配关系定义10——直接语义匹配关系如果词汇^、Wy满足下述条件,用符号Wx] Wy表示 条件假设Wy的关联词汇集是Cw,则31H (WzGCwy) Π (W产Wz);当 WxI Wy时,match (Wx, WY) =KT*d (Wx, Wz);Kt为匹配关系系数,根据所匹配的关系R的类型,设置为不同的常数,I ^ Kt ^ 3 ; 定义11——继承语义匹配关系如果词汇^、Wy满足下述条件,用符号Wx ; Wy表示条件3Wz n (wxi wz) n (wYo=wz)当 Wx i W'时,match (Wx, ffY) =match (Wx, Wz) +d (ffY, Wz);定义语义距离函数d(Wx,WY):表示具有继承关系的两个词汇Wx,Wy之间的继承次数;(2)包含语义匹配关系定义12——显式语义包含关系如果词汇Wx、Wy满足下述条件,用符号Wx Θ Wy表示; 条件存在概念Wz,满足条件3% (Rw(Wv, Wz) eDef (Wy)) Π (Wx-=Wz)当Wx Θ Wy时,有match (Wx, ffY) =Kp* (d (Wx, Wz)。Kp为包含匹配关系系数;定义13——隐含语义包含关系如果词汇Wx、Wy满足下述条件,用符号Wx〇Wy表示; 条件存在概念Wz,满足条件3 Wz (Rp(Wz, W ) c Def (Wx)) n (WzO=Wy )当 Wx 〇 WY 时,match (ffx, ffY) =KP* (d (ffz, ffY));定义14——包含语义匹配关系如果词汇WX、WY满足下述条件,用符号Wx ◎ WY表示 条件
5.根据权利要求I所述的基于语义匹配驱动的自然语言知识获取方法,其中步骤(4) 按如下过程执行(4a)定义语义结构的三个层次及其文法要根据本文的语义模型进行语句分析,必须具有适合语义模型的语句抽象表示方法; 任何语句都是由结构比较简单的语句经过迭代而形成的,短语被看成语句内的一个组成部分;为了满足语义模型的语义分析需要,根据语义结构的复杂程度和特点可以将语句的语义结构划分为三个层次简单句、特殊简单句、复杂句;定义24——简单句仅有一个动词或形容词作谓语的语句Cs,可用文法G1来抽象描述;用格语法的思想设计文法G1,设计思路假设V是谓语,S是V的施动者;0是V的承受者,Ab是前置定语;Aa是后置定语;PD是状语或补语,相当于格语法中的一组格;PC是一个的格内容;n是名词;NP为名词短语;文法G1中的规则数目较多,其关键规则的设计思路如下DCs-PdAbSAaPdVPdAbOAaPd2)S — η I SAaAbS3)Pd —PcIPdPcS、0、Ab、Aa、P。中的介词、连词、助词、数词、量词的使用规则可以很容易的写出来;简单句中的SVO总共具有6种不同顺序SVO、SOV、VSO、OSV、VOS、OVS ;SV、VS ;简单句
6.根据权利要求I所述的基于语义匹配驱动的自然语言知识获取方法,其中步骤(5)按如下过程执行根据具有最佳语义匹配值的语法分析结果,将简单句转化为一个知识点,将复杂句的每个简单子句转化为知识点,整个复杂化句转化为一组知识点;将语句转化为以结构化数据形式存放的知识点后,就可方便地对这些知识数据进行各种智能信息处理。
全文摘要
本发明公开了一种基于语义匹配驱动的自然语言知识获取方法,包括如下过程(1)定义自然语言处理的语义模型;(2)定义词汇语义的表示方法;(3)定义词汇间的语义匹配关系;(4)定义语句处理方法;(5)将分析结果转化为知识点。该方法利用语义匹配信息,结合少量自然语言中常见的语法规则,根据语义匹配值,能够在多种符合语法的分析方案中,选择一种比较符合语义逻辑的分析方案作为最终的分析结果。通过该方法可以进行自然语言语句分析并获取其中所蕴含的知识。实验证明,该方法具有较好的可行性。
文档编号G06F17/28GK102945230SQ20121039662
公开日2013年2月27日 申请日期2012年10月17日 优先权日2012年10月17日
发明者刘运通, 郭磊, 王爱民 申请人:刘运通, 郭磊, 王爱民
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1