基于参数概念表达动词语义的方法及系统与流程

文档序号:12748007阅读:516来源:国知局
基于参数概念表达动词语义的方法及系统与流程
本发明涉及计算机
技术领域
的自然语言处理,具体地,涉及一种基于参数概念表达动词语义的方法及系统。
背景技术
:随着人工智能技术应用的越来越深入,人工智能技术对人类生活起着更多的作用。其中自然语言理解技术是计算机理解人类语言的重要技术,其中最为困难的地方就是理解人类语言的语义。动词对于理解句子的句法和语法上都起着中心性的作用。分布假设()表明可以用一个词语的上下文信息来表示这个词语的语义,例如这个词语周围的词。一个动词在句子中有其独特的角色,因为它包含了与其主语和宾语的依存关系,所以可以用这个动词的主语和宾语来表达这个动词的语义。类似的系统包括ReVerb(),采用了“词袋模型”的方法,但这种模型有如下缺点:1)无法考虑同义词的关系;2)“词袋模型”维度很高,因此计算效率低下;3)生成的模型是人类不可读的。为了弥补这些缺陷,一个很自然的方法就是使用这些主语和宾语的抽象概念或类型来表示,而不是直接使用这些词。类似的系统包括FrameNet(),它通过人类标注动词的主语和宾语类型来表达这个动词的语义。但是,这个系统也有一些明显的缺陷:1)人工标注工作量巨大,无法进行拓展;2)动词参数的抽象程度太高,例如动词“eat”的宾语概念只有“Ingestibles”所以无法表达动词的多种语义。经检索,申请号为:201010290860.5,名称为:基于事件本体的动词语义信息提取方法,在该发明中使用一种涉及基于事件本体的动词语义信息提取方法,通过匹配动词和动词角色的方法,提高了识别动词的准确率。然而,该发明中并没有对动词生成一个人类可读与机器可计算的概念集,且无法改变人类对于动词的语义粒度的设置。申请号为:200510088741.0,名称为:一种用于句子分析中动词歧义结构消解的语义分析方法,在该发明中利用句子分析中的动词歧义结构消解的语义;包括:语义模型的构建和语义分析方法,所述的语义模型用于表达动词的歧义结构,所述的语义分析方法根据语义模型实现歧义结构的判断、消解和计算。该发明建立了一种表达动词歧义结构的统一的语义模型,把歧义结构上升到句子层面进行处理;但是没有用到外部的知识库,所以不能对动词的语义进行表示。综上所述,ReVerb系统对动词的表达粒度太细,而FrameNet对动词表达的粒度又太粗,所以我们急需一个能准确表达动词语义的算法和系统。技术实现要素:针对现有技术中的缺陷,本发明的目的是提供一种基于参数概念表达动词语义的方法及系统。根据本发明提供的基于参数概念表达动词语义的方法,包括如下步骤:步骤1:抽取动词与宾语,以及动词与主语的依存关系;步骤2:根据动词与宾语、动词与主语的依存关系计算动词参数对于模式的熵值,并计算动词参数对于该动词的互信息值,计算得到动词参数权重;步骤3:将动词参数进行概念化,即寻找具有最大动词参数权重的k团。优选地,所述步骤2包括:步骤2.1:计算动词参数对于模式的熵值,熵值越大,则动词参数的质量越好,所述质量是指某个词作为这个动词的参数的可靠度;Entropyv(e)=-Σm∈Me,vP(m)logP(m);]]>式中:Entropyv(e)表示词e对于动词v的模式熵,P(m)表示模式m出现的概率,m表示模式m,即词e和动词v的不同搭配组合,Me,v表示词e和动词v的所有搭配组合;步骤2.2:计算动词参数对于动词的互信息值,互信息值越高,则动词参数的质量越好,具体地,采用的二值的互信息,计算公式如下:MIv(e)=f(x)=1,p(v,e)logp(v,e)p(v)p(e)>0-1,otherwise;]]>式中:MIv(e)表示词e相对于动词v的互信息,p(v,e)表示在语料中动词v和词e一起出现的概率,p(v)表示动词v出现的概率,p(e)表示词e出现的概率;步骤2.3:计算动词参数的权重值Qv(e),计算公式如下:Qv(e)=Entropyv(e)×MIv(e)。优选地,所述步骤3包括:采用分支限界的算法找到最大权重的k团;其中,所述分支限界的算法是指:构造一个搜索树,树的每一层,除去根节点,均表示的是是否选择某个参数概念,其中左分支就是选择该参数概念,右分支表示不选择该参数概念;当选择到的参数概念数量为k时,判断此k个参数概念是否在图中是一个团,如果是,则返回正确;如果不是一个团,则返回错误。根据本发明提供的基于参数概念表达动词语义的系统,包括:依存关系抽取模块:用于抽取动词与宾语,以及动词与主语的依存关系;动词参数权重计算模块:用于根据动词与宾语、动词与主语的依存关系计算动词参数对于模式的熵值,并计算动词参数对于该动词的互信息值,计算得到动词参数权重;动词参数概念化模块,用于将动词参数进行概念化,即寻找具有最大动词参数权重的k团。优选地,所述动词参数权重计算模块包括:熵值计算模块:计算动词参数对于模式的熵值,熵值越大,则动词参数的质量越好,所述质量是指某个词作为这个动词的参数的可靠度;计算公式中如下:Entropyv(e)=-Σm∈Me,vP(m)logP(m);]]>式中:Entropyv(e)表示词e对于动词v的模式熵,P(m)表示模式m出现的概率,m表示模式m,即词e和动词v的不同搭配组合,Me,v表示词e和动词v的所有搭配组合;互信息值计算模块:计算动词参数对于动词的互信息值,互信息值越高,则动词参数的质量越好,具体地,采用的二值的互信息,计算公式如下:MIv(e)=f(x)=1,p(v,e)logp(v,e)p(v)p(e)>0-1,otherwise;]]>式中:MIv(e)表示词e相对于动词v的互信息,p(v,e)表示在语料中动词v和词e一起出现的概率,p(v)表示动词v出现的概率,p(e)表示词e出现的概率;动词参数的权重值计算模块:计算动词参数的权重值Qv(e),计算公式如下:Qv(e)=Entropyv(e)×MIv(e)。优选地,所述动词参数概念化模块采用分支限界的算法找到最大权重的k团;其中,所述分支限界的算法是指:构造一个搜索树,树的每一层,除去根节点,均表示的是是否选择某个参数概念,其中左分支就是选择该参数概念,右分支表示不选择该参数概念;当选择到的参数概念数量为k时,判断此k个参数概念是否在图中是一个团,如果是,则返回正确;如果不是一个团,则返回错误。与现有技术相比,本发明具有如下的有益效果:1、本发明提供的基于参数概念表达动词语义的方法,创造性地利用外部的知识库来表示动词的语义,并且提供给用户选择动词语义粒度的参数,使得得到的动词语义概念的大小适中。2、本发明提供的基于参数概念表达动词语义的方法,得到即可被人类读懂的动词语义概念,也可以被机器直接进行计算。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:图1为本发明技术程序框架图;图2为一种概念图结构;图3为对应图2的另一种概念图结构;图4为分支限界的搜索树示意图。具体实施方式下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。根据本发明提供的基于参数概念表达动词语义的方法及系统,首先提出了一种准确抽取动词参数概念的算法,抽取的动词参数均来至于知识库,所述知识库包括Probase和WordNet。这些知识库存储了大量的概念与实体的关系,称作“IsA”的关系,比如苹果(apple)是一种(IsA)水果(fruit),则水果是概念,苹果是实体。定义了两个概念的语义重叠分数如下:Overlap(c1,c2)=|Ec1∩Ec2|/min{Ec1,Ec2};]]>其中,和分别表示概念c1和c2的实体集合。然后,本发明将动词参数概念化的问题转换成一个在无向图中找到最大权重的k团问题。一个概念图G=(C,L,W),其中C表示知识库的概念集,L表示两个概念之间的语义重叠分数小于一定的阈值τ,W表示在图中某个概念的权重,用来表示这个概念相对于某个动词的质量,也就是这个概念是否能表达这个动词的用法,比如“食物”相对于“吃”这个动词。图2、图3展示了某个概念图的结构。通过计算概念图下面包含的实体的数量来定义概念权重,即假设对于某个动词来说这些实体的重要性一致,但是这种情况一般是不满足的。所以本发明定义了对某个动词v的实体e的质量以动词参数权重Qv(e)表示,与步骤2.3对应,因此对于动词v的概念c的动词参数权重可以定义如下:wv(c)=Σe∈{e|eIsAc}Qv(e)]]>式中:wv(c)表示概念c相对于动词v的参数权重;e是某个实体,c是某个概念,eIsAc表示实体e是概念c的一个实例,比如“苹果”是“食物”的一个实例。因此,动词参数概念化问题就是在概念图G=(C,L,W)中找到一个k团(定义为Ck),使得下面的方程值最大,方程式如下:fv(Ck)=Σc∈Ckwc(c);]]>具体地,包括如下步骤:步骤1:抽取动词与宾语,以及动词与主语的依存关系;步骤2:根据动词与宾语、动词与主语的依存关系计算动词参数对于模式的熵值,并计算动词参数对于该动词的互信息值,计算得到动词参数权重;步骤3:将动词参数进行概念化,即寻找具有最大动词参数权重的k团。所述步骤2包括:步骤2.1:计算动词参数对于模式的熵值,熵值越大,则动词参数的质量(也就是某个词作为这个动词的参数的可靠度)越好;Entropyv(e)=-Σm∈Me,vP(m)logP(m);]]>式中:Entropyv(e)表示词e对于动词v的模式熵,P(m)表示模式m出现的概率,m表示模式m(词e和动词v的不同搭配组合),Me,v表示词e和动词v的所有搭配组合;步骤2.2:计算动词参数对于动词的互信息值,互信息值越高,则动词参数的质量越好,具体地,采用的二值的互信息,计算公式如下:MIv(e)=f(x)=1,p(v,e)logp(v,e)p(v)p(e)>0-1,otherwise;]]>式中:MIv(e)表示词e相对于动词v的互信息,p(v,e)表示在语料中动词v和词e一起出现的概率,p(v)表示动词v出现的概率,p(e)表示词e出现的概率;步骤2.3:计算动词参数的权重值:Qv(e)=Entropyv(e)×MIv(e)。所述步骤3包括:采用分支限界的算法找到最大权重的k团。图2中C0,C1,C2和C3分别代表四个参数概念,其中C0和C3,C1和C3的重合度较高(语义相对较近),从而构建出一个图,图中C0和C3,C1和C3没有边相连接,如图3所示。目标是在图3所示的图中找到最大的权值的k团,这里令k=3;分支限界的算法值得是构造一个搜索树,如图4所示,树的每一层(除去根节点)表示的是是否选择某个参数概念,其中左分支就是选择该参数概念,右分支表示不选择该参数概念;当选择到的参数概念数量为k时,判断此k个参数概念是否在图中是一个团,如果是则返回正确,不是一个团则返回错误,示例参见图4。以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1