一种基于词共现的汉语实体关系提取的控制方法及装置的制作方法

文档序号:6352620阅读:219来源:国知局
专利名称:一种基于词共现的汉语实体关系提取的控制方法及装置的制作方法
技术领域
本发明涉及实体关系提取技术领域,具体地说是一种基于词共现和模式匹配的汉语实体关系提取方法。
背景技术
互联网的快速发展给我们带来了海量的信息资源,正在使人们的工作、学习、生活和娱乐方式发生深刻变化。但是,也存在一定的弊端,在面对大规模的信息,用户难以找到自己真正的需求。现在的搜索引擎,很多只是简单的关键字匹配,返回用户很多相关度很小的页面,这样用户在找有用信息上要花费很多时间。用户希望搜索引擎能够具有类似人类的联想能力,希望在了解单个概念内容的基础,还能够找出与此概念相关的其它信息,比如两个概念之间的关系等等,从而实体关系的抽取变的尤为重要。目前,实体关系提取的方法主要有(1)模板匹配的方法,该方法通过运用自然语言处理相关知识,构建模式集合并存储起来,当进行关系抽取时,将经过预处理的语句与模式集合中的模式进行匹配,匹配成功,就可以认为该语句具有对应模式的关系属性,但是, 提取足够的和高质量的模板是应用本方法的一个瓶颈;( 基于词典驱动的方法,该方法只是局限于以动词为中心的关系的情况;(3)基于本体的关系抽取,该方法需要专家构建大规模的知识库,增加了大量人工的参与;(4)基于机器学习的方法,该方法训练数据并使用各种学习方法转化成分类问题,通常是构造特征向量,但是本方法比较慢,不适合中文关系的提取。同时,目前大多数关系提取方法更适合于英语实体关系提取,中文语言结构灵活,潜在的意义丰富,应用在中文实体关系提取中最终的召回率和准确率都不理想。

发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于词共现的实体关系提取的控制方法以及相应的控制装置。根据本发明的一个方面,提供一种基于词共现和模式匹配的汉语实体关系提取的控制方法,其特征在于,包括如下步骤b.基于语料库中词语的共现指标计算词语相关度;c.根据所述词语相关度计算词语间的相似度;g.根据所述词语相似度和模式匹配确定实体关系。优选地,在所述步骤a之前还包括如下步骤a.通过网页分析技术获取新闻语料库;相应地,所述步骤b包括如下步骤b.基于新闻语料库中词语共现性和维基百科计算词语相关度;
相应地,所述步骤C包括如下步骤c.利用词语的相关词语计算词语间的相似度;相应地,还包括如下步骤d f d.应用种子学习的方法半人工的产生种子提取模式;
e.对测试集中的句子进行处理;f.计算测试句和所有种子模式句的匹配相似度;对应地,所述步骤g包括如下步骤g.选择相似度最大的种子模式句中的实体关系类型作为测试句中实体的关系类型。优选地,所述步骤a包括如下步骤al.从网页中提取第一信息;a2.根据所述第一信息构建所述语料库;a3.统计所述语料库中词语的共现频率;a4.根据所述共现频率计算所述词语相关度。进一步地,为克服汉语实体关系提取结果召回率和准确率不理想的情况,本发明提供一种基于词共现和模式匹配的汉语实体关系提取方法,该方法应用新闻语料库,分析汉语和新闻语料库本身的特点,通过统计新闻语料库中词语的共现频率来计算两个词语间的相似度,并结合模式匹配技术最终得到汉语新闻中实体关系。本发明解决其技术问题所采用的技术方案是一种基于词语共现性和模式匹配的汉语新闻实体关系提取算法,该方法通过统计新闻语料库中词语的共现频率计算词语的相关度,应用两个词语相同的一组相关词语作为其特征向量计算两个词语间的相似度,然后, 结合模式匹配技术,考虑词语间的相似度,词语位置、词语的词性和词语是不是动词等信息计算种子模式句和测试句之间的相似度,选择相似度最大的种子模式句中的关系作为测试句中实体间的关系,具体操作步骤如下第一步通过网页分析提取新闻正文和标题;第二步使用中文分词技术和关键字匹配统计词语的共现频率;第三步应用词语共现频率计算词语间相关度,结合新闻语料库特点,使用不同的相关度计算公式来区分新闻标题和新闻正文的词语相关度,同时,引入维基百科,根据主题词语中与其共现的其他词语来构建一种层次关系,层次越近表示两个词语的相关度越大, 从而调整应用共现计算的相关度;第四步利用词语的相关词语得到词语间的相似度,把两个词语相同的一组相关词语作为两个词语的特征向量,通过计算特征向量的内积最终计算两个词语间的相似度;第五步应用种子学习的方法半人工的产生种子提取模式;第六步对测试集中的句子进行处理;第七步比较种子模式中的实体类型和测试句中的实体类型是否一致,若一致则进行下一步;第八步应用第四步中计算词语相似度的方法计算种子模式与测试句子中每个词语的语义相似度;第九步考虑词语间的相似度,词语位置、词语的词性和词语是不是动词等信息计算测试句和所有种子模式句的匹配相似度,同时,在分配这些因素的权重时应用高斯公式, 把每个因素的值作为高斯公式中向量的一个元素,最终得到这些因素同时影响时的匹配相似度值;第十步选择相似度最大的种子模式句中的实体关系类型作为测试句中实体的关系类型。本发明进一步特征在于第三步和第九步,第三步中分析新闻特征计算相关度,引入维基百科进行相关度调整,第九步中考虑多个影响因素并把各个因素权重作为高斯公式中元素计算最终匹配结果。根据本发明的另一个方面,还提供一种基于词共现的实体关系提取的控制装置, 其特征在于,包括如下装置第一计算装置,其用于通过统计语料库中词语的共现频率计算词语相关度;第二计算装置,其用于根据所述词语相关度计算词语相似度;以及第一确定装置,其用于根据所述词语相似度等确定实体关系。优选地,所述第一计算装置包括如下装置第一提取装置,其用于从网页中提取第一信息;第一构建装置,其用于根据所述第一信息构建所述语料库;第一统计装置,其用于统计所述语料库中词语的共现频率;以及第三计算装置,其用于根据所述共现频率计算所述词语相关度。优选地,所述第一信息包括新闻正文和新闻标题。优选地,所述第一统计装置包括如下装置第二统计装置,其用于通过中文分词和 /或关键字匹配方式统计所述共现频率。优选地,所述第三计算装置包括如下装置第一处理装置,其用于使用不同的相关度计算公式来区分新闻标题和新闻正文的词语相关度。优选地,所述第三计算装置包括如下装置第二处理装置,其用于根据第二数据库中的主题词语与其它词语构建层次关系,根据层次关系调整所述词语相关度。优选地,所述第二数据库为百科类数据库。优选地,所述第二计算装置包括如下装置第三处理装置,其用于利用两个词语间相同的一组相关词语形成两个词语的特征向量,通过计算特征向量的内积计算两个词语间的所述相似度。优选地,所述第一确定装置包括如下装置第一生成装置,其用于生成种子模版; 第四处理装置,其用于对测试集中的句子进行处理;第一判断装置,其用于判断所述种子模板中的句子与所述测试集中的句子的实体类型是否一致;第四计算装置,其用于当所述第一判断装置的判断结果是肯定的时,计算所述种子模板中的句子与所述测试集中的句子中的每个词语的语义相似度;第五计算装置,其用于计算所述测试集中的句子与所有模板中的句子的匹配相似度;第二确定装置,其用于将相似度最大的所述种子模板中的句子的实体关系确定为所述测试集中的句子的实体关系;以及第三确定装置,其用于将所述匹配相似度超过第一阈值的所述测试集中的句子确定为所述种子模板中的句子。优选地,若所述第一判断装置的判断结果为否定的,则接下来触发第四处理装置执行。优选地,所述第五计算装置包括如下装置第六计算装置,其用于根据词语匹配因素来计算所述匹配相似度,其中,所述匹配因素包括所述语义相似度、词语位置、词语的词性以及词语是否为动词。优选地,所述第五计算装置还包括如下装置第一分配装置,其用于根据高斯公式将每个所述匹配因素的值作为高斯公式中向量的一个元素来分配各个所述匹配因素的权重。本发明的有益效果是(1)易行性本方法应用的语料库是新闻语料库,可以直接通过现有成熟的网页分析技术提取新闻正文和标题来构建语料库,不用太多人工参与去构建语料库;同时,计算词语的相似度时,词语相关度计算公式中的变量可以通过统计词语频率来计算,与应用词典等其他方法来计算相关度比,本文方法会得到更多的相关实体,提高最终相似度的准确率,从而提高最后实体关系提取的准确率;在计算种子模式句和测试句之间的相似度需要考虑的一些信息如词性、位置可以通过词性标注软件得到,无需太多专家参与。(2)简单性本方法应用自然语言处理中的浅语言规则如分词、词性标注和简单的统计技术便可以得到计算词语相关度时应用的词语频率,以及计算匹配相似度时考虑的词语位置、词语的词性和词语是不是动词等信息;同时,在分配影响匹配相似度因素的权重时,应用高斯公式性质使多个因素共同起作用,十分简单。(3)实时性本方法应用的语料库是新闻语料库,新闻由于其时效性的目的,更新的速度很快,覆盖范围包括生活的方方面面。Web新闻时效性的特点也使语料库中统计的概念更能反映在当前背景下的含义。所以在实际应用中,可以直接采用最新的新闻进行试验, 便可以及时的更新实体和实体间的关系。(4)语义与模式匹配相结合本方法将词语的语义信息和传统的模式匹配方法相结合。一方面通过词语的语义信息计算词语间的相关度,从而得到词语间的相似度;另一方面,结合词语相似度和其他信息以及模式匹配技术得到最终的匹配相似度,这便弥补了传统硬模式匹配召回率和准确率比较低的不足。


通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、 目的和优点将会变得更明显图1示出根据本发明的第一实施例的,提供基于词共现的实体关系提取的控制方法的流程图;图2示出根据本发明的第二实施例的,提供基于词共现的实体关系提取的控制方法的流程图;图3示出根据本发明的第三实施例的,提供基于词共现的实体关系提取的控制方法的流程图;图4示出根据本发明的第四实施例的,提供基于词共现的实体关系提取的控制装置的结构图;图5示出根据本发明的第五实施例的,提供基于词共现的实体关系提取的控制装置的结构图;图6示出根据本发明的一个具体实施方式
的,提供基于词共现的实体关系提取的控制装置的原理示意图;以及图7示出根据本发明的另一个具体实施方式
的,提供基于词共现的实体关系提取的控制方法的原理示意图。
具体实施例方式参见图6、图7,本发明公开了一种基于词共现和模式匹配的汉语实体关系提取方法,该方法通过统计新闻语料库中词语的共现频率,计算词语的相关度,应用两个词语相同的一组相关词语作为其特征向量,计算两个词语间的相似度;然后,结合模式匹配技术,考虑词语间的相似度,词语位置,词语的词性和词语是不是动词等信息,计算种子模式句和测试句之间的匹配相似度,选择相似度最大的种子模式句中的关系作为测试句中实体间的关系。在实际的应用中,可以在一个搜索引擎环境中,通过用户的查询,对语料库文档进行抓取和分析,得到用户感兴趣的文档,分析过程简单,无需复杂算法,使得搜索引擎智能化,及时返回较多、较准确的用户感兴趣的信息。本发明需要在新闻语料库的基础上,通过统计新闻语料库中词语的共现频率,并应用不同的相关度计算公式,区分计算新闻标题和新闻正文的词语相关度,然后利用词语相关度计算词语间的相似度,最后将词语相似度、词性、位置等信息应用到模式匹配相似度计算中得到最终结果,所述的词共现相似度计算方法,是通过统计新闻语料库中词语的共现频率,结合新闻语料库特点,使用不同的相关度计算公式来区分新闻标题和新闻正文的词语相关度, 由于新闻标题更能表达新闻的主旨,故新闻标题中的共现权重要大于新闻正文中的词语共现权重,同时引入维基百科,根据主题词语中与其共现的其他词语来构建一种层次关系,层次越近表示两个词语的相关度越大,从而调整应用共现计算的相关度,然后,把两个词语相同的一组相关词语作为两个词语的特征向量,通过计算特征向量的内积最终计算两个词语间的相似度。所述测试句和种子模式句之间的匹配相似度计算方法,是考虑测试句和种子模式句中词语间的相似度,词语位置、词语的词性和词语是不是动词等信息计算种子模式句和测试句之间的相似度,同时,在分配这些因素的权重时应用高斯公式,把每个因素的值作为高斯公式中向量的一个元素,最终得到这些因素同时影响时的匹配相似度值。图1示出根据本发明的第一实施例的,提供基于词共现的实体关系提取的控制方法的流程图。具体地,在本实施例中,首先执行步骤S210,通过统计语料库中词语的共现频率计算词语相关度。然后执行步骤S211,根据所述词语相关度计算词语相似度。最后执行步骤S212,根据所述词语相似度确定实体关系。具体地,图1所示实施例可以通过图2所示实施例以及图6、图7予以实现,在此不予赘述。图2示出根据本发明的第二实施例的,提供基于词共现的实体关系提取的控制方法的流程图。本领域技术人员可以将本实施例理解为图1所示实施例的一个具体实施方式
。具体地,在本实施例中,首先执行步骤S220,从网页中提取第一信息。然后执行步骤 S221,根据所述第一信息构建所述语料库。然后执行步骤S222,统计所述语料库中词语的共现频率。然后执行步骤S223,根据所述共现频率计算所述词语相关度。然后执行步骤S2M, 利用两个词语间相同的一组相关词语形成两个词语的特征向量,通过计算特征向量的内积计算两个词语间的所述相似度。最后执行步骤S225,根据所述词语相似度确定实体关系。在本实施例一优选例中,所述第一信息包括新闻正文和新闻标题。在本实施例的另一个优选例中,所述步骤S222包括步骤“通过中文分词和/或关键字匹配方式统计所述共现频率”。在本实施例的又一个优选例中,所述步骤S223包括步骤“使用不同的相关度计算公式来区分新闻标题和新闻正文的词语相关度”。在本实施例的又一个优选例中,所述步骤S223包括步骤“根据第二数据库中的主题词语与其它词语构建层次关系,根据层次关系调整所述词语相关度”。优选地,所述第二数据库为百科类数据库。本领域技术人员可以将所述步骤S220、步骤S221、步骤S222以及步骤S223理解为图1中所述步骤S210的具体实施方式
;将所述步骤S2M理解为图1中所述步骤S211的具体实施方式
;将所述步骤S225理解为图1中所述步骤S225的具体实施方式
。图3示出根据本发明的第三实施例的,提供基于词共现的实体关系提取的控制方法的流程图。本领域技术人员可以将本实施例理解为图1所示实施例中所述步骤S212的一个具体实施方式
。具体地,在本实施例中,首先执行步骤S230,生成种子模版。然后执行步骤S231,对测试集中的句子进行处理。然后执行步骤S232,判断所述种子模板中的句子与所述测试集中的句子的实体类型是否一致;进一步地,若所述步骤S232的判断结果是肯定的,即,则接下来进入步骤S233继续执行;若所述步骤S232的判断结果是否定的,即,则接下来进入步骤S231继续执行。其中,通过执行步骤S233,计算所述种子模板中的句子与所述测试集中的句子中的每个词语的语义相似度。然后执行步骤S234,计算所述测试集中的句子与所有模板中的句子的匹配相似度。然后执行步骤S235,将相似度最大的所述种子模板中的句子的实体关系确定为所述测试集中的句子的实体关系。最后执行步骤S236,将所述匹配相似度超过第一阈值的所述测试集中的句子确定为所述种子模板中的句子。在本实施例的一个优选例中,所述步骤S234包括步骤“根据词语匹配因素来计算所述匹配相似度,其中,所述匹配”。在本实施例的另一个优选例中,所述步骤S234还包括步骤“根据高斯公式将每个所述匹配因素的值作为高斯公式中向量的一个元素来分配各个所述匹配因素的权重”。图4示出根据本发明的第四实施例的,提供基于词共现的实体关系提取的控制装置的结构图。具体地,在本实施例中,控制装置4包括第一计算装置41,其用于通过统计语料库中词语的共现频率计算词语相关度;第二计算装置42,其用于根据所述词语相关度计算词语相似度;第一确定装置43,其用于根据所述词语相似度确定实体关系。优选地,所述所述第一计算装置包括第一提取装置411,其用于从网页中提取第一信息;第一构建装置412,其用于根据所述第一信息构建所述语料库;第一统计装置413,其用于统计所述语料库中词语的共现频率;第三计算装置414,其用于根据所述共现频率计算所述词语相关度。优选地,所述第一信息包括新闻正文和新闻标题。优选地,所述第二计算装置包括第三处理装置421,其用于利用两个词语间相同的一组相关词语形成两个词语的特征向量,通过计算特征向量的内积计算两个词语间的所述相似度。在本实施例的一个优选例中,所述第一统计装置413包括第二统计装置,其用于通过中文分词和/或关键字匹配方式统计所述共现频率。在本实施例的另一个优选例中,所述第三计算装置414包括第一处理装置,其用于使用不同的相关度计算公式来区分新闻标题和新闻正文的词语相关度。在本实施例的又一个优选例中,所述第三计算装置414包括第二处理装置,其用于根据第二数据库中的主题词语与其它词语构建层次关系,根据层次关系调整所述词语相关度。优选地,所述第二数据库为百科类数据库。图5示出根据本发明的第五实施例的,提供基于词共现的实体关系提取的控制装置的结构图。本领域技术人员可以将本实施例理解为图1所示实施例中的所述第一确定装置43的一个具体实施方式
。具体地,在本实施例中,所述第一确定装置43包括第一生成装置431,其用于生成种子模版;第四处理装置432,其用于对测试集中的句子进行处理;第一判断装置433,其用于判断所述种子模板中的句子与所述测试集中的句子的实体类型是否一致;第四计算装置434,其用于当所述第一判断装置的判断结果是肯定的时,计算所述种子模板中的句子与所述测试集中的句子中的每个词语的语义相似度;第五计算装置435, 其用于计算所述测试集中的句子与所有模板中的句子的匹配相似度;第二确定装置436, 其用于将相似度最大的所述种子模板中的句子的实体关系确定为所述测试集中的句子的实体关系;第三确定装置437,其用于将所述匹配相似度超过第一阈值的所述测试集中的句子确定为所述种子模板中的句子。在本实施例的一个优选例中,所述第五计算装置435包括第六计算装置,其用于根据词语匹配因素来计算所述匹配相似度,其中,所述匹配因素包括所述语义相似度、词语位置、词语的词性以及词语是否为动词。在本实施例的另一个优选例中,所述第五计算装置 435包括第一分配装置,其用于根据高斯公式将每个所述匹配因素的值作为高斯公式中向量的一个元素来分配各个所述匹配因素的权重。图6示出根据本发明的一个具体实施方式
的,提供基于词共现的实体关系提取的控制装置的原理示意图。本领域技术人员理解,所述控制装置(或者称为控制系统)用于在一个计算机系统中提取汉语实体关系,例如该计算机系统是一个搜索引擎的后台系统。具体地,所述控制装置包括实体相似度计算模块、新闻语料库构建模块、实体关系提取模块以及数据库。其中,所述实体相似度计算模块用于实现词语相似度计算、词共现相似度计算以及维基百科实体相关度计算;所述新闻语料库构建模块包括页面获取模块以及页面处理模块;所述实体关系提取模块用于实现语义模式匹配相似度计算以及实体关系提取;所述数据库用于存储有关数据。进一步地,本领域技术人员理解,所述实体相似度计算模块基于WikiPedia实现其功能,在此不予赘述。本领域技术人员可以参考上述图1至图5所示实施例实现本技术方案,在此不予赘述。进一步地,本领域技术人员理解,本发明需要在新闻语料库的基础上,通过统计新闻语料库中词语的共现频率,并应用不同的相关度计算公式,区分计算新闻标题和新闻正文的词语相关度,然后利用词语相关度计算词语间的相似度,最后将词语相似度、词性、位置等信息应用到模式匹配相似度计算中得到最终结果。优选地,参考图7所示实施例,本发明技术方案可以通过如下操作步骤予以实现第一步通过网页分析技术提取新闻文本构建语料库;第二步使用中文分词技术统计词语的词语频率;第三步应用词语共现频率计算词语间相关度,结合新闻语料库特点,使用不同的相关度计算公式来区分新闻标题和新闻正文的词语相关度,同时,引入维基百科,调整应用词语共现计算的相关度;第四步计算词语间的相似度,利用两个词语间相同的一组相关词语形成两个词语的特征向量,通过计算特征向量的内积最终计算两个词语间的相似度;第五步应用种子学习的方法半人工的产生种子提取模式;
12
第六步对测试集中的句子进行处理;第七步比较种子模式中的实体类型和测试句中的实体类型是否一致,若一致则进行下一步;第八步应用第四步中计算词语相似度的方法计算种子模式与测试句子中每个词语的语义相似度;第九步考虑词语间的相似度,词语位置、词语的词性和词语是不是动词等信息计算测试句和所有种子模式句的匹配相似度,同时在分配这些因素的权重时应用高斯公式, 把每个因素的值作为高斯公式中向量的一个元素,最终得到这些因素同时影响时的匹配相似度值;第十步选择相似度最大的种子模式句中的实体关系类型作为测试句中实体的关系类型;第十一步第十步中把匹配相似度值达到一定阈值的测试句模板作为种子模板加入到种子模板句集合中;第十二步多次重复第六步至第十一步,直到十一步中没有新的种子模板加入为止;第十三步结束。以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
权利要求
1.一种基于词共现和模式匹配的汉语实体关系提取的控制方法,其特征在于,包括如下步骤b.基于语料库中词语的共现指标计算词语相关度;c.根据所述词语相关度计算词语间的相似度;g.根据所述词语相似度和模式匹配确定实体关系。
2.根据权利要求1所述的控制方法,其特征在于,在所述步骤a之前还包括如下步骤a.通过网页分析技术获取新闻语料库;相应地,所述步骤b包括如下步骤b.基于新闻语料库中词语共现性和维基百科计算词语相关度;相应地,所述步骤c包括如下步骤c.利用词语的相关词语计算词语间的相似度;相应地,还包括如下步骤d f d.应用种子学习的方法半人工的产生种子提取模式;e.对测试集中的句子进行处理;f.计算测试句和所有种子模式句的匹配相似度;对应地,所述步骤g包括如下步骤g.选择相似度最大的种子模式句中的实体关系类型作为测试句中实体的关系类型。
3.根据权利要求2所述的控制方法,其特征在于,所述步骤b包括如下步骤bl.通过网页分析技术区分出新闻正文和标题;b2.利用共现性公式计算新闻标题中词语相关度;b3.利用共现性公式计算新闻正文中词语相关度;b4.分析维基百科中不同层次的词语关系调整词语相关度。
4.根据权利要求3所述的控制方法,其特征在于,所述步骤bl包括如下步骤bll.对新闻标题和正文进行分词,统计词语在标题和正文中出现的次数。
5.根据权利要求3所述的控制方法,其特征在于,所述步骤1^2包括如下步骤b21.使用delusion Coefficient来计算新闻标题共现性,公式为
6.根据权利要求3所述的控制方法,其特征在于,所述步骤b3包括如下步骤b31.使用IDO DANGN共现性方法计算,其定义为
7.根据权利要求3所述的控制方法,其特征在于,所述步骤b4包括如下步骤b41.对维基百科中不同层次的词语关系赋权重,我们只计算两层次的关系,第一层上赋值1第二层上赋值0.5。
8.根据权利要求3至7中任一项所述的控制方法,其特征在于,所述步骤b还包括如下步骤b5.结合词共现和维基百科我们最终使用如下公式计算词语相关度
9.根据权利要求2至8中任一项所述的控制方法,其特征在于,所述步骤c包括如下步骤cl.把每个词语的一组相关词语作为该词语的特征向量;c2.统计两个词语特征向量的相同部分,作为各自的新的特征向量;c3.通过计算两个词语特征向量的内积最终计算两个词语间的相似度。
10.根据权利要求2至9中任一项所述的控制方法,其特征在于,所述步骤f包括如下步骤fl.判断种子模式中的实体类型和测试句中的实体类型是否一致;f2.若所述步骤Π的判断是肯定的,则进行下一步;f2'.若所述步骤Π的判断是否定的,则继续对测试集中的句子进行处理;f3.计算种子模式与测试句子中每个词语的语义相似度;f4.计算匹配相似度时考虑还词语位置、词语词性和词语是不是动词等信息;f5.对f4中提到的因素分配不同的权重,计算匹配相似度。f6.应用f3和f5中提到的因素计算最终的匹配相似度。
11.根据权利要求10所述的控制方法,其特征在于,所述步骤f4包括如下步骤f41.计算相似度时词语位置信息值确定用一下公式
12.根据权利要求10所述的控制方法,其特征在于,所述步骤f5包括如下步骤f51.把每个因素的值作为高斯公式中向量的一个元素,最终得到这些因素同时影响时的匹配相似度值的公式为
13.根据权利要求10至12中任一项所述的控制方法,其特征在于,所述步骤f6包括如下步骤f61.最终的匹配相似度计算公式为Match (Tp, Ts) = Σ sim(i, j)*F(xi; x2, x3)其中,所述Σ sim(i, j)为利用两个词语特征向量的内积,最终作为两个词语间的相似度。
14.根据权利要求2至13中任一项所述的控制方法,其特征在于,还包括如下步骤h.用测试句模板扩充种子模板句集合。
15.根据权利要求14所述的控制方法,其特征在于,所述步骤h包括如下步骤hi.将匹配相似度值达到一定阈值的测试句模板作为种子模板加入到种子模板句集合中;h2.多次重复e到h的步骤,直到没有新的种子模板加入为止。
16.根据权利要求1所述的控制方法,其特征在于,所述步骤a包括如下步骤al.从网页中提取第一信息;a2.根据所述第一信息构建所述语料库;a3.统计所述语料库中词语的共现频率;a4.根据所述共现频率计算所述词语相关度。
17.根据权利要求16所述的控制方法,其特征在于,所述第一信息包括新闻正文和新闻标题。
18.根据权利要求16或17所述的控制方法,其特征在于,所述步骤a3包括如下步骤a31.通过中文分词和/或关键字匹配方式统计所述共现频率。
19.根据权利要求17或18所述的控制方法,其特征在于,所述步骤a4包括如下步骤-使用不同的相关度计算公式来区分新闻标题和新闻正文的词语相关度。
20.根据权利要求17至19中任一项所述的控制方法,其特征在于,所述步骤a4包括如下步骤-根据第二数据库中的主题词语与其它词语构建层次关系,根据层次关系调整所述词语相关度。
21.根据权利要求20所述的控制方法,其特征在于,所述第二数据库为百科类数据库。
22.根据权利要求2至21中任一项所述的控制方法,其特征在于,所述步骤b包括如下步骤bl.利用两个词语间相同的一组相关词语形成两个词语的特征向量,通过计算特征向量的内积计算两个词语间的所述相似度。
23.根据权利要求2至22中任一项所述的控制方法,其特征在于,所述步骤c包括如下步骤Cl.生成种子模版;c2.对测试集中的句子进行处理;测试集就是用来检验我们提出的方法是否有效。我们的思想就是先找到模板,然后应用提出的语义相似度匹配方法进行模板句和测试句匹配,若匹配成功就把模板中两个实体的关系作为测试句中两个实体的关系,也就是提取出了测试句中两个实体的关系。我们这里的匹配有我们自己的匹配公式。对测试集的处理包括分词、词性标注、清洗句子去除一些对句子意思贡献不大的词语,如副词等以减少匹配时的工作量。c3.判断所述种子模板中的句子与所述测试集中的句子的实体类型是否一致;c4.若所述步骤c3的判断结果是肯定的,则计算所述种子模板中的句子与所述测试集中的句子中的每个词语的语义相似度;c5.计算所述测试集中的句子与所有模板中的句子的匹配相似度; c6.将匹配相似度最大的所述种子模板中的句子的实体关系确定为所述测试集中的句子的实体关系;c7.将所述匹配相似度超过第一阈值的所述测试集中的句子确定为所述种子模板集中的句子。
24.根据权利要求23所述的控制方法,其特征在于,若所述步骤c3的判断结果为否定的,则接下来执行步骤c2。
25.根据权利要求23或M所述的控制方法,其特征在于,所述步骤c5包括如下步骤 -根据词语匹配因素来计算所述匹配相似度,其中,所述匹配因素包括所述语义相似度、词语位置、词语的词性以及词语是否为动词。
26.根据权利要求25所述的控制方法,其特征在于,所述c5还包括如下步骤-根据高斯公式将每个所述匹配因素的值作为高斯公式中向量的一个元素来分配各个所述匹配因素的权重。
27.一种基于词共现和模式匹配的汉语实体关系提取的控制装置,用于在计算机系统中对汉语实体关系进行提取,其特征在于,该控制装置通过根据权利要求1至26中任一项所述的控制方法实现提取汉语实体关系的过程。
全文摘要
本发明提供基于词共现的实体关系提取的控制方法,包括步骤a.通过统计语料库中词语的共现频率计算词语相关度;b.根据所述词语相关度计算词语相似度;c.根据所述词语相似度确定实体关系。还提供相应的控制装置。本方法应用的语料库是新闻语料库,可以直接通过现有成熟的网页分析技术提取新闻正文和标题来构建语料库,不用太多人工参与去构建语料库,本方法应用自然语言处理中的浅语言规则如分词、词性标注和简单的统计技术便可以得到计算词语相关度时应用的词语频率,以及计算匹配相似度时考虑的词语位置、词语的词性和词语是不是动词等信息,将词语的语义信息和传统的模式匹配方法相结合。
文档编号G06F17/30GK102591862SQ20111000135
公开日2012年7月18日 申请日期2011年1月5日 优先权日2011年1月5日
发明者刘金盼, 周凌琛, 杨静, 王晶, 贺樑, 陈超 申请人:华东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1