一种蕴含地理实体关系的关键词提取方法及装置与流程

文档序号:12719461阅读:243来源:国知局
一种蕴含地理实体关系的关键词提取方法及装置与流程

技术领域

本发明涉及地理信息系统(GIS)技术领域,更具体地说,涉及一种蕴含地理实体关系的关键词提取方法及装置。



背景技术:

地理实体关系常用于描述地理实体(或事件)的位置、范围或空间分布,这对于感知地理世界和构建地理知识系统至关重要。关键词为地理实体关系表达提供了重要依据,关键词提取技术已经成为现阶段研究热点。

现有的关键词提取方法主要是频率统计,从含有地理实体的句子中提取出现频率次数较高的词组作为蕴含地理实体关系的关键词。但是,对于分布稀疏的地理实体关系来说,这种关键词提取方法并不适用。

有鉴于此,如何提取分布稀疏的地理实体关系的关键词,是本领域技术人员亟需解决的问题。



技术实现要素:

有鉴于此,本发明提供一种蕴含地理实体关系的关键词提取方法及装置,以解决现有的技术方案不能有效提取分布稀疏的地理实体关系的关键词的问题。技术方案如下:

一种蕴含地理实体关系的关键词提取方法,包括:

从网络文本中获取至少一个地理实体对及其对应的原始语境,所述地理实体对包含至少两个地理实体;

根据每一个所述地理实体对中各个所述地理实体对应的类型映射表,获取各个地理实体对类型标签及其对应的当前原始语境,并且依据预设同义词词典信息对各个所述当前原始语境进行语境增强,得到各个增强语境;

针对每一个所述地理实体对类型标签,从对应的所述增强语境中获取关键词选择语料,并从所述关键词选择语料中选取至少一个蕴含地理实体关系的关键词。

优选的,所述从网络文本中获取至少一个地理实体对及其对应的原始语境,包括:

对网络文本进行断句分割;

为每一个句子中包含的至少一个词组添加词性标签;

通过对词性标签为名词的各个所述词组进行地理实体识别,确定各个地理实体对及其对应的原始语境。

优选的,所述根据每一个所述地理实体对中各个所述地理实体对应的类型映射表,获取各个地理实体对类型标签及其对应的当前原始语境,并且依据预设同义词词典信息对各个所述当前原始语境进行语境增强,得到各个增强语境,包括:

根据每一个所述地理实体对中各个所述地理实体对应的类型映射表,获取各个所述地理实体的类型标签集合,所述类型标签集合包含至少一个地理实体类型标签;

针对每一个所述地理实体,计算对应的各个所述地理实体标签的第一权值,并选取第一权值最大的地理实体标签作为地理实体唯一标签,其中,所述第一权值用于表征地理实体类型标签准确度;

针对每一个所述地理实体对,根据各个所述地理实体唯一标签确定地理实体对类型标签;

对于地理实体对类型标签相同的原始语境进行合并,得到唯一存在的各个所述地理实体对类型标签及其对应的当前原始语境;

依据预设同义词词典信息,对各个所述当前原始语境中的词组进行同义词替换,得到各个所述地理实体对类型标签对应的增强语境。

优选的,所述从对应的所述增强语境中获取关键词选择语料,包括:

选取至少两个频率统计算法;

基于各个所述频率统计算法,分别从对应的所述增强语境中提取关键词组,所述关键词组包含至少一个关键词;

取各个所述关键词组的交集作为关键词选择语料。

优选的,所述从所述关键词选择语料中选取至少一个蕴含地理实体关系的关键词,包括:

根据所述关键词选择语料选取相应的词法特征;

根据所述词法特征计算所述关键词选择语料中各个关键词的第二权值,所述第二权值用于表征关键词描述准确度;

通过比较各个所述第二权值,从所述关键词选择语料中选取至少一个蕴含地理实体关系的关键词。

一种蕴含地理实体关系的关键词提取装置,包括:获取模块、语境增强模块和关键词选取模块,所述关键词选取模块包括关键词选择语料获取单元和关键词选取单元;

所述获取模块,用于从网络文本中获取至少一个地理实体对及其对应的原始语境,所述地理实体对包含至少两个地理实体;

所述语境增强模块,用于根据每一个所述地理实体对中各个所述地理实体对应的类型映射表,获取各个地理实体对类型标签及其对应的当前原始语境,并且依据预设同义词词典信息对各个所述当前原始语境进行语境增强,得到各个增强语境;

所述关键词选择语料获取单元,用于针对每一个所述地理实体对类型标签,从对应的所述增强语境中获取关键词选择语料,

所述关键词选取单元,用于从所述关键词选择语料中选取至少一个蕴含地理实体关系的关键词。

优选的,所述获取模块包括:断句分割单元、词性标签添加单元和地理实体识别单元;

所述断句分割单元,用于对网络文本进行断句分割;

所述词性标签添加单元,用于为每一个句子中包含的至少一个词组添加词性标签注;

所述地理实体识别单元,用于通过对词性标签为名词的各个所述词组进行地理实体识别,确定各个地理实体对及其对应的原始语境。

优选的,所述语境增强模块包括:类型标签集合获取单元、计算选取单元、确定单元、原始语境合并单元、同义词替换单元;

所述类型标签集合获取单元,用于根据每一个所述地理实体对中各个所述地理实体对应的类型映射表,获取各个所述地理实体的类型标签集合,所述类型标签集合包含至少一个地理实体类型标签;

所述计算选取单元,用于针对每一个所述地理实体,计算对应的各个所述地理实体标签的第一权值,并选取第一权值最大的地理实体标签作为地理实体唯一标签,其中,所述第一权值用于表征地理实体类型标签准确度;

所述确定单元,用于针对每一个所述地理实体对,根据各个所述地理实体唯一标签确定地理实体对类型标签;

所述原始语境合并单元,用于对于地理实体对类型标签相同的原始语境进行合并,得到唯一存在的各个所述地理实体对类型标签及其对应的当前原始语境;

所述同义词替换单元,用于依据预设同义词词典信息,对各个所述当前原始语境中的词组进行同义词替换,得到各个所述地理实体对类型标签对应的增强语境。

优选的,所述关键词选择语料获取单元包括:频率统计算法选取子单元、关键词组提取子单元和关键词选择语料选取子单元;

所述频率统计算法选取子单元,用于选取至少两个频率统计算法;

所述关键词组提取子单元,用于基于各个所述频率统计算法,分别从对应的所述增强语境中提取关键词组,所述关键词组包含至少一个关键词;

所述关键词选择语料选取子单元,用于取各个所述关键词组的交集作为关键词选择语料。

优选的,所述关键词选取单元包括:词法特征选取子单元、计算子单元和关键词选取子单元;

所述词法特征选取子单元,用于根据所述关键词选择语料选取相应的词法特征;

所述计算子单元,用于根据所述词法特征计算所述关键词选择语料中各个关键词的第二权值,所述第二权值用于表征关键词描述准确度;

所述关键词选取子单元,用于通过比较各个所述第二权值,从所述关键词选择语料中选取至少一个蕴含地理实体关系的关键词。

相较于现有技术,本发明实现的有益效果为:

以上本发明提供的一种蕴含地理实体关系的关键词提取方法及装置,该方法根据各个地理实体的类型映射表确定各个地理实体对类型标签,并通过合并相同地理实体对类型标签的原始语境实现增加语境中的词组数量;再依据预设同义词词典信息增加语境中的词组频数,最终从增强语境中选取蕴含地理实体关系的关键词。由此可见,本发明公开的方法可有效增强稀疏地理实体关系的关键词识别能力,且能生成大量新关键词,有助于以无监督学习方式抽取关键词。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本发明实施例一公开的一种蕴含地理实体关系的关键词提取方法流程图;

图2为本发明实施例二公开的一种蕴含地理实体关系的关键词提取方法部分流程图;

图3为本发明实施例二公开的另一种蕴含地理实体关系的关键词提取方法部分流程图;

图4为本发明实施例二公开的另一种蕴含地理实体关系的关键词提取方法部分流程图;

图5为本发明实施例二公开的另一种蕴含地理实体关系的关键词提取方法部分流程图;

图6为本发明实施例三公开的一种蕴含地理实体关系的关键词提取装置结构示意图;

图7为本发明实施例四公开的一种蕴含地理实体关系的关键词提取装置部分结构示意图;

图8为本发明实施例四公开的另一种蕴含地理实体关系的关键词提取装置部分结构示意图;

图9为本发明实施例四公开的另一种蕴含地理实体关系的关键词提取装置部分结构示意图;

图10为本发明实施例四公开的另一种蕴含地理实体关系的关键词提取装置部分结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例一

本发明实施例一公开了一种蕴含地理实体关系的关键词提取方法,该方法应用于蕴含地理实体关系的关键词提取装置,流程图如图1所示,包括如下步骤:

S101,从网络文本中获取至少一个地理实体对及其对应的原始语境,地理实体对包含至少两个地理实体;

在执行步骤S101的过程中,可从预设百科站点抓取至少一个网络文本,通过对抓取的至少一个网络文本预处理得到至少一个地理实体对及其对应的原始语境;其中,预设百科站点包括但不局限于百度百科、维基百科和/或互动百科,可根据实际需要具体选择;预处理工具包括但不局限于自然语言处理工具GATE,可根据实际需要具体选择。

S102,根据每一个地理实体对中各个地理实体对应的类型映射表,获取各个地理实体对类型标签及其对应的当前原始语境,并且依据预设同义词词典信息对各个当前原始语境进行语境增强,得到各个增强语境;

在执行步骤S102的过程中,预设百科站点中存储有地理实体的类型映射表,通过获取每个地理实体的唯一标签确定地理实体对类型标签,并且通过合并地理实体对类型标签相同的原始语境得到各个地理实体对类型标签的当前原始语境,再依据预设同义词词典信息对各个当前原始语境中的词组进行同义词替换实现语境增强,由此可得到各个地理实体对类型标签及其对应的增强语境。

S103,针对每一个地理实体对类型标签,从对应的增强语境中获取关键词选择语料,并从关键词选择语料中选取至少一个蕴含地理实体关系的关键词。

本发明实施例公开的蕴含地理实体关系的关键词提取方法,根据各个地理实体的类型映射表确定各个地理实体对类型标签,并通过合并相同地理实体对类型标签的原始语境实现增加语境中的词组数量;再依据预设同义词词典信息增加语境中的词组频数,最终从增强语境中选取蕴含地理实体关系的关键词。由此可见,本发明公开的方法可有效增强稀疏地理实体关系的关键词识别能力,且能生成大量新关键词,有助于以无监督学习方式抽取关键词。

实施例二

基于上述本发明实施例一公开的蕴含地理实体关系的关键词提取方法,如图1所示出的步骤S101中,从网络文本中获取至少一个地理实体对及其对应的原始语境的具体执行过程,如图2所示,包括如下步骤:

S201,对网络文本进行断句分割;

S202,为每一个句子中包含的至少一个词组添加词性标签;

在执行步骤S202的过程中,首先对断句分割得到的各个句子进行中文分词,得到各个词组,再对各个词组添加词性标签,例如,名词、动词和形容词等。

S203,通过对词性标签为名词的各个词组进行地理实体识别,确定各个地理实体对及其对应的原始语境;

在执行步骤S203的过程中,对词性标签为名词的各个词组进行地理实体识别,由此可确定每个句子中包含的各个地理实体对以及该地理实体对对应的原始语境。

本发明实施例公开的蕴含地理实体关系的关键词提取方法,通过对网络文本进行预处理得到包含的各个地理实体对及其对应的原始语境,根据各个地理实体的类型映射表确定各个地理实体对类型标签,并通过合并相同地理实体对类型标签的原始语境实现增加语境中的词组数量;再依据预设同义词词典信息增加语境中的词组频数,最终从增强语境中选取蕴含地理实体关系的关键词。由此可见,本发明公开的方法可有效增强稀疏地理实体关系的关键词识别能力,且能生成大量新关键词,有助于以无监督学习方式抽取关键词。

基于上述本发明实施例一公开的蕴含地理实体关系的关键词提取方法,如图1所示出的步骤S102中,根据每一个地理实体对中各个地理实体对应的类型映射表,获取各个地理实体对类型标签及其对应的当前原始语境,并且依据预设同义词词典信息对各个当前原始语境进行语境增强,得到各个增强语境的具体执行过程,如图3所示,包括如下步骤:

S301,根据每一个地理实体对中各个地理实体对应的类型映射表,获取各个所述地理实体的类型标签集合,所述类型标签集合包含至少一个地理实体类型标签;

在执行步骤S301的过程中,预设百科站点中存储有地理实体对应的类型映射表,由此可获取各个地理实体的类型标签集合,例如,地理实体“清华大学”的类型标签集合中包含如下地理实体类型标签:中国高校、公办高校、研究生院高校、211高校、985高校、理工类高校、教育部隶属高校、北京高校、本科高校、大学和学校。

S302,针对每一个地理实体,计算对应的各个地理实体标签的第一权值,并选取第一权值最大的地理实体标签作为地理实体唯一标签,其中,第一权值用于表征地理实体类型标签准确度;

在执行步骤S302的过程中,可根据公式(1)计算各个地理实体标签的第一权值;

其中,w(typej|ei)为地理实体ei的类型标签typej的第一权值,k为地理实体ei的类型标签集合中地理实体标签的数量,j为类型标签typej在地理实体ei的类型标签集合中排序值,frequency(typej)为类型标签typej的全局频次。

S303,针对每一个地理实体对,根据各个地理实体唯一标签确定地理实体对类型标签;

在执行步骤S303的过程中,例如,针对地理实体对“清华大学”和“北京”,另假设地理实体“清华大学”的唯一类型标签为“公办高校”,地理实体“北京”的唯一类型标签为“首都”,则该地理实体对类型标签为“公办高校—首都”。

S304,对于地理实体对类型标签相同的原始语境进行合并,得到唯一存在的各个地理实体对类型标签及其对应的当前原始语境;

在执行步骤S304的过程中,例如,针对“清华大学”和“北京”这一地理实体对和“哈佛大学”和“华盛顿”这一地理实体对的类型标签均为“公办高校—首都”,则将这两个地理实体对对应的原始语境进行合并,得到地理实体对类型标签“公办高校—首都”的当前原始语境。

S305,依据预设同义词词典信息,对各个当前原始语境中的词组进行同义词替换,得到各个地理实体对类型标签对应的增强语境;

在执行步骤S305的过程中,依据预设同义词词典信息,例如哈工大自然语言处理实验室发布的可公开下载的资源“词林”,可对各个当前原始语境中的词组进行同义词替换,例如,“附近”、“邻近”和“周围”这三个词为同义词,可选用其中的一个词对当前原始语境中出现的其他同义词进行替换。

本发明实施例公开的蕴含地理实体关系的关键词提取方法,根据各个地理实体的类型映射表确定各个地理实体对类型标签,并通过合并相同地理实体对类型标签的原始语境实现增加语境中的词组数量;再依据预设同义词词典信息增加语境中的词组频数,最终从增强语境中选取蕴含地理实体关系的关键词。由此可见,本发明公开的方法可有效增强稀疏地理实体关系的关键词识别能力,且能生成大量新关键词,有助于以无监督学习方式抽取关键词。

基于上述本发明实施例一公开的蕴含地理实体关系的关键词提取方法,如图1所示出的步骤S103中,从对应的增强语境中获取关键词选择语料的具体执行,如图3所示,包括如下步骤:

S401,选取至少两个频率统计算法;

在执行步骤S401的过程中,可从预设算法数据库中选取至少两个频率统计算法,例如,频率统计算法Domain Frequency和Entropy;其中,频率统计算法Domain Frequency用于度量增强语境中各个词组的全局差异性,频率统计算法Entropy用于文本分类。

S402,基于各个频率统计算法,分别从对应的增强语境中提取关键词组,所述关键词组包含至少一个关键词;

在执行步骤S402的过程中,针对选取的每个频率统计算法,对于每个增强语境可提取出一个关键词组。

S403,取各个关键词组的交集作为关键词选择语料。

本发明实施例公开的蕴含地理实体关系的关键词提取方法,根据各个地理实体的类型映射表确定各个地理实体对类型标签,并通过合并相同地理实体对类型标签的原始语境实现增加语境中的词组数量;再依据预设同义词词典信息增加语境中的词组频数,最终从关键词选择语料中选取蕴含地理实体关系的关键词。由此可见,本发明公开的方法可有效增强稀疏地理实体关系的关键词识别能力,且能生成大量新关键词,有助于以无监督学习方式抽取关键词。

基于上述本发明实施例一公开的蕴含地理实体关系的关键词提取方法,如图1所示出的步骤S103中,从关键词选择语料中选取至少一个蕴含地理实体关系的关键词的具体执行过程,如图5所示,包括如下步骤:

S501,根据关键词选择语料选取相应的词法特征;

在执行步骤S501的过程中,针对不同的关键词选择语料,可对应选取词法特征,词法特征包括但不局限于词性、词组长度、词组位置和词组距离;其中,词组位置还可包括第一个地理实体的左边、两个地理实体之间和第二个地理实体的右边,具体的,还可为第一个地理实体前一个词组、第一个地理实体后一个词组、第二个地理实体前一个词组和第二个地理实体后一个词组;词组距离还可包括与第一地理实体相隔的词语数目、与第二个地理实体相隔的词语数据、与句首相隔的词组数目和与句尾相隔的词组数目。

S502,根据词法特征计算关键词选择语料中各个关键词的第二权值,第二权值用于表征关键词描述准确度;

在执行步骤S502的过程中,可根据公式(2)计算各个关键词的第二权值;

wgt(t)=θLEN*(θPOSLOCDIS) (2);

其中,wgt(t)为关键词t的第二权值,θLEN、θPOS、θLOC和θDIS分别表示关键词t的词组长度、词性、词组位置和词组距离对第二权值的影响程度值;另外,θLEN、θPOS、θLOC和θDIS可分别根据公式(3)、(4)、(5)和(6)计算;

其中,min和max分别为关键词t词性tpos对应的词组长度阈值的最小值和最大值;

θPOS=p(tpos) (4)

其中,θPOS表示词性tpos对应的关键词t的概率值;

其中,θLOC表示在地理实体前后词组的影响下,不同位置的关键词t对应的概率值,tp(e1)表示第一地理实体e1前一个词组,tn(e1)表示第一地理实体e1后一个词组,tp(e2)表示第二地理实体e2前一个词组,tn(e2)表示第二地理实体e2后一个词组,例如,p(tloc=between|tp(e1)="是")表示当第一地理实体e1前一个词组为“是”时,位于第一地理实体e1和第二地理实体e2之间的关键词t的概率值;

其中,θDIS表示在关键词t位置的影响下,不同距离的关键词t对应的概率值,dis(e1)表示关键词t到第一地理实体e1的距离,dis(e2)表示关键词t到第二地理实体e2的距离,dis(head)表示关键词t到句首的距离,dis(tail)表示关键词t到句尾的距离,例如,p(dis(e1)=1|tloc=between)表示当关键词t位于第一地理实体e1和第二地理实体e2之间时,距离第一地理实体e1的距离为1的关键词t的概率值。

S503,通过比较各个第二权值,从关键词选择语料中选取至少一个蕴含地理实体关系的关键词;

在执行步骤S503过程中,可通过比较各个第二权值进行权值降序排列,根据实际需要选取预设数量的蕴含地理实体关系的关键词。

本发明实施例公开的蕴含地理实体关系的关键词提取方法,根据各个地理实体的类型映射表确定各个地理实体对类型标签,并通过合并相同地理实体对类型标签的原始语境实现增加语境中的词组数量;再依据预设同义词词典信息增加语境中的词组频数,最终从关键词选择语料中选取蕴含地理实体关系的关键词。由此可见,本发明公开的方法可有效增强稀疏地理实体关系的关键词识别能力,且能生成大量新关键词,有助于以无监督学习方式抽取关键词。

实施例三

基于上述本发明各实施例提供的蕴含地理实体关系的关键词提取方法,本发明实施三则对应公开执行上述方法的蕴含地理实体关系的关键词提取装置,其结构示意图如图6所示,蕴含地理实体关系的关键词提取装置100包括:获取模块101、语境增强模块102和关键词选取模块103,关键词选取模块103包括关键词选择语料获取单元1031和关键词选取单元1032;

获取模块101,用于从网络文本中获取至少一个地理实体对及其对应的原始语境,地理实体对包含至少两个地理实体;

语境增强模块102,用于根据每一个地理实体对中各个地理实体对应的类型映射表,获取各个地理实体对类型标签及其对应的当前原始语境,并且依据预设同义词词典信息对各个当前原始语境进行语境增强,得到各个增强语境;

关键词选择语料获取单元1031,用于针对每一个地理实体对类型标签,从对应的增强语境中获取关键词选择语料,

关键词选取单元1032,用于从关键词选择语料中选取至少一个蕴含地理实体关系的关键词。

本发明实施例公开的蕴含地理实体关系的关键词提取装置,根据各个地理实体的类型映射表确定各个地理实体对类型标签,并通过合并相同地理实体对类型标签的原始语境实现增加语境中的词组数量;再依据预设同义词词典信息增加语境中的词组频数,最终从增强语境中选取蕴含地理实体关系的关键词。由此可见,本发明公开的装置可有效增强稀疏地理实体关系的关键词识别能力,且能生成大量新关键词,有助于以无监督学习方式抽取关键词。

实施例四

结合上述本发明实施三公开的蕴含地理实体关系的关键词提取装置,本实施例四还公开一种蕴含地理实体关系的关键词提取装置,其中,获取模块101的结构示意图如图7所示,获取模块101包括:断句分割单元201、词性标签添加单元202和地理实体识别单元203;

断句分割单元201,用于对网络文本进行断句分割;

词性标签添加单元202,用于为每一个句子中包含的至少一个词组添加词性标签注;

地理实体识别单元203,用于通过对词性标签为名词的各个词组进行地理实体识别,确定各个地理实体对及其对应的原始语境。

本发明实施例公开的蕴含地理实体关系的关键词提取装置,通过对网络文本进行预处理得到包含的各个地理实体对及其对应的原始语境,根据各个地理实体的类型映射表确定各个地理实体对类型标签,并通过合并相同地理实体对类型标签的原始语境实现增加语境中的词组数量;再依据预设同义词词典信息增加语境中的词组频数,最终从增强语境中选取蕴含地理实体关系的关键词。由此可见,本发明公开的装置可有效增强稀疏地理实体关系的关键词识别能力,且能生成大量新关键词,有助于以无监督学习方式抽取关键词。

结合上述本发明实施三公开的蕴含地理实体关系的关键词提取装置,本实施例四还公开一种蕴含地理实体关系的关键词提取装置,其中,语境增强模块102的结构示意图如图8所示,语境增强模块102包括:类型标签集合获取单元301、计算选取单元302、确定单元303、原始语境合并单元304、同义词替换单元305;

类型标签集合获取单元301,用于根据每一个地理实体对中各个地理实体对应的类型映射表,获取各个地理实体的类型标签集合,类型标签集合包含至少一个地理实体类型标签;

计算选取单元302,用于针对每一个地理实体,计算对应的各个地理实体标签的第一权值,并选取第一权值最大的地理实体标签作为地理实体唯一标签,其中,第一权值用于表征地理实体类型标签准确度;

确定单元303,用于针对每一个地理实体对,根据各个地理实体唯一标签确定地理实体对类型标签;

原始语境合并单元304,用于对于地理实体对类型标签相同的原始语境进行合并,得到唯一存在的各个地理实体对类型标签及其对应的当前原始语境;

同义词替换单元305,用于依据预设同义词词典信息,对各个当前原始语境中的词组进行同义词替换,得到各个地理实体对类型标签对应的增强语境。

本发明实施例公开的蕴含地理实体关系的关键词提取装置,根据各个地理实体的类型映射表确定各个地理实体对类型标签,并通过合并相同地理实体对类型标签的原始语境实现增加语境中的词组数量;再依据预设同义词词典信息增加语境中的词组频数,最终从增强语境中选取蕴含地理实体关系的关键词。由此可见,本发明公开的装置可有效增强稀疏地理实体关系的关键词识别能力,且能生成大量新关键词,有助于以无监督学习方式抽取关键词。

结合上述本发明实施三公开的蕴含地理实体关系的关键词提取装置,本实施例四还公开一种蕴含地理实体关系的关键词提取装置,其中,关键词选择语料获取单元1031的结构示意图如图9所示,关键词选择语料获取单元1031包括:频率统计算法选取子单元401、关键词组提取子单元402和关键词选择语料选取子单元403;

频率统计算法选取子单元401,用于选取至少两个频率统计算法;

关键词组提取子单元402,用于基于各个频率统计算法,分别从对应的增强语境中提取关键词组,关键词组包含至少一个关键词;

关键词选择语料选取子单元403,用于取各个关键词组的交集作为关键词选择语料。

本发明实施例公开的蕴含地理实体关系的关键词提取装置,根据各个地理实体的类型映射表确定各个地理实体对类型标签,并通过合并相同地理实体对类型标签的原始语境实现增加语境中的词组数量;再依据预设同义词词典信息增加语境中的词组频数,最终从关键词选择语料中选取蕴含地理实体关系的关键词。由此可见,本发明公开的装置可有效增强稀疏地理实体关系的关键词识别能力,且能生成大量新关键词,有助于以无监督学习方式抽取关键词。

结合上述本发明实施三公开的蕴含地理实体关系的关键词提取装置,本实施例四还公开一种蕴含地理实体关系的关键词提取装置,其中,关键词选取单元1032的结构示意图如图10所示,关键词选取单元1032包括:词法特征选取子单元501、计算子单元502和关键词选取子单元503;

词法特征选取子单元501,用于根据关键词选择语料选取相应的词法特征;

计算子单元502,用于根据词法特征计算关键词选择语料中各个关键词的第二权值,第二权值用于表征关键词描述准确度;

关键词选取子单元503,用于通过比较各个第二权值,从关键词选择语料中选取至少一个蕴含地理实体关系的关键词。

本发明实施例公开的蕴含地理实体关系的关键词提取装置,根据各个地理实体的类型映射表确定各个地理实体对类型标签,并通过合并相同地理实体对类型标签的原始语境实现增加语境中的词组数量;再依据预设同义词词典信息增加语境中的词组频数,最终从关键词选择语料中选取蕴含地理实体关系的关键词。由此可见,本发明公开的装置可有效增强稀疏地理实体关系的关键词识别能力,且能生成大量新关键词,有助于以无监督学习方式抽取关键词。

以上对本发明所提供的一种蕴含地理实体关系的关键词提取方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1