关键词的提取方法及装置与流程

文档序号:12157946阅读:385来源:国知局
关键词的提取方法及装置与流程

本发明涉及数据处理技术领域,特别是涉及一种关键词的提取方法及装置。



背景技术:

关键词提取是从给定的文本中提取出能反映文本主旨信息的词或短语,在自动摘要、文本挖掘、信息检索中发挥着重要作用,尤其是实现自动标注的关键方法。其中,根据是否需要标注训练语料可以把关键词抽取方法分为两大类:有监督关键词抽取和无监督关键词抽取。

基于词图的无监督关键词抽取是基于词语在文档中的分布进而建立词图节点,然后根据词语的覆盖影响力、位置影响力和频度影响力三个方面加权计算临近词语所传递的影响力,也就是计算词图中节点的边长,并根据词图中节点的边长从文档中提取关键词。

但是,基于词图的关键词抽取方法中文本的词频可表示频度影响力,词共现关系可表示位置影响力和覆盖影响力,因此基于词图的关键词抽取方法抽取的关键词是文本中词频和词共现关系出现较多的词,而这些词往往与文本的主题并不相关,因此为了使提取的关键词更加切合文本主题,取得较好的关键词效果往往需要人工经验进行干预,即在衡量词语的重要性时往往采用相对简单的经验赋值方法,如对于在主题中出现的词语赋予较高的权重。因此现有基于词图的关键词抽取方法需要人工干预,提取关键词的智能性、效率均较低。



技术实现要素:

有鉴于此,本发明提供一种关键词的提取方法及装置,主要目的在于解决现有关键词提取智能性、效率均较低的问题。

依据本发明一个方面,提供了一种关键词的提取方法,包括:

获取目标文本中各个词的主题影响度向量,所述词的主题影响度向量用于表示所述词对所述目标文本中主题的影响度;

根据所述目标文本的词图及所述词的主题影响度向量计算所述目标文本中各个词的重要度,所述重要度用于表示所述词与所述目标文本的关联程度;

从所述目标文本中选取符合预设重要度的词作为所述目标文本的关键词。

具体的,述获取目标文本中各个词的主题影响度向量包括:

通过文档主题生成模型LDA计算所述目标文本的中每个主题出现的概率及每个主题中每个词出现的概率;

将所述目标文本的中每个主题出现的概率分别与所述每个主题中每个词出现的概率进行点乘计算,得到所述目标文本中各个词的主题影响度向量。

进一步地,所述根据所述目标文本的词图及所述词的主题影响度向量计算所述目标文本中各个词的重要度之前,所述方法还包括:

以所述目标文本中的词作为所述词图中的节点,所述目标文本中词的位置相邻关系作为所述节点间的连接边,构建所述目标文本的词图。

具体的,所述根据所述目标文本的词图及所述词的主题影响度向量计算所述目标文本中各个词的重要度,包括:

通过所述词的主题影响度向量计算目标文本中各个词之间的相似度;

根据所述目标文本的词图及所述各个词之间的相似度计算所述目标文本中各个词的重要度。

具体的,所述通过所述词的主题影响度向量计算目标文本中各个词之间的相似度包括:

获取所述目标文本的词图中具有连接边的两节点对应的词;

通过计算所述具有连接边的两节点对应的词的主题影响度向量的余弦相似度值,确定各个词之间的相似度。

具体的,所述根据所述目标文本的词图及所述各个词之间的相似度计算所述目标文本中各个词的重要度包括:

将词与词之间的相似度作为所述目标文本的词图中对应节点连接边的边值;

对所述目标文本的词图中节点的各个连接边的边值进行累加获得所述词的重要度。

具体的,所述根据所述目标文本的词图及所述词的主题影响度向量计算所述目标文本中各个词的重要度包括:

将所述词的主题影响度向量设置为所述目标文本的词图中节点的权重值;

根据基于词图模型的关键词抽取TextRank算法和所述节点的权重值计算所述目标文本中各个词的重要度。

具体的,所述从所述目标文本中选取符合预设重要度的词作为所述目标文本的关键词包括:

从所述目标文本中选取重要度最高的词作为所述目标文本的关键词。

依据本发明另一个方面,提供了一种关键词的提取装置,包括:

获取单元,用于获取目标文本中各个词的主题影响度向量,所述词的主题影响度向量用于表示所述词对所述目标文本中主题的影响度;

计算单元,用于根据所述目标文本的词图及所述词的主题影响度向量计算所述目标文本中各个词的重要度,所述重要度用于表示所述词与所述目标文本的关联程度;

选取单元,用于从所述目标文本中选取符合预设重要度的词作为所述目标文本的关键词。

具体的,所述获取单元包括:

计算模块,用于通过文档主题生成模型LDA计算所述目标文本的中每个主题出现的概率及每个主题中每个词出现的概率;

点乘模块,用于将所述目标文本的中每个主题出现的概率分别与所述每个主题中每个词出现的概率进行点乘计算,得到所述目标文本中各个词的主题影响度向量。

进一步地,所述装置还包括:

构建单元,用于以所述目标文本中的词作为所述词图中的节点,所述目标文本中词的位置相邻关系作为所述节点间的连接边,构建所述目标文本的词图。

具体的,所述计算单元包括:

第一计算模块,用于通过所述词的主题影响度向量计算目标文本中各个词之间的相似度;

第二计算模块,用于根据所述目标文本的词图及所述各个词之间的相似度计算所述目标文本中各个词的重要度。

具体的,所述第一计算模块包括:

获取子模块,用于获取所述目标文本的词图中具有连接边的两节点对应的词;

确定子模块,用于通过计算所述具有连接边的两节点对应的词的主题影响度向量的余弦相似度值,确定各个词之间的相似度。

具体的,所述第二计算模块包括:

配置子模块,用于将词与词之间的相似度作为所述目标文本的词图中对应节点连接边的边值;

累加子模块,用于对所述目标文本的词图中节点的各个连接边的边值进行累加获得所述词的重要度。

具体的,所述计算单元还包括:

设置模块,用于将所述词的主题影响度向量设置为所述目标文本的词图中节点的权重值;

第三计算模块,用于根据基于词图模型的关键词抽取TextRank算法和所述节点的权重值计算所述目标文本中各个词的重要度。

所述选取单元,具体用于从所述目标文本中选取重要度最高的词作为所述目标文本的关键词。

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明实施例提供的一种关键词的提取方法及装置,首先获取目标文本中各个词的主题影响度向量,所述词的主题影响度向量用于表示所述词对所述目标文本中主题的影响度,然后根据所述目标文本的词图及所述词的主题影响度向量计算所述目标文本中各个词的重要度,所述重要度用于表示所述词与所述目标文本的关联程度,最后从所述目标文本中选取符合预设重要度的词作为所述目标文本的关键词。与目前通过人工经验干预词在文本中主题的重要性以实现提取关键词相比,本发明实施例通过文档主题生成模型计算目标文本中各个词的主题影响度向量,然后以词的主题影响度向量作为衡量词对目标文本中主题的重要性,因此本发明实施例而无需再通过人工经验设置词在文本主题中的重要性,并且根据文档主题生成模型得到的词的主体影响度向量能够准确表示词对目标文本中主题的影响度,因此根据目标文本的词图及词的主题影响度向量可从目标文本中提取到关键词,从而通过本发明实施例可提高关键词的提取效率及提取智能性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种关键词的提取方法流程图;

图2示出了本发明实施例提供的另一种关键词的提取方法流程图;

图3示出了本发明实施例提供的一种关键词的提取装置结构框图;

图4示出了本发明实施例提供的另一种关键词提的取装置结构框图。

图5示出了本发明实施例提供的目标文本的词图示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种关键词的提取方法,如图1所示,该方法包括:

101、获取目标文本中各个词的主题影响度向量。

其中,所述词的主题影响度向量用于表示所述词对所述目标文本中主题的影响度,词的主题影响度向量是词在目标文本中对所有主题的影响度。需要说明的是,对于目标文本d中的词w来说,令F表示该词w对目标文本d中的主题影响度向量,可以认为词w出现在一个主题z中的概率越大,则该词语相对于主题z而言影响度越大;若词w对应的主题z在目标文本d中的出现概率越大,则表明主题z相对于目标文本d的影响度越大。因此可通过目标文本d的中主题z出现的概率与主题z中词w出现的概率的乘积确定词w在目标文本d中对主题z的主题影响度向量,但是根据主题z出现的概率与主题z中词w出现的概率的乘积确定的主题影响度向量是词w对主题z的影响度向量,而非词w对目标文本词d中全部主题的影响度。并且目标文本d中可包含多个主题,且词w可以同时出现在多个出题当中,因此需要根据目标文本d的中每个主题出现的概率与所述每个主题中词w出现的概率进行的点乘结果,确定词w对目标文本d中的主题影响度向量F。

基于以上分析,本发明实施例可根据LDA(Latent Dirichlet Allocation,文档主题生成模型)获取目标文本中各个词的主体影响度向量,具体的获取主题影响度向量过程可以为:首先对目标文本进行分词,然后通过LDA计算目标文本的中每个主题出现的概率及每个主题中每个词出现的概率,然后将目标文本的中每个主题出现的概率与所述每个主题中每个词出现的概率进行的点乘结果,作为目标文本中各个词的主体影响度向量。

102、根据所述目标文本的词图及所述词的主题影响度向量计算所述目标文本中各个词的重要度。

其中,所述重要度用于表示所述词与所述目标文本的关联程度,词的重要度越大,词与目标文本的关联程度越强;词的重要程度越小,词与目标文本的关联程度越弱。需要说明的是,目标文本的词图是基于TextRank(基于词图模型的关键词抽取算法)算法构建的,即以目标文本中的词作为所述词图中的节点,目标文本中词的位置相邻关系作为所述节点间的连接边,构建目标文本的词图。

在本发明实施例中,可以将词的主题影响度向量作为目标文本词图中节点的权重值,然后将节点的权重值代入TextRank算法公式中,并基于节点的权重值和目标文本词图中临近词语所传递的影响力计算所述目标文本中各个词的重要度;还可以通过词的主题影响度向量计算目标文本词图中临近两节点连接边的边值,然后统计目标文本词图中连接同一节点连接边的边值,最后将统计的结果作为目标文本中各个词的重要度。

例如,目标文本词图中包括节点A、B、C、D、E,节点A对应词A、节点B对应词B、节点C对应词C、节点D对应词D、节点E对应词E,节点A与节点B、C、D相连接,即节点A与节点B、C、D之间存在连接边,若节点A的主题影响度向量为a,节点B的主题影响度向量为b,节点C的主题影响度向量为c,节点D的主题影响度向量为d,节点E的主题影响度向量为e。则可将a作为节点A的权重值,b作为节点B的权重值,c作为节点C的权重值,d作为节点D的权重值,e作为节点E的权重值,通过TextRank算法对节点的权重值及目标文本词图中的节点关系进行计算,以得到各节点的重要度,即得到目标文本中各个词的重要度;另外还可以根据词图中节点连接边的边值获取目标文本中各个词的重要度,即首先通过词A与词B的主体影响度向量计算节点A与节点B之间连接边的边值ab,词A与词C的主体影响度向量计算节点A与节点C之间连接边的边值ac,词A与词D的主体影响度向量计算节点A与节点D之间连接边的边值ad,然后对连接节点A的连接边的边值ab、ac、ad进行累加,得到节点的重要度,即得到词A与目标文本的关联程度。

103、从所述目标文本中选取符合预设重要度的词作为所述目标文本的关键词。

其中,所述预设重要度可以根据实际需要进行设置,如可从目标文本中选取重要度最高的词作为目标文本的关键词,还可以从目标文本中选取重要度超过预置数值的词作为目标文本的关键词,本发明实施例不做具体限定。需要说明的是,预置数值设置的越大,从目标文本中提取的关键词越多;预置数值设置的越小,从目标文本中提取的关键词越少。

本发明实施例提供的一种关键词的提取方法,首先通过文档主题生成模型计算目标文本中各个词的主题影响度向量,然后以词的主题影响度向量作为衡量词对目标文本中主题的重要性,并根据目标文本的词图及所述词的主题影响度向量计算所述目标文本中各个词的重要度,最后从目标文本中选取符合预设重要度的词作为所述目标文本的关键词。由于本发明实施例在获取目标文本的关键词的过程中,无需人工经验设置词在文本主题中的重要性,且根据文档主题生成模型得到的词的主体影响度向量能够准确表示词对目标文本中主题的影响度,因此通过本发明实施例可提高关键词的提取效率及提取智能性。

本发明实施例提供了另一种关键词的提取方法,如图2所示,所述方法包括:

201、获取目标文本中各个词的主题影响度向量。

其中,所述词的主题影响度向量用于表示所述词对所述目标文本中主题的影响度,词的主题影响度向量是词在目标文本中对所有主题的影响。对于本发明实施例,所述获取目标文本中各个词的主题影响度向量包括:通过文档主题生成模型LDA计算所述目标文本的中每个主题出现的概率及每个主题中每个词出现的概率;将所述目标文本的中每个主题出现的概率分别与所述每个主题中每个词出现的概率进行点乘计算,得到所述目标文本中各个词的主题影响度向量。关于获取目标文本中各个词的主题影响度向量的相关描述,可以参考图1对应部分的描述,本发明实施例此处将不再赘述。

202、以所述目标文本中的词作为词图中的节点,所述目标文本中词的位置相邻关系作为所述节点间的连接边,构建目标文本的词图。

其中,词的位置相邻关系是词在目标文本中的语句先后顺序,节点间的连接边为无向连接边。例如在目标文本中存在词A、B、C、D、E,且上述词在目标文本中出现的顺序为ABCDBEA,则根据词在文本中出现的顺序可构建的目标文本的词图如图5所示,其中节点B与节点A、C、D、E位置相邻,所以节点B与节点A、C、D、E之间有连接边,节点E与节点A位置相邻,所以节点E与节点A之间有连接边。

203、根据所述目标文本的词图及所述词的主题影响度向量计算所述目标文本中各个词的重要度。

其中,所述重要度用于表示所述词与所述目标文本的关联程度,词的重要度越大,词与目标文本的关联程度越强;词的重要程度越小,词与目标文本的关联程度越弱。

对于本发明实施例,步骤203包括:通过所述词的主题影响度向量计算目标文本中各个词之间的相似度;根据所述目标文本的词图及所述各个词之间的相似度计算所述目标文本中各个词的重要度。其中,本发明实施例可以通过欧式距离、余弦相似度等算法计算词与词之间的相似度,本发明实施例不做具体限定。具体的可通过计算词之间的主题影响度向量的欧式距离或余弦相似度得到词之间的相似度,例如词A的主题影响度向量为a,词B的主题影响度向量为b,则计算词A与词B的相似度可通过计算主题影响度向量a与b的余弦相似度得到,然后将词A与词B的相似度作为目标文本词图中节点A与节点B之间连接边的边值。

具体的,所述通过所述词的主题影响度向量计算目标文本中各个词之间的相似度包括:获取所述目标文本的词图中具有连接边的两节点对应的词;通过计算所述具有连接边的两节点对应的词的主题影响度向量的余弦相似度值,确定各个词之间的相似度。如在图5的目标文本的词图中,节点A对应词A、节点B对应词B、节点C对应词C、节点D对应词D、节点E对应词E,节点B与节点A、C、D、E之间具有连接边,则将词B与词A的主题影响度向量的余弦相似度值作为词B与词A的相似度,词B与词C的主题影响度向量的余弦相似度值作为词B与词C的相似度,词B与词D的主题影响度向量的余弦相似度值作为词B与词D的相似度,词B与词E的主题影响度向量的余弦相似度值作为词B与词E的相似度。

具体的,所述根据所述目标文本的词图及所述各个词之间的相似度计算所述目标文本中各个词的重要度包括:将词与词之间的相似度作为所述目标文本的词图中对应节点连接边的边值;对所述目标文本的词图中节点的各个连接边的边值进行累加获得所述词的重要度。如在图5的目标文本的词图中,节点A对应词A、节点B对应词B、节点C对应词C、节点D对应词D、节点E对应词E,节点B与节点A、C、D、E之间具有连接边,则将词B与词A的相似度作为节点B、A连接边的边值ba,将词B与词C的相似度作为节点B、C连接边的边值bc,将词B与词D的相似度作为节点B、D连接边的边值bd,将词B与词E的相似度作为节点B、E连接边的边值be,计算词B在目标文本中的重要度可以通过对连接节点B的连接边的边值进行累加得到,即根据bc+bd+bd+be的和得到词B在目标文本中的重要度。

对于本发明实施例,步骤203还包括:将所述词的主题影响度向量设置为所述目标文本的词图中节点的权重值;根据基于词图模型的关键词抽取TextRank算法和所述节点的权重值计算所述目标文本中各个词的重要度。在本发明实施例中,将词的主题影响度向量设置为所述目标文本的词图中节点的权重值,即通过词的主题影响度向量衡量词在目标文本中的重要性,省略了通过人工经验对目标文本中词的赋值步骤,进而改进TextRank算法的词重要性迭代计算公式,因此根据TextRank算法和节点的权重值计算所述目标文本中各个词的重要度,可提高关键词的提取效率及提取智能性。

204、从所述目标文本中选取重要度最高的词作为所述目标文本的关键词。

本发明实施例提供的另一种关键词的提取方法,由于目标文本的结构组成和目标文本之间所蕴含的主题信息是关键词抽取的重要依据,因此本发明实施例基于LDA主题模型可获取目标文本中各个词的主题影响度向量,然后根据目标文本的词图及所述各个词之间的相似度计算所述目标文本中各个词的重要度,最后将目标文本中重要度最高的词作为目标文本的关键词。即本发明实施例通过LDA主题模型和TextRank算法对关键词进行抽取,由于以词的主题影响度向量可作为衡量词对目标文本中主题的重要性,且根据文档主题生成模型得到的词的主体影响度向量能够准确表示词对目标文本中主题的影响度,因此通过本发明实施例可提高关键词的提取效率及提取智能性。

进一步地,本发明实施例提供一种关键词的提取装置,如图3所示,所述装置包括:获取单元31、计算单元32、选取单元33。

获取单元31,用于获取目标文本中各个词的主题影响度向量,所述词的主题影响度向量用于表示所述词对所述目标文本中主题的影响度,词的主题影响度向量是词在目标文本中对所有主题的影响度。

需要说明的是,对于目标文本d中的词w来说,令F表示该词w对目标文本d中的主题影响度向量,可以认为词w出现在一个主题z中的概率越大,则该词语相对于主题z而言影响度越大;若词w对应的主题z在目标文本d中的出现概率越大,则表明主题z相对于目标文本d的影响度越大。因此可通过目标文本d的中主题z出现的概率与主题z中词w出现的概率的乘积确定词w在目标文本d中对主题z的主题影响度向量,但是根据主题z出现的概率与主题z中词w出现的概率的乘积确定的主题影响度向量是词w对主题z的影响度向量,而非词w对目标文本词d中全部主题的影响度。并且目标文本d中可包含多个主题,且词w可以同时出现在多个出题当中,因此需要根据目标文本d的中每个主题出现的概率与所述每个主题中词w出现的概率进行的点乘结果,确定词w对目标文本d中的主题影响度向量F。

基于以上分析,本发明实施例可根据LDA(Latent Dirichlet Allocation,文档主题生成模型)获取目标文本中各个词的主体影响度向量,具体的获取主题影响度向量过程可以为:首先对目标文本进行分词,然后通过LDA计算目标文本的中每个主题出现的概率及每个主题中每个词出现的概率,然后将目标文本的中每个主题出现的概率与所述每个主题中每个词出现的概率进行的点乘结果,作为目标文本中各个词的主体影响度向量。

计算单元32,用于根据所述目标文本的词图及所述词的主题影响度向量计算所述目标文本中各个词的重要度,所述重要度用于表示所述词与所述目标文本的关联程度。

其中,词的重要度越大,词与目标文本的关联程度越强;词的重要程度越小,词与目标文本的关联程度越弱。需要说明的是,目标文本的词图是基于TextRank(基于词图模型的关键词抽取算法)算法构建的,即以目标文本中的词作为所述词图中的节点,目标文本中词的位置相邻关系作为所述节点间的连接边,构建目标文本的词图。

在本发明实施例中,可以将词的主题影响度向量作为目标文本词图中节点的权重值,然后将节点的权重值代入TextRank算法公式中,并基于节点的权重值和目标文本词图中临近词语所传递的影响力计算所述目标文本中各个词的重要度;还可以通过词的主题影响度向量计算目标文本词图中临近两节点连接边的边值,然后统计目标文本词图中连接同一节点连接边的边值,最后将统计的结果作为目标文本中各个词的重要度。

例如,目标文本词图中包括节点A、B、C、D、E,节点A对应词A、节点B对应词B、节点C对应词C、节点D对应词D、节点E对应词E,节点A与节点B、C、D相连接,即节点A与节点B、C、D之间存在连接边,若节点A的主题影响度向量为a,节点B的主题影响度向量为b,节点C的主题影响度向量为c,节点D的主题影响度向量为d,节点E的主题影响度向量为e。则可将a作为节点A的权重值,b作为节点B的权重值,c作为节点C的权重值,d作为节点D的权重值,e作为节点E的权重值,通过TextRank算法对节点的权重值及目标文本词图中的节点关系进行计算,以得到各节点的重要度,即得到目标文本中各个词的重要度;另外还可以根据词图中节点连接边的边值获取目标文本中各个词的重要度,即首先通过词A与词B的主体影响度向量计算节点A与节点B之间连接边的边值ab,词A与词C的主体影响度向量计算节点A与节点C之间连接边的边值ac,词A与词D的主体影响度向量计算节点A与节点D之间连接边的边值ad,然后对连接节点A的连接边的边值ab、ac、ad进行累加,得到节点的重要度,即得到词A与目标文本的关联程度。

选取单元33,用于从所述目标文本中选取符合预设重要度的词作为所述目标文本的关键词。

其中,所述预设重要度可以根据实际需要进行设置,如可从目标文本中选取重要度最高的词作为目标文本的关键词,还可以从目标文本中选取重要度超过预置数值的词作为目标文本的关键词,本发明实施例不做具体限定。需要说明的是,预置数值设置的越大,从目标文本中提取的关键词越多;预置数值设置的越小,从目标文本中提取的关键词越少。

需要说明的是,本发明实施例提供的一种关键词的提取装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

本发明实施例提供的一种关键词的提取装置,首先通过文档主题生成模型计算目标文本中各个词的主题影响度向量,然后以词的主题影响度向量作为衡量词对目标文本中主题的重要性,并根据目标文本的词图及所述词的主题影响度向量计算所述目标文本中各个词的重要度,最后从目标文本中选取符合预设重要度的词作为所述目标文本的关键词。由于本发明实施例在获取目标文本的关键词的过程中,无需人工经验设置词在文本主题中的重要性,且根据文档主题生成模型得到的词的主体影响度向量能够准确表示词对目标文本中主题的影响度,因此通过本发明实施例可提高关键词的提取效率及提取智能性。

进一步地,本发明实施例提供另一种关键词的提取装置,如图4所示,所述装置包括:获取单元41、计算单元42、选取单元43。

获取单元41,用于获取目标文本中各个词的主题影响度向量,所述词的主题影响度向量用于表示所述词对所述目标文本中主题的影响度;

计算单元42,用于根据所述目标文本的词图及所述词的主题影响度向量计算所述目标文本中各个词的重要度,所述重要度用于表示所述词与所述目标文本的关联程度;

选取单元43,用于从所述目标文本中选取符合预设重要度的词作为所述目标文本的关键词。

具体的,所述获取单元41包括:

计算模块411,用于通过文档主题生成模型LDA计算所述目标文本的中每个主题出现的概率及每个主题中每个词出现的概率;

点乘模块412,用于将所述目标文本的中每个主题出现的概率分别与所述每个主题中每个词出现的概率进行点乘计算,得到所述目标文本中各个词的主题影响度向量。

进一步地,所述装置还包括:

构建单元44,用于以所述目标文本中的词作为所述词图中的节点,所述目标文本中词的位置相邻关系作为所述节点间的连接边,构建所述目标文本的词图。

其中,词的位置相邻关系是词在目标文本中的先后顺序,节点间的连接边为无向连接边。例如在目标文本中存在词A、B、C、D、E,且上述词在目标文本中出现的顺序为ABCDBEA,则根据词在文本中出现的顺序可构建的目标文本的词图如图5所示,其中节点B与节点A、C、D、E位置相邻,所以节点B与节点A、C、D、E之间有连接边,节点E与节点A位置相邻,所以节点E与节点A之间有连接边。

具体的,所述计算单元42包括:

第一计算模块421,用于通过所述词的主题影响度向量计算目标文本中各个词之间的相似度;

第二计算模块422,用于根据所述目标文本的词图及所述各个词之间的相似度计算所述目标文本中各个词的重要度。

其中,本发明实施例可以通过欧式距离、余弦相似度等算法计算词与词之间的相似度,本发明实施例不做具体限定。具体的可通过计算词之间的主题影响度向量的欧式距离或余弦相似度得到词之间的相似度,例如词A的主题影响度向量为a,词B的主题影响度向量为b,则计算词A与词B的相似度可通过计算主题影响度向量a与b的余弦相似度得到,然后将词A与词B的相似度作为目标文本词图中节点A与节点B之间连接边的边值。

具体的,所述第一计算模块421包括:

获取子模块4211,用于获取所述目标文本的词图中具有连接边的两节点对应的词;

确定子模块4212,用于通过计算所述具有连接边的两节点对应的词的主题影响度向量的余弦相似度值,确定各个词之间的相似度。

具体的,所述第二计算模块422包括:

配置子模块4221,用于将词与词之间的相似度作为所述目标文本的词图中对应节点连接边的边值;

累加子模块4222,用于对所述目标文本的词图中节点的各个连接边的边值进行累加获得所述词的重要度。

如在图5的目标文本的词图中,节点A对应词A、节点B对应词B、节点C对应词C、节点D对应词D、节点E对应词E,节点B与节点A、C、D、E之间具有连接边,则将词B与词A的相似度作为节点B、A连接边的边值ba,将词B与词C的相似度作为节点B、C连接边的边值bc,将词B与词D的相似度作为节点B、D连接边的边值bd,将词B与词E的相似度作为节点B、E连接边的边值be,计算词B在目标文本中的重要度可以通过对连接节点B的连接边的边值进行累加得到,即根据bc+bd+bd+be的和得到词B在目标文本中的重要度。

具体的,所述计算单元42还包括:

设置模块423,用于将所述词的主题影响度向量设置为所述目标文本的词图中节点的权重值;

第三计算模块424,用于根据基于词图模型的关键词抽取TextRank算法和所述节点的权重值计算所述目标文本中各个词的重要度。

在本发明实施例中,将词的主题影响度向量设置为所述目标文本的词图中节点的权重值,即通过词的主题影响度向量衡量词在目标文本中的重要性,省略了通过人工经验对目标文本中词的赋值步骤,进而改进TextRank算法的词重要性迭代计算公式,因此根据TextRank算法和节点的权重值计算所述目标文本中各个词的重要度,可提高关键词的提取效率及提取智能性。

所述选取单元43,具体用于从所述目标文本中选取重要度最高的词作为所述目标文本的关键词。

需要说明的是,本发明实施例提供的一种关键词的提取装置所涉及各功能单元的其他相应描述,可以参考图2所示方法的对应描述,在此不再赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。

本发明实施例提供的另一种关键词的提取装置,由于目标文本的结构组成和目标文本之间所蕴含的主题信息是关键词抽取的重要依据,因此本发明实施例基于LDA主题模型可获取目标文本中各个词的主题影响度向量,然后根据目标文本的词图及所述各个词之间的相似度计算所述目标文本中各个词的重要度,最后将目标文本中重要度最高的词作为目标文本的关键词。即本发明实施例通过LDA主题模型和TextRank算法对关键词进行抽取,由于以词的主题影响度向量可作为衡量词对目标文本中主题的重要性,且根据文档主题生成模型得到的词的主体影响度向量能够准确表示词对目标文本中主题的影响度,因此通过本发明实施例可提高关键词的提取效率及提取智能性。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的关键词提取方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1