词语提取方法及装置制造方法

文档序号：6486547阅读：110来源：国知局

词语提取方法及装置制造方法
【专利摘要】本发明公开了一种词语抽取方法，属于信息检索领域。所述方法包括：获取至少一个目标文档和与所述目标文档对应的文档信息，所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种；处理所述目标文档获得候选词语；根据文档信息计算每个候选词语的词频TF和反向文档频率IDF；根据词频TF和反向文档频率IDF的乘积对候选词语排序，并根据排序结果提取词语。本发明通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF，解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题；根据文档信息选取的具体类型，可以达到提取到的词语在领域上更加相关、地域上更加相关或时间上更加相关的效果。
【专利说明】词语提取方法及装置
【技术领域】
[0001]本发明涉及信息检索领域，特别涉及一种词语提取方法及装置。
【背景技术】
[0002]在中文信息处理和信息检索领域中，人们需要快速地了解一篇文档的内容时，通常是提取几个词语或者短语，作为该文档的主要内容的提要。根据不同的应用场景，提取到的词语或者短语可以称之为关键字、线索词或者标签。
[0003]现有技术中，通常采用的一种词语提取方法包括:第一，从文档中选取候选词语；具体地讲，候选词语一般是单个词或者由多个单词组成的短语。在英文文档中，每个词都是以空格作为自然分界符，选取候选词语较为简单；在中文文档中，可以通过语义分析来分割文档中的语句，从而获得各种词性模式的词语，词性包括形容词、名词、动词、介词和量词等，然后将某种词性模式的词语作为候选词语；第二，在候选词语中提取具有代表性的词语。具体地讲，可以对候选词语进行某种方式的统计，根据候选词语的统计性质对每个候选词语进行排序，选取排名最靠前的n个候选词语作为提取到的词语。当需要提取与特定领域相关的词语时，第二步骤中通常采用的排序方法为TF-1DF (Term Frequency-1nverseDocument Frequency,词频-反向文档频率)。
[0004]在实现本发明的过程中，发明人发现现有技术至少存在以下问题:现有技术仅根据词语在特定领域的采样文档中出现的频率来对候选词语进行统计，最终提取到的词语并不能够准确地代表特定领域的特性。

【发明内容】

[0005]为了提取更具有领域代表性的词语，本发明实施例提供了一种词语提取方法及装置。所述技术方案如下:
[0006]一方面，本发明实施例提供了一种词语提取方法，所述方法包括:
[0007]获取至少一个目标文档和与所述目标文档对应的文档信息，所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种；
[0008]处理所述目标文档获得候选词语；
[0009]根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF ；
[0010]根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序，并根据排序结果提取词语。
[0011]另一方面，本发明实施例提供了一种词语提取装置，所述装置包括:
[0012]文档获取模块，用于获取至少一个目标文档和与所述目标文档对应的文档信息，所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种；
[0013]文档处理模块，用于处理所述目标文档获得候选词语；
[0014]参数计算模块，用于根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF ；[0015]词语提取模块，用于根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序，并根据排序结果提取词语。
[0016]本发明实施例提供的技术方案带来的有益效果是:
[0017]通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF，解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题；根据文档信息选取的具体类型，本发明实施例可以达到提取到的关键词在领域上更加相关、地域上更加相关和/或时间上更加相关的效果。
【专利附图】

【附图说明】
[0018]为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0019]图1是本发明实施例一提供的词语提取方法的方法流程图；
[0020]图2是本发明实施例二提供的词语提取方法的方法流程图；
[0021]图3是本发明实施例三提供的词语提取方法的方法流程图；
[0022]图4是本发明实施例四提供的词语提取方法的方法流程图；
[0023]图5是本发明实施例五提供的词语提取装置的一种结构方框图；
[0024]图6是本发明实施例五提供的词语提取装置的另一结构方框图；
[0025]图7是本发明实施例五提供的词语提取装置的再一结构方框图；
[0026]图8是本发明实施例五提供的词语提取装置的又一结构方框图；
[0027]图9是本发明实施例五提供的词语提取装置的还一结构方框图。
【具体实施方式】
[0028]为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。
[0029]本文的重点和难点之一为:在原有TF-1DF排序方法的基础上，结合诸如文档权重信息、时间权重信息之类的文档信息的计算，从而形成改进的TF-1DF排序方法，以便达到更好的词语排序和提取效果。
[0030]实施例一
[0031]请参考图1，其示出了本发明实施例一提供的词语提取方法的方法流程图。该词语提取方法可以包括:
[0032]步骤102，获取至少一个目标文档和与目标文档对应的文档信息，文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种；
[0033]当需要提取代表某一特定领域的词语时，首先可以选取一至多篇(也即若干篇)属于该特定领域的目标文档。特别地，还需要获取每个目标文档对应的文档信息，文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种。其中，文档权重信息可以通过目标文档的点击数或者PageRank (也称网页级别，Google排名运算法则的一部分)值来计算；文档地域权重信息可以通过目标文档在预定地域的点击数或者PageRank值来计算；文档时间权重信息可以通过目标文档的创建时间和当前时间之间的差值来计算。
[0034]步骤104，处理目标文档获得候选词语；
[0035]对若干篇目标文档可以进行提取候选词语的处理，该处理过程可以包括:第一，对目标文档的正文进行分词，以获得至少一个词语；第二，对分词获得的词语进行词性分析，词性具体包括:名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、拟声词和叹词等；第三，根据词语的词性识别词语的实体信息，实体信息具体包括:人名、机构名、地名、时间、日期、货币和百分比等；第四，将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语，比如，预定词性可以是形容词+动词。
[0036]步骤106，根据文档信息计算候选词语的词频TF和反向文档频率IDF ；
[0037]根据文档信息来计算每个候选词语的词频TF和反向文档频率IDF。简单来讲，对于每个候选词语在一篇目标文档中的词频TF，都需要乘以该目标文档的文档信息来计算；对于每个候选词语的反向文档频率IDF，都需要结合所有目标文档和参考文档的文档信息来计算。其中，参考文档可以为大于3000篇的领域色彩较为中性的文档，比如参考文档可以是人民日报或者新闻报道之类的文档。[0038]步骤108，根据词频TF和反向文档频率IDF的乘积对候选词语排序，并根据排序结果提取词语。
[0039]对于每一个候选词语，都可以计算到一一对应的词频TF和反向文档频率IDF。然后可以根据每一个候选词语的词频TF和反向文档频率IDF的乘积来由大到小对候选词语排序，并根据排序结果提取排名最靠前的n个候选词语作为提取到的词语。
[0040]综上所述，本实施例提供的词语提取方法，通过结合诸如文档权重信息的文档信息来计算词频TF和反向文档频率IDF，解决了现有技术仅根据词语在相关文档中出现的频率来提取关键词时出现的代表性差的问题；根据文档信息选取的具体类型，本发明实施例可以达到提取到的关键词在领域上更加相关、地域上更加相关和/或时间上更加相关的效果。
[0041]实施例二
[0042]请参考图2，其示出了本发明实施例二提供的词语提取方法的方法流程图。本实施例中，以文档信息为文档权重信息为例来描述，该词语提取方法可以包括:
[0043]步骤201，获取至少一个目标文档和与目标文档对应的文档信息，文档信息包括文档权重息；
[0044]当需要提取代表某一特定领域的词语时，首先可以选取一至多篇(也即若干篇)属于该特定领域的目标文档。特别地，还需要获取每个目标文档对应的文档信息，文档信息可以是文档权重信息。文档权重信息可以通过目标文档的点击数或者PageRank值来计算。具体地讲，对于包含若干篇目标文档的目标文档库中的某一指定目标文档&计算文档权重信息为:
【权利要求】
1.一种词语抽取方法，其特征在于，所述方法包括: 获取至少一个目标文档和与所述目标文档对应的文档信息，所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种；处理所述目标文档获得候选词语；根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF ；根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序，并根据排序结果提取词语。
2.根据权利要求1所述的词语抽取方法，其特征在于，所述处理所述目标文档获得候选词语，具体包括: 对所述目标文档的正文进行分词，以获得至少一个词语；对所述词语进行词性分析；根据所述词语的词性识别所述词语的实体信息；将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语。
3.根据权利要求1所述的词语抽取方法，其特征在于，所述根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF，具体包括: 对于候选词语根据文档信息Wi计算词频TFy为:
4.根据权利要求1所述的词语抽取方法，其特征在于，所述根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF，具体包括: 对于候选词语t，根据文档信息Wi计算反向文档频率IDFi为:

5.根据权利要求3或4所述的词语抽取方法，其特征在于，所述根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF之前,还包括: 计算所述文档信息 ' 为文档权重信息、文档地域权重信息、文档时间权重信息、所述文档权重信息与所述文档时间权重信息的乘积、所述文档地域权重信息与所述文档时间权重信息中的任意一种；所述文档权重信息为:
6.一种词语抽取装置，其特征在于，所述装置包括: 文档获取模块，用于获取至少一个目标文档和与所述目标文档对应的文档信息，所述文档信息包括文档权重信息、文档地域权重信息和文档时间权重信息中的至少一种；文档处理模块，用于处理所述目标文档获得候选词语；参数计算模块，用于根据所述文档信息计算所述候选词语的词频TF和反向文档频率IDF ；词语提取模块，用于根据所述词频TF和反向文档频率IDF的乘积对所述候选词语排序，并根据排序结果提取词语。
7.根据权利要求6所述的词语抽取装置，其特征在于，所述文档处理模块，具体包括: 词语分割单元、词性分析单元、信息识别单元和词语候选单元；所述词语分割单元，用于对所述目标文档的正文进行分词，以获得至少一个词语；所述词性分析单元，用于对所述词语进行词性分析；所述信息识别单元，用于根据所述词语的词性识别所述词语的实体信息；所述词语候选单元，用于将词性为预定词性或者实体信息为预定实体信息的词语作为候选词语。
8.根据权利要求6所述的词语抽取装置，其特征在于，所述参数计算模块，具体包括: TF计算单元；所述TF计算单元，用于对于候选词语b根据文档信息％计算词频TFi, j为:
9.根据权利要求6所述的词语抽取装置，其特征在于，所述参数计算模块，具体包括:IDF计算单元；对于候选词语根据文档信息Wi计算反向文档频率IDFi为:
10.根据权利要求8或9所述的词语抽取装置，其特征在于，所述词语抽取装置，还包括: 文档信息计算单元；所述文档信息计算单元，用于计算所述文档信息％为文档权重信息、文档地域权重信息、文档时间权重信息、所述文档权重信息与所述文档时间权重信息的乘积、所述文档地域权重信息与所述文档时间权重信息中的任意一种；所述文档权重信息为:
【文档编号】G06F17/30GK103514213SQ201210218450
【公开日】2014年1月15日申请日期:2012年6月28日优先权日:2012年6月28日
【发明者】贾江涛, 顾翀申请人:华为技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贾江涛;顾翀
技术所有人：华为技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。