专利名称:一种抽取关键词的方法及装置的制作方法
技术领域:
本发明涉及自然语言处理领域,尤其涉及一种抽取关键词的方法及装置。
背景技术:
目前,通常根据统计学方法对文本进行关键词抽取时,根据对关键词有重要影响的因子进行统计计算,然后对统计结果进行排序并确定候选关键词集合。例如,可以米用包括词频以及TF-IDF (term frequency-inverse documentfrequency,词频-倒文档频率)等特征统计信息。采用基于词频抽取关键词时,根据某个词的词频越高,则该词是关键词的概率越大的规则进行抽取关键词。首先统计文本中各个词的词频,然后对统计的词频进行排序,确定词频最高的若干个词为该文本的关键词。基于 TF-IDF抽取关键词时,通过统计计算每一个词的TF-IDF来确定关键词。TF-IDF指某个词或短语在一篇文章中出现的频率高,并且在其他文章中出现的频率低,则认为该词或者短语具有很好的类别区分能力,则确定此词或者短语为关键词。然而,采用现有技术抽取关键词时,由于很多高词频的词并不一定是关键词,当采用TF-IDF方法时,主要应用于搜索引擎中索引词的选择,应用于文本关键词的抽取时效果较差,因此导致确定的关键词的准确率较低。
发明内容
本发明的实施例提供一种抽取关键词的方法及装置,可以提闻确定的关键词的准确率。为达到上述目的,本发明的实施例采用如下技术方案一种抽取关键词的方法,包括获取文本经过词法分析以及预处理后的词语集合;根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;根据所述各个词语的综合测度确定关键词。一种抽取关键词的装置,包括获取单元,用于获取文本经过词法分析以及预处理后的词语集合;第一处理单元,用于根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;第二处理单元,用于根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;关键词确定单元,用于根据所述各个词语的综合测度确定关键词。本发明实施例提供一种抽取关键词的方法及装置,通过获取文本经过词法分析以及预处理后的词语集合;根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;根据所述各个词语的综合测度确定关键词。与现有技术中抽取关键词时,由于很多高词频的词并不一定是关键词,当采用TF-IDF方法时,主要应用于搜索引擎中索引词的选择,应用于文本关键词的抽取时效果较差,因此导致确定的关键词的准确率较低相比,本发明实施例提供的方法根据词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,及结合具体语境确定词语语义相似度,从而可以提闻确定的关键词的准确率。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图I为本发明实施例I提供的一种抽取关键词的方法的流程图; 图2为本发明实施例2提供的另一种抽取关键词的方法的流程图;图3为本发明实施例2提供的语义相似度图示意图;图4为本发明实施例2提供的区域位置因子权值表;图5为本发明实施例3提供的一种抽取关键词的装置的框图;图6为本发明实施例3提供的另一种抽取关键词的装置的框图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。实施例I本发明实施例提供一种抽取关键词的方法,如图I所示,该方法包括步骤I 01,获取文本经过词法分析以及预处理后的词语集合;可选的,对文本进行切词并进行词性标注,例如,对“唯物主义-凡是承认存在即物质是第一性、是本原,而思维是第二性,是派生出来依附于物质存在的就是唯物主义“进行分词以及词性标注为唯物主义/n_/w凡是/d承认/V存/V在/p即/V物质/n是/V第一性/n、/w是/v本原/n, /w而/c思维/n是/v第二性/n, /w是/v派生/v出来/v依附/v于/p物质/n存在/v的/u就/d是/v唯物主义/n。/w,其中,η表示名词,w表示标点符号,d表示副词,V表示动词,ρ表示介词。可选的,对于不同的语言可以采用不同的词法分析系统,例如对汉语、韩语等可以采用多层隐马模型ICTCLAS进行切词及词性标注。进一步的,对文本进行切词及词性标注后的文本进行预处理,即根据词语或者标注的词语词性将文本中的介词,连词,副词,助词,以及标点符号、特殊符号等过滤掉,得到一个词语集合。
步骤102,根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;可选的,根据所述文本,确定所述词语集合中所述各个词语的文本义项集合;确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合;根据所述各个词语的目标义项集合,确定所述词语集合中任意两个词语的语义相似度。步骤103,根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测 度;根据所述词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图;将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个;其中,所述综合测度参数包括所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值;根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度。步骤104,根据所述各个词语的综合测度确定关键词。可选的,将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;将所述候选关键词进行复合,获得所述文本的关键词。本发明实施例提供一种抽取关键词的方法,通过根据词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,及结合具体语境确定词语语义相似度,并根据语义相似度确定关键词,从而可以提高确定的关键词的准确率。实施例2本发明实施例提供一种抽取关键词的方法,如图2所示,该方法包括步骤201,获取文本经过词法分析以及预处理后的词语集合;可选的,对文本进行切词并进行词性标注,例如,对“唯物主义-凡是承认存在即物质是第一性、是本原,而思维是第二性,是派生出来依附于物质存在的就是唯物主义“进行分词以及词性标注为唯物主义/n_/w凡是/d承认/V存/V在/p即/V物质/n是/V第一性/n、/w是/v本原/n, /w而/c思维/n是/v第二性/n, /w是/v派生/v出来/v依附/v于/p物质/n存在/v的/u就/d是/v唯物主义/n。/w,其中,η表示名词,w表示标点符号,d表示副词,V表示动词,ρ表示介词。可选的,对于不同的语言可以采用不同的词法分析系统,例如对汉语、韩语等可以采用多层隐马模型ICTCLAS进行切词及词性标注。进一步的,对文本进行切词及词性标注后的文本进行预处理,即根据词语或者标注的词语词性将文本中的介词,连词,副词,助词,以及标点符号、特殊符号等过滤掉,得到一个词语集合。步骤202,根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;可选的,根据所述文本,确定所述词语集合中所述各个词语包含的文本义项集合;其中,每一个不同概念、意义、事物的叙述内容称为义项,例如,词语“飞行员”的义项可以表示为人,职位,驾驶,飞行器这个几个义项,这几个义项共同来描述词语飞行员。根据语义知识管理系统,确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合;其中,语义知识管理系统可以为知网,知网为研究英语和汉语词汇所表 达的概念的一种语义知识管理系统。 根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合;即既在知网中出现又在文本中出现的义项为目标义项集合,还可以称为语义词,这样本实施例可以根据具体的语言环境来计算词语的语义相似度,与现有技术中仅基于词语得到的语义相似度相比,本实施例确定的语义相似度较准确。根据所述各个词语的目标义项集合,确定所述词语集合中任意两个词语的语义相似度。例如,设文本中包含的第一义项集合为D = {s1; s2,...Si. ..},其中,81表示文本义项集合中第i个义项;文本中的任意两个词语为W1, w2, W1在知网中的词语义项集和为W1 =Is11S12, . . . Sli. . . } , W2 在知网中的词语义项集和为 W2 = {s21, S22, . . . S2i. . . },则 W1, W2的目标义项集合分别为=CD1 = D n W1 = {Cn,C12, ...Cli...!, CD2 = D n W2 = {{Cn,C12, . . . Clj. . . ,其中,Sli表示第一个词语W1在词语义项集合中第i个义项,S2i表示第二个词语W2在词语义项集合中第i个义项,Cli表示第一个词语W1在目标义项集合中第i个义项,其中,i=l,2, ...n, C2j表示第二个词语W2目标义项集合中第j个义项,其中j = I,
2 9 · · · m ο
Sli ECD1,S2 j ^CD2根据、》 !、,^)=max Λ7/' (Λ·ι,,‘ν2/)确定 Wl,W2 的语义相似度。 步骤203,根据所述词语集合中任意两个词语的语义相似度,生成文本的语义相似度图;进一步的,根据以下两个原则生成文本的语义相似度图1)当所述词语集合中第一词语和第二词语的语义相似度大于或者等于语义相似度阈值时,在标识所述第一词语的第一节点与标识所述第二词语的第二节点之间添加一条边,以连接所述第一节点和所述第二节点;其中,语义相似度阈值可以为大于等于O小于等于I的值,通过调节语义相似度阈值可以构造出更能体现文本特征的语义相似图。2)当所述词语集合中第三词语和第四词语为相同的词语时,合并标识所述第三词语的第三节点与标识所述第四词语的第四节点;需要说明的是,此时删除第三节点或者第四节点中的一个,而不是全部删除。如图3所示,当语义相似度阈值为O. 02时一篇中文文档的语义相似图,其中节点的序号代表词语的序号。步骤204,将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语;从图3可以看出,语义相似度图中分为多个聚集在一起形成的意群社团,例如,图3中词语节点55、词语节点67、词语节点60、词语节点61、词语节点52、词语节点35、词语节点49、词语节点65可以组成一个意群社团。复杂网络现象也存在于人类语言当中,人类的语言网络既不是完全随机的,也不是完全规则的,而是具备“小世界”特性的复杂网络,即语言网络在全局上显示出高度的连接性,而同时局部具有高度的聚集 性。通常作者在写文章时趋向于逐个描述主题,然后结合这些主题来表达一种观点,而作者在表达一种观点时往往用意义相近的词语来描述。语义相似度图是依据词语语义相似度构建的图,因此相近的词语聚集在一起形成一个相对的意群社团,这些意群社团为语义相近的一组词语,意群社团之间代表不同的主题。本发明将利用复杂网络理论的社团结构分析算法来分析出语义相似度图的社团结构,不同的意群社团代表不同的意群主题,每个意群社团同时都可以通过数个关键词来表述主题。可选的,社团结构分析算法有两种凝聚方法和分裂方法,本发明实施例采用分裂方法中的GN算法来分析语义相似度图,具体的(I)计算语义相似度图中所有边的介数,边介数为语义相似度图中经过每条边的最短路径的数目;(2)确定介数最高的边,并将其从语义相似度图中移除,(3)重复步骤(2),直到每个节点存在于一个意群社团中。需要说明的是,通过
权利要求
1.一种抽取关键词的方法,其特征在于,包括 获取文本经过词法分析以及预处理后的词语集合; 根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度; 根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度; 根据所述各个词语的综合测度确定关键词。
2.根据权利要求I所述的方法,其特征在于,所述根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度包括 根据所述文本,确定所述词语集合中所述各个词语包含的文本义项集合; 确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合; 根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合; 根据所述各个词语的目标义项集合,确定所述词语集合中任意两个词语的语义相似度。
3.根据权利要求2所述的方法,其特征在于,所述根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度包括 根据所述词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图; 将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语; 确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个; 根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度。
4.根据权利要求3所述的方法,其特征在于,所述综合测度参数包括所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值。
5.根据权利要求3所述的方法,其特征在于,所述根据所述第一词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图; 1)当所述词语集合中第一词语和第二词语的语义相似度大于或者等于语义相似度阈值时,在标识所述第一词语的第一节点与标识所述第二词语的第二节点之间添加一条边,以连接所述第一节点和所述第二节点; 2)当所述词语集合中第三词语和第四词语为相同的词语时,合并标识所述第三词语的第三节点与标识所述第四词语的第四节点; 根据上述I)和2)生成所述文本的语义相似度图。
6.根据权利要求I所述的方法,其特征在于,所述根据所述各个词语的综合测度确定关键词包括 将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;将所述候选关键词进行复合,获得所述文本的关键词。
7.一种抽取关键词的装置,其特征在于,包括 获取单元,用于获取文本经过词法分析以及预处理后的词语集合; 第一处理单元,用于根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度; 第二处理单元,用于根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度; 关键词确定单元,用于根据所述各个词语的综合测度确定关键词。
8.根据权利要求7所述的装置,其特征在于,所述第一处理单元包括 第一确定模块,用于根据所述文本,确定所述词语集合中所述各个词语包含的文本义项集合; 第二确定模块,用于确定所述词语集合中所述各个词语在语义知识管理系统中的词语义项集合; 确定目标义项集合模块,用于根据所述文本义项集合和所述词语义项集合的交集,得到所述词语集合中所述各个词语的目标义项集合; 确定语义相似度模块,用于根据所述各个词语的目标义项集合,确定所述第一词语集合中任意两个词语的语义相似度。
9.根据权利要求8所述的装置,其特征在于,所述第二处理单元包括 生成模块,用于根据所述词语集合中任意两个词语的语义相似度,生成所述文本的语义相似度图; 划分模块,用于将所述语义相似度图划分为至少一个意群社团,所述意群社团包括语义相近的一组词语; 确定模块,用于确定各个所述意群社团中包括的各个词语节点的综合测度参数中的至少两个; 计算综合测度模块,用于根据确定的至少两个所述综合测度参数,计算各个所述意群社团中的各个词语的综合测度。
10.根据权利要求9所述的装置,其特征在于,所述综合测度参数包括 所述意群社团的社团因子权值、所述意群社团中包括的各个词语节点的平均路径变化量、所述各个词语节点的聚类系数变化量、所述各个词语节点的度、所述各个词语节点的词频-倒文档频率以及所述各个词语节点的区域位置权值。
11.根据权利要求9所述的装置,其特征在于,所述生成模块包括 边确定模块,用于当所述词语集合中第一词语和第二词语的语义相似度大于或者等于语义相似度阈值时,在标识所述第一词语的第一节点与标识所述第二词语的第二节点之间添加一条边,以连接所述第一节点和所述第二节点; 合并模块,用于当所述词语集合中第三词语和第四词语为相同的词语时,合并标识所述第三词语的第三节点与标识所述第四词语的第四节点。
12.根据权利要求7所述的装置,其特征在于,所述关键词确定单元具体用于 将计算的各个所述意群社团中的所述各个词语的综合测度进行排序,确定所述综合测度最大的预设个数的词语为候选关键词;将所述候选关键词进行复合,获得所述文本的关键词 。
全文摘要
本发明公开一种抽取关键词的方法及装置,涉及自然语言处理领域,可以提高确定的关键词的准确率。本发明实施了提供的方案,通过获取文本经过词法分析以及预处理后的词语集合;根据所述词语集合,以及所述词语集合中的各个词语在所述文本中的语义关系,确定所述词语集合中任意两个词语的语义相似度;根据确定的所述语义相似度,计算所述词语集合中的各个词语的综合测度;根据所述各个词语的综合测度确定关键词。本发明实施了提供的方案适于抽取关键词时采用。
文档编号G06F17/27GK102779119SQ20121021257
公开日2012年11月14日 申请日期2012年6月21日 优先权日2012年6月21日
发明者翟周伟 申请人:盘古文化传播有限公司