一种提取关键词的方法及装置的制作方法

文档序号:6400721阅读:406来源:国知局
专利名称:一种提取关键词的方法及装置的制作方法
技术领域
本发明涉及文本检索技术领域,尤其涉及一种提取关键词的方法及装置。
背景技术
随着计算机及互联网技术的发展,文本的数据规模越来越大,信息量的增长速度也越来越快。人们面对海量的文本信息,如何在浩如烟海的文本信息中获取需要的文本,是我们在日常学习工作中经常遇到的问题。要在海量的文本中找到用户需求的信息,提取关键词是非常重要的方法,提取关键词,是指利用计算机在文本中提取出与文本内容相关程度较高的一些词语。提取关键词的精度直接影响到文本内容获取的效率和关键词的置信度。本申请的发明人发现,目前,提取关键词一般通过词频、位置、词性、长度等因素对文本中每个词进行线性加权,权重最高的几个词为关键词。但是,如果在文本中的某个词出现的频率比较低,但与主题非常相关,则无法将该词作为关键词。

发明内容
本发明实施例提供一种提取关键词的方法及装置,能够将出现频率低但与主题非常相关的词确定为关键词,并且提闻了文本内容获取的效率和关键词的置 目度。一种提取关键词的方法,包括以下步骤:获取对应有权重值的词语;根据预设的词语与义原的对应关系,获取对应有权重值的词语对应的义原;利用义原对各词语的权重值进行校正;根据校正后的权 重值从词语中提取关键词。在本实施例中,通过义原的比较对各词语的权重值进行校正,提高了提取出的关键词的置信度,能够将出现频率低但与主题非常相关的词确定为关键词。优选的,所述利用义原对各词语的权重值进行校正的步骤包括:根据义原的重复程度对各词语的权重值进行校正,重复程度越高对权重值提高的幅度越大。在本实施例中,根据义原的重复程度对各词语的权重值进行平滑,可以使校正后各词语的权重值更能体现文本中所要突出展现的内容,极大地提高了关键词的置信度。优选的,所述利用义原对各词语的权重值进行校正的步骤包括:将对应有权重值的词语进行两两比较;判断进行比较的两个词语之间是否有相同的义原,若是,按照相同义原的数量提高这两个词语的权重值。在本实施例中,直接按照相同义原的数量提高进行比较的两个词语的权重值,这样使校正权重值的过程更加简单明了,并提高了提取关键词的效率。优选的,所述利用义原对各词语的权重值进行校正的步骤包括:对有权重值的词语的义原进行聚类分析;通过聚类分析将文本中的词语划分为不同的类别;提高聚合度最高的M个类别对应的词语的权重值,M为预设参数。在本实施例中,通过聚类分析的方式将各词语的义原分类,这样可以更加全面的展现文本的核心所在,突破现有的通过词频、位置、词性、长度等因素得到各词权重的壁垒,通过本方法将出现频率低但与主题非常相关的词确定为关键词。优选的,所述利用义原对各词语的权重值进行校正的方法还包括:将聚合度最高的N个类别对应的词语直接提取为关键词,N为预设参数。在本实施例中,通过聚类分析后,直接提取关键词的方法,提高了提取关键词的效率,省去了对对各词语权重值进行平滑的时间。优选的,所述利用义原对各词语的权重值进行校正的步骤包括:将候选词与预设关键词进行两两比较;判断进行比较的两个词语之间是否有相同的义原,若是,按照相同义原的数量提高候选词的权重值。在本实施例中,通过有针对性地对候选词的权重值进行平滑,可以将更符合文本核心所在的词语提取为关键词,使最终提取出的关键词的置信度有所保证。本实施例提供一种提取关键词的装置,包括:获取模块,用于获取对应有权重值的词语,并根据预设的词语与义原的对应关系,获取对应有权重值的词语对应的义原;校正模块,用于利用义原对各词语的权重值进行校正;提取模块,用于根据校正后的权重值从词语中提取关键词。优选的,校正模块根据义原的重复程度对各词语的权重值进行校正,重复程度越闻对权重值提闻的幅度越大。优选的,校正模块将对应有权重值的词语进行两两比较;判断进行比较的两个词语之间是否有相同的义原,若是,按照相同义原的数量提高这两个词语的权重值。优选的,校正模块对有权重值的词语的义原进行聚类分析;通过聚类分析将文本中的词语划分为不同的类别;提高聚合度最高的M个类别对应的词语的权重值,M为预设参数。优选的,提取模块将聚合度最高的N个类别对应的词语直接提取为关键词,N为预设参数。优选的,校正模块将候选词与预设关键词进行两两比较;判断进行比较的两个词语之间是否有相同的义原,若是,按照相同义原的数量提高候选词的权重值。本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获取。下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。


附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:图1为本发明实施例中提取关键词方法的主要流程流程图;图2为本发明实施例中对各词的权重值进行校正的第一优选实施例的详细流程图;图3为本发明实施例中对各词的权重值进行校正的第二优选实施例的详细流程图4为本发明实施例中对各词的权重值进行校正的第三优选实施例的详细流程图;图5为本发明实施例中提取关键词装置的结构示意图。
具体实施例方式以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。目前,提取关键词一般通过词频、位置、词性、长度等因素对文本中每个词进行线性加权,权重最高的几个词为关键词。但是,如果在文本中的某个词出现的频率比较低,但与主题非常相关,则无法将该词作为关键词。为解决该问题,在本实施例中,先通过词频、位置、词性、长度等因素得到各词的权重,然后对该权重进行校正。对各词的权重进行校正后,即可将出现频率低但与主题非常相关的词确定为关键词,并且提高了文本内容获取的效率和关键词的置信度。参见图1,本实施例中提取关键词的方法的主要流程如下:步骤101:获取对应有权重值的词语。对文本中所有的实词进行线性加权,获取各词语的权重值。实词是具有实在意义的词语,它可以单独充当句子的任何一个成分。这就是说:首先,这类词语在不与其他任何词语发生语法关系的情况下能够单独表达一个意思或反映某种意象。其次,这类词语具有成为句子的潜在能力,或者说,这类词语有可能成为句子而表达Iv完整的意思,如名词等。步骤102:根据预设的词语与义原的对应关系,获取对应有权重值的词语对应的义原。大体上说,义原是最基本的、不易于再分割的意义的最小单位。例如:“人”虽然是一个非常复杂的概念,它可以是多种属性的集合体,但也可以把它看作为一个义原。设想所有的概念都可以分解成各种各样的义原,同时也设想应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。如果能够把握这一有限的义原集合,并利用它来描述概念之间的关系以及属性与属性之间的关系,就可以构建出预设的词语与义原的对应关系。步骤103:利用义原对各词语的权重值进行校正。较佳的,根据义原的重复程度对各词语的权重值进行校正,重复程度越高对权重值提高的幅度越大。对词语的权重值进行校正有多种方式,此处用到的利用义原进行校正的方式,通过对比各词语的解释,使校正后词语的权重值更能体现文本中所要突出展现的内容,极大地提高了关键词的置信度。步骤104:根据校正后的权重值从词语中确定关键词。下面利用三个优选实施例对权重值校正的方法分别进行详细的阐述,即对步骤103进行展开说明。参见图2,本实施例中对各词的权重值进行校正的详细流程如下:步骤201:将文本中对应有权重值的词语组成一个集合。步骤202:将集合中的第一个词语提取出来,并依次与集合中所剩其他词语进行义原比较。
先将集合中第一个词语提取出来,将该词语与集合中所剩其他词语进行义原比较。比较完成后,已提取出来的词语不再纳入集合,将当前集合中的第一个词语提取出来并与集合中所剩其他词语进行比较。当集合中只剩下一个词语时,不再提取词语,本流程结束。假设文本中对应有权重值的词语组成的集合为{A、B、C、…、Z},先将词语A提取出来,将词语A与集合中所剩其他词语进行义原比较。比较完成后,词语A不再纳入集合,那么此时集合中的第一个词语是词语B,将词语B提取出来,再将词语B与集合中所剩其他词语进行义原比较。重复这个过程,直到集合中只剩下一个词语Z时,不再提取词语,本流程结束。步骤203:判断进行比较的两个词语之间是否有相同的义原,若是,继续步骤204,否则继续步骤205。假设词语A的义原为义原1、义原2、义原3、义原4、义原5,词语B的义原为义原5、义原6、义原7、义原8,那么词语A与词语B有一个相同义原,相同义原为义原5。步骤204:按照相同义原的数量提高这两个词语的权重值。优选的,利用公式同时提高进行比较的两个词语的权重值。
权利要求
1.一种提取关键词的方法,其特征在于,包括以下步骤: 获取对应有权重值的词语; 根据预设的词语与义原的对应关系,获取对应有权重值的词语对应的义原; 利用义原对各词语的权重值进行校正; 根据校正后的权重值从词语中确定关键词。
2.如权利要求1所述的方法,其特征在于,所述利用义原对各词语的权重值进行校正的步骤包括:根据义原的重复程度对各词语的权重值进行校正,重复程度越高对权重值提高的幅度越大。
3.如权利要求1所述的方法,其特征在于,所述利用义原对各词语的权重值进行校正的步骤包括: 将对应有权重值的词语进行两两比较; 判断进行比较的两个词语之间是否有相同的义原,若是,按照相同义原的数量提高这两个词语的权重值。
4.如权利要求1所述的方法,其特征在于,所述利用义原对各词语的权重值进行校正的步骤包括: 对有权重值的词语的义原进行聚类分析; 通过聚类分析将文本中的词语划分为不同的类别; 提高聚合度最高的M个类别对应的词语的权重值,M为预设参数。
5.如权利要求4所述的方法,其特征在于,所述方法还包括:将聚合度最高的N个类别对应的词语直接提取为关键词,N为预设参数。
6.如权利要求1所述的方法,其特征在于,所述利用义原对各词语的权重值进行校正的步骤包括: 将候选词和预设关键词进行两两比较; 判断进行比较的两个词语之间是否有相同的义原,若是,按照相同义原的数量提高候选词的权重值。
7.一种提取关键词的装置,其特征在于,包括: 获取模块,用于获取对应有权重值的词语,并根据预设的词语与义原的对应关系,获取对应有权重值的词语对应的义原; 校正模块,用于利用义原对各词语的权重值进行校正; 提取模块,用于根据校正后的权重值从词语中提取关键词。
8.如权利要求7所述的装置,其特征在于,校正模块根据义原的重复程度对各词语的权重值进行校正,重复程度越高对权重值提高的幅度越大。
9.如权利要求7所述的装置,其特征在于,校正模块将对应有权重值的词语进行两两比较;判断进行比较的两个词语之间是否有相同的义原,若是,按照相同义原的数量提高这两个词语的权重值。
10.如权利要求7所述的装置,其特征在于,校正模块对有权重值的词语的义原进行聚类分析;通过聚类分析将文本中的词语划分为不同的类别;提高聚合度最高的M个类别对应的词语的权重值,M为预设参数。
11.如权利要求10所述的装置,其特征在于,提取模块将聚合度最高的N个类别对应的词语直接提取为关键词,N为预设参数。
12.如权利要求7所述的装置,其特征在于,校正模块将候选词与预设关键词进行两两比较;判断进行比较的两个词语之间是否有相同的义原,若是,按照相同义原的数量提高候选词的权重值。`
全文摘要
本发明公开了一种提取关键词的方法。所述方法包括获取对应有权重值的词语;根据预设的词语与义原的对应关系,获取对应有权重值的词语对应的义原;利用义原对各词语的权重值进行校正;根据校正后的权重值从词语中确定关键词。该方法能够将出现频率低但与主题非常相关的词确定为关键词,并且提高了文本内容获取的效率和关键词的置信度。本发明还公开了用于实现所述方法的装置。
文档编号G06F17/30GK103150388SQ20131009240
公开日2013年6月12日 申请日期2013年3月21日 优先权日2013年3月21日
发明者韩建波 申请人:天脉聚源(北京)传媒科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1