语义关键词提取方法及装置的制造方法

文档序号:9506168阅读:451来源:国知局
语义关键词提取方法及装置的制造方法
【技术领域】
[0001]本发明涉及数据挖掘领域,尤其涉及一种语义关键词提取方法及装置。
【背景技术】
[0002]随着互联网的发展,尤其是社交网络的爆发式增长,每天都有大量的文本内容被制造出来。无论是搜索引擎,还是互联网广告装置,都需要对大量的文档进行分析并建立索弓丨,而分析最重要的就是语义关键词提取。语义关键词提取是指,计算机从内容各异、包罗万象的互联网网页或文档中,提取出与网页或文档主旨最贴切、表述能力最精准的词或短语的组合。通过提取语义关键词,可以大幅减少被索引的文档中词语的数量,并且提高搜索或广告装置中文档查询的相关性。
[0003]在现有技术中,语义关键词的提取是一项非常具有挑战性的工作。目前常用的方法有以下3种:1、人工指定关键词。这种方法常见于新闻门户,一篇文章完成后,会人为地为文章指定几个具有语义代表性的关键词。点击这些关键词,就会看到与关键词相关的文章。2、基于文档中各个词的词频和重要度提取关键词。一个词的词频即是这个词在文档中出现的次数,出现的次数越高,表明词与文档的相关性越高。词的重要度可以用逆向文档频率(Inverse Document Frequency, IDF)值表示,IDF值表示同一词在多少个不同的文档中出现,出现的文档越多,则词越常见,重要性越低;出现的文档越少,则词越稀有,重要性越高。词频高和重要度高的词,应该被判断为语义关键词。3、基于文档的类别提取关键词。对文档进行文本分类,用文档的类别作为文档的语义关键词。
[0004]但是,现有技术的语义关键词的提取方法有以下弊端:1、人工指定关键词费时费力,无法处理超大规模任务,而且受限于人的知识领域,提取的关键词不精准;2、基于词频和重要度提取关键词的方法,由于是孤立的看待每个词,无法确定词是否与文章的主旨相关联,即无法确定是不是文章的中心词,提取的关键词不精准;3、基于文档的类别提取关键词,范围宽泛,表述能力不够,提取的关键词不精准。

【发明内容】

[0005]本发明解决的技术问题是如何提高语义关键词提取的精准性和有效性。
[0006]为解决上述技术问题,本发明实施例提供一种语义关键词提取方法,所述语义关键词提取方法包括:
[0007]基于词典对待提取文本进行分词,以获取所述待提取文本中词的数目和每个词的属性信息;
[0008]根据所述属性信息对所述每个词进行打分,得到所述每个词的基础分;
[0009]计算所述每个词之间的关联关系和所述每个词的IDF值,根据所述关联关系和所述IDF值对所述每个词的基础分进行调整;
[0010]根据所述调整后的基础分将所述词排序,将排序中序号达到第一设定阈值的词作为所述待提取文本的语义关键词进行输出;[0011 ] 其中,所述第一设定阈值依据所述待提取文本中词的数目设置。
[0012]可选的,语义关键词提取方法还包括:所述根据所述属性信息对所述每个词进行打分,得到所述每个词的基础分后,根据所述基础分将所述词排序,所述排序序号达到第二设定阈值时,过滤所述基础分对应的所述词;其中,所述第二设定阈值为所述词的数目的50%。
[0013]可选的,语义关键词提取方法还包括:所述根据所述调整后的基础分将所述词排序,排序中序号达到第一设定阈值后,
[0014]所述调整后的基础分达到第三设定阈值时,将所述调整后的基础分对应的所述词作为所述待提取文本的语义关键词进行输出;其中,所述第三设定阈值依据所述调整后的基础分设置。
[0015]可选的,采用根据百科词典构建的分词器对所述待提取文本进行分词。
[0016]可选的,所述属性信息包括:所述每个词的词频、词性、词的长度和词的位置。
[0017]可选的,所述词频、词性、词的长度和词的位置对应相应的分值;所述基础分的计算公式为:S1 = K1XK2XK3XK4 ;
[0018]其中,S1为所述基础分;K1为所述词频对应的分值;K2为所述词的位置对应的分值;Κ3为所述词性对应的分值;Κ4为所述词的长度对应的分值。
[0019]可选的,所述关联关系对应相关性得分;所述相关性得分根据所述词的共现概率或词典分类装置得到。
[0020]可选的,所述根据所述关联关系和所述IDF值对所述基础分进行调整包括:所述基础分与所述IDF值做积,并加上所述相关性得分。
[0021]为解决上述技术问题,本发明实施例还公开了一种语义关键词提取装置,用于互联网网页的文本,语义关键词提取装置包括:
[0022]分词模块,用于基于词典对待提取文本进行分词,以获取所述待提取文本中词的数目和每个词的属性信息;
[0023]打分模块,用于根据所述属性信息对所述每个词进行打分,得到所述每个词的基础分;
[0024]分值调整模块,用于计算所述每个词之间的关联关系和所述每个词的IDF值,根据所述关联关系和所述IDF值对所述每个词的基础分进行调整;
[0025]关键词选取模块,用于根据所述调整后的基础分将所述词排序,选取排序中序号达到第一设定阈值的词;
[0026]输出模块,将排序中序号达到第一设定阈值的词作为所述待提取文本的语义关键词进行输出;
[0027]其中,所述第一设定阈值依据所述待提取文本中词的数目设置。
[0028]可选的,所述语义关键词提取装置还包括:第一筛选模块,耦接所述打分模块,用于根据所述基础分将所述词排序,所述排序序号达到第二设定阈值时,过滤所述基础分对应的所述词;其中,所述第二设定阈值为所述词的数目的50%。
[0029]可选的,所述语义关键词提取装置还包括:第二筛选模块,耦接所述关键词选取模块,所述排序中序号达到第一设定阈值后,所述调整后的基础分达到第三设定阈值时,选取所述调整后的基础分对应的所述词;其中,所述第三设定阈值依据所述调整后的基础分设置。
[0030]与现有技术相比,本发明实施例的技术方案具有以下有益效果:
[0031]本发明实施例通过获取待提取文本分词后的每个词的属性信息,根据词的属性信息和IDF值对每个词进行打分和调整,并根据调整后的基础分将所述词排序筛选出待提取文本的语义关键词。通过将词的属性信息和IDF值结合,提高了语义关键词提取的精准性和有效性;同时,由于分词后的每个词都是分散独立的,通过计算每个词之间的关联关系并对基础分进行调整,使得具备关联关系的词可以互相加权而成为语义关键词,提高了语义关键词提取的鲁棒性。
[0032]进一步,本发明实施例通过考虑词频、词性、词的长度和词的位置对提取文本的每个词打分,提高了提取的关键词与文档主旨的相关性。
【附图说明】
[0033]图1是本发明实施例一种语义关键词提取方法流程图;
[0034]图2是本发明实施例另一种语义关键词提取方法流程图;
[0035]图3是本发明实施例一种语义关键词提取装置结构示意图。
【具体实施方式】
[0036]如【背景技术】中所述,现有技术的语义关键词的提取方法有以下弊端:1、人工指定关键词费时费力,无法处理超大规模任务,而且受限于人的知识领域,提取的关键词不精准;2、基于词频和重要度提取关键词的方法,由于是孤立的看待每个词,无法确定词是否与文章的主旨相关联,即无法确定是不是文章的中心词,提取的关键词不精准;3、基于文档的类别提取关键词,范围宽泛,表述能力不够,提取的关键词不精准。
[0037]本
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1