一种关键词提取方法和装置的制造方法

文档序号:10534867阅读:262来源:国知局
一种关键词提取方法和装置的制造方法
【专利摘要】本发明实施例提供一种关键词提取方法和装置。利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词;计算任意两个所述候选关键词之间的相似度;根据所述相似度计算所述候选关键词的权重,根据预设的语料库计算所述候选关键词的逆文档频率;根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,根据所述候选关键词的关键度选取关键词,提高了关键词抽取的准确率。
【专利说明】
一种关键词提取方法和装置
技术领域
[0001] 本发明实施例涉及视频技术领域,尤其涉及一种关键词提取方法和装置。
【背景技术】
[0002] 随着信息技术的不断发展,大量的文本信息开始以计算机可读的形式存在,许多 领域信息都呈现出爆发式增长,比如豆瓣上的影评以及短评。如何在海量的信息当中快速 并准确的提取有用的信息将是一个重要的技术需求。关键词提取就是一种解决上述问题的 有效手段,关键词是对文章主体信息的精炼,更快的掌握重要信息,提高信息访问的效率。
[0003] 关键词提取从方法来说大致有两种:第一种叫做关键词分配,即给定一个关键词 库,然后来一篇文章从词库里面找到几个词语作为这篇文章的关键词。另外一种就是关键 词抽取,就是来一篇文章,从文章中抽取一些词语作为这篇文章的关键词。目前大多数领域 无关的关键词抽取算法(领域无关算法的意思就是无论什么主题或者领域的文本都可以抽 关键词的算法)和它对应的库都是基于关键词抽取的,关键词抽取相比于关键词分配更具 有实际意义。
[0004] 关键词抽取的算法,目前主要有TF-IDF算法、KEA算法和TextRank算法。在《数学之 美》中介绍的TF-IDF关键词提取算法需要预先保存每个词的IDF(逆文档频率)值作为外部 知识库,复杂的算法则需要保存更多的信息。对于不使用外部知识库的算法,主要是可以实 现语言无关以及避免词表中不存在词语所造成的问题。TF-IDF算法思路是找到文本中常见 但是在别的文本中不常出现词语,这个正好符合关键词的特点。
[0005] 初代KEA算法除了使用TF-IDF外还用到了词语在文章中首次出现的位置,这个根 据就是大多数的文章(特别是新闻文本)是总分总的结构,很明显一个词语出现在文章首部 和尾部成为关键词的可能性大于只出现在文章中部的词语。对各个词根据在文章首次出现 的位置赋予不同的权值,结合TF-IDF以及连续数据离散化方法,这个就是初代KEA算法的核 心思想。
[0006] 不依赖外部知识库的关键词算法主要根据文本本身的特征去提取。比如说关键词 特征之一就是在文本中反复出现且关键词附近出现关键词的概率非常大,因此就有了 TextRank算法。它利用类似于PageRank算法,将文本中每个词看成一个页面,认为文本中某 一个词语与之周围N个词存在一个link,然后在这个网络中使用PageRank算出每个词语的 权值,把权值最高的几个词作为关键词即可。TextRank典型的实现包括FudanNLP和SnowNLP 等。
[0007] 以上算法都未考虑词语的相似性,TF*IDF是基于词频(TF)和逆文档频率(IDF)的 乘积来衡量词的重要性。优点是简单快捷;缺点也很明显,单纯计算"词频"不够全面,而且 无法体现词的位置信息。TextRank中计算的是位置关系,至于该位置是哪个词不做考虑,词 语的相似性对结果有影响。因此一种高效准确的关键词提取算法亟待提出。

【发明内容】

[0008] 本发明实施例提供一种关键词提取算法及装置,用以解决现有技术仅考虑词频和 词的位置关系的缺陷,提高了关键词提取的准确性。
[0009] 本发明实施例提供一种关键词提取方法,包括:
[0010] 利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词;
[0011] 计算任意两个所述候选关键词之间的相似度;
[0012] 根据所述相似度,计算每个所述候选关键词的权重,根据预设的语料库计算所述 候选关键词的逆文档频率;
[0013] 根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度, 根据所述候选关键词的关键度选取关键词。本发明实施例提供一种关键词提取装置,包括:
[0014] 候选关键词获取模块,用于利用分词器对文本进行分词得到单词,对所述单词进 行过滤得到候选关键词;
[0015] 相似度计算模块,用于计算任意两个所述候选关键词之间的相似度;
[0016] 逆文档频率计算模块,用于根据所述相似度,计算所述候选关键词的权重,根据预 设的语料库计算所述候选关键词的逆文档频率;
[0017] 关键词提取模块,用于根据所述候选关键词的权重和所述逆文档频率,获取所述 候选关键词的关键度,根据所述候选关键词的关键度选取关键词。
[0018] 本发明实施例提供的一种关键词提取方法及装置,通过对文本进行分词、计算单 词之间的相似度以及逆文档频率,提高了关键词抽取的准确率。
【附图说明】
[0019] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根 据这些附图获得其他的附图。
[0020] 图1为本发明实施例一的技术流程图;
[0021] 图2为本发明实施例二的技术流程图;
[0022]图3为本发明实施例三的装置结构示意图;
[0023]图4为本发明应用实例的词项图示例;
[0024]图5为本发明应用实例的TextRank迭代后的词项图示例。
【具体实施方式】
[0025]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0026] 实施例一
[0027] 图1是本发明实施例一的技术流程图,结合图1,本发明实施例一种关键词提取方 法主要包括如下的步骤:
[0028] 步骤110:利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关 键词;
[0029] 本发明实施例中,利用现有的分词器将收集到的文本分割为单独的词语并且能获 得每个单词的词性,其中分词器可以包括基于词典匹配算法的分词器、基于词库匹配的分 词器、基于词频度统计的分词器和基于知识理解的分词器等,本发明实施例并不做限制。
[0030] 利用分词器得到单词后需对单词进行进一步地处理,如根据所述词性和预设的黑 名单对所述单词进行停用词与非必要词的过滤等。所述停用词是一些没有实际含义的词, 包括语气助词、副词、介词、连接词等,通常自身并无明确的意义,只有将其放入一个完整的 句子中才有一定作用,如中文文本中常见的"的、在"之类,英文文本中的"the、is、at、 which、on"。针对一些非必要词,可以根据预设的黑名单,结合正则表达式将这些词滤除,得 到文本中的候选关键词。
[0031] 步骤120:计算任意两个所述候选关键词之间的相似度;
[0032]本发明实施例中,采用word2vec来计算词向量。word2vec是一个将单词转换成向 量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间 上的相似度,来表示文本语义上的相似度。
[0033] word2vec为计算向量词提供了一种有效的连续词袋(bag-of-words)和skip-gram 架构实现,Word2vec可以计算词和词之间的距离,知道了距离,可以对词进行聚类,而且 word2vec本身也提供了聚类功能。Word2vec使用到了deep learning技术,不仅有着非常高 的准确度,同时效率非常高,适合处理海量数据。
[0034]步骤130:根据所述相似度,计算每个所述候选关键词的权重,并根据预设的语料 库计算每个所述候选关键词的逆文档频率;
[0035]本发明实施例中,利用TextRank公式迭代计算每个所述候选关键词的权重,在迭 代计算之前预先构建词项图G(V,E),其中V为所述候选关键词集合,E为任意两个候选关键 词相连接构成的边的集和,E£VxV。
[0036]根据预设的迭代次数,采用如下公式迭代计算每个所述候选关键词的所述权重:
[0038] 其中,WS(Vi)表示所述词项图中候选关键词Vi的所述权重,In(Vi)表示所述词项图 中指向候选关键词I的候选关键词集合,Out(L)表示所述词项图中候选关键词%所指向的 候选关键词的集合,表示候选关键词¥:和候选关键词%的所述相似度,表示候选关键 词%和候选关键词V k的所述相似度,d为阻尼系数,WS(VJ代表上一次迭代时,候选关键词% 的所述权重。
[0039]通常来说,如果一个词在越多的文本中出现过,那个这个词对某一个文本的贡献 度应该就越小,也就是通过这个词来区分文本的区分度越小,因此,本发明实施例中,进一 步使用如下公式计算每个所述候选关键词的所述逆文档频率:
[0041] 如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要 加1,是为了避免分母为〇(即所有文本都不包含该词)dog表示对得到的值取对数,可以降 低最后得到的数值大小。
[0042] 步骤140:根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的 关键度,根据所述候选关键词的关键度选取关键词。
[0043] 具体地,本发明实施例以所述候选关键词的所述权重和所述候选关键词的所述逆 文档频率的乘积作为所述候选关键词的关键度,并根据每个所述候选关键词的关键度排序 以及预设的关键词数量进行关键词的选取。
[0044] 本发明实施例中,每个候选关键词最终都会得到一个相应的关键度,将所述候选 关键词按照其对应的关键度进行由大到小的排序,若是需要提取N个关键词,则只需从关键 度最高的候选关键词开始,按序选取N个即可。
[0045] 本发明实施例中,关键度=权重*逆文档频率,其中,所述权重的计算过程中结合 了单词之间的相似性,同时考虑了单词的位置关系,所述逆文档频率又兼顾单词对文本的 贡献大小,这样综合的关键词提取方法显著提高了关键词的抽取效果。
[0046] 实施例二
[0047] 图2是本发明实施例二的技术流程图,结合图2,本发明实施例一种关键词的提取 方法进一步可以细化为以下的步骤:
[0048] 步骤210:利用分词器对文本进行分词得到每个单词及其词性;
[0049] 本发明实施例中,用现有的分词方法,将文本分割为词汇的方法可以是下述任一 一种,或者任意几种的组合。
[0050] 基于词典匹配算法的分词器应用词典匹配、汉语词法或其它汉语语言知识进行分 词,如:最大匹配法、最小分词方法等。基于词库匹配的分词器则基于字和词的统计信息,如 把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实 语料而取得的,因而基于统计的分词方法具有较好的实用性。
[0051] 基于字典、词库匹配的分词方法按照一定策略将待分析的汉字串与一个充分大的 机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。识别出一个词,根 据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况,分为最大(最 长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和 分词与标注相结合的一体化方法。
[0052] 其中,最大正向匹配法(MaxiumMatchingMethod)通常简称为MM法。其基本思想为: 假定分词词典中的最长词有i个汉字字符,则用被处理文本的当前字串中的前i个字作为匹 配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切 分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去 掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或 剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理, 直到文本被扫描完为止。
[0053]最大逆向匹配法(1^¥6^6]\^1;[111]1]\^1:(311;[1^]\^1:110(1)通常简称为冊]\1法。冊]\1法的基 本原理与MM法相同,不同的是分词切分的方向与MM法相反,而且使用的分词辞典也不同。逆 向最大匹配法从被处理文本的末端开始匹配扫描,每次取最末端的2i个字符(i字字串)作 为匹配字段,若匹配失败,则去掉匹配字段最前面的一个字,继续匹配。相应地,它使用的分 词词典是逆序词典,其中的每个词条都将按逆序方式存放。在实际处理时,先将文本进行倒 排处理,生成逆序文本。然后,根据逆序词典,对逆序文本用正向最大匹配法处理即可。
[0054] 最大匹配算法是一种基于分词词典的机械分词法,不能根据文本上下文的语义特 征来切分词语,对词典的依赖性较大,所以在实际使用时,难免会造成一些分词错误,为了 提高系统分词的准确度,可以采用正向最大匹配法和逆向最大匹配法相结合的分词方案, 即双向匹配法。
[0055] 双向匹配法,将正向最大匹配法与逆向最大匹配法组合。先根据标点对文本进行 粗切分,把文本分解成若干个句子,然后再对这些句子用正向最大匹配法和逆向最大匹配 法进行扫描切分。如果两种分词方法得到的匹配结果相同,则认为分词正确,否则,按最小 集处理。
[0056] 基于词的频度统计的分词方法是一种全切分方法。它不依靠词典,而是将文章中 任意两个字同时出现的频率进行统计,次数越高的就可能是一个词。它首先切分出与词表 匹配的所有可能的词,运用统计语言模型和决策算法决定最优的切分结果。它的优点在于 可以发现所有的切分歧义并且容易将新词提取出来。
[0057]基于知识理解的分词方法主要基于句法、语法分析,并结合语义分析,通过对上下 文内容所提供信息的分析对词进行定界,它通常包括三个部分:分词子系统、句法语义子系 统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信 息来对分词歧义进行判断。这类方法试图让机器具有人类的理解能力,需要使用大量的语 言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接 读取的形式。
[0058]优选地,本发明实施例在利用分词器对文本进行分词之前预先使用正则表达式对 文本进行去重去噪处理,例如文本中的表情符号〇( n _ n )〇,或类似"。。。。。。。"的极度重复 标点或者类似"哈哈哈哈哈"一类的极度重复词。对于一些特定的网页评论数据,可以进一 步统计自动评论模板,例如根据自动评论模板去除评论数据中包含的自动评论、一些网址 链接等等。
[0059] 步骤220:根据所述词性和预设的黑名单对所述单词进行停用词过滤得到候选关 键词;
[0060] 文本中通常含有大量的语气词、助词等一些并不存在实际意义的词,这些词被称 为停用词,这类停用词的出现频率通常很高,若是不滤除则会影响到关键词提取的准确率。 本发明实施例中,首先根据词性对所述候选关键词进行滤除,通常而言,各类助词和介词是 需要被滤除的。除此之外,预先建立黑名单,所述黑名单不仅包括了停用词,还包括一些非 法词汇,广告词汇等等。根据预先建立的黑名单可以再次使用正则表达式对所述候选关键 词进行清理,减轻后续计算压力。
[0061] 步骤230:计算任意两个所述候选关键词之间的相似度;
[0062]本发明实施例中,利用word2vec将每个所述候选关键词转化为单词向量的形式, 并根据每个所述候选词对应的所述单词向量在空间上的相似性得到任意两个所述候选关 键词之间的相似度。
[0063]自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这 些符号数学化。w〇rd2veC是Google在2013年年中开源的一款将词表征为实数值向量的高效 工具,采用的模型有CB0W(Continuous Bag-〇f-Words,即连续的词袋模型)和Skip-Gram两 种。word2vec遵循Apache License 2.0开源协议,通过训练,可以把对文本内容的处理简化 为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。 因此,W〇rd2 vec输出的词向量可以被用来做很多NLP相关的工作,比如聚类、找同义词、词性 分析等等。
[0064] 对本文中的单词进行相似性计算,有助于对文本进行分类,了解文档主题,从而提 高关键词的提取准确度
[0065] 本发明实施例中,主要采用word2vec工具将所述候选关键词转化为K维向量空间 中的向量运算,再通过每个所述候选关键词对应的空间词向量的相似性来计算其对应的相 似度。
[0066] 步骤240:根据所述候选关键词构建词项图;
[0067] 用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口, 每个所述窗口包含K个相邻的所述候选关键词;其中N为所述候选关键词的总数,K为所述窗 口的尺寸;
[0068] 例如,候选关键词为vl,v2,v3,v4,v5,. . .,vn,窗口长度为K,将窗口覆盖在所述候 选关键词上,逐个平移,将得到如下的候选关键词窗口: vl,v2, . . .,vk、v2,v3, . . .,vk+l、 v3,v4, . . .,vk+2,...等等。基于相邻的位置关系,每个窗口内的候选关键词是相互关联的, 窗口之间默认独立。
[0069] 得到候选关键词窗口后,用一条无向的边连接每个所述窗口中的任意两个所述候 选关键词得到一定数量的词项图G(V,E),其中V为所述候选关键词集合,E为任意两个候选 关键词相连接构成的边的集和,EGVXV。在所述词项图中,每一个所述候选关键词都可 以看作是一个节点,词项图就是由若干个节点与节点之间的连线构成,这些连线最初是无 权无向的边。
[0070] 需要说明的是,步骤230和步骤240之间并无先后顺序,本发明实施例中也可以先 构建所述词项图再计算所述候选关键词之间的相似度。
[0071 ] 步骤250:利用TextRank公式迭代计算每个所述候选关键词的权重;
[0072]计算每个所述候选关键词的权重时,需进一步结合词项图之间每个所述候选关键 词的连接关系以及每个所述候选关键词之间的相似度,采用如下公式迭代计算:
[0074] 其中,WS(Vi)表示所述词项图中候选关键词Vi的所述权重,In(Vi)表示所述词项图 中指向候选关键词I的候选关键词集合,Out(L)表示所述词项图中候选关键词%所指向的 候选关键词的集合,表示候选关键词¥:和候选关键词%的所述相似度,表示候选关键 词%和候选关键词V k的所述相似度,d为阻尼系数,WS(VJ代表上一次迭代时,候选关键词% 的所述权重。
[0075] 本发明实施例中,迭代次数是一个预设的经验值,迭代的次数受候选关键词权重 初值的影响,通常,需要给所述词项图中的任意一个指定的候选关键词赋初值,本发明实施 例中,将每个所述候选关键词的权重初值设为1。
[0076] 为了避免权重计算过程中出现无限循环迭代的状况,本发明实施例中为迭代过程 设定了迭代次数的上限,根据经验值,将迭代次数设置为200,即当迭代次数达到200时,停 止迭=代过程,将得到的结果作为对应的候选关键词的权重得分。
[0077]优选的,本发明实施例还可以通过判断迭代结果是否收敛来决定迭代次数。当迭 代结果收敛时,即可停止迭代,所述指定的候选关键词会得到一个权重值。此处所述收敛通 过判断指定的候选关键词计算出的权重值的误差率是否小于预设的极限值从而能够达到 收敛点。候选关键词Vi的误差率为其实际权重和第K次迭代时得到的权重之间的差值,但由 于候选关键词的实际权重是未知的,所以误差率近似认为是候选关键词在两次迭代结果之 间的差值,一般所述极限值取〇. 0001。
[0078]通过反复的迭代计算之后,所述词项图会发生变化
[0079]步骤260:并根据预设的语料库计算每个所述候选关键词的逆文档频率;
[0081] 需要说明的是,步骤250和步骤260之间并无先后顺序,本发明实施例中,也可以先 计算逆文档频率,再迭代计算每个候选关键词的权重,本发明并不做限制。
[0082] 步骤270:以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的 乘积作为所述候选关键词的关键度,并根据每个所述候选关键词的关键度排序以及预设的 关键词数量进行关键词的选取。
[0083] Vi 的关键度= IDF*WS(Vi)
[0084] 本实施例中,提取关键词的算法中,通过进一步地对文本进行非必要因素的过滤, 减轻了数据冗余,提高了关键词提取过程中的计算效率,同时使用word2 VeC工具进行近义 词的判断,结合词的位置关系和词频,提取的关键词质量和准确率更高。
[0085] 实施例三
[0086] 图3是本发明实施例三的技术流程图,结合图3,本发明一种关键词提取装置主要 包括候选关键词获取模块310、相似度计算模块320、逆文档频率计算模块330、关键词提取 模块340。
[0087] 所述候选关键词获取模块310,用于利用分词器对文本进行分词得到每个单词及 其词性,并根据所述词性和预设的黑名单对所述单词进行停用词过滤得到候选关键词;
[0088] 所述相似度计算模块320,用于计算任意两个所述候选关键词之间的相似度;
[0089]所述逆文档频率计算模块330,用于根据所述相似度,利用TextRank公式迭代计算 每个所述候选关键词的权重,并根据预设的语料库计算每个所述候选关键词的逆文档频 率;
[0090] 所述关键词提取模块340,用于以所述候选关键词的所述权重和所述候选关键词 的所述逆文档频率的乘积作为所述候选关键词的关键度,并根据每个所述候选关键词的关 键度排序以及预设的关键词数量进行关键词的选取。
[0091] 进一步地,所述相似度计算模块320进一步用于:利用word2vec将每个所述候选关 键词转化为单词向量的形式,并根据每个所述候选词对应的所述单词向量在空间上的相似 性得到任意两个所述候选关键词之间的相似度。
[0092]所述装置进一步包括构图模块350,所述构图模块350用于根据所述相似度,利用 TextRank公式迭代计算每个所述单词的权重之前,用预设的窗口在所述候选关键词上逐个 平移选取得到N-K+1个候选关键词窗口,每个所述窗口包含K个相邻的所述候选关键词;其 中N为所述候选关键词的总数,K为所述窗口的尺寸;用一条无向的边连接每个所述窗口中 的任意两个所述候选关键词得到一定数量的词项图G(V,E),其中V为所述候选关键词集合, E为任意两个候选关键词相连接构成的边的集和,ESVxV。
[0093]所述逆文档频率计算模块330进一步用于:根据预设的迭代次数,采用如下公式迭 代计算每个所述候选关键词的所述权重:
[0095] 其中,WS(Vi)表示所述词项图中候选关键词Vi的所述权重,In(Vi)表示所述词项图 中指向候选关键词I的候选关键词集合,Out(L)表示所述词项图中候选关键词%所指向的 候选关键词的集合,表示候选关键词¥:和候选关键词%的所述相似度,表示候选关键 词%和候选关键词V k的所述相似度,d为阻尼系数,WS(VJ代表上一次迭代时,候选关键词% 的所述权重。
[0096] 所述逆文档频率计算模块进一步还用于,
[0097] 使用如下公式计算每个所述候选关键词的所述逆文档频率:
[0099]其中,log〇表示取对数运算。
[0100] 应用实例
[0101] 假设网络爬虫爬取到一篇豆瓣影评文本等待关键词提取处理,文本内容如下:哈 哈哈哈哈哈哈!太好看了乙~!太震撼了!强力推荐!这是能让人真心大笑又哽咽感动的影 片---好的喜剧剧本、演员,其实比悲剧更难表现好,两位主演的表现相当亮眼,细节也 非常出彩到位。真是让人回味无穷。。。。。。推荐下载地址http://movie.xxx. com。
[0102] 对于这样一篇影评,要提取其关键词作为标签,首先在词语分隔之前进行使用正 则表达式对文本进行去重去噪处理,去除类似"哈哈哈哈哈哈哈"~ _ "---"、"。。。。。。"、"。。。。。。"、"http://movie .xxx. com"这样的非必要内容,使得文本 更加清洁。
[0103] 于是得到下述结果:
[0104] !太好看了!太震撼了!强力推荐!这是能让人真心大笑又哽咽感动的影片好的喜 剧剧本、演员,其实比悲剧更难表现好,两位主演的表现相当亮眼,细节也非常出彩到位。真 是让人回味无穷推荐下载地址。
[0105] 这段文本中,除了必要的句子之外,还有很多标点符号以及停用词,此时,可以再 次采用正则表达式过滤掉标点符号以及"太、了、这、是、能"等这一类词,得到下述结果:
[0106] 好看震撼强力推荐让人真心大笑又哽咽感动的影片好的喜剧剧本演员其实比悲 剧更难表现好两位主演的表现相当亮眼细节也非常出彩到位真是让人回味无穷推荐下载 地址
[0107] 接下来,采用分词器进行句子分割,此处采用基于字典、词库匹配的分词方法,正 向扫描出每一个词,并将之与预设的词库进行匹配,可能会得到下述结果:
[0108] 好看震撼强力推荐让人真心大笑又哽咽感动的影片好的喜剧剧本演员其实比悲 剧更难表现好两位主演的表现相当亮眼细节也非常出彩到位真是让人回味无穷推荐下载 地址
[0109] 得到分割后的关键词之后,发现部分单字不能成词,且不具实际意义,因此,还需 要进一步过滤,将不能成词的单字滤除。进一步,根据得到的若干候选关键词,采用 W〇rd2vec工具将其转化为词向量,计算任意二者之间的相似度W,例如:W(好看,震撼)=a,W (好看,强力)=b,W(好看,推荐)=c等等。与此同时,采用长度为5的窗口覆盖在所述候选关 键词上,逐个平移,得到如下的候选关键词窗口: 好看震撼强力推荐真心 震撼强力推荐真心大笑 强力推荐真心大笑哽咽 推荐真心大笑雙感动的
[0110] 真心大笑0更咽感动的影片 大笑咬P因感动的影片好的 回味无穷推荐T载地址 每一个窗口内的词语都是相互连接的,两两相互指向,参见图4所示。
[0112]得到指向关系和相似度W之后,将其代入TextRank公式计算每个候选关键词的权 重。
[0113]假设在200次迭代完成之后得到图5的结果。从图5中可以得到关键词的投票结果, 被指向最多的候选关键词对应的权重是最尚的。与此同时,针对每一个候选关键词,还要结 合预设的语料库计算每个所述候选关键词的逆文档频率。权重与逆文档频率的乘积即是每 个候选关键词对应的关键度。将这些候选关键词按照对应的关键度从大到小排列,根据需 要的数量即可进行抽取。
[0114] 以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可 以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单 元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其 中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性 的劳动的情况下,即可以理解并实施。
[0115] 通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可 借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上 述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该 计算机软件产品可以存储在计算机可读存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指 令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施 例或者实施例的某些部分所述的方法。
[0116]最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管 参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可 以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换; 而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和 范围。
【主权项】
1. 一种关键词提取方法,其特征在于,所述方法包括如下步骤: 利用分词器对文本进行分词得到单词,对所述单词进行过滤得到候选关键词; 计算任意两个所述候选关键词之间的相似度; 根据所述相似度计算所述候选关键词的权重,根据预设的语料库计算所述候选关键词 的逆文档频率; 根据所述候选关键词的权重和所述逆文档频率,获取所述候选关键词的关键度,根据 所述候选关键词的关键度选取关键词。2. 根据权利要求1所述的方法,其特征在于,所述计算任意两个所述候选关键词之间的 相似度包括: 利用W〇rd2vec将所述候选关键词转化为单词向量的形式,根据所述候选词的所述单词 向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。3. 根据权利要求1所述的方法,其特征在于,所述计算所述候选关键词的权重包括, 用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口,每个 所述窗口包含K个相邻的所述候选关键词,其中N为所述候选关键词的总数,K为所述窗口的 尺寸; 用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词 项图G(V,E),其中,V为所述候选关键词集合,E为任意两个候选关键词相连接构成的边的集 和,EGVxV; 根据预设的迭代次数,采用如下公式迭代计算每个所述候选关键词的所述权重:其中,WS(V1)表示所述词项图中候选关键词¥1的所述权重,In(V1)表示所述词项图中指 向候选关键词V1的候选关键词集合,Out(Vj)表示所述词项图中候选关键词%所指向的候选 关键词的集合,M表示候选关键词¥ 1和候选关键词Vj的所述相似度,^表示候选关键词Vj 和候选关键词Vk的所述相似度,d为阻尼系数,WS(Vj)代表上一次迭代时,候选关键词V j的所 述权重。4. 根据权利要求1所述的方法,其特征在于,根据预设的语料库计算每个所述单词的逆 文档频率括, 使用如下公式计算每个所述候选关键词的所述逆文档频率:其中,l〇g()表示取对数运算。5. 根据权利要求1所述的方法,所述根据所述候选关键词的权重和所述逆文档频率,获 取所述候选关键词的关键度,包括: 以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述 候选关键词的关键度,并根据每个所述候选关键词的关键度排序以及预设的关键词数量进 行关键词的选取。6. -种关键词提取装置,其特征在于,所述方法包括如下模块: 候选关键词获取模块,用于利用分词器对文本进行分词得到单词,对所述单词进行过 滤得到候选关键词; 相似度计算模块,用于计算任意两个所述候选关键词之间的相似度; 逆文档频率计算模块,用于根据所述相似度,计算所述候选关键词的权重,根据预设的 语料库计算所述候选关键词的逆文档频率; 关键词提取模块,用于根据所述候选关键词的权重和所述逆文档频率,获取所述候选 关键词的关键度,根据所述候选关键词的关键度选取关键词。7. 根据权利要求6所述的装置,其特征在于,所述相似度计算模块进一步用于: 利用W〇rd2vec将每个所述候选关键词转化为单词向量的形式,并根据每个所述候选词 对应的所述单词向量在空间上的相似性得到任意两个所述候选关键词之间的相似度。8. 根据权利要求6所述的装置,其特征在于,所述逆文档频率计算模块具体用于: 用预设的窗口在所述候选关键词上逐个平移选取得到N-K+1个候选关键词窗口,每个 所述窗口包含K个相邻的所述候选关键词;其中N为所述候选关键词的总数,K为所述窗口的 尺寸; 用一条无向的边连接每个所述窗口中的任意两个所述候选关键词得到一定数量的词 项图G(V,E),其中V为所述候选关键词集合,E为任意两个候选关键词相连接构成的边的集 和,E£VxV; 根据预设的迭代次数,采用如下公式迭代计算每个所述候选关键词的所述权重:其中,WS(V1)表示所述词项图中候选关键词¥1的所述权重,In(V1)表示所述词项图中指 向候选关键词V1的候选关键词集合,Out(Vj)表示所述词项图中候选关键词%所指向的候选 关键词的集合,M表示候选关键词¥ 1和候选关键词Vj的所述相似度,^表示候选关键词Vj 和候选关键词Vk的所述相似度,d为阻尼系数,WS(Vj)代表上一次迭代时,候选关键词V j的所 述权重。9. 根据权利要求6所述的装置,其特征在于,所述逆文档频率计算模块具体用于, 使用如下公式计算每个所述候选关键词的所述逆文档频率: 谈文觸率=1〇g ( 麵语料库的文档总数) ' g 包含所述候选关键词的文档数+1 其中,l〇g()表示取对数运算。10. 根据权利要求6所述的装置,其特征在于,所述关键词提取模块,具体用于: 以所述候选关键词的所述权重和所述候选关键词的所述逆文档频率的乘积作为所述 候选关键词的关键度,并根据每个所述候选关键词的关键度排序以及预设的关键词数量进 行关键词的选取。
【文档编号】G06F17/27GK105893410SQ201510799348
【公开日】2016年8月24日
【申请日】2015年11月18日
【发明人】赵九龙
【申请人】乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1