基于Word2Vec和Querylog抽取关键词方法

文档序号:8457260阅读:465来源:国知局
基于Word2Vec和Query log抽取关键词方法
【技术领域】
[0001] 本发明涉及信息处理领域,尤其涉及一种基于Word2Vec和Query log抽取关键词 方法。
【背景技术】
[0002] 通过文档关键词,人们可以迅速地了解文本内容,把握文档主题。关键词广泛应用 于新闻报道、科技论文等领域,以方便人们高效地管理和检索文档。除了帮助人们快速筛选 感兴趣的内容之外,文档关键词还可以用于搜索结果排序、文本摘要、文档分类、文档聚类、 用户建模等上层应用领域。
[0003] 传统的关键词抽取方法分为两种,分别为无监督方法和有监督方法。其中无监督 方法包括TFIDF、Chi-squared、Text Rank、LDA等方法,而有监督方法将关键词抽取问题 转换为判断每个词是否为关键词的二分类问题,在之前曾有人通过Naive Bayes和决策树 C4. 5等有监督方法进行关键词抽取。无监督方法和有监督方法各有其优势和劣势:无监督 方法不需要人工标注训练集合,因此更加快捷,但由于无法综合利用多种信息对候选词排 序,所以效果上可能不如有监督方法;而有监督方法可以通过训练学习调节多种信息对于 判断关键词的影响程度,因此效果更好,但是在现今的数据时代,标注训练集合非常耗时耗 力。
[0004] 现有TFIDF是一种用于信息检索和文本挖掘的常用加权技术。TFIDF是一种统 计方法,用以评估一个字词对于文档集合中的其中一份文件的重要程度。字词的重要性随 着它在文件中出现的次数成正比增加,但同时会随着它在文档集合中出现的频率成反比下 降。TFIDF的主要思想是:如果某个词或短语在一份文件中出现的频率TF高,并且在其他文 章中很少出现(IDF值很大),则认为这个词或者短语具有很好的类别区分能力,那么我们 就给予在此文档中的这个词或者短语一个较大的权重,代表这个词或者短语对此文档内容 的表征能力。利用TFIDF可以进行关键词抽取工作,对文档中每个不同的词计算其TFIDF 值,并且按照数值从大到小的顺序进行排序,从而选取排名靠前的若干个词作为此篇文档 的关键词。
[0005] 但是在实际工作中,一般用TFIDF作为baseline。在特定领域的关键词抽取工作 中,因为大量口语化词汇在文档及文档集合中的分布与特定领域词汇极为相似以及TFIDF 算法本身基于统计的局限性,所以按照TFIDF算法抽取出来的关键词会含有大量口语化词 汇和不是那么重要的词汇,从而导致关键词抽取的效果不佳。
[0006] 受到PageRank算法在IR领域中的广泛应用和巨大成功的启发,Mihalcea和 Tarau提出了 一种与PageRank类似基于图排序的算法TextRank,用于进行关键词抽取。 TextRank的算法思想是构建一个网络,网络中的顶点代表文本中不同的词,边代表共现的 词之间的链接。两个词之间相隔的词的个数如果在事先规定的范围之内,那么TextRank就 认为这两个词满足共现关系。网络中的边具有权重,利用PageRank算法对其进行赋值。与 PageRank算法类似,TextRank认为一个词的重要程度由链向它的其他词的重要程度来决 定,利用PageRank算法迭代地计算网络中每个词的重要程度,然后根据词的PageRank值进 行排序,从而选取排名靠前的若干个词作为此篇文档的关键词。
[0007] 但是TextRank关键词提取算法需要迭代计算每个词的PageRank值,通常迭代次 数在20到30次之间。因为计算复杂度较高,所以这种算法很少使用在大规模文本关键词 抽取工作中。
[0008] 综上,传统的关键词抽取方法存在关键词抽取的效果不佳、关键词抽取效率低和 适用范围受限的问题。

【发明内容】

[0009] 本发明的目的在于提供一种基于Word2Vec和Query log抽取关键词方法,从而解 决现有技术中存在的前述问题。
[0010] 为了实现上述目的,本发明所述基于Word2Vec和Query log抽取关键词方法,该 方法包括以下步骤:
[0011] S1,利用query log数据,构建目标领域的特定词表;
[0012] S2,在文档集合和特定词表的基础上,获取文档集合中每个文档的候选关键词;
[0013] S3,训练得到目标领域的W〇rd2VeC模型,将每个文档中的候选关键词代入所述模 型,得到每个所述候选关键词的若干维的词向量;
[0014] S4,计算任意一个文档A中任意一个候选关键词L对应的词向量与所述文档A的 中心向量的余弦相似度,判断候选关键词L是否出现在特定词表中,如果出现,则直接进入 55 ;如果不出现,则进入S6 ;
[0015] S5,将所述候选关键词L的余弦相似度乘以加权因子i,得到新余弦相似度,进入 56 ;
[0016] S6,将得到的余弦相似度的数值按照从大到小的顺序排序,然后按照预先设定的 关键词数量m,从所述排序中余弦相似度数值最大开始输出m个余弦相似度的数值,m个余 弦相似度的数值所对应的候选关键词即为最终关键词。
[0017] 优选地,步骤Sl,具体按照下述步骤实现:
[0018] A1,获取p天共q条用户在目标领域的查询记录;所述p大于等于50,所述q大于 等于10000 ;
[0019] A2,将所述q条查询记录进行分组,并统计每查询记录组出现的次数,去除出现次 数小于阈值A的查询记录组,得到目标查询记录组;
[0020] A3,对目标查询记录组中的查询记录进行分词,统计任意一个查询词在所有目标 查询记录组中重复出现的次数,去除出现次数小于阈值B的查询词,得到热门搜索词;
[0021] A4,将所述热门搜索词与已有所述目标领域的词进行合并去重,得到目标领域的 特定词表。
[0022] 优选地,步骤S2中,所述文本是字节长度大于等于字节长度阈值C。
[0023] 更优选地,步骤S2,具体按照下述步骤实现:
[0024] B1,获取目标领域的文档集合,从中筛选并获得字节长度大于等于字节长度阈值C 的文本;
[0025] B2,采用TF-IDF算法提取候选关键词,在此过程中,对出现在所述文本的Title或 目标领域的特定词表的词进行加权,得到每个词出现的次数;
[0026] 步骤B2中,所述Title中词的加权因子为X,所述目标领域的特定词表中词的加权 因子为y ;
[0027] B3,去除出现次数小于0.00003Xj的词,最终得到每个文档的候选关键词;所述j 表示文本总数。
[0028] 更优选地,在步骤B2中还存在以下步骤:利用停用词表去除文本中存在的停用 O
[0029] 优选地,步骤S3,具体按照下述步骤实现:
[0030] Cl,对所述文档集合中的每个文档进行分词;
[0031] C2,利用分词后的文档训练Word2Vec模型,得到所述目标领域的Word2Vec模型;
[0032] C3,将每个文档中每个所述候选关键词代入所述目标领域的W〇rd2Ve C模型,得到 每个文档中所述候选关键词的若干维的词向量。
[0033] 更优选地,步骤C3中,所述每个所述候选关键词的词向量维数预先设定。
[0034] 优选地,步骤S4,具体按照下述步骤实现:
[0035] Dl,获取任意一个文档A中候选关键词的总数a ;
[0036] D2,将文档A中所有候选关键词的词向量相加,得到b ;
[0037] D3,将b除以a,得到所述文档A的中心向量c ;
[0038] D4,计算文档A每个所述候选关键词的词向量与文档A的中心向量的余弦相似度 d ;
[0039] D5,候选关键词L是否出现在特定词表中,如果出现,则直接进入S5 ;如果不出现, 则进入S6。
[0040] 本发明的有益效果是:
[0041] 本发明所述方法,可以针对特定领域文本迅速高效地提取出质量较为理想的关键 词,避免引入口语化词汇。且在不需要人工标注关键词训练模型和对文本进行词性标记的 前提下,不仅可以迅速高效地抽取出质量较为理想、可以满足业务需求的特定领域关键词, 而且可以方便快捷地被移植到其他特定领域。
[0042] 通过本发明提取出的关键词质量高,这些关键词不仅可以通过精炼冗长query或 者辅助建立索引的方式提升搜索效果,而且还可以用于文本标记、文本分类、文本聚类、用 户建模、广告投放等多种上层应用领域。
【附图说明】
[0043] 图1是实施例中所述基于Word2Vec和Query log抽取关键词方法的结构流程示 意图;
[0044] 图2是实施例中步骤Sl的流程示意图;
[0045] 图3是实施例中步骤S2的流程示意图;
[0046] 图4是实施例中步骤S3的流程示意图;
[0047] 图5是实施例中步骤S4的流程示意图。
【具体实施方式】
[0048] 为了使本发明的目的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1