基于Word2Vec和Querylog抽取关键词方法_2

文档序号：8457260阅读：来源：国知局

、技术方案及优点更加清楚明白，以下结合附图，对本发明进行进一步详细说明。应当理解，此处所描述的【具体实施方式】仅仅用以解释本发明，并不用于限定本发明。
[0049] 实施例
[0050] 参照图1，本实施例中所述基于Word2Vec和Query log抽取关键词方法，该方法包括以下步骤：
[0051] S1，利用query log数据，构建目标领域的特定词表；
[0052] S2,在文档集合和特定词表的基础上，获取文档集合中每个文档的候选关键词；
[0053] S3,训练得到目标领域的W〇rd2VeC模型，将每个文档中的候选关键词代入所述模型，得到每个所述候选关键词的若干维的词向量；
[0054] S4,计算任意一个文档A中任意一个候选关键词L对应的词向量与所述文档A的中心向量的余弦相似度，判断候选关键词L是否出现在特定词表中，如果出现，则直接进入 55 ;如果不出现，则进入S6 ;
[0055] S5,将所述候选关键词L的余弦相似度乘以加权因子i，得到新余弦相似度，进入 56 ;在本实施例中设定加权因子i = 100 ;
[0056] S6,将得到的余弦相似度的数值按照从大到小的顺序排序，然后按照预先设定的关键词数量m= 10,从所述排序中余弦相似度数值最大开始输出10个余弦相似度的数值， 10个余弦相似度的数值所对应的候选关键词即为最终关键词。
[0057] 参照图2,在本实施例中，步骤Sl，具体按照下述步骤实现：
[0058] Al，获取88天共21342445条用户在目标领域的查询记录；
[0059] A2,将所述21342445条查询记录进行分组，并统计每查询记录组出现的次数，去除出现次数小于阈值500的查询记录组，得到目标查询记录组；
[0060] A3,对目标查询记录组中的查询记录进行分词，统计任意一个查询词在所有目标查询记录组中重复出现的次数，去除出现次数小于阈值800的查询词，得到热门搜索词；
[0061] A4,将所述热门搜索词与已有所述目标领域的词进行合并去重，得到目标领域的特定词表。
[0062] 参照图3,在本实施例中，步骤S2中，所述文本是字节长度大于等于字节长度阈值 560个字节，步骤S2,具体按照下述步骤实现：
[0063] B1，获取目标领域的文档集合，从中筛选并获得字节长度大于等于字节长度阈值 560个字节的文本；
[0064] B2,采用TF-IDF算法提取候选关键词，在此过程中，对出现在所述文本的Title或目标领域的特定词表的词进行加权，得到每个词出现的次数；
[0065] 步骤B2中，所述Title中词的加权因子为2. 5,所述目标领域的特定词表中词的加权因子为5. 0 ;
[0066] B3,去除出现次数小于0. 00003Xj的词，最终得到每个文档的20个候选关键词，所述j表示文本总数。
[0067] 其中，在步骤B2中还存在以下步骤：利用停用词表去除文本中存在的停用词。
[0068] 参照图4,在本实施例中，步骤S3,具体按照下述步骤实现：
[0069] Cl，对所述文档集合中的每个文档进行分词；
[0070] C2,利用分词后的文档训练Word2Vec模型，得到所述目标领域的Word2Vec模型；
[0071] C3,将每个文档中每个所述候选关键词代入所述目标领域的W〇rd2Ve C模型，得到每个文档中所述候选关键词的若干维的词向量；其中，所述每个所述候选关键词的词向量维数预先设定，在本实施例中设定为300维。
[0072] 参照图5,在本实施例中，步骤S4,具体按照下述步骤实现：
[0073] Dl，获取任意一个文档A中候选关键词的总数a ;
[0074] D2,将文档A中所有候选关键词的词向量相加，得到b ;
[0075] D3,将b除以a，得到所述文档A的中心向量c ;
[0076] D4,计算文档A每个所述候选关键词的词向量与文档A的中心向量的余弦相似度 d ;
[0077] 其中，步骤D4中，所述余弦相似度R是按照下述公式计算：
【主权项】
1. 一种基于Word2Vec和Querylog抽取关键词方法，其特征在于，该方法包括以下步骤： Sl，利用querylog数据，构建目标领域的特定词表； 52, 在文档集合和特定词表的基础上，获取文档集合中每个文档的候选关键词； 53, 训练得到目标领域的W〇rd2VeC模型，将每个文档中的候选关键词代入所述模型，得到每个所述候选关键词的若干维的词向量； 54, 计算任意一个文档A中任意一个候选关键词L对应的词向量与所述文档A的中心向量的余弦相似度，判断候选关键词L是否出现在特定词表中，如果出现，则直接进入S5 ; 如果不出现，则进入S6; 55, 将所述候选关键词L的余弦相似度乘以加权因子i，得到新余弦相似度，进入S6; 56, 将得到的余弦相似度的数值按照从大到小的顺序排序，然后按照预先设定的关键词数量m，从所述排序中余弦相似度数值最大开始输出m个余弦相似度的数值，m个余弦相似度的数值所对应的候选关键词即为最终关键词。
2. 根据权利要求1所述抽取关键词方法，其特征在于，步骤S1，具体按照下述步骤实现： Al，获取p天共q条用户在目标领域的查询记录；所述p大于等于50,所述q大于等于10000 ； A2,将所述q条查询记录进行分组，并统计每查询记录组出现的次数，去除出现次数小于阈值A的查询记录组，得到目标查询记录组； A3,对目标查询记录组中的查询记录进行分词，统计任意一个查询词在所有目标查询记录组中重复出现的次数，去除出现次数小于阈值B的查询词，得到热门搜索词； A4,将所述热门搜索词与已有所述目标领域的词进行合并去重，得到目标领域的特定词表。
3. 根据权利要求1所述抽取关键词方法，其特征在于，步骤S2中，所述文本是字节长度大于等于字节长度阈值C。
4. 根据权利要求书3所述抽取关键词方法，其特征在于，步骤S2,具体按照下述步骤实现： B1，获取目标领域的文档集合，从中筛选并获得字节长度大于等于字节长度阈值C的文本； B2,采用TF-IDF算法提取候选关键词，在此过程中，对出现在所述文本的Title或目标领域的特定词表的词进行加权，得到每个词出现的次数；步骤B2中，所述Title中词的加权因子为X，所述目标领域的特定词表中词的加权因子为y; B3,去除出现次数小于0. 00003Xj的词，最终得到每个文档的候选关键词；所述j表示文本总数。
5. 根据权利要求书4所述抽取关键词方法，其特征在于，在步骤B2中还存在以下步骤：利用停用词表去除文本中存在的停用词。
6. 根据权利要求书1所述抽取关键词方法，其特征在于，步骤S3,具体按照下述步骤实现： Cl，对所述文档集合中的每个文档进行分词； C2,利用分词后的文档训练W〇rd2VeC模型，得到所述目标领域的W〇rd2VeC模型； C3,将每个文档中每个所述候选关键词代入所述目标领域的W〇rd2VeC模型，得到每个文档中所述候选关键词的若干维的词向量。
7. 根据权利要求书6所述抽取关键词方法，其特征在于，步骤C3中，所述每个所述候选关键词的词向量维数预先设定。
8. 根据权利要求书1所述抽取关键词方法，其特征在于，步骤S4,具体按照下述步骤实现： Dl，获取任意一个文档A中候选关键词的总数a; D2,将文档A中所有候选关键词的词向量相加，得到b; D3，将b除以a，得到所述文档A的中心向量c; D4,计算文档A每个所述候选关键词的词向量与文档A的中心向量的余弦相似度d;D5,候选关键词L是否出现在特定词表中，如果出现，则直接进入S5 ;如果不出现，则进入S6〇
【专利摘要】本发明公开了一种基于Word2Vec和Query log抽取关键词方法，涉及信息处理领域。该方法包括：S1，构建目标领域的特定词表；S2，获取文档集合中每个文档的候选关键词；S3，获取每个所述候选关键词的若干维的词向量；S4，计算任意一个候选关键词L的词向量与所述中心向量的余弦相似度，判断候选关键词L是否出现在特定词表中，如果出现，则直接进入S5；如果不出现，则进入S6；S5，将得到余弦相似度乘以加权因子i，获得新余弦相似度，进入S6；S6，将余弦相似度的数值从大到小顺序排序，从余弦相似度数值最大开始输出m个余弦相似度的数值，即得最终关键词。本发明可针对特定领域文本迅速高效地提取出质量较为理想的关键词，避免引入口语化词汇且提取出的关键词质量高。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104778161
【申请号】CN201510219784
【发明人】张平
【申请人】车智互联（北京）科技有限公司
【公开日】2015年7月15日
【申请日】2015年4月30日

完整全部详细技术资料下载

当前第2页1 2