本技术涉及数据处理,特别是涉及一种关键词提取方法、装置、电子设备及存储介质。
背景技术:
1、搜索引擎优化(search engine optimization,seo)是一种通过分析搜索引擎的排名规律,对网页内容进行有针对性的优化,从而提高网页在搜索引擎中的排名,以提高网页访问量的技术。
2、搜索引擎利用复杂的算法对网页内容进行分析和排序,如果网页的关键词(keywords)与用户输入的搜索词高度匹配,则该网页在搜索结果中的排名就可能更高。因此,在seo中,可以通过对关键词的优化,提高网页在搜索引擎中的排名,加大网页的曝光度。
3、但是,现有技术中,通常基于网页内容本身进行关键词提取,没有考虑用户的搜索需求和偏好,导致提取的关键词与用户实际搜索需求并不能很好的匹配,网页的seo优化效果并不理想。
技术实现思路
1、为解决上述技术问题,本技术示出了一种关键词提取方法、装置、电子设备及存储介质,以至少解决相关技术中提取的关键词与用户实际搜索需求并不能很好的匹配,网页的seo优化效果并不理想的问题。本公开的技术方案如下:
2、第一方面,本技术示出了一种关键词提取方法,所述方法包括:
3、对目标网页进行特征提取,得到所述目标网页的特征词;
4、将所述特征词输入至预设搜索引擎中,查询所述特征词关联的搜索建议词;所述搜索建议词基于用户搜索历史数据对所述特征词进行分析得到;
5、对所述搜索建议词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词;
6、响应于所述预设搜索引擎对所述目标网页的信息爬取请求,将所述目标关键词返回至所述预设搜索引擎,以使所述预设搜索引擎基于所述目标关键词收录所述目标网页。
7、可选地,所述对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词,包括:
8、对所述分词进行词频统计,根据预设词频权重及预设词长度权重,确定所述分词的词频及词长度的加权和,作为所述分词的排序分数;
9、按照所述排序分数从大到小的顺序,从所述分词中选取预设数量个目标分词;
10、对所述预设数量个目标分词进行组合,得到目标关键词。
11、可选地,所述对所述搜索建议词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词,包括:
12、对所述搜索建议词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定第一关键词;
13、对所述搜索建议词进行自然语言处理,生成所述搜索建议词对应的第二关键词;
14、将所述第一关键词及所述第二关键词作为所述目标关键词。
15、可选地,所述分词作为目标关键词的概率与所述分词的词频及词长度为正相关。
16、可选地,所述响应于所述预设搜索引擎对所述目标网页的信息爬取请求,将所述目标关键词返回至所述预设搜索引擎之前,还包括:
17、生成所述目标关键词对应的键值对;所述键值对的值为所述目标关键词,所述键值对的键为所述目标网页的内容标识;
18、将所述键值对存储至预设数据库中;
19、所述响应于所述预设搜索引擎对所述目标网页的信息爬取请求,将所述目标关键词返回至所述预设搜索引擎,包括:
20、响应于所述预设搜索引擎对所述目标网页的信息爬取请求,根据所述目标网页的内容标识,从所述预设数据库中查询所述键值对;所述信息爬取请求中携带目标网页的内容标识;
21、将所述键值对所包含的所述目标关键词返回至所述预设搜索引擎。
22、可选地,所述对所述搜索建议词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词,包括:
23、对所述搜索建议词进行去停用词处理,并过滤所述搜索建议词内的标点符号,得到待分析词;
24、对所述待分析词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词。
25、可选地,所述方法还包括:
26、按照预设周期,返回所述对目标网页进行特征提取,得到所述目标网页的特征词的步骤。
27、可选地,所述目标网页包括流媒体网页,所述对目标网页进行特征提取,得到所述目标网页的特征词,包括:
28、提取流媒体网页的视频标题,作为所述流媒体网页的特征词。
29、可选地,所述将所述特征词输入至预设搜索引擎中,查询所述特征词关联的搜索建议词,包括:
30、调用所述预设搜索引擎的搜索建议词接口,将所述特征词作为所述搜索建议词接口的输入参数,以使得所述预设搜索引擎查询所述特征词关联的搜索建议词。
31、可选地,所述预设搜索引擎用于将所述目标关键词及所述目标网页的网页标识对应存储,并在接收到对所述目标关键词的搜索请求后,返回所述目标网页的网页标识。
32、第二方面,本发明实施例提供了一种关键词提取装置,包括:
33、提取模块,用于对目标网页进行特征提取,得到所述目标网页的特征词;
34、查询模块,用于将所述特征词输入至预设搜索引擎中,查询所述特征词关联的搜索建议词;所述搜索建议词基于用户搜索历史数据对所述特征词进行分析得到;
35、分析模块,用于对所述搜索建议词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词;
36、响应模块,用于响应于所述预设搜索引擎对所述目标网页的信息爬取请求,将所述目标关键词返回至所述预设搜索引擎,以使所述预设搜索引擎基于所述目标关键词收录所述目标网页。
37、可选地,所述分析模块,具体用于:
38、对所述分词进行词频统计,根据预设词频权重及预设词长度权重,确定所述分词的词频及词长度的加权和,作为所述分词的排序分数;
39、按照所述排序分数从大到小的顺序,从所述分词中选取预设数量个目标分词;
40、对所述预设数量个目标分词进行组合,得到目标关键词。
41、可选地,所述分析模块,具体用于:
42、对所述搜索建议词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定第一关键词;
43、对所述搜索建议词进行自然语言处理,生成所述搜索建议词对应的第二关键词;
44、将所述第一关键词及所述第二关键词作为所述目标关键词。
45、可选地,所述分词作为目标关键词的概率与所述分词的词频及词长度为正相关。
46、可选地,所述装置还包括存储模块,用于:
47、生成所述目标关键词对应的键值对;所述键值对的值为所述目标关键词,所述键值对的键为所述目标网页的内容标识;
48、将所述键值对存储至预设数据库中;
49、所述响应模块,具体用于:
50、响应于所述预设搜索引擎对所述目标网页的信息爬取请求,根据所述目标网页的内容标识,从所述预设数据库中查询所述键值对;
51、将所述键值对所包含的所述目标关键词返回至所述预设搜索引擎。
52、可选地,所述分析模块,具体用于:
53、对所述搜索建议词进行去停用词处理,并过滤所述搜索建议词内的标点符号,得到待分析词;
54、对所述待分析词进行分词处理,得到多个分词,并对所述分词进行词频统计,根据词频统计结果及词长度从所述分词中确定目标关键词。
55、可选地,所述方法还包括更新模块,用于:
56、按照预设周期,返回所述对目标网页进行特征提取,得到所述目标网页的特征词的步骤。
57、可选地,所述目标网页包括流媒体网页,所述提取模块,具体用于:
58、提取流媒体网页的视频标题,作为所述流媒体网页的特征词。
59、可选地,所述查询模块,具体用于:
60、调用所述预设搜索引擎的搜索建议词接口,将所述特征词作为所述搜索建议词接口的输入参数,以使得所述预设搜索引擎查询所述特征词关联的搜索建议词。
61、可选地,所述预设搜索引擎用于将所述目标关键词及所述目标网页的网页标识对应存储,并在接收到对所述目标关键词的搜索请求后,返回所述目标网页的网页标识。
62、第三方面,本发明实施例提供了一种电子设备,包括:
63、处理器;
64、用于存储所述处理器可执行指令的存储器;
65、其中,所述处理器被配置为执行所述指令,以实现上述任一项所述的关键词提取方法。
66、第四方面,本发明实施例提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由关键词提取电子设备的处理器执行时,使得关键词提取电子设备能够执行上述任一项所述的关键词提取方法。
67、与现有技术相比,本技术包括以下优点:
68、对目标网页进行特征提取,得到目标网页的特征词;将特征词输入至预设搜索引擎中,查询特征词关联的搜索建议词;搜索建议词基于用户搜索历史数据对特征词进行分析得到;对搜索建议词进行分词处理,得到多个分词,并对分词进行词频统计,根据词频统计结果及词长度从分词中确定目标关键词;响应于预设搜索引擎对目标网页的信息爬取请求,将目标关键词返回至预设搜索引擎,以使预设搜索引擎基于目标关键词收录目标网页。
69、这样,提取出目标网页的特征词之后,查询特征词关联的搜索建议词,然后,基于搜索建议词确定目标关键词,使得预设搜索引擎基于目标关键词收录目标网页,由于搜索建议词是基于用户搜索历史数据对特征词进行分析得到的,能一定程度上反映出用户的搜索需求,因此,目标关键词也更能匹配用户的搜索需求,从而可以更好地对目标网页进行seo优化,提升目标网页在搜索引擎中的排名,增加网页流量。