本发明涉及搜索词包确定,具体涉及一种搜索词包确定方法、装置、电子设备及存储介质。
背景技术:
1、为了便于检索,每个行业通常会定义一些搜索词,在用户通过这些搜索词进行搜索时,显示对应行业的数据供用户浏览。目前常见的定义方法是人工定义行业所对应的词包并进行模糊匹配。例如:对于男士面霜行业,人工的定义的方法通常将“男”和“面霜”两个词作为条件,对搜索词条进行模糊匹配。
2、但是,这种方法需要大量的前期准备工作获取行业相关的数据进行分析,以提升人工定义的搜索词的准确性。这些工作都需要投入大量的人力,导致现有的方法在人力成本高的同时,获取行业搜索词包的效率也比较低。
技术实现思路
1、为了解决现有技术中存在的上述问题,本技术实施方式提供了一种搜索词包确定方法、装置、电子设备及存储介质,可以实现行业搜索词包的自动生成,降低行业词包的生成成本,提升生成效率。
2、第一方面,本技术的实施方式提供了一种搜索词包确定方法,该方法包括:
3、获取多个搜索词以及与多个搜索词对应的多个召回结果;
4、基于多个召回结果,确定每个搜索词的搜索指标,其中,搜索指标为每个搜索词与第一搜索词之间搜索相关的价值指标,第一搜索词为多个搜索词中除去每个搜索词后剩余的搜索词;
5、在多个搜索词中确定用于表征目标行业的行业词;
6、基于行业词与第二搜索词的搜索指标,确定目标行业的搜索词包,其中,第二搜索词为多个搜索词中除去行业词后剩余的搜索词。
7、在一种可能的实施方式中,每个搜索词的搜索指标包括每个搜索词与剩余的第一搜索词之间的相关系数,以及每个搜索词的搜索热度;
8、基于多个召回结果,确定每个搜索词的搜索指标,包括:
9、基于多个召回结果的访问记录,确定任意两个搜索词之间的相关系数;
10、基于每个搜索词与第一搜索词之间的相关系数,确定每个搜索词的搜索热度。
11、在一种可能的实施方式中,基于多个召回结果的访问记录,确定任意两个搜索词之间的相关系数,包括:
12、基于多个召回结果的访问记录,确定每个召回结果的访问总次数,以及每个召回结果与该召回结果对应的搜索词之间的关联访问次数,其中,关联访问次数为通过对应的搜索词搜索出该召回结果时,对该召回结果进行访问的次数;
13、基于每个召回结果的访问总次数、以及每个召回结果与该召回结果对应的搜索词之间的关联访问次数,确定任意两个搜索词之间的相关系数。
14、在一种可能的实施方式中,基于行业词与第二搜索词的搜索指标,确定目标行业的搜索词包,包括:
15、基于行业词与第二搜索词之间的相关系数,以及行业词与第二搜索词的搜索热度,在第二搜索词中确定多个行业搜索词,其中,每个行业搜索词与行业词之间的相关系数大于第一阈值,行业词的搜索热度与每个行业搜索词的搜索热度的比值大于第二阈值;
16、将行业词和多个行业搜索词作为行业词对应的行业的搜索词包。
17、在一种可能的实施方式中,在多个搜索词中确定用于表征目标行业的行业词,包括:
18、将多个搜索词与预设的行业词典进行匹配,确定行业词,其中,行业词典预先记载了多个行业词。
19、在一种可能的实施方式中,在将多个搜索词与预设的行业词典进行匹配,确定行业词之前,方法还包括:
20、获取商业类目表中不可分割的多个最小商业类目;
21、将每个最小商业类目的商品名称作为每个最小商业类目对应的行业的行业词;
22、基于多个行业词生成行业词典。
23、在一种可能的实施方式中,多个召回结果为通过多个搜索词中的任意一个搜索词搜索出并进行有效访问的数据,其中,有效访问指对每个召回结果的访问时间大于该召回结果的数据类型对应的有效访问时间阈值。
24、在一种可能的实施方式中,方法还包括:
25、获取目标行业的历史搜索词包;
26、基于搜索词包和历史搜索词包,确定多个第一差别词、多个第二差别词和多个共有词,其中,每个第一差别词为搜索词包中有而历史词包中没有的词,每个第二差别词为历史搜索词包中有而搜索词包中没有的词;
27、对第一差别词和第二差别词进行筛选,得到多个目标词;
28、将多个目标词和多个共有词作为搜索词包对应的行业的搜索词包。
29、在一种可能的实施方式中,对第一差别词和第二差别词进行筛选,得到多个目标词,包括:
30、基于每个第一差别词与每个第二差别词之间的相似度,在多个第一差别词和多个第二差别词中确定多个差别词组,其中,每个差别词组包括第三差别词和第四差别词,多个第一差别词包括第三差别词,多个第二差别词包括第四差别词,第三差别词和第四差别词之间的相似度大于第三阈值;
31、对每个差别词组进行筛选,得到多个第五差别词;
32、将多个第五差别词,和多个第一差别词和多个第二差别词中除去多个差别词组中的差别词后剩余的差别词,作为多个目标词。
33、在一种可能的实施方式中,对每个差别词组进行筛选,得到多个第五差别词,包括:
34、确定每个差别词组中,第三差别词和第四差别词在预设时间段内的使用热度;
35、若第四差别词的使用热度大于或等于第三差别词的使用热度,将第三差别词和第四差别词确定为每个差别词组的保留词;
36、若第四差别词的使用热度小于第三差别词的使用热度,确定第三差别词的使用热度与第四差别词的使用热度的差;
37、若第三差别词的使用热度与第四差别词的使用热度的差大于第四阈值,将第三差别词确定为每个差别词组的保留词;
38、若第三差别词的使用热度与第四差别词的使用热度的差小于或等于第四阈值,将第三差别词和第四差别词确定为每个差别词组的保留词;
39、将多个差别词组对应的保留词,作为多个第五差别词。
40、在一种可能的实施方式中,方法还包括:
41、获取搜索词包中的多个品牌词;
42、基于每个品牌词的搜索热度,将多个品牌词进行排序,得到搜索词包对应的行业的品牌排名。
43、在一种可能的实施方式中,方法还包括:
44、获取搜索词包中每个搜索词的搜索次数;
45、基于每个搜索词的搜索次数,确定搜索词包对应的行业的搜索趋势。
46、第二方面,本技术的实施方式提供了一种搜索词包确定装置,包括:
47、获取模块,用于获取多个搜索词以及与多个搜索词对应的多个召回结果;
48、分析模块,用于基于多个召回结果,确定每个搜索词的搜索指标,其中,搜索指标为每个搜索词与第一搜索词之间搜索相关的价值指标,第一搜索词为多个搜索词中除去每个搜索词后剩余的搜索词;
49、确定模块,用于在多个搜索词中确定用于表征目标行业的行业词;
50、处理模块,用于基于行业词与第二搜索词的搜索指标,确定目标行业的搜索词包,其中,第二搜索词为多个搜索词中除去行业词后剩余的搜索词。
51、第三方面,本技术实施方式提供一种电子设备,包括:处理器,处理器与存储器相连,存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序,以使得电子设备执行如第一方面的方法。
52、第四方面,本技术实施方式提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序使得计算机执行如第一方面的方法。
53、第五方面,本技术实施方式提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机可操作来使计算机执行如第一方面的方法。
54、实施本技术实施方式,具有如下有益效果:
55、在本技术实施方式中,通过获取多个搜索词以及与多个搜索词对应的多个召回结果,继而基于多个召回结果,确定标识每个搜索词与多个搜索词中剩余的第一搜索词之间搜索相关的价值的搜索指标。然后,在多个搜索词中确定用于表征目标行业的行业词,继而基于行业词与多个搜索词中剩余的第二搜索词的搜索指标,确定目标行业的搜索词包。具体而言,通过对包含行业词的多个搜索词在实际运用中的多个召回结果,量化出标识每个搜索词在实际运用中与其他搜索词之间的真实的搜索价值的搜索指标。基于此,对于多个搜索词中的行业词,即可通过该搜索指标确定其与其他搜索词之间真实的搜索价值,继而在多个搜索词中确定出该行业词对应行业的搜索词包。由此,无需人工干预即可实现行业搜索词包的自动生成,极大的降低行业词包的生成成本,提升了搜索词包的生成效率。同时,通过真实的搜索词和召回结果,使得生成的搜索词包更加贴近用户的真实使用场景,使生成的搜索词包具备更高的搜索价值和精准性。