本发明涉及计算机技术领域,特别涉及一种品牌词的识别方法及系统、对象推荐方法及系统、设备及存储介质。
背景技术:
随着技术的进步和数据量的增长,用户对搜索的使用体验要求越来越高,特别是对品牌词相关的数据进行检索时,用户期待能快速获得自己想要的品牌或商铺。目前,商家常常通过填写多个品牌词来提升自己的排名。就使得,现有技术的仅通过搜索词中的品牌词对搜索结果进行过滤,得到的结果往往不是用户真正想要的,搜索体验不佳。
技术实现要素:
本发明要解决的技术问题是为了克服现有技术中仅通过搜索词中的品牌词对搜索结果进行过滤,得到的结果往往不是用户真正想要的缺陷,提供一种品牌词的识别方法及系统、对象推荐方法及系统、设备及存储介质。
本发明是通过下述技术方案来解决上述技术问题:
一种品牌词的识别方法,所述识别方法包括:
获取历史用户数据;所述历史用户数据包括搜索词以及基于搜索词的点击行为数据和订单行为数据;
将所述搜索词与品牌词库中存储的品牌词进行匹配,并将包含匹配成功的搜索词的历史用户数据加入候选集;
依次根据所述点击行为数据、所述品牌词和所述订单行为数据对所述候选集中的历史用户数据进行过滤。
较佳地,所述品牌词包括:品牌名称、子品牌名称和品牌简称。
较佳地,所述点击行为数据包括被点击的对象的品牌词;
根据所述点击行为数据对所述候选集中的历史用户数据进行过滤,具体包括:
根据所述点击行为数据计算基于每个搜索词搜索得到的对象的品牌词的点击次数和点击占比;
将搜索得到的所述品牌词按照所述点击占比由大到小的顺序进行排序;
将所述点击次数大于次数阈值且点击占比排序靠前的若干对象的品牌词选择为候选品牌词。
将包含所述候选品牌词的历史用户数据作为点击过滤数据。
较佳地,根据所述品牌词对所述历史用户数据进行过滤,具体包括:
将搜索词中的品牌词与所述候选品牌词相同的点击过滤数据作为品牌词过滤数据。
较佳地,所述订单行为数据包括下单的对象的品牌词;
根据所述订单行为数据对所述历史用户数据进行过滤,具体包括:
根据所述订单行为数据统计所述品牌词过滤数据中每个对象的下单数量并按照所述下单数量由大到小的顺序进行排序;
将排序靠前的若干对象的品牌词选择为最终的品牌词;
存储最终的品牌词与搜索关键词的对应关系。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的品牌词的识别方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的品牌词的识别方法的步骤。
本发明还提供一种对象推荐方法,所述对象推荐方法包括:
获取待识别搜索词;
利用上述任一项所述的品牌词的识别方法识别与所述待识别搜索词对应的目标品牌词;
推荐所述目标品牌词的对象。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的对象推荐方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的对象推荐方法的步骤。
本发明还提供一种品牌词的识别系统,所述识别系统包括:
数据获取模块,用于获取历史用户数据;所述历史用户数据包括搜索词以及基于搜索词的点击行为数据和订单行为数据;
匹配模块,用于将所述搜索词与品牌词库中存储的品牌词进行匹配,并将包含匹配成功的搜索词的历史用户数据加入候选集;
过滤模块,用于依次根据所述点击行为数据、所述品牌词和所述订单行为数据对所述候选集中的历史用户数据进行过滤。
较佳地,所述点击行为数据包括被点击的对象的品牌词;
所述过滤模块具体包括:
计算单元,用于根据所述点击行为数据计算基于每个搜索词搜索得到的对象的品牌词的点击次数和点击占比;
第一排序单元,用于将搜索得到的所述品牌词按照所述点击占比由大到小的顺序进行排序;
第一选择单元,用于将所述点击次数大于次数阈值且点击占比排序靠前的若干对象的品牌词选择为候选品牌词,并将包含所述候选品牌词的历史用户数据选择为点击过滤数据。
较佳地,所述过滤模块还包括:
第二选择单元,用于将搜索词中的品牌词与所述候选品牌词相同的点击过滤数据选择为品牌词过滤数据。
较佳地,所述订单行为数据包括下单的对象的品牌词;
所述过滤模块还包括:
第二排序单元,用于根据所述订单行为数据统计所述品牌词过滤数据中每个对象的下单数量并按照所述下单数量由大到小的顺序进行排序;
第三选择单元,用于将排序靠前的若干对象的品牌词选择为最终的品牌词;
存储单元,用于存储最终的品牌词与搜索关键词的对应关系。
本发明还提供一种对象推荐系统,所述对象推荐系统包括:搜索词获取模块、推荐模块和上述任意一项所述的品牌词的识别系统;
所述搜索词获取模块用于获取待识别搜索词;
所述品牌词的识别系统用于识别与所述待识别搜索词对应的目标品牌词;
所述推荐模块用于推荐所述目标品牌词的对象。
本发明的积极进步效果在于:本发明中,不局限于品牌词,还根据用户的点击行为和下单行为对品牌词进行识别判断,得到结果能真实反映用户的行为、需求。因此,采用本发明的技术方案有助于更准确地识别品牌词,为对象推荐提供参考。
附图说明
图1为本发明实施例1的品牌词的识别方法的流程图。
图2为图1中步骤104的具体流程图。
图3为图1中步骤106的具体流程图。
图4为本发明实施例2的电子设备的硬件结构示意图。
图5为本发明实施例4的对象推荐方法的流程图。
图6为本发明实施例5的品牌词的识别系统的模块示意图。
具体实施方式
下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
实施例1
如图1所示,本实施例的品牌词的识别方法包括以下步骤:
步骤101、获取历史用户数据。
其中,历史用户数据包括搜索词以及基于搜索词的点击行为数据和订单行为数据。点击行为也即用户基于搜索词在互联网站上进行搜索,对搜索得到的结果(多个搜索对象)进行点击浏览。点击行为数据包括被点击的对象的品牌词。订单行为数据包括下单的对象的品牌词。
步骤102、对历史用户数据进行清洗以及格式化处理。
清洗规则如下:
去除点击数量靠前1%的用户数据,这部分数据大部分为非人为数据;
去除没有用户id(身份标识号码)的数据;
去除无法判断来源的数据;
去除单天数据过多的数据;
去除黑名单ip(网络之间互连的协议)数据。
格式化处理包括:
对搜索词(query)进行繁简转换、大小写转换、全角半角转换;
将搜索词中多个空格压缩成一个空格;
将搜索词中空格两边字符类型不一致的进行合并。
步骤103、将搜索词与品牌词库中存储的品牌词进行匹配,并将包含匹配成功的搜索词的历史用户数据加入候选集。
步骤103也即将搜索词中不包含品牌词的历史用户数据滤除掉。
例如,品牌词库存储有vivo(一种手机品牌)、华为、华为手机和魅族这三个品牌词。若多个用户分别以手机、vivo和华为手机作为搜索词进行搜索,由于品牌词库中不包含“手机”这个品牌词,则搜索词为“手机”的历史用户数据不会被加入候选集。加入候选集的历史用户数据则为:
用户1:搜索词“华为”,点击mate10次数3次,下单购买华为手机;
用户2:关键词“华为手机”,点击mate10次数2次,点击vivo次数1次,下单购买华为手机;
用户3:关键词“华为手机”,点击荣耀v10次数1次,下单购买华为手机;
用户4:关键词“vivo手机”,点击vivo的机型次数7次,点击魅族次数1次,下单购买vivo手机。
本实施例中,品牌词库不仅包括品牌名称,还包括品牌简称和子母品牌信息,扩展、丰富了品牌词库的内容。
步骤104、根据点击行为数据对候选集中的历史用户数据进行过滤,得到点击过滤数据。
本实施例中,如图2所示,步骤104具体包括:
步骤104-1、根据点击行为数据计算基于每个搜索词搜索得到的对象的品牌词的点击次数和点击占比。
步骤104-2、将搜索得到的品牌词按照点击占比由大到小的顺序进行排序。
步骤104-3、将点击次数大于次数阈值且点击占比排序靠前的若干对象的品牌词选择为候选品牌词。
步骤104-4、将包含候选品牌词的历史用户数据作为点击过滤数据。
还是以上面加入候选集的历史用户数据为例,步骤140-1的计算结果如下:
搜索词“华为”,点击华为手机次数6次,点击占比为6/11。
搜索词“华为手机”,点击华为手机次数6次,点击占比为6/11;点击vivo手机次数7次,点击占比为7/11。
搜索词“vivo手机”,点击vivo手机次数7次,点击占比为7/11;点击魅族1次,点击占比为1/11。
本实施例中,次数阈值可根据实际情况自行设置,若次数阈值设置为5,则从候选集中将点击次数小于等于5的数据滤除掉,从剩下的数据中选取点击占比排序前二(也可以是排名第一,或者排序前三,根据实际需求自行设置)的品牌词,得到候选品牌词为华为、vivo,点击过滤数据为:
搜索词“华为”,点击华为手机次数6次,点击占比为6/11;
搜索词“华为手机”,点击华为手机次数6次,点击占比为6/11;
搜索词“华为手机”,点击vivo手机次数7次,点击占比为7/11;
搜索词“vivo手机”,点击vivo手机次数7次,点击占比为7/11。
步骤105、根据品牌词对点击过滤数据进行过滤,得到品牌词过滤数据。
本实施例中,步骤105具体包括:
将搜索词中的品牌词与候选品牌词相同的点击过滤数据作为品牌词过滤数据。也即从每条点击过滤数据的搜索词中提取出品牌词,比对该品牌词与点击占比靠前的对象的品牌词(候选品牌词)是否相同,若不相同,则被滤除。
经过步骤105之后,“搜索词“华为手机”,点击vivo手机次数7次,点击占比为7/11”该条点击过滤数据将被滤除,得到品牌词过滤数据为:。
搜索词“华为”,点击华为手机次数6次,点击占比为6/11;
搜索词“华为手机”,点击华为手机次数6次,点击占比为6/11;
搜索词“vivo手机”,点击vivo手机次数7次,点击占比为7/11。
步骤106、根据订单行为数据对品牌词过滤数据进行过滤,得到过滤结果。
本实施例中,如图3所示,步骤106具体包括:
步骤106-1、根据订单行为数据统计品牌词过滤数据中每个对象的下单数量并按照下单数量由大到小的顺序进行排序。
步骤106-2、将排序靠前的若干对象的品牌词选择为最终的品牌词。
步骤106-3、输出最终的品牌词与搜索关键词的对应关系。
上述得到品牌词过滤数据中,用户购买华为手机的下单数量为3,用户购买vivo手机的下单数量为1,则将下单数量排名第一(也可以是排序前二或前三,根据实际需求自行设置)的华为手机的品牌词选择为最终的品牌词,输出的过滤结果为:
与搜索词“华为”对应的品牌词为“华为”。
与搜索词“华为手机”对应的品牌词为“华为”。
本实施例中,对进行品牌词匹配后的历史用户数据依次进行了点击行为数据、品牌词和订单行为数据过滤,得到的过滤结果(搜索词与对象品牌的对应关系)真实表征了用户的行为。因此,采用本发明的技术方案有助于更准确地识别品牌词,为对象推荐提供了参考。
本实施例中,采用hadoop分布式计算框架来实现数据计算,可轻松处理t级别以上的数据,并支持快速扩展。
实施例2
图4为本发明实施例2提供的一种电子设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性电子设备30的框图。图4显示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:至少一个处理器31、至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
总线33包括数据总线、地址总线和控制总线。
存储器32可以包括易失性存储器,例如随机存取存储器(ram)321和/或高速缓存存储器322,还可以进一步包括只读存储器(rom)323。
存储器32还可以包括具有一组(至少一个)程序模块324的程序/实用工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的品牌词的识别方法。
电子设备30也可以与一个或多个外部设备34(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口35进行。并且,电子设备30还可以通过网络适配器36与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器36通过总线33与电子设备30的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
实施例3
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的品牌词的识别方法的步骤。
实施例4
如图5所示,本实施例的对象推荐方法包括:
步骤201、获取用户输入的待识别搜索词。
步骤202、识别与待识别搜索词对应的目标品牌词。
具体的,利用实施例1中的品牌词的识别方法识别与待识别搜索词对应的目标品牌词。
步骤203、将目标品牌词的对象推荐给用户。
本实施例中,目标品牌词是根据用户的点击行为和下单行为识别出的,能真实反映用户的行为、需求,将目标品牌词的对象推荐给用户,始终是用户相同的,准确性大大提高。
实施例5
如图6所示,本实施例的品牌词的识别系统包括:数据获取模块1、匹配模块2和过滤模块3。
数据获取模块1用于获取历史用户数据。其中,历史用户数据包括搜索词以及基于搜索词的点击行为数据和订单行为数据。点击行为也即用户基于搜索词在互联网站上进行搜索,对搜索得到的结果(多个搜索对象)进行点击浏览。点击行为数据包括被点击的对象的品牌词。订单行为数据包括下单的对象的品牌词。
匹配模块2用于将搜索词与品牌词库中存储的品牌词进行匹配,并将包含匹配成功的搜索词的历史用户数据加入候选集。也即将搜索词中不包含品牌词的历史用户数据滤除掉。当前,匹配模块2进行匹配之前,可对历史用户数据进行清洗。
过滤模块3用于依次根据点击行为数据、品牌词和订单行为数据对候选集中的历史用户数据进行过滤。
具体的,过滤模块包括:计算单元、第一排序单元、第一选择单元、第二选择单元、第二排序单元、第三选择单元和存储单元。
以下介绍过滤模块3根据点击行为数据对历史用户数据进行过滤的过程:
计算单元根据点击行为数据计算基于每个搜索词搜索得到的对象的品牌词的点击次数和点击占比。第一排序单元将搜索得到的品牌词按照点击占比由大到小的顺序进行排序。第一选择单元将点击次数大于次数阈值且点击占比排序靠前的若干对象的品牌词选择为候选品牌词,并将包含候选品牌词的历史用户数据选择为点击过滤数据。
以下介绍过滤模块3根据品牌词对点击过滤数据进行过滤的过程:
第二选择单元将搜索词中的品牌词与候选品牌词相同的点击过滤数据选择为品牌词过滤数据。也即从每条点击过滤数据的搜索词中提取出品牌词,比对该品牌词与点击占比靠前的对象的品牌词(候选品牌词)是否相同,若不相同,则被滤除。
以下介绍过滤模块3根据订单行为数据对品牌词过滤数据进行过滤的过程:
第二排序单元根据订单行为数据统计品牌词过滤数据中每个对象的下单数量并按照下单数量由大到小的顺序进行排序;第三选择单元将排序靠前的若干对象的品牌词选择为最终的品牌词;存储单元存储最终的品牌词与搜索关键词的对应关系。以为对象推荐提供参考。
本实施例中,不局限于品牌词,还根据用户的点击行为和下单行为对品牌词进行识别判断,得到结果能真实反映用户的行为、需求。因此,采用本发明的技术方案有助于更准确地识别品牌词。
实施例6
本实施例提供一种对象推荐系统,其包括:搜索词获取模块、推荐模块和实施例5中的品牌词的识别系统。
搜索词获取模块用于获取用户在互联网站上输入的待识别搜索词。品牌词的识别系统用于识别与该待识别搜索词对应的目标品牌词。具体的,品牌词的识别系统将待识别搜索词与存储单元中存储的品牌词进行匹配,获取与该待识别搜索词对应的目标品牌词。推荐模块推荐则将目标品牌词的对象推荐给用户。
本实施例中,目标品牌词是根据用户的点击行为和下单行为识别出的,能真实反映用户的行为、需求,将目标品牌词的对象推荐给用户,始终是用户相同的,准确性大大提高。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。