基于大数据的数据筛选方法、装置、设备及存储介质与流程

文档序号:30581836发布日期:2022-06-29 12:41阅读:240来源:国知局
基于大数据的数据筛选方法、装置、设备及存储介质与流程

1.本发明涉及计算机技术领域,尤其涉及一种基于大数据的数据筛选方法、装置、设备及存储介质。


背景技术:

2.企业的数据库中一般会存在大量的用户,而企业为了提高自身的销售额,一般会向用户推送用户感兴趣的产品,以便于用户进行产品购买,但是,目前在企业确定了需要推送的产品之后,难以确定哪些用户对该产品感兴趣,无法精准的进行产品信息推送,从而导致产品信息推送的效果并不理想。
3.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

4.本发明的主要目的在于提供一种基于大数据的数据筛选方法、装置、设备及存储介质,旨在解决现有技术无法精准的进行产品信息推送的技术问题。
5.为实现上述目的,本发明提供了一种基于大数据的数据筛选方法,所述方法包括以下步骤:
6.获取待推荐产品的产品信息,根据所述产品信息构建用户匹配条件;
7.在大数据引擎中查找待筛选用户,获得待筛选用户集合;
8.获取所述待筛选用户集合中各待筛选用户对应的产品消费信息;
9.将所述用户匹配条件与所述产品消费信息进行匹配,根据匹配结果对所述待筛选用户集合进行过滤,获得待推荐用户集合。
10.可选的,所述获取所述待筛选用户集合中各待筛选用户对应的产品消费信息的步骤,包括:
11.在所述大数据引擎中查找所述待筛选用户集合中各待筛选用户对应的历史记录;
12.对所述历史记录进行过滤,获得有效历史记录;
13.根据所述有效历史记录确定各待筛选用户对应的消费力区间及购买倾向类型;
14.根据所述消费力区间及所述购买倾向类型构建所述待筛选用户对应的产品消费信息。
15.可选的,所述对所述历史记录进行过滤,获得有效历史记录的步骤,包括:
16.将所述历史记录划分为历史浏览记录及历史购买记录;
17.将对应的历史购买时刻小于或等于预设有效时刻的历史购买记录清除,获得有效购买记录;
18.获取各历史浏览记录对应的浏览起始时刻及浏览结束时刻;
19.根据所述浏览起始时刻及所述浏览结束时刻计算各历史浏览记录对应的商品浏览时长;
20.将对应的浏览时长大于或等于预设有效时长的历史浏览记录作为有效浏览记录;
21.将所述有效浏览记录及所述有效购买记录作为有效历史记录。
22.可选的,所述将所述用户匹配条件与所述产品消费信息进行匹配,根据匹配结果对所述待筛选用户集合进行过滤,获得待推荐用户集合的步骤,包括:
23.将所述用户匹配条件与所述产品消费信息进行匹配,获得所述待筛选用户集合中各待筛选用户对应的产品匹配分值;
24.根据所述产品匹配分值从大到小对所述待筛选用户集合中各待筛选用户进行排序,获得用户排序结果;
25.从所述用户排序结果中选取数量与预设推荐数量一致的待筛选用户,并根据选取的待筛选用户构建待推荐用户集合。
26.可选的,所述根据所述产品匹配分值从大到小对所述待筛选用户集合中各待筛选用户进行排序,获得用户排序结果的步骤之前,还包括:
27.获取所述待筛选用户集合中各待筛选用户对应的产品评价记录;
28.根据所述产品评价记录确定产品评价级别及被评产品类型;
29.根据所述产品评价级别及所述被评产品类型生成匹配调整分值;
30.根据所述匹配调整分值对所述产品匹配分值进行调整,获得产品推荐分值;
31.相应的,所述根据所述产品匹配分值从大到小对所述待筛选用户集合中各待筛选用户进行排序,获得用户排序结果的步骤,包括:
32.根据所述产品推荐分值对所述待筛选用户集合中各待筛选用户进行排序,获得用户排序结果。
33.可选的,所述根据所述产品评价级别及所述被评产品类型生成匹配调整分值的步骤,包括:
34.获取所述待推荐产品的产品类型;
35.通过预设类型相似度模型确定所述被评产品类型与所述待推荐产品的产品类型的类型相似度;
36.根据所述类型相似度确定相似度级别;
37.查找所述相似度级别对应的评价分值映射表;
38.根据所述产品评价级别在所述评价分值映射表中查找对应的匹配调整分值。
39.可选的,所述在大数据引擎中查找待筛选用户,获得待筛选用户集合的步骤,包括:
40.在大数据引擎中查找用户活动日志,根据所述用户活动日志确定活跃用户,获得活跃用户集合;
41.统计所述活跃用户集合中的用户数量,若所述用户数量大于预设数量阈值,则检测所述活跃用户集合中各活跃用户是否存在商品浏览行为;
42.将所述活跃用户集合中不存在商品浏览行为的活跃用户清除,获得待筛选用户集合。
43.此外,为实现上述目的,本发明还提出一种基于大数据的数据筛选装置,所述基于大数据的数据筛选装置包括以下模块:
44.条件生成模块,用于获取待推荐产品的产品信息,根据所述产品信息构建用户匹
配条件;
45.数据查找模块,用于在大数据引擎中查找待筛选用户,获得待筛选用户集合;
46.信息获取模块,用于获取所述待筛选用户集合中各待筛选用户对应的产品消费信息;
47.数据筛选模块,用于将所述用户匹配条件与所述产品消费信息进行匹配,根据匹配结果对所述待筛选用户集合进行过滤,获得待推荐用户集合。
48.此外,为实现上述目的,本发明还提出一种数据筛选设备,所述数据筛选设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的基于大数据的数据筛选程序,所述基于大数据的数据筛选程序被处理器执行时实现如上所述的基于大数据的数据筛选方法的步骤。
49.此外,为实现上述目的,本发明还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于大数据的数据筛选程序,所述基于大数据的数据筛选程序执行时实现如上所述的基于大数据的数据筛选方法的步骤。
50.本发明通过获取待推荐产品的产品信息,根据产品信息构建用户匹配条件;在大数据引擎中查找待筛选用户,获得待筛选用户集合;获取待筛选用户集合中各待筛选用户对应的产品消费信息;将用户匹配条件与产品消费信息进行匹配,根据匹配结果对待筛选用户集合进行过滤,获得待推荐用户集合。由于会将根据待推荐产品的产品信息与待筛选用户的产品消费信息的匹配结果对待筛选用户集合进行过滤,将其中对待推荐产品感兴趣可能性较低的用户清除,使得产品推送时更加准确,从而提高产品信息推送的效果。
附图说明
51.图1是本发明实施例方案涉及的硬件运行环境的电子设备的结构示意图;
52.图2为本发明基于大数据的数据筛选方法第一实施例的流程示意图;
53.图3为本发明基于大数据的数据筛选方法第二实施例的流程示意图;
54.图4为本发明基于大数据的数据筛选方法第三实施例的流程示意图;
55.图5为本发明基于大数据的数据筛选装置第一实施例的结构框图。
56.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
57.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
58.参照图1,图1为本发明实施例方案涉及的硬件运行环境的数据筛选设备结构示意图。
59.如图1所示,该电子设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram),也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如
磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
60.本领域技术人员可以理解,图1中示出的结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
61.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于大数据的数据筛选程序。
62.在图1所示的电子设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明电子设备中的处理器1001、存储器1005可以设置在数据筛选设备中,所述电子设备通过处理器1001调用存储器1005中存储的基于大数据的数据筛选程序,并执行本发明实施例提供的基于大数据的数据筛选方法。
63.本发明实施例提供了一种基于大数据的数据筛选方法,参照图2,图2为本发明一种基于大数据的数据筛选方法第一实施例的流程示意图。
64.本实施例中,所述基于大数据的数据筛选方法包括以下步骤:
65.步骤s10:获取待推荐产品的产品信息,根据所述产品信息构建用户匹配条件。
66.需要说明的是,本实施例的执行主体可以是所述数据筛选设备,所述数据筛选设备可以是个人电脑、服务器等电子设备,还可以为其他可实现相同或相似功能的设备,本实施例对此不加以限制,在本实施例及下述各实施例中,以数据筛选设备为例对本发明基于大数据的数据筛选方法进行说明。
67.需要说明的是,待推荐产品可以是需要进行产品推荐的产品,待推荐产品可以由数据筛选设备的管理人员指定。产品信息可以包括产品规格、产品价格、产品类型、产品上架时刻等信息。根据产品信息构建用户匹配条件可以是获取产品生成规则,根据产品生成规则对产品信息进行转换,从而获得用户匹配条件。
68.步骤s20:在大数据引擎中查找待筛选用户,获得待筛选用户集合。
69.需要说明的是,大数据引擎可以是用于存储海量用户相关数据的数据处理引擎。在大数据引擎中查找待筛选用户,获得待筛选用户集合可以是在大数据引擎中查找在预设时间范围内有活动记录的用户,并将查找到的用户作为待筛选用户,然后根据待筛选用户的用户信息构建待筛选用户集合。其中,预设时间范围可以由数据筛选设备的管理人员根据实际需要将进行设置,例如:将预设时间范围设置为7天内。用户信息可以包括用户名、用户标识、用户最近活跃时刻等信息。
70.在具体实现中,为了在需要分析的用户数量过多时可将明显不符合推荐需求的用户清除,减少后续的运算量,减少不必要的性能开销,本实施例所述步骤s20,可以包括:
71.在大数据引擎中查找用户活动日志,根据所述用户活动日志确定活跃用户,获得活跃用户集合;
72.统计所述活跃用户集合中的用户数量,若所述用户数量大于预设数量阈值,则检测所述活跃用户集合中各活跃用户是否存在商品浏览行为;
73.将所述活跃用户集合中不存在商品浏览行为的活跃用户清除,获得待筛选用户集合。
74.需要说明的是,预设数量阈值可以由数据筛选设备的管理人员根据实际需要进行设置,例如:将预设数量阈值设置为1000000。而若是某活跃用户并不存在商品浏览行为,则可以判定该活跃用户近期可能并没有商品购买意向,因此,可以将其中活跃用户集合中清
除。
75.在实际使用中,检测活跃用户是否存在商品浏览行为可以是在大数据引擎中查找是否存在该活跃用户对应的历史浏览记录,若存在,则判定该活跃用户存在商品浏览行为,若不存在,则判定该活跃用户不存在商品浏览行为。
76.可以理解的是,若活跃用户集合中的用户数量大于预设数量阈值,则表示当前需要进行分析的用户数量过多,此时会给设备带来较大的运算压力,且分析时长也会较长,此时,为了降低设备的运算压力,缩短分析时长,并减少不必要的性能消耗,可以将近期明显没有商品购买意向的用户从活跃用户集合中。
77.步骤s30:获取所述待筛选用户集合中各待筛选用户对应的产品消费信息。
78.需要说明的是,产品消费信息可以包括产品消费区间、产品购买间隔、感兴趣产品类型等信息。获取待筛选用户集合中各待筛选用户对应的产品消费信息可以是在大数据引擎中查找各待筛选用户的用户活动日志,对用户活动日志进行统计,从而获得各待筛选用户对应的产品消费信息。其中,用户活动日志可以包括用户浏览记录、用户登录记录、用户购买记录等日志。
79.步骤s40:将所述用户匹配条件与所述产品消费信息进行匹配,根据匹配结果对所述待筛选用户集合进行过滤,获得待推荐用户集合。
80.需要说明的是,将用户匹配条件与产品消费信息进行匹配,可以获得待推荐产品与各待筛选用户的产品消费信息的匹配度,匹配度越高,则说明该待筛选用户对待推荐产品感兴趣的可能性就越高。
81.在具体实现中,根据匹配结果对待筛选用户集合进行过滤,获得待推荐用户集合可以是根据匹配结果中的匹配度对待筛选用户集合进行过滤,将对应的产品消费信息与待推荐产品的匹配度低于预设阈值的待筛选用户从筛选用户集合中过滤掉,并将过滤后的集合作为待推荐用户集合。
82.在实际使用中,在确定待推荐用户集合后,可以根据待推荐产品的产品信息生成推荐信息,然后将推荐信息推送给待推荐用户集合中的各个用户。
83.可以理解的是,根据匹配结果对待筛选用户集合进行过滤,获得待推荐用户集合可以将待筛选用户集合中对待推荐产品感兴趣可能性较低的用户过滤掉,使得最终获得的待推荐用户集合中的用户均是对待推荐产品感兴趣可能性较高的用户,从而实现对产品信息的精准推送,提高产品推送的效果。
84.本实施例通过获取待推荐产品的产品信息,根据产品信息构建用户匹配条件;在大数据引擎中查找待筛选用户,获得待筛选用户集合;获取待筛选用户集合中各待筛选用户对应的产品消费信息;将用户匹配条件与产品消费信息进行匹配,根据匹配结果对待筛选用户集合进行过滤,获得待推荐用户集合。由于会将根据待推荐产品的产品信息与待筛选用户的产品消费信息的匹配结果对待筛选用户集合进行过滤,将其中对待推荐产品感兴趣可能性较低的用户清除,使得产品推送时更加准确,从而提高产品信息推送的效果。
85.参考图3,图3为本发明一种基于大数据的数据筛选方法第二实施例的流程示意图。
86.基于上述第一实施例,本实施例基于大数据的数据筛选方法的所述步骤s30,包括:
87.步骤s301:在所述大数据引擎中查找所述待筛选用户集合中各待筛选用户对应的历史记录。
88.需要说明的是,历史记录可以是用户的历史活动记录,可以包括历史浏览记录及历史购买记录。在大数据引擎中查找待筛选用户集合中各待筛选用户对应的历史记录可以是根据待筛选用户集合中各待筛选用户的用户标识构建记录查询条件,根据记录查询条件在大数据引擎中进行查找,获得多条历史记录,然后根据各历史记录对应的用户标识进行对获得的多条历史记录进行分组,从而获得各待筛选用户对应的历史记录。
89.步骤s302:对所述历史记录进行过滤,获得有效历史记录。
90.需要说明的是,并非所有的历史记录均有参考价值,用户的购买倾向及感兴趣倾向是会随着时间进行变化的,因此,可以将历史记录中部分已经失效的记录过滤掉,并将剩余的历史记录作为有效历史记录,从而避免已经失效的历史记录会对匹配产生误导。
91.在具体实现中,为了合理的对历史记录进行过滤,本实施例所述步骤s302,可以包括:
92.将所述历史记录划分为历史浏览记录及历史购买记录;
93.将对应的历史购买时刻小于或等于预设有效时刻的历史购买记录清除,获得有效购买记录;
94.获取各历史浏览记录对应的浏览起始时刻及浏览结束时刻;
95.根据所述浏览起始时刻及所述浏览结束时刻计算各历史浏览记录对应的商品浏览时长;
96.将对应的浏览时长大于或等于预设有效时长的历史浏览记录作为有效浏览记录;
97.将所述有效浏览记录及所述有效购买记录作为有效历史记录。
98.需要说明的是,根据历史记录中包含的用户行为的不同可以将历史记录分为历史浏览记录及历史购买记录。由于用户的喜好会随着时间的推进发生变化,距离当前时刻较长的历史购买记录已经不可作为对用户喜好判定的依据,因此,可以将此部分历史购买记录进行清除。
99.在实际使用中,若历史购买记录对应的历史购买时刻小于或等于预设有效时刻,则表示该历史购买记录距离当前时刻已经过长,已经无法作为对用户喜好判定的依据,因此,可以将对应的历史购买时刻小于或等于预设有效时刻的历史购买记录清除,然后将剩余的历史购买记录作为有效购买记录。其中,预设有效时刻可以由数据筛选设备的管理人员根据实际需要进行设置,例如:假设当前时刻为“2021-09-14 09:00”,管理人员认为距离当前时刻超过1年的历史购买记录已经失效,无法用户判定用户喜好,则可以将预设有效时刻设置为“2020-09-14 09:00”。
100.需要说明的是,浏览起始时刻可以是历史浏览记录中记录的用户开始浏览产品信息的时刻,浏览结束时刻可以是历史浏览记录中记录的用户结束浏览产品信息的时刻。具体的,开始与结束浏览产品可以依据用户开启或关系产品的产品主页动作进行确定,例如:用户点开产品的产品主页,则可以判定用户开始浏览产品信息;用户关系产品的产品主页,则可以判定用户结束浏览产品信息。
101.在实际使用中,用户的历史浏览记录的量级过大,大数据引擎考虑到性能一般也仅会留存近期的历史浏览记录,因此,对历史浏览记录无须使用对应的记录时刻进行过滤,
但是,若历史浏览记录记录的用户浏览产品的总时长小于预设有效时长,则表示用户可能仅仅是误点击,或是随机点击而已,此时,该历史浏览记录也无法用户判断用户的喜好,因此,可以将对应的浏览时长大于或等于预设有效时长的历史浏览记录作为有效浏览记录。
102.步骤s303:根据所述有效历史记录确定各待筛选用户对应的消费力区间及购买倾向类型。
103.需要说明的是,有效历史记录中包括有效购买记录和有效浏览记录,而浏览与购买的权重也是并不相同的,因此,可以为购买记录和浏览记录设置不同的统计分值,例如:将购买记录的统计分值设置为1,将浏览记录的统计分值设置为0.3。
104.在实际使用中,根据有效历史记录确定各待筛选用户对应的消费力区间及购买倾向类型可以是对有效历史记录进行统计,确定待筛选用户在各消费力区间的统计分值及各购买倾向类型的统计分值,然后将对应的统计分值大于预设区间统计分值的消费力区间作为待筛选用户对应的消费力区间,将对应的统计分值大于预设类型统计分值的购买倾向类型作为待筛选用户对应的购买倾向类型,从而确定待筛选用户对应的消费力区间及购买倾向类型。
105.步骤s304:根据所述消费力区间及所述购买倾向类型构建所述待筛选用户对应的产品消费信息。
106.可以理解的是,在确定消费力区间及购买倾向类型之后,可以将其合并并转化为对应的格式,从而构建待筛选用户对应的产品消费类型。
107.本实施例通过在所述大数据引擎中查找所述待筛选用户集合中各待筛选用户对应的历史记录;对所述历史记录进行过滤,获得有效历史记录;根据所述有效历史记录确定各待筛选用户对应的消费力区间及购买倾向类型;根据所述消费力区间及所述购买倾向类型构建所述待筛选用户对应的产品消费信息。由于会将对历史记录进行过滤,然后根据过滤后的有效历史记录确定各待筛选用户对应的消费力区间及购买倾向类型,可以避免已经失效的历史记录会对确定消费力区间及购买倾向类型的干扰,使得后续匹配过程更加准确。
108.参考图4,图4为本发明一种基于大数据的数据筛选方法第三实施例的流程示意图。
109.基于上述第一实施例,本实施例基于大数据的数据筛选方法的所述步骤s40,包括:
110.步骤s401:将所述用户匹配条件与所述产品消费信息进行匹配,获得所述待筛选用户集合中各待筛选用户对应的产品匹配分值。
111.需要说明的是,将用户匹配条件与待筛选用户对应的产品消费信息输入预设匹配模型中进行匹配,则预设匹配模型会计算用户匹配条件与产品消费信息的匹配度,并输出对应的产品匹配分值,其中,预设匹配模型可以是预先训练的神经网络模型;对应的产品匹配分值越高,则说明用户匹配条件与该待筛选用户的产品消费信息的匹配度就越高,则该待筛选用户对待推荐产品感兴趣的可能性就越高。
112.步骤s402:根据所述产品匹配分值从大到小对所述待筛选用户集合中各待筛选用户进行排序,获得用户排序结果。
113.可以理解的是,根据产品匹配分值从大到小对待筛选用户集合中各待筛选用户进
行排序,则获得的用户排序结果中排序越靠前的待筛选用户对应的产品匹配分值就越大。
114.进一步的,为了避免多次对用户推荐其不感兴趣的产品,引起用户反感,本实施例所述步骤s402之前,还可以包括:
115.获取所述待筛选用户集合中各待筛选用户对应的产品评价记录;
116.根据所述产品评价记录确定产品评价级别及被评产品类型;
117.根据所述产品评价级别及所述被评产品类型生成匹配调整分值;
118.根据所述匹配调整分值对所述产品匹配分值进行调整,获得产品推荐分值;
119.相应的,所述根据所述产品匹配分值从大到小对所述待筛选用户集合中各待筛选用户进行排序,获得用户排序结果的步骤,包括:
120.根据所述产品推荐分值对所述待筛选用户集合中各待筛选用户进行排序,获得用户排序结果。
121.需要说明的是,产品评价记录可以是用户对此前推送的产品信息进行评价时生成的记录。产品评价级别可以分为:优、良、中、差、极差等多个级别,被评产品类型可以是用户评价的产品的产品类型。根据产品评价级别及被评产品类型可以是根据产品评价级别在预设级别分值映射表中查找对应的调整分值,然后通过预设关联度模型计算被评产品类型与待推荐产品的产品类型的类型关联度,将调整分值与类型关联度相乘,从而获得匹配调整分值。根据匹配调整分值对产品匹配分值进行调整,获得产品推荐分值可以是将产品匹配分值与匹配调整分值相加,从而获得产品推荐分值。
122.可以理解的是,根据待筛选用户此前的产品评价记录对产品匹配分值进行调整,获得产品推荐分值,然后根据产品推荐分值对待筛选用户集合中各待筛选用户进行排序,获得用户排序结果,可以充分考虑到用户对推荐的产品的评价,使得最终进行产品推荐时更加精准,且避免多次对用户推荐其不感兴趣的产品。
123.在具体实现中,仅仅将类型关联度与各评价级别对应的调整分值相乘,其匹配调整分值的确定方式过于简单,且并不符合实际使用需求,为了使得根据用户评价调整产品匹配分值时更符合实际场景,本实施例所述根据所述产品评价级别及所述被评产品类型生成匹配调整分值的步骤,可以包括:
124.获取所述待推荐产品的产品类型;
125.通过预设类型相似度模型确定所述被评产品类型与所述待推荐产品的产品类型的类型相似度;
126.根据所述类型相似度确定相似度级别;
127.查找所述相似度级别对应的评价分值映射表;
128.根据所述产品评价级别在所述评价分值映射表中查找对应的匹配调整分值。
129.需要说明的是,预设类型相似度模型可以是预先训练的神经网络模型,预设类型相似度模型可以计算输入的两个产品类型的类型相似度。根据类型相似度确定相似度级别可以是将类型相似度与各相似度级别对应的相似度区间进行匹配,根据匹配结果确定相似度级别。例如:相似度级别1级对应的类型相似度区间为70%-100%,相似度级别2级对应的类型相似度区间为30%-70%,相似度级别3级对应的类型相似度区间为0-30%。
130.在实际使用中,可以为不同的相似度级别设置不同的评价分值映射表,例如:相似度级别1级对应的评价分值映射表中各级别与分值的映射关系为:“优对应
‘3’”
、“良对应
‘1’”
、“中对应
‘0’”
、“差对应
‘‑1’”
、“极差对应
‘‑3’”
,相似度级别2及对应的评价分值映射表中各级别与分值的映射关系为:“优对应
‘1’”
、“良对应

0.5
’”
、“中对应
‘0’”
、“差对应
‘‑
0.5
’”
、“极差对应
‘‑1’”

131.可以理解的是,为不同的类型相似度设置不同的评价分值映射表,可以使得在对产品匹配分值进行调整时充分考虑到被评价的产品的产品类型与待推荐产品的产品类型的相似度,从而使得对产品匹配分值进行调整时可以更加灵活,更加符合实际场景的需求。
132.步骤s403:从所述用户排序结果中选取数量与预设推荐数量一致的待筛选用户,并根据选取的待筛选用户构建待推荐用户集合。
133.需要说明的是,预设推荐数量可以是预先设置的需要进行推荐的用户数量,预设推荐数量可以由数据筛选设备的管理人员根据实际需要进行设置。从用户排序结果中选取数量与预设推荐数量一致的待筛选用户可以是在用户排序结果中根据排序顺序从前往后选取数量与预设推荐数量一致的待筛选用户。根据选取的待筛选用户构建待推荐用户集合可以是将选取的待筛选用户进行聚合,从而获得待推荐用户集合。
134.本实施例通过将所述用户匹配条件与所述产品消费信息进行匹配,获得所述待筛选用户集合中各待筛选用户对应的产品匹配分值;根据所述产品匹配分值从大到小对所述待筛选用户集合中各待筛选用户进行排序,获得用户排序结果;从所述用户排序结果中选取数量与预设推荐数量一致的待筛选用户,并根据选取的待筛选用户构建待推荐用户集合。由于在根据预设推荐数量选取待筛选用户之前会先根据对应的产品匹配分值对待筛选用户集合中各待筛选用户进行排序,获得用户排序结果,然后从用户排序结果中选取数量与预设推荐数量一致的待筛选用户,可以使得最终选取的待筛选用户均是对待推荐产品感兴趣可能性较高的用户,保证了产品推荐的效果。
135.此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于大数据的数据筛选程序,所述基于大数据的数据筛选程序被处理器执行时实现如上文所述的基于大数据的数据筛选方法的步骤。
136.参照图5,图5为本发明基于大数据的数据筛选装置第一实施例的结构框图。
137.如图5所示,本发明实施例提出的基于大数据的数据筛选装置包括:
138.条件生成模块10,用于获取待推荐产品的产品信息,根据所述产品信息构建用户匹配条件;
139.数据查找模块20,用于在大数据引擎中查找待筛选用户,获得待筛选用户集合;
140.信息获取模块30,用于获取所述待筛选用户集合中各待筛选用户对应的产品消费信息;
141.数据筛选模块40,用于将所述用户匹配条件与所述产品消费信息进行匹配,根据匹配结果对所述待筛选用户集合进行过滤,获得待推荐用户集合。
142.本实施例通过获取待推荐产品的产品信息,根据产品信息构建用户匹配条件;在大数据引擎中查找待筛选用户,获得待筛选用户集合;获取待筛选用户集合中各待筛选用户对应的产品消费信息;将用户匹配条件与产品消费信息进行匹配,根据匹配结果对待筛选用户集合进行过滤,获得待推荐用户集合。由于会将根据待推荐产品的产品信息与待筛选用户的产品消费信息的匹配结果对待筛选用户集合进行过滤,将其中对待推荐产品感兴趣可能性较低的用户清除,使得产品推送时更加准确,从而提高产品信息推送的效果。
143.进一步的,所述信息获取模块30,还用于在所述大数据引擎中查找所述待筛选用户集合中各待筛选用户对应的历史记录;对所述历史记录进行过滤,获得有效历史记录;根据所述有效历史记录确定各待筛选用户对应的消费力区间及购买倾向类型;根据所述消费力区间及所述购买倾向类型构建所述待筛选用户对应的产品消费信息。
144.进一步的,所述信息获取模块30,还用于将所述历史记录划分为历史浏览记录及历史购买记录;将对应的历史购买时刻小于或等于预设有效时刻的历史购买记录清除,获得有效购买记录;获取各历史浏览记录对应的浏览起始时刻及浏览结束时刻;根据所述浏览起始时刻及所述浏览结束时刻计算各历史浏览记录对应的商品浏览时长;将对应的浏览时长大于或等于预设有效时长的历史浏览记录作为有效浏览记录;将所述有效浏览记录及所述有效购买记录作为有效历史记录。
145.进一步的,所述数据筛选模块40,还用于将所述用户匹配条件与所述产品消费信息进行匹配,获得所述待筛选用户集合中各待筛选用户对应的产品匹配分值;根据所述产品匹配分值从大到小对所述待筛选用户集合中各待筛选用户进行排序,获得用户排序结果;从所述用户排序结果中选取数量与预设推荐数量一致的待筛选用户,并根据选取的待筛选用户构建待推荐用户集合。
146.进一步的,所述数据筛选模块40,还用于获取所述待筛选用户集合中各待筛选用户对应的产品评价记录;根据所述产品评价记录确定产品评价级别及被评产品类型;根据所述产品评价级别及所述被评产品类型生成匹配调整分值;根据所述匹配调整分值对所述产品匹配分值进行调整,获得产品推荐分值;
147.所述数据筛选模块40,还用于根据所述产品推荐分值对所述待筛选用户集合中各待筛选用户进行排序,获得用户排序结果。
148.进一步的,所述数据筛选模块40,还用于获取所述待推荐产品的产品类型;通过预设类型相似度模型确定所述被评产品类型与所述待推荐产品的产品类型的类型相似度;根据所述类型相似度确定相似度级别;查找所述相似度级别对应的评价分值映射表;根据所述产品评价级别在所述评价分值映射表中查找对应的匹配调整分值。
149.进一步的,所述数据查找模块20,还用于在大数据引擎中查找用户活动日志,根据所述用户活动日志确定活跃用户,获得活跃用户集合;统计所述活跃用户集合中的用户数量,若所述用户数量大于预设数量阈值,则检测所述活跃用户集合中各活跃用户是否存在商品浏览行为;将所述活跃用户集合中不存在商品浏览行为的活跃用户清除,获得待筛选用户集合。
150.应当理解的是,以上仅为举例说明,对本发明的技术方案并不构成任何限定,在具体应用中,本领域的技术人员可以根据需要进行设置,本发明对此不做限制。
151.需要说明的是,以上所描述的工作流程仅仅是示意性的,并不对本发明的保护范围构成限定,在实际应用中,本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的,此处不做限制。
152.另外,未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于大数据的数据筛选方法,此处不再赘述。
153.此外,需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要
素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
154.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
155.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器(read only memory,rom)/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
156.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1