用户兴趣数据分析和收集系统及其方法_3

文档序号:9826302阅读:来源:国知局
器,用于实时收集用户的浏览记录; 日志数据预处理模块,用于在满足预定条件下,从所述推荐服务控制器接收所述用户 在本次会话中的浏览日志数据,并对该日志数据进行预处理;W及 匹配分析模块,用于将经过预处理的日志数据与所生成的页面浏览序列参照集合进行 匹配,并根据匹配结果来确定所述用户潜在感兴趣的商品集合。2. 如权利要求1所述的系统,还包括: 候选结果过滤排序模块,用于从所述匹配分析模块接收所确定的商品集合,并根据预 设定的推荐规则,对所述商品集合中的商品进行排序,并将排序的结果发送给所述推荐服 务控制器。3. 如权利要求2所述的系统,其中,所述推荐服务控制器还配置成根据所述候选结果 过滤排序模块所发送的排序结果,选择出最终的推荐商品并发送给所述用户。4. 如权利要求1所述的系统,其中,所述会话识别模块配置成执行如下步骤: 通过核对请求资源URI的后缀名,剔除请求资源为非页面的日志条目; 剔除状态响应码为错误的日志条目; 汇总同一个会话标识符的所有日志记录,形成属于该会话标识符的会话日志记录集 合;W及 判断会话中是否包含购买页面和支付页面,W便筛选出最终完成购物的会话。5. 如权利要求1所述的系统,其中,当用户访问的页面数量超过预先设定的数目N时, 所述推荐服务控制器从所述web服务器的日志中抽取该用户的当前会话中所有的日志条 目序列,从而启动推荐服务。6. 如权利要求5所述的系统,其中,所述日志数据预处理模块配置成执行如下步骤: 从所述日志条目序列中剔除非页面的W及响应码为错误的日志条目,W便形成精化日 志条目序列Lp ; 根据所述精化日志条目序列Lp,产生多个预定长度的连续日志条目子序列;W及 通过如下公式将所述连续日志条目子序列中的每条子序列转换为m维的权重向量:其中,Wi, 1表示某一子序列1的第i维权重,f(l,i)表示第i维日志条目的U化出现在 子序列1的次数,Count(i)表示第i维U化在所述页面浏览序列参照集合中出现的次数, t(l,i)表示本次客户端浏览该页面的时间长度,入是Count函数的权重因子。7. 如权利要求1或6所述的系统,其中,所述匹配分析模块通过如下公式计算匹配 度:其中Il和I康示两个给定序列,W。是序列I冲的第i维的权重,W2i是序列I 2中的第 i维的权重,函数min返回两个数值中的较小值。8. 如权利要求1所述的系统,其中,所述匹配分析模块进一步配置成: 根据经过预处理的日志数据与所生成的页面浏览序列参照集合的匹配结果,对于所述 页面浏览序列参照集合中的每个参照浏览序列,选取其与经过预处理的日志数据中每个子 序列的匹配度最大值来作为该参照浏览序列的权重; 挑选权重最大的前n个参照浏览序列,从而生成参照序列集合SeC ; W及 对于所述参照序列集合SeC中每条候选参照浏览序列,找出与序列相关的购买商品集 合来作为所述用户潜在感兴趣的商品集合。9. 如权利要求2所述的系统,其中,所述候选结果过滤排序模块配置成: 根据所述匹配分析模块所确定的商品集合,累加所述商品集合中每个商品对应的候选 参照序列的权重来作为该商品的权重, 根据所述商品的权重来对所述商品集合中的商品排序,W及 将权重较大的一定数量的商品作为最终推荐商品告知所述推荐服务控制器。10. -种用户兴趣数据分析和收集方法,其特征在于,所述方法包括: 步骤A ;从web服务器抽取日志数据W及与所述日志数据对应的商品购买历史记录,并 对所述日志数据进行处理,从而生成页面浏览序列参照集合; 步骤B ;实时收集用户的日志数据; 步骤C ;在满足预定条件下,对该用户的日志数据进行预处理;W及 步骤D ;将经过预处理的日志数据与所生成的页面浏览序列参照集合进行匹配,并根 据匹配结果来确定所述用户潜在感兴趣的商品集合。11. 如权利要求10所述的方法,还包括: 步骤E ;根据预设定的推荐规则,对所述商品集合中的商品进行排序。12. 如权利要求11所述的方法,还包括: 步骤F ;根据所述排序结果,选择出最终的推荐商品并发送给所述用户。13. 如权利要求10所述的方法,其中,步骤A进一步包括: 通过核对请求资源URI的后缀名,剔除请求资源为非页面的日志条目; 剔除状态响应码为错误的日志条目; 汇总同一个会话标识符的所有日志记录,形成属于该会话标识符的会话日志记录集 合;W及 判断会话中是否包含购买页面和支付页面,W便筛选出最终完成购物的会话。14. 如权利要求10所述的方法,其中,步骤C进一步包括: 当用户访问的页面数量超过预先设定的数目N时,从所述web服务器的日志中抽取该 用户的当前会话中所有的日志条目序列,从而启动推荐服务。15. 如权利要求14所述的方法,其中,步骤C进一步包括: 从所述日志条目序列中剔除非页面的W及响应码为错误的日志条目,W便形成精化日 志条目序列Lp ; 根据所述精化日志条目序列Lp,产生多个预定长度的连续日志条目子序列;W及 通过如下公式将所述连续日志条目子序列中的每条子序列转换为m维的权重向量:其中,Wi, 1表示某一子序列1的第i维权重,f(l,i)表示第i维日志条目的U化出现在 子序列1的次数,Count(i)表示第i维U化在所述页面浏览序列参照集合中出现的次数, t(l,i)表示本次客户端浏览该页面的时间长度,入是Count函数的权重因子。16. 如权利要求10或15所述的方法,其中,步骤D通过如下公式计算匹配度:其中Ii和1康示两个给定序列,W。是序列1冲的第i维的权重,W 21是序列12中的第 i维的权重,函数min返回两个数值中的较小值。17. 如权利要求10所述的方法,其中,步骤D进一步包括: 根据经过预处理的日志数据与所生成的页面浏览序列参照集合的匹配结果,对于所述 页面浏览序列参照集合中的每个参照浏览序列,选取其与经过预处理的日志数据中每个子 序列的匹配度最大值来作为该参照浏览序列的权重; 挑选权重最大的前n个参照浏览序列,从而生成参照序列集合SeC ; W及 对于所述参照序列集合SeC中每条候选参照浏览序列,找出与序列相关的购买商品集 合来作为所述用户潜在感兴趣的商品集合。18. 如权利要求11所述的方法,其中,步骤E进一步包括: 根据所述匹配分析模块所确定的商品集合,累加所述商品集合中每个商品对应的候选 参照序列的权重来作为该商品的权重, 根据所述商品的权重来对所述商品集合中的商品排序,W及 将权重较大的一定数量的商品作为最终推荐商品告知所述推荐服务控制器。
【专利摘要】<b>本申请公开了一种用户兴趣数据分析和收集系统,所述系统包括:会话识别模块,用于从</b><b>web</b><b>服务器抽取日志数据以及与所述日志数据对应的商品购买历史记录,并对所述日志数据进行处理,从而生成页面浏览序列参照集合;推荐服务控制器,用于实时收集用户的浏览记录;日志数据预处理模块,用于在满足预定条件下,从所述推荐服务控制器接收所述用户在本次会话中的浏览日志数据,并对该日志数据进行预处理;以及匹配分析模块,用于将经过预处理的日志数据与所生成的页面浏览序列参照集合进行匹配,并根据匹配结果来确定所述用户潜在感兴趣的商品集合。本申请还公开了一种用户兴趣数据分析和收集方法。</b>
【IPC分类】G06Q30/02, G06F17/30
【公开号】CN105589905
【申请号】CN201410823475
【发明人】冯亮, 尹亚伟
【申请人】中国银联股份有限公司
【公开日】2016年5月18日
【申请日】2014年12月26日
【公告号】WO2016101777A1
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1