用户兴趣数据分析和收集系统及其方法

文档序号:9826302阅读:776来源:国知局
用户兴趣数据分析和收集系统及其方法
【技术领域】
[0001] 本发明涉及电子信息技术领域,具体来说,涉及一种用户兴趣数据分析和收集系 统以及其方法。
【背景技术】
[0002] 随着互联网的迅猛发展,中国网络购物的用户规模不断上升。2010年中国网络购 物市场交易规模接近5000亿,达4980. 0亿元,占到社会消费品零售总额的3. 2%;同时,网 络购物用户规模达到1. 48亿,在网民中的渗透率达30. 8%。对于一些传统企业而言,通过一 些传统的营销手段已经很难对现今的市场形成什么重大的改变了。如果想将企业的销售渠 道完全打开,企业就必需引进新的思维和新的方法。而网络购物正好为现今的传统企业提 供了一个很好的机会与平台,传统企业通过借助第三方平台和建立自有平台纷纷试水网络 购物,构建合理的网络购物平台、整合渠道、完善产业布局成为传统企业未来发展重心和出 路。
[0003] 随着网络购物平台的蜂拥崛起,如何基于大数据来分析和收集用户兴趣数据,以 便更好地向该用户提供推荐从而提升用户体验成为了研究重点。
[0004] 在申请号为201310717507. 4的中国专利(发明名称为"一种基于Web日志数据的 信息个性化推荐方法")中介绍了一种通过分析日志的Web推荐技术。在该专利中,通过对 服务器中Web日志文件的数据进行分析和预处理,提取出干净、规则、准确的数据源;使用 协同过滤技术建立用户兴趣矩阵,计算各用户间的相似度,选较大相似度的用户作为相似 用户;对相似用户的兴趣爱好建立推荐资源池;服务器选推荐资源池中推荐值大于阈值的 页面推荐给用户。
[0005] 但是,在该专利中,度量用户兴趣方法为用户浏览某一资源类别的时间。而分析获 得的兴趣粒度很大程度上取决于资源分类的粗细粒度。如果粒度较粗,较难精确判断兴趣 细微倾向。另外,用户浏览过的页面通常会涵盖多个类别主题。多个主题的页面数据源会 导致最后分析结果的不精确。

【发明内容】

[0006] 为了解决上述问题,本申请提供了一种基于用户页面浏览序列的商品推荐方法。 当新的用户访问电商网站时,通过将用户当前会话中的浏览记录序列拆分为多个浏览子序 列,分析和匹配子序列和Web日志中其他用户的浏览记录,找到类似页面浏览记录的历史 会话,最后根据类似会话的最终实际购买商品,实施相关的商品推荐。
[0007] 根据本申请的一个方面,提供了一种用户兴趣数据分析和收集系统。该系统包括 会话识别模块、推荐服务控制器、日志数据预处理模块以及匹配分析模块。其中,会话识别 模块用于在线下从web服务器抽取日志数据以及与所述日志数据对应的商品购买历史记 录,并对所述日志数据进行处理,从而生成页面浏览序列参照集合。推荐服务控制器用于实 时收集用户的浏览记录。日志数据预处理模块用于在满足预定条件下,从所述推荐服务控 制器接收所述用户在本次会话中的浏览日志数据,并对该日志数据进行预处理。匹配分析 模块用于将经过预处理的日志数据与所生成的页面浏览序列参照集合进行匹配,并根据匹 配结果来确定所述用户潜在感兴趣的商品集合。
[0008] 上述系统还可包括:候选结果过滤排序模块,用于从所述匹配分析模块接收所确 定的商品集合,并根据预设定的推荐规则,对所述商品集合中的商品进行排序,并将排序的 结果发送给所述推荐服务控制器。
[0009] 在上述系统中,所述推荐服务控制器还配置成根据所述候选结果过滤排序模块所 发送的排序结果,选择出最终的推荐商品并发送给所述用户。
[0010] 在上述系统中,所述会话识别模块配置成执行如下步骤:通过核对请求资源URI 的后缀名,剔除请求资源为非页面的日志条目;剔除状态响应码为错误的日志条目;汇总 同一个会话标识符的所有日志记录,形成属于该会话标识符的会话日志记录集合;以及判 断会话中是否包含购买页面和支付页面,以便筛选出最终完成购物的会话。
[0011] 在上述系统中,当用户访问的页面数量超过预先设定的数目N时,所述推荐服务 控制器从所述web服务器的日志中抽取该用户的当前会话中所有的日志条目序列,从而启 动推荐服务。
[0012] 在上述系统中,所述日志数据预处理模块配置成执行如下步骤:从所述日志条目 序列中剔除非页面的以及响应码为错误的日志条目,以便形成精化日志条目序列Lp;根据 所述精化日志条目序列Lp,产生多个预定长度的连续日志条目子序列;以及通过如下公式 将所述连续日志条目子序列中的每条子序列转换为m维的权重向量 :
其中,i表示某一子序列1的第i维权重,f (1,i)表示第i维日志条目的URL出现在 子序列1的次数,Count (i)表示第i维URL在所述页面浏览序列参照集合中出现的次数, t (1,i)表示本次客户端浏览该页面的时间长度,λ是Count函数的权重因子。
[0013] 在上述系统中,所述匹配分析模块通过如下公式计算匹配度:
其中1:和12表示两个给定序列,W H是序列1 i中的第i维的权重,W 21是序列12中的第 i维的权重,函数min返回两个数值中的较小值。
[0014] 在上述系统中,所述匹配分析模块进一步配置成:根据经过预处理的日志数据与 所生成的页面浏览序列参照集合的匹配结果,对于所述页面浏览序列参照集合中的每个参 照浏览序列,选取其与经过预处理的日志数据中每个子序列的匹配度最大值来作为该参照 浏览序列的权重;挑选权重最大的前η个参照浏览序列,从而生成参照序列集合SeC;以及 对于所述参照序列集合SeC中每条候选参照浏览序列,找出与序列相关的购买商品集合来 作为所述用户潜在感兴趣的商品集合。
[0015] 在上述系统中,所述候选结果过滤排序模块配置成:根据所述匹配分析模块所确 定的商品集合,累加所述商品集合中每个商品对应的候选参照序列的权重来作为该商品的 权重,根据所述商品的权重来对所述商品集合中的商品排序,以及将权重较大的一定数量 的商品作为最终推荐商品告知所述推荐服务控制器。
[0016] 根据本申请的另一个方面,提供了一种用户兴趣数据分析和收集方法。该方法包 括步骤A:从web服务器抽取日志数据以及与所述日志数据对应的商品购买历史记录,并对 所述日志数据进行处理,从而生成页面浏览序列参照集合;步骤B:实时收集用户的日志数 据;步骤C:在满足预定条件下,对该用户的日志数据进行预处理;以及步骤D:将经过预处 理的日志数据与所生成的页面浏览序列参照集合进行匹配,并根据匹配结果来确定所述用 户潜在感兴趣的向品集合。
[0017] 本申请技术方案的分析数据源为当前会话的页面浏览记录,数据依赖性低、方便 采集,操作流程直接明了。同时,会话页面浏览记录隐含用户潜在的兴趣倾向和购物习惯, 有助于提升推荐服务的准确性和个性化。
【附图说明】
[0018] 在参照附图阅读了本发明的【具体实施方式】以后,本领域技术人员将会更清楚地了 解本发明的各个方面。本领域技术人员应当理解的是:这些附图仅仅用于配合具体实施方 式说明本发明的技术方案,而并非意在对本发明的保护范围构成限制。
[0019] 图1是根据本申请的一个实施例、基于页面浏览序列来对用户兴趣数据进行分 析、收集以及商品推荐的流程图。
【具体实施方式】
[0020] 下面介绍的是本发明的多个可能实施例中的一些,旨在提供对本发明的基本了 解,并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。容易理解,根据本 发明的技术方案,在不变更本发明的实质精神下,本领域的一般技术人员可以提出可相互 替换的其它
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1