一种电子商务用户公共访问轨迹提取方法和装置的制作方法

文档序号:6340956阅读:131来源:国知局
专利名称:一种电子商务用户公共访问轨迹提取方法和装置的制作方法
技术领域
本发明涉及计算机数据挖掘技术,特别涉及一种电子商务用户公共访问轨迹的提取方法和装置。
背景技术
在现代化信息高速通道上,随着电子商务的发展不断完善以及国内互联网用户不断增多,客户通过电子平台进行业务自助办理的数量逐年上升。电子商务平台的建设好坏直接影响了客户对企业品牌的认知度和信任度。但随着电子商务平台应用和规模的不断扩大,很多业务办理流程呈现出繁琐冗余、页面之间关联混乱的状态,极大的降低了客户体验的满意度。随着国内外电子商务企业对于提升客户体验的需求增加,通过研究客户体验来维系客户和提高忠诚度,国内外对于用户体验分析的相关产品逐步出现,主要包括Oracle的 RUEI产品。RUEI全称是Real User Experience hsight,即真实客户体验洞察力产品。RUEI 产品以实际内容和总体响应时间的形式,对实际返回的结果进行监控并提交深入的分析报告。分析结果从不同层面展现给公司不同的用户,提供分析帮助。但是RUEI产品提供的更多是基础层级的数据报表分析,在用户数据挖掘分析上所做的工作十分有限。现有的数据挖掘相关技术主要是基于传统理论上的学院派数据挖掘算法,在电子商务数据分析中起到了重要的作用,但是也存在算法实用性欠缺,运算量及运算速度无法满足实际数据要求等诸多缺点。另外,现有的数据挖掘相关技术与数据采集是相互独立的过程,不能对实时采集的数据进行挖掘。较为典型的序列模式挖掘算法包括GSP和SPADE, 都直接或间接的运用了 Apriori算法的性质,采用多次扫描的候选产生一测试方法,以宽度优先的方式产生很大的候选集,特别是在挖掘长序列的时候,更需要更加有效的挖掘方法。综上所述,现有用户体验分析相关产品或缺少用户数据挖掘功能,或不能挖掘实时数据,且挖掘效率低,无法满足大规模数据挖掘的性能。

发明内容
本发明实施例提供的一种电子商务用户公共访问轨迹提取方法和装置,用以解决从海量数据中提取有效信息,分析用户公共访问轨迹,有效改善电子商务用户体验。一种电子商务用户公共访问轨迹提取方法包括
通过DPI数据采集器旁路部署在电子商务网站出口点的路由器上,镜像采集电子商务网站的服务器流量,将采集的流量数据进行解析并存入数据库中; 对DPI采集的基础数据进行预处理;
通过ft~efiXSpan算法快速挖掘用户访问序列,提取满足设定支持度阈值的序列模式, 即为用户公共访问轨迹。
一种电子商务用户公共访问轨迹提取装置包括
数据采集模块用于电子商务用户公共轨迹提取的所有基础数据的采集和解析,存入数据库中;
基础数据预处理模块用于将基础数据进行格式化预处理,每天自动定时进行处理,生成待挖掘的数据集;
公共用户轨迹挖掘模块用于将预处理后的数据进行用户公共访问轨迹的挖掘,并进行挖掘结果的展示。本发明实施例在实时采集的流量数据中挖掘用户的公共访问轨迹,旁路部署,无需更改电子商务网站现有网络架构;镜像采集所有电子商务网站的用户访问流量,涵盖流量范围全;采用I^refixSpan算法,避免产生候选集,使得用户公共访问轨迹的提取和挖掘更加快速,并减少提取用户公共访问轨迹所占的存储空间,系统资源占用小。


图1为实施例提取用户公共访问轨迹的部署架构图; 图2为本发明DPI数据采集系统平台架构图; 图3为本发明数据预处理流程图; 图4为本发明提取用户公共轨迹的流程图。
权利要求
1.一种电子商务用户公共访问轨迹提取方法,其特征在于,该方法包括通过DPI数据采集器采集电子商务网站的服务器流量,将采集的流量数据进行解析并存入数据库中;对DPI采集的基础数据进行预处理;挖掘用户访问序列,提取满足设定支持度阈值的序列模式,即为用户公共访问轨迹。
2.如权利要求1所述的方法,其特征在于,数据来源通过DPI数据采集器实时进行采集;DPI数据采集器旁路部署在电子商务网站出口点的路由器上,镜像采集所有通过电子商务网站服务器的流量;DPI采集的流量经过解析后,提取用户访问信息包括用户访问的IP地址、访问时间、 访问页面、登录的用户名,存入数据库中。
3.如权利要求1所述的方法,其特征在于,对采集的基础数据进行预处理,每日定时提取所有用户id,并根据用户id提取每个用户当日访问的页面id,存入数据库中,格式为用户id、访问页面id、时间。
4.如权利要求1所述的方法,其特征在于,对采集的数据进行计算,设定支持度阈值, 提取所有支持度大于阈值的用户访问序列,即所挖掘出的公共访问轨迹。
5.如权利要求4所述的方法,其特征在于,先找出各个频繁项,然后产生投影数据库的集合,每个投影数据库关联一个频繁项;每个数据库进行单独挖掘;算法构造前缀模式,它与后缀模式相连得到频繁模式,从而避免产生候选。
6.如权利要求5所述的方法,其特征在于,扫描数据库,得到满足支持度阈值的长度为 1的频繁序列;根据1-频繁序列划分搜索空间;找出1-序列模式的子集,构造相应的投影数据库;令每个1-序列为前缀,产生该前缀的投影数据库,并进行挖掘,找出投影数据库中满足支持度阈值的1-序列,与前缀合并为2-频繁序列;令Π-频繁序列(η>1)为前缀,构造该前缀的投影数据库,顺序进行递归挖掘,直至各投影数据库不能再产生任何频繁子序列, 对该投影数据库的处理终止;用户访问的公共轨迹的集合是在以上递归挖掘过程中发现的模式的并集。
7.一种电子商务用户公共访问轨迹提取装置,其特征在于,该装置包括数据采集模块用于电子商务用户公共轨迹提取的所有基础数据的采集和解析,存入数据库中;基础数据预处理模块用于将基础数据进行格式化预处理,每天自动定时进行处理,生成待挖掘的数据集;公共用户轨迹挖掘模块用于将预处理后的数据进行用户公共访问轨迹的挖掘,并进行挖掘结果的展示。
8.如权利要求7所述的装置,其特征在于,所述DPI数据采集模块包括 DPI采集处理模块对采集的流量数据包进行解析,存为数据信息log文件;采集数据存储模块数据入库脚本实时读取log文件并将用户访问数据存入数据库中。
9.如权利要求7所述的装置,其特征在于,所述基础数据处理模块包括数据提取模块,用于在每日零时定时提取前一天所有用户访问数据,存入视图中;数据预处理模块,用于提取视图中前一天访问电子商务平台的所有用户id,并根据用户id提取用户前一天访问的所有页面id,存入数据库中,记录时间。
10.如权利要求7所述的装置,其特征在于,所述公共用户轨迹挖掘模块包括 PrefixSpan挖掘算法模块,用于根据I^refixSpan算法处理数据,挖掘用户公共访问轨迹;结果存储模块,将所有挖掘出的频繁序列进行合并,存入结果文件中; 显示模块,根据挖掘结果显示用户公共访问轨迹。
全文摘要
本发明公开了一种提取电子商务用户公共访问轨迹的方法。该方法包括通过DPI数据采集器旁路部署在电子商务网站出口点的路由器上,镜像采集电子商务网站的服务器流量;将采集的流量数据进行解析并存入数据库中;通过PrefixSpan算法快速挖掘用户访问序列,提取满足设定支持度阈值的序列模式。通过本发明解决了现有方法中不能解决的用户实时轨迹挖掘的问题,并提高了挖掘效率,减少了提取用户轨迹所占用的存储空间。本发明同时公开了一种提取电子商务用户公共访问轨迹的装置。
文档编号G06Q30/02GK102542478SQ20101061809
公开日2012年7月4日 申请日期2010年12月31日 优先权日2010年12月31日
发明者李栋, 田斌, 贾哲 申请人:北京安码科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1