一种在电子商务平台上客户访问页面常见序列的提取方法和装置的制作方法

文档序号:6340959阅读:201来源:国知局
专利名称:一种在电子商务平台上客户访问页面常见序列的提取方法和装置的制作方法
技术领域
本发明涉及计算机数据挖掘技术,特别涉及一种在电子商务网站平台上客户访问页面常见序列的提取方法和装置。
背景技术
随着电子商务技术和市场发展的不断完善以及国内互联网客户逐年高速增长,客户通过电子商务平台进行业务浏览和业务自助办理的数量逐年上升。电子商务平台的建设好坏直接影响了客户对企业品牌的认知度和信任度。但随着电子商务平台应用和规模的不断扩大,很多业务办理流程呈现出繁琐冗余、页面之间关联混乱的状态,极大的降低了客户体验的满意度。随着国内外电子商务企业对于提升客户体验的需求增加,通过研究客户体验来维系客户和提高忠诚度,国内外对于客户体验分析的相关产品逐步出现,主要包括Oracle的 RUEI产品。RUEI全称是Real User Experience hsight,即真实客户体验洞察力产品。RUEI 产品以实际内容和总体响应时间的形式,对实际返回的结果进行监控并提交深入的分析报告。分析结果从不同层面展现给公司不同的客户,提供分析帮助。但是RUEI产品提供的更多是基础层级的数据报表分析,在客户数据挖掘分析上所做的工作十分有限。现有的数据挖掘相关技术主要是基于传统理论上的学院派数据挖掘算法,在电子商务数据分析中起到了重要的作用,但是也存在算法实用性欠缺,运算量及运算速度无法满足实际数据要求等诸多缺点。另外,现有的数据挖掘相关技术与数据采集是相互独立的过程,不能对实时采集的数据进行挖掘。较为典型的序列模式挖掘算法包括GSP和SPADE, 都直接或间接的运用了 Apriori算法的性质,采用多次扫描的候选产生一测试方法,以宽度优先的方式产生很大的候选集,特别是在挖掘长序列的时候,更需要更加有效的挖掘方法。综上所述,现有客户体验分析相关产品或缺少客户数据挖掘功能,或不能挖掘实时数据,且挖掘效率低,无法满足大规模数据挖掘的性能。

发明内容
本发明实施例提供的一种电子商务网站平台上客户访问页面常见序列的提取方法和装置,用以解决从海量数据中提取有效信息,分析客户访问页面常见序列,有效改善电子商务客户体验。一种电子商务网站平台上客户访问页面常见序列提取方法包括
通过嵌入代码模块部署在电子商务网站平台的WEB服务器上,在待采集的页面上嵌入采集代码,采集客户访问页面信息并发回嵌入代码模块,将采集的流量数据进行解析并存入数据库中;对嵌入代码采集的基础数据进行预处理;
通过ft~efiXSpan算法快速挖掘客户访问页面序列,提取满足设定支持度阈值的序列模式,即为客户访问页面常见序列。一种电子商务网站平台上客户访问页面常见序列提取装置包括
嵌入代码模块用于在电子商务平台的WEB服务器上针对待采集页面嵌入采集代码, 并收集所有采集的客户访问基础数据,进行解析后存入数据库中;
基础数据预处理模块用于将基础数据进行格式化预处理,每天自动定时进行处理,生成待挖掘的数据集;
客户访问页面常见序列挖掘模块用于将预处理后的数据进行客户访问页面常见序列的挖掘,并进行挖掘结果的展示。本发明实施例在电子商务网站平台上部署嵌入代码模块,精确采集客户信息,信息内容涵盖访问广泛,客户访问行为提取完备;采用I^refixSpan算法,避免产生候选集,使得客户访问页面常见序列的提取和挖掘更加快速,并减少提取客户访问页面常见序列所占的存储空间,系统资源占用小。


图1为实施例提取客户访问页面常见序列的部署架构图; 图2为本发明数据预处理流程图; 图3为本发明提取客户公共轨迹的流程图。
权利要求
1.一种在电子商务网站平台上客户访问页面常见序列提取方法,其特征在于,该方法包括通过在电子商务网站平台待采集页面上通过嵌入代码模块嵌入采集代码采集客户访问网站平台的页面记录,并将记录存入数据库中;对通过嵌入代码采集的客户访问页面记录的基础数据进行预处理;挖掘客户访问页面常见序列,提取满足设定支持度阈值的序列模式,即为客户访问页面常见序列模式。
2.如权利要求1所述的方法,其特征在于,数据来源通过在网站平台上的嵌入代码模块嵌入代码实时进行采集;嵌入代码模块部署在电子商务网站平台上,通过在待采集页面上嵌入采集代码,当客户访问该页面时,将客户访问信息发往服务器;客户访问信息经过服务器解析后,提取信息内容包括客户访问使用的IP地址、访问时间、访问页面地址、上一个页面地址,将提取信息存入数据库中。
3.如权利要求1所述的方法,其特征在于,对采集的基础数据进行预处理,每日定时提取所有客户id,并根据客户id提取每个客户当日访问的页面id,存入数据库中,格式为客户id、访问页面id、时间。
4.如权利要求1所述的方法,其特征在于,对采集的数据进行计算,设定支持度阈值, 提取所有支持度大于阈值的客户访问页面序列,即所挖掘出的客户访问页面常见序列。
5.如权利要求4所述的方法,其特征在于,先找出各个频繁项,根据每个频繁项分别产生投影数据库的集合。每个数据库进行单独挖掘。算法构造前缀模式,它与后缀模式相连得到频繁模式。
6.如权利要求5所述的方法,其特征在于,扫描数据库,得到满足支持度阈值的长度为 1的频繁序列;根据1-频繁序列划分搜索空间;找出1-序列模式的子集,构造相应的投影数据库;令每个1-序列为前缀,产生该前缀的投影数据库,并进行挖掘,找出投影数据库中满足支持度阈值的1-序列,与前缀合并为2-频繁序列;令Π-频繁序列(η>1)为前缀,构造该前缀的投影数据库,顺序进行递归挖掘,直至各投影数据库不能再产生任何频繁子序列, 对该投影数据库的处理终止;客户访问页面的常见序列的集合是在以上递归挖掘过程中发现的模式的并集。
7.一种在电子商务类网站平台上提取客户访问页面常见序列的装置,其特征在于,该装置包括嵌入代码模块用于在电子商务平台的WEB服务器上针对待采集页面嵌入采集代码, 并收集所有采集的客户访问基础数据,进行解析后存入数据库中;基础数据预处理模块用于将基础数据进行格式化预处理,每天自动定时进行处理,生成待挖掘的数据集;客户访问页面常见序列挖掘模块用于将预处理后的数据进行客户访问页面常见序列的挖掘,并进行挖掘结果的展示。
8.如权利要求7所述的装置,其特征在于,所述嵌入代码模块包括代码嵌入模块将采集代码自动嵌入待采集的页面内容中,供客户访问页面时采集客户访问页面信息;采集数据存储模块当客户访问待采集页面时将客户访问页面信息发回本模块,解析后将客户访问数据存入数据库中。
9.如权利要求7所述的装置,其特征在于,所述基础数据处理模块包括数据提取模块,用于在每日零时定时提取前一天所有客户访问数据,存入视图中; 数据预处理模块,用于提取视图中前一天访问电子商务平台的所有客户id,并根据客户id提取客户前一天访问的所有页面id,存入数据库中,记录时间。
10.如权利要求7所述的装置,其特征在于,所述客户访问页面常见序列挖掘模块包括PrefixSpan挖掘算法模块,用于根据I^refixSpan算法处理数据,挖掘客户访问页面常见序列;结果存储模块,将所有挖掘出的频繁序列进行合并,存入结果文件中; 显示模块,根据挖掘结果显示客户访问页面常见序列。
全文摘要
本发明公开了一种在电子商务类网站平台上提取客户访问页面常见序列的方法。该方法包括通过将客户访问页面记录代码嵌入到网站的被采集网页的代码中,采集客户访问网页的记录;将采集的记录数据存入数据库中;通过PrefixSpan算法快速挖掘客户访问页面的常见序列,提取满足设定支持度阈值的序列模式。通过本发明解决了现有方法中不能解决的客户访问页面常见序列挖掘的问题,并提高了挖掘效率,减少了提取时所占用的存储空间。本发明同时公开了一种在电子商务类网站平台上提取客户访问页面常见序列的装置。
文档编号G06F17/30GK102541934SQ201010618109
公开日2012年7月4日 申请日期2010年12月31日 优先权日2010年12月31日
发明者李栋, 林冠洲, 田斌 申请人:北京安码科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1