电子商务网站销售数据分析方法

文档序号:6550668阅读:1016来源:国知局
电子商务网站销售数据分析方法
【专利摘要】本发明一种电子商务网站销售数据分析方法,所述方法包括:获取用户行为记录数据、抓取电子网站的公开数据;结合用户行为记录数据、抓取电子网站的访问数据进行数据处理,得到处理后的数据,其中所述数据处理包括数据提取、转换和加载;对处理后的数据基于预定的算法模型和业务模型进行数据挖掘,获得最终的销售数据的结果数据。
【专利说明】电子商务网站销售数据分析方法

【技术领域】
[0001]本发明涉及电子商务网站销售数据分析方法。

【背景技术】
[0002]目前,电商的数据分析,限于各大电商网站内部,对自身数据本身的分析,比如,阿里巴巴的数据魔方。这些技术,无法做到对于全网全部电商数据的横向挖掘,更没有结合全网用户访问行为,进行相关分析。对于全网电商数据的抓取,涉及数据量巨大,而且需要将不同电商网站的非结构化数据,解析成结构化数据,无论从数据量本身、数据的抓取还是解析都有着极大的难度。
[0003]各个电商平台的产品销量数据,是无法从公开渠道获取的。每家电商自身,也只能知道自己平台相关产品的销量数据。而一般的通过电商平台的公开数据,来推测销量的方式,具有很大的片面性。这样推测出来的数据,会和真实的销量数据差距较大,而且很不稳定。


【发明内容】

[0004]针对上述问题,本发明提供一种电子商务网站销售数据分析方法。
[0005]本发明电子商务网站销售数据分析方法,所述方法包括:
获取用户行为记录数据、抓取电子网站的公开数据;
结合用户行为记录数据、抓取电子网站的访问数据进行数据处理,得到处理后的数据,其中所述数据处理包括数据提取、转换和加载;
对处理后的数据基于预定的算法模型和业务模型进行数据挖掘,获得最终的销售数据的结果数据。
[0006]进一步地,所述用户行为数据至少包括购买产品的行为数据;所述电子网站的公开数据至少包括产品评论数据、产品排名数据、产品访问数据。
[0007]进一步地,所述算法模型,包括聚类和分类算法,以及关联规则和时间序列;所述业务模型,包括通过产品评论数据、产品排名数据和产品访问量数据分别统计出产品的销量,对产品评论数据、产品排名数据和产品访问量数据取中位数,作为置信度最高的销量值。
[0008]进一步地,所述销售数据的获取方法包括:
直接获得销售数据;或
通过对用户行为记录、抓取电子网站的公开数据进行数据提取、转换和加载,得到多维度的数据;
对多维度的数据分别基于产品的评论数、产品的排名、产品的访问量几个维度分别计算产品的销量值;
对基于产品的评论数获得的销量值、产品的排名获得的销量值、产品的访问量获得的销量值取中位数,得到产品的销量值。
[0009]进一步地,基于产品评论数计算产品销量数的方法为:在抓取数据中,获取到每个产品,每天的评论数,计算出预定时间段内的评论数增量,同一时间段内,每个网站的销量和评论数成正比,通过检验数据,获得每个网站的这一系数,用评论数乘以该系数,得到所述产品的销量值。
[0010]进一步地,基于产品访问量计算出销量的方法为:在抓取数据中,获取产品详情页的URL特征,该特征使用正则表达式来表示,在用户访问记录中,匹配并计算出每个产品的访问数,统计出每个品类,对应的所有产品的访问总数,用每个产品的访问数,除以对应品类的访问总数,再乘以又评论数计算出的这个品类的总销量,就得到了基于产品访问量计算出的销量。
[0011]进一步地,基于产品排名计算出销量的方法为:在抓取数据中,获取每个产品在对应品类的排名,计算一个时间段,每个排名的平均评论数,然后每个产品按照排名,得到这个按排名的平均评论数,然后乘以,在基于产品评论数计算出销量的具体过程中的对应网站的系数,就得到了基于产品排名计算出的销量。
[0012]本发明有益效果:
本发明,可以大规模获取全网电商相关数据,同时结合海量用户访问记录,根据独有的分析模型,挖掘出有价值的信息和知识。本专利通过电商平台的公开数据,比如,产品评论和排名,并且,结合海量用户访问记录,通过本专利的独特销量统计分析模型,可以获得准确度非常高的,跨电商平台的产品销量数据。

【专利附图】

【附图说明】
[0013]图1本发明的电子商务网站销售数据分析方法流程图;
图2本发明的电子商务网站销售数据分析方法具体流程图。

【具体实施方式】
[0014]下面结合说明书附图对本发明做进一步的描述。
[0015]电商数据的抓取,采用分布式集群进行海量数据的抓取。分布式集群,底层技术采用成熟的Hadoop生态系统。可以对不同站点,进行极高的个性化配置,满足不同站点的各自抓取和数据结构化解析的需求。可以通过配置规则,而不用增加代码的方式,对不同站点进行数据结构化解析。支持多种数据的格式,包括,HTML,XML,JS0N。多种防反抓取策略,包括,使用代理,控制并发和单位时间访问次数。对全网电商各个维度数据进行抓取解析,包括,产品详情,产品参数,价格,促销信息,评论。定时跟踪,增量更新相关数据。
[0016]对全网电商数据,进行横向挖掘。抓取的电商数据,结合全网用户访问行为,对这些海量数据,进行多维度的深入挖掘。
[0017]独有的销量估算模型,除淘宝、天猫外,其他的大型电商网站,无法直接获取到销量。通过产品评论、产品排名和产品访问量,从这几个方面,分别统计出这个产品的销量,然后对这几个值取中位数,作为置信度最高的销量值。
[0018]按产品评论数计算出销量的具体过程是,在抓取数据中,可以直接获取到每个产品,每天的评论数。这样可以计算出,一段时间的评论数增量。同一段时间内,每个商城销量和评论数成正比,通过检验数据,可以获得每个商城的这一系数。于是,用评论数乘以这个系数,就可以得到对应的销量。
[0019]按产品访问量计算出销量的具体过程是,在抓取数据中,获取产品详情页的URL特征,这一特征使用正则表达式来表示,然后在用户访问记录中,匹配并计算出每个产品的访问数。统计出每个品类,对应的所有产品的访问总数,用每个产品的访问数,除以对应品类的访问总数,再乘以又评论数计算出的这个品类的总销量,就得到了按产品访问量计算出的销量。
[0020]按产品排名计算出销量的具体过程是,在抓取数据中,获取每个产品在对应品类的排名,计算一个时间段,每个排名的平均评论数,然后每个产品按照排名,可以得到这个按排名的平均评论数,然后乘以,在“按产品评论数计算出销量的具体过程”中的对应商城的系数,就得到了按产品排名计算出的销量。
[0021]在图1中,本实施例电子商务网站销售数据分析方法,所述方法包括:
获取用户行为记录数据、抓取电子网站的公开数据;
结合用户行为记录数据、抓取电子网站的访问数据进行数据处理,得到处理后的数据,其中所述数据处理包括数据提取、转换和加载;
对处理后的数据基于预定的算法模型和业务模型进行数据挖掘,获得最终的销售数据的结果数据。
[0022]如图2所示,所述的电子商务网站的数据销售分析方法,所述用户行为数据至少包括购买产品的行为数据;所述电子网站的公开数据至少包括产品评论数据、产品排名数据、产品访问数据。
[0023]所述的电子商务网站的数据销售分析方法,所述销售数据的获取方法包括:
直接获得销售数据;或
通过对用户行为记录、抓取电子网站的公开数据进行数据提取、转换和加载,得到多维度的数据;
对多维度的数据分别基于产品的评论数、产品的排名、产品的访问量几个维度分别计算产品的销量值;
对基于产品的评论数获得的销量值、产品的排名获得的销量值、产品的访问量获得的销量值取中位数,得到产品的销量值。
[0024]基于产品评论数计算产品销量数的方法为:在抓取数据中,获取到每个产品,每天的评论数,计算出预定时间段内的评论数增量,同一时间段内,每个网站的销量和评论数成正比,通过检验数据,获得每个网站的这一系数,用评论数乘以该系数,得到所述产品的销量值。
[0025]基于产品访问量计算出销量的方法为:在抓取数据中,获取产品详情页的URL特征,该特征使用正则表达式来表示,在用户访问记录中,匹配并计算出每个产品的访问数,统计出每个品类,对应的所有产品的访问总数,用每个产品的访问数,除以对应品类的访问总数,再乘以又评论数计算出的这个品类的总销量,就得到了基于产品访问量计算出的销量。
[0026]基于产品排名计算出销量的方法为:在抓取数据中,获取每个产品在对应品类的排名,计算一个时间段,每个排名的平均评论数,然后每个产品按照排名,得到这个按排名的平均评论数,然后乘以,在基于产品评论数计算出销量的具体过程中的对应网站的系数,就得到了基于产品排名计算出的销量。
[0027]在图1中,通过抓取系统,对全网电商数据,进行抓取、提取、传输,得到抓取数据。结合用户行为数据,按照业务需求,对数据进行综合的ETL清洗。对清洗后的数据,根据业务需求,进行各种模型的挖掘。
[0028]在图2中,结合全网电商的抓取数据和全网用户访问记录,分别清洗出,按产品评论数计算出的销量、按产品访问量计算出的销量、按产品排名计算出的销量。然后对这几个值取中位数,作为置信度最高的销量值。
[0029]本发明,算法模型是采用开源、通用的。
[0030]算法模型,包括常用的聚类和分类算法,以及关联规则和时间序列。
[0031]业务模型,在【具体实施方式】中,已经详细描述。即,如下的部分。
[0032]“通过产品评论、产品排名和产品访问量,从这几个方面,分别统计出这个产品的销量,然后对这几个值取中位数,作为置信度最高的销量值。
[0033]按产品评论数计算出销量的具体过程是,在抓取数据中,可以直接获取到每个产品,每天的评论数。这样可以计算出,一段时间的评论数增量。同一段时间内,每个商城销量和评论数成正比,通过检验数据,可以获得每个商城的这一系数。于是,用评论数乘以这个系数,就可以得到对应的销量。
[0034]按产品访问量计算出销量的具体过程是,在抓取数据中,获取产品详情页的URL特征,这一特征使用正则表达式来表示,然后在用户访问记录中,匹配并计算出每个产品的访问数。统计出每个品类,对应的所有产品的访问总数,用每个产品的访问数,除以对应品类的访问总数,再乘以又评论数计算出的这个品类的总销量,就得到了按产品访问量计算出的销量。
[0035]按产品排名计算出销量的具体过程是,在抓取数据中,获取每个产品在对应品类的排名,计算一个时间段,每个排名的平均评论数,然后每个产品按照排名,可以得到这个按排名的平均评论数,然后乘以,在“按产品评论数计算出销量的具体过程”中的对应商城的系数,就得到了按产品排名计算出的销量。”
本发明的优点:
各个电商平台的产品销量数据,是无法从公开渠道获取的。每家电商自身,也只能知道自己平台相关产品的销量数据。而一般的通过电商平台的公开数据,来推测销量的方式,具有很大的片面性。这样推测出来的数据,会和真实的销量数据差距较大,而且很不稳定。本专利通过电商平台的公开数据,比如,产品评论和排名,并且,结合海量用户访问记录,通过本专利的独特销量统计分析模型,可以获得准确度非常高的,跨电商平台的产品销量数据。
[0036]本发明要挖掘的数据:
本专利要挖掘的数据,就是跨电商平台的产品销量数据。这些数据有很大的商业价值,t匕如,某品牌的冰箱厂商,可以通过这些数据,了解自己和竞争对手,在各个电商平台的具体销售情况,以此来拟定自己的营销策略。
[0037]英文名词解释:
URL:Uniform Resoure Locator统一资源定位器,是Wffff页的地址。
[0038]ETL:Extract-Transform_Load 的缩写,是数据抽取(Extract)、清洗(Cleaning)、转换(Transform)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
[0039]Hadoop =Hadoop是在分布式服务器集群上存储海量数据并运行分布式分析应用的一种方法。允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理。Hadoop被设计成能够从单台服务器扩展到数以千计的服务器,每台服务器都有本地的计算和存储资源。Hadoop的高可用性并不依赖硬件,其代码库自身就能在应用层侦测并处理硬件故障,因此能基于服务器集群提供高可用性的服务。
[0040]HTML:HyperText Markup language超文本标记语言。“超文本”就是指页面内可以包含图片、链接,甚至音乐、程序等非文字元素。
[0041]XML Extensible Markup Language可扩展标记语言,标准通用标记语言的子集,一种用于标记电子文件使其具有结构性的标记语言。
[0042]JSON:JSON(JavaScript Object Notat1n)是一种轻量级的数据交换格式。它基于 JavaScript (Standard ECMA-262 3rd Edit1n - December 1999)的一个子集。JSON采用完全独立于语言的文本格式,但是也使用了类似于C语言家族的习惯(包括C,C++,c#, Java, JavaScript, Perl, Python等)。这些特性使JSON成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成。
[0043]对本发明应当理解的是,以上所述的实施例,对本发明的目的、技术方案和有益效果进行了进一步详细的说明,以上仅为本发明的实施例而已,并不用于限定本发明,凡是在本发明的精神原则之内,所作出的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内,本发明的保护范围应该以权利要求所界定的保护范围为准。
【权利要求】
1.一种电子商务网站销售数据分析方法,其特征在于:所述方法包括: 获取用户行为记录数据、抓取电子网站的公开数据; 结合用户行为记录数据、抓取电子网站的访问数据进行数据处理,得到处理后的数据,其中所述数据处理包括数据提取、转换和加载; 对处理后的数据基于预定的算法模型和业务模型进行数据挖掘,获得最终的销售数据的结果数据。
2.根据权利要求1所述的电子商务网站销售数据分析方法,其特征在于:所述用户行为数据至少包括购买产品的行为数据;所述电子网站的公开数据至少包括产品评论数据、产品排名数据、产品访问数据。
3.根据权利要求2所述的电子商务网站销售数据分析方法,其特征在于:所述算法模型,包括聚类和分类算法,以及关联规则和时间序列;所述业务模型,包括通过产品评论数据、产品排名数据和产品访问量数据分别统计出产品的销量,对产品评论数据、产品排名数据和产品访问量数据取中位数,作为置信度最高的销量值。
4.根据权利要求2所述的电子商务网站的数据销售分析方法,其特征在于:所述销售数据的获取方法包括: 直接获得销售数据;或 通过对用户行为记录、抓取电子网站的公开数据进行数据提取、转换和加载,得到多维度的数据; 对多维度的数据分别基于产品的评论数、产品的排名、产品的访问量几个维度分别计算产品的销量值; 对基于产品的评论数获得的销量值、产品的排名获得的销量值、产品的访问量获得的销量值取中位数,得到产品的销量值。
5.根据权利要求4所述的电子商务网站的数据销售分析方法,其特征在于:基于产品评论数计算产品销量数的方法为:在抓取数据中,获取到每个产品,每天的评论数,计算出预定时间段内的评论数增量,同一时间段内,每个网站的销量和评论数成正比,通过检验数据,获得每个网站的这一系数,用评论数乘以该系数,得到所述产品的销量值。
6.根据权利要求5所述的电子商务网站的数据销售分析方法,其特征在于: 基于产品访问量计算出销量的方法为:在抓取数据中,获取产品详情页的URL特征,该特征使用正则表达式来表示,在用户访问记录中,匹配并计算出每个产品的访问数,统计出每个品类,对应的所有产品的访问总数,用每个产品的访问数,除以对应品类的访问总数,再乘以又评论数计算出的这个品类的总销量,就得到了基于产品访问量计算出的销量。
7.根据权利要求6所述的电子商务网站的数据销售分析方法,其特征在于: 基于产品排名计算出销量的方法为:在抓取数据中,获取每个产品在对应品类的排名,计算一个时间段,每个排名的平均评论数,然后每个产品按照排名,得到这个按排名的平均评论数,然后乘以,在基于产品评论数计算出销量的具体过程中的对应网站的系数,就得到了基于产品排名计算出的销量。
【文档编号】G06Q10/06GK104134108SQ201410285931
【公开日】2014年11月5日 申请日期:2014年6月25日 优先权日:2014年6月25日
【发明者】杨伟庆 申请人:上海艾瑞市场咨询有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1