本发明涉及爬虫领域,尤其涉及一种数据处理方法和客户端设备。
背景技术:
互联网时代,网络媒体已经成为人们获取信息的主要渠道,不同行业不同品牌的厂商为了获得更好的市场营销效果,会对与品牌相关的网络信息进行监测。
市面上现有的各种网络监测系统覆盖的信源主要包括新闻、微博、微信、论坛、电子报等。
然而,随着电商市场规模的不断发展,具有大数据特征的电商平台数据亟需进行收集、整合并加以分析,以便帮助不同厂商了解品牌的营销效果。
技术实现要素:
本发明实施例提供了一种数据处理方法和客户端设备,可以根据电商平台的数据得到目标品牌的第一特征,以便于厂商从电商平台的数据中了解目标品牌的营销效果。
一方面,本发明实施例提供了一种数据处理方法,该方法包括:
通过爬虫引擎爬取电商平台的数据,所述电商平台为能够通过爬虫引擎爬取数据的电商平台,所述数据包括用户的注册信息,用户的购买行为信息和商品属性信息;
根据所述电商平台的数据分析目标品牌的第一特征。
在一些可能的实现方式中,所述根据所述电商平台的数据分析目标品牌的第一特征之前,还包括:
对所述电商平台的数据进行数据清洗;
将清洗后的所述电商平台的数据进行不同字段的拆分建表和分字段存储。
在一些可能的实现方式中,所述根据所述电商平台的数据分析目标品牌的第一特征之后,还包括:
将所述第一特征按照预置的公式计算所述目标品牌的第二特征,所述第二特征为受所述第一特征影响的特征。
在一些可能的实现方式中,所述第一特征包括用户惰性指数,价格敏感指数和品牌依赖指数中的至少一个,所述用户惰性指数用于表示用户持续使用所述目标品牌的商品的习惯,所述价格敏感指数用于表示用户由于价格变化引起对所述目标品牌的商品的需求量变化,所述品牌依赖指数用于表示用户对所述目标品牌的依赖程度。
在一些可能的实现方式中,所述第二特征包括用户粘性指数,所述用户粘性指数用于衡量用户的忠诚度。
在一些可能的实现方式中,所述根据所述电商平台的数据分析所述目标品牌的第一特征包括:
从所述电商平台的数据中获取同一商品类型的数据;
在所述同一商品类型的数据中确定第一预置时间段内购买所述目标品牌的商品两次以上的第一用户;
在所述第一用户中确定第二预置时间段内购买所述目标品牌的商品两次以上且只对所述目标品牌的商品进行评论的第二用户,所述第二预置时间段早于所述第一预置时间段;
确定所述第一用户的数量与所述第二用户的数量的比值为所述第一预置时间段内所述目标品牌的用户惰性指数。
在一些可能的实现方式中,所述根据所述电商平台的数据分析所述目标品牌的第一特征还包括:
在所述同一商品类型的数据中确定所述第一预置时间段内对所述目标品牌的商品评论中包含价格关键词的评论数;
在所述同一商品类型的数据中确定所述第一预置时间段内购买所述目标品牌商品的总数;
确定所述包含价格关键词的评论数与所述购买所述目标品牌商品的总数的比值为所述第一预置时间段内所述目标品牌的价格敏感指数。
在一些可能的实现方式中,所述根据所述电商平台的数据分析所述目标品牌的第一特征还包括:
在所述同一商品类型的数据中确定所述第一预置时间段内对所述目标品牌的商品评论中包含品牌关键词的评论数;
确定所述包含品牌关键词的评论数与所述购买所述目标品牌商品的总数的比值为所述第一预置时间段内所述目标品牌的品牌依赖指数。
在一些可能的实现方式中,所述预置的公式包括:
用户粘性指数=惰性用户指数*40%+品牌依赖指数*40%+价格敏感指数*20%。
另一方面,本发明实施例还提供了一种客户端设备,该客户端设备包括:
爬取单元,用于通过爬虫引擎爬取电商平台的数据,所述电商平台为能够通过爬虫引擎爬取数据的电商平台,所述数据包括用户的注册信息,用户的购买行为信息和商品属性信息;
分析单元,用于根据所述电商平台的数据分析目标品牌的第一特征。
在一些可能的实现方式中,所述客户端设备还包括:
清洗单元,用于对所述电商平台的数据进行数据清洗;
处理单元,用于将清洗后的所述电商平台的数据进行不同字段的拆分建表和分字段存储。
在一些可能的实现方式中,所述客户端设备还包括:
计算单元,用于将所述第一特征按照预置的公式计算所述目标品牌的第二特征,所述第二特征为受所述第一特征影响的特征。
在一些可能的实现方式中,所述第一特征包括用户惰性指数,价格敏感指数和品牌依赖指数中的至少一个,,所述用户惰性指数用于表示用户持续使用所述目标品牌的商品的习惯,所述价格敏感指数用于表示用户由于价格变化引起对所述目标品牌的商品的需求量变化,所述品牌依赖指数用于表示用户对所述目标品牌的依赖程度。
在一些可能的实现方式中,所述第二特征包括用户粘性指数,所述用户粘性指数用于衡量用户的忠诚度。
在一些可能的实现方式中,所述分析单元具体包括:
获取模块,用于从所述电商平台的数据中获取同一商品类型的数据;
第一确定模块,用于在所述同一商品类型的数据中确定第一预置时间段内购买所述目标品牌的商品两次以上的第一用户;以及用于在所述第一用户中确定第二预置时间段内购买所述目标品牌的商品两次以上且只对所述目标品牌的商品进行评论的第二用户,所述第二预置时间段早于所述第一预置时间段;以及用于确定所述第一用户的数量与所述第二用户的数量的比值为所述第一预置时间段内所述目标品牌的用户惰性指数。
在一些可能的实现方式中,所述分析单元还包括:
第二确定模块,用于在所述同一商品类型的数据中确定所述第一预置时间段内对所述目标品牌的商品评论中包含价格关键词的评论数;以及用于在所述同一商品类型的数据中确定所述第一预置时间段内购买所述目标品牌商品的总数;以及用于确定所述包含价格关键词的评论数与所述购买所述目标品牌商品的总数的比值为所述第一预置时间段内所述目标品牌的价格敏感指数。
在一些可能的实现方式中,所述分析单元还包括:
第三确定模块,用于在所述同一商品类型的数据中确定所述第一预置时间段内对所述目标品牌的商品评论中包含品牌关键词的评论数;以及用于确定所述包含品牌关键词的评论数与所述购买所述目标品牌商品的总数的比值为所述第一预置时间段内所述目标品牌的品牌依赖指数。
在一些可能的实现方式中,所述预置的公式包括:
用户粘性指数=惰性用户指数*40%+品牌依赖指数*40%+价格敏感指数*20%。
再一方面,本发明实施例还提供了一种客户端设备,该客户端设备包括:
输入装置、输出装置、处理器和存储器;
通过调用所述存储器存储的操作指令,所述处理器用于执行如下步骤:
通过爬虫引擎爬取电商平台的数据,所述电商平台为能够通过爬虫引擎爬取数据的电商平台,所述数据包括用户的注册信息,用户的购买行为信息和商品属性信息;
根据所述电商平台的数据分析目标品牌的第一特征,所述第一特征用于评价所述目标品牌的营销效果。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,通过爬虫引擎爬取电商平台的数据,所述电商平台为能够通过爬虫引擎爬取数据的电商平台,所述数据包括用户的注册信息,用户的购买行为信息和商品属性信息;根据所述电商平台的数据分析目标品牌的第一特征,所述第一特征用于评价所述目标品牌的营销效果。可以根据电商平台的数据得到目标品牌的第一特征,以便于厂商从电商平台的数据中了解目标品牌的营销效果。
附图说明
图1为本发明实施例方法的一个实施例流程图;
图2为本发明实施例方法的另一个实施例流程图;
图3是本发明实施例客户端设备的一个实施例的结构示意图;
图4是本发明实施例客户端设备的另一个实施例的结构示意图;
图5是本发明实施例客户端设备的另一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
随着电商市场规模的不断发展,网购已经在一定程度上成为了人们主要的购物方式,具有大数据特征的电商平台数据亟需进行收集、整合并加以分析。本发明实施例提供了一种数据处理方法和客户端设备,可以根据电商平台的数据得到目标品牌的第一特征,以便于厂商从电商平台的数据中了解目标品牌的营销效果。
请参阅图1,本发明实施例方法的一个实施例,包括:
101、通过爬虫引擎爬取电商平台的数据。
由于部分电商平台会采取反爬虫机制,所以并不是所有的电商平台都能顺利地进行爬取,需要先对电商平台进行筛选,确定能够通过爬虫引擎爬取数据的电商平台。需要爬取的数据包括用户的注册信息,用户的购买行为信息和商品属性信息。
需要说明的是,可以通过对爬虫软件的设置,只爬取特定的商品的数据,也可以爬取大量数据后再进行商品的分类处理,此处不做太多限定。
102、根据电商平台的数据分析目标品牌的第一特征。
电商平台拥有大量有价值的数据,大部分数据与目标品牌的销售情况息息相关,根据这些数据,可以分析得到用于评价目标品牌的营销效果的第一特征。
本实施例中,可以根据电商平台的数据得到目标品牌的第一特征,以便于厂商从电商平台的数据中了解目标品牌的营销效果。
请参阅图2,本发明实施例方法的另一个实施例,包括:
201、通过爬虫引擎爬取电商平台的数据。
步骤201与图1的步骤101类似,不再赘述。
需要说明的是,用户的注册信息包括用户的注册时间,因为部分电商平台可能不会公开用户的id,所以可以通过用户的注册时间来识别是否为同一个用户的购买行为。用户的购买行为包括用户的购买时间,购买商品信息,商品评论,购物车的商品信息等,此处不做太多限定。商品属性信息包括商品的id,商品的品牌,商品的价格等,此处不做太多限定。
202、对电商平台的数据进行数据清洗。
爬虫爬取的电商平台的数据可能存在重复、错误或无效的数据,故需要对爬取的电商平台的数据进行数据清洗。可以通过抽取和数据转换等方式进行初步处理,生成文档数据库,此处不做太多限定。
203、将清洗后的电商平台的数据进行不同字段的拆分建表和分字段存储。
爬虫爬取的电商平台的数据是非结构化的数据,需要整理成结构化的数据。首先对电商平台的数据进行拆分得到不同的字段,按照不同的字段建表,并将数据分字段存入表中。例如,通过拆分得到“goodsid”和“goodsprice”两个字段,分别表示商品id和商品价格,再根据这两个字段建立表格,最后将数据中涉及这两个字段的内容存入表中。
需要说明的是,本发明实施例中,可以根据电商平台的数据分析目标品牌的第一特征,再将第一特征按照预置的公式计算目标品牌的第二特征,第一特征用于评价目标品牌的营销效果,第二特征为受第一特征影响的特征。其中,第一特征包括用户惰性指数,价格敏感指数和品牌依赖指数中的至少一个,第二特征包括用户粘性指数,第一特征也可以包括用户的二次购买率等,此处不做太多限定,本实施例以第一特征包括用户惰性指数,价格敏感指数和品牌依赖指数,第二特征包括用户粘性指数为例,进行说明。
204、获取同一商品类型的数据。
具体地,从经过步骤203处理的数据中获取同一商品类型的数据,因为有些品牌的商品类型特别多,不同的商品类型的营销效果差异非常大,如果不同类型产商品一起进行分析,会导致分析结果的针对性不强,所以本实施例中,使用同一商品类型的数据进行分析。
205、分析目标品牌的用户惰性指数。
用户惰性是指在同类商品中,用户使用同一品牌,不会频繁切换品牌的习惯。
具体地,在同一商品类型的数据中确定第一预置时间段内购买目标品牌的商品两次以上的第一用户;在第一用户中确定第二预置时间段内购买目标品牌的商品两次以上且只对目标品牌的商品进行评论的第二用户,第二预置时间段早于第一预置时间段;确定第一用户的数量与第二用户的数量的比值为第一预置时间段内目标品牌的用户惰性指数。
需要说明的是,第二预置时间段早于第一预置时间段,包括第二预置时间段的结束时间与第一预置时间段的开始时间相同,或者第二预置时间段的结束时间早于第一预置时间段的开始时间,或者第二预置时间段的结束时间晚于第一预置时间段的开始时间,此处不做太多限定。
还需要说明的是,以上分析用户惰性指数的方法只是一个示例,实际实现中,也可以采用其他方法,此处不做太多限定。
206、分析目标品牌的价格敏感指数。
价格敏感是指由于价格变动引起的商品需求量的变化。
具体地,在同一商品类型的数据中确定第一预置时间段内对目标品牌的商品评论中包含价格关键词的评论数;在同一商品类型的数据中确定第一预置时间段内购买目标品牌商品的总数;确定包含价格关键词的评论数与购买目标品牌商品的总数的比值为第一预置时间段内目标品牌的价格敏感指数。
需要说明的是,以上分析价格敏感指数的方法只是一个示例,实际实现中,也可以采用其他方法,此处不做太多限定。
207、分析目标品牌的品牌依赖指数。
品牌依赖是指用户和品牌之间的依恋情感,用户往往对品牌表现出积极正面的信念和态度。
具体地,在同一商品类型的数据中确定第一预置时间段内对目标品牌的商品评论中包含品牌关键词的评论数;确定包含品牌关键词的评论数与第一预置时间段内购买目标品牌商品的总数的比值为第一预置时间段内目标品牌的品牌依赖指数。
需要说明的是,以上分析品牌依赖指数的方法只是一个示例,实际实现中,也可以采用其他方法,此处不做太多限定。
还需要说明的是,步骤205~207之间不存在执行的先后顺序,也可以按照其他的顺序执行。
208、将第一特征按照预置的公式计算目标品牌的用户粘性指数。
用户粘性是衡量用户忠诚度计划的重要指标,而用户惰性,价格敏感和品牌依赖又从不同的维度影响着用户粘性。
具体地,可以按照以下预置的公式计算目标品牌的用户粘性指数:
用户粘性指数=惰性用户指数*40%+品牌依赖指数*40%+价格敏感指数*20%。
需要说明的是,以上计算用户粘性指数的方法只是一个示例,实际实现中,也可以采用将惰性用户指数、品牌依赖指数和价格敏感指数相加后开立方根得到用户粘性指数,此处不做太多限定。
本实施例中,对第一特征和第二特征进行了细化,并详细说明了如何通过处理后的电商平台数据分析得到第一特征和第二特征,可以让厂商不仅能通过目标品牌的第一特征来了解品牌的营销效果,也可以通过第二特征来了解目标品牌的营销效果。
为了便于理解,下面将结合实际的应用场景进行描述。
b厂商委托a公司分析伊利奶粉在京东购物平台上的2016年6月1日到2016年9月1日时间段内的用户粘性指数。a公司通过客户端设备生成爬虫程序,并通过爬虫引擎爬取京东网上的用户注册信息,用户购买各品牌奶粉的时间、评论、和品牌信息,以及各品牌的奶粉商品信息。然后客户端设备对爬取的数据进行去重处理,并进行不同字段的拆分建表和分字段存储,从而得到结构化的数据。从这些数据中,确定2016年6月1日到2016年9月1日时间段内购买伊利奶粉两次以上的第一用户数量为200,第一用户中在2015年9月1日到2016年9月1日期间,购买伊利奶粉两次以上且只有对伊利奶粉进行评论的第二用户数量为800,则伊利奶粉在2016年6月1日到2016年9月1日时间段内的用户惰性为第一用户数量与第二用户数量的比值,即0.25。其次,确定2016年6月1日到2016年9月1日时间段内用户对伊利奶粉的评价中,包括价格关键词“便宜”、“实惠”、“贵”、“价格”、“促销”、“打折”、“性价比”的评论数为400,2016年6月1日到2016年9月1日时间段内用户购买伊利奶粉的总数为1000,则2016年6月1日到2016年9月1日时间段内伊利奶粉的价格敏感指数为包含价格关键词的评论数与用户购买伊利奶粉的总数的比值,即0.4。再次,确定2016年6月1日到2016年9月1日时间段内用户对伊利奶粉的评价中,包括品牌关键词“伊利”、“信赖”的评论数为100,则2016年6月1日到2016年9月1日时间段内伊利奶粉的品牌依赖指数为包含品牌关键词的评论数与用户购买伊利奶粉的总数的比值,即0.1。最后,根据公式:用户粘性指数=惰性用户指数*40%+品牌依赖指数*40%+价格敏感指数*20%,计算得到2016年6月1日到2016年9月1日时间段内伊利奶粉的用户粘性指数为0.22。由此,b厂商可以通过用户粘性指数了解伊利奶粉在京东购物平台的营销效果,b厂商还可以通过了解不同时间段的用户粘性指数,来分析营销效果的变化情况。
以上是对本发明实施例方法的实施例和应用场景的介绍,下面将从装置的角度对本发明实施例进行详细的说明。
请参阅图3,本发明实施例客户端设备的一个实施例包括:
爬取单元301,用于通过爬虫引擎爬取电商平台的数据,电商平台为能够通过爬虫引擎爬取数据的电商平台,数据包括用户的注册信息,用户的购买行为信息和商品属性信息,具体地,爬取单元301可用于执行图1的步骤101,不再赘述。
分析单元302,用于根据电商平台的数据分析目标品牌的第一特征,第一特征用于评价目标品牌的营销效果,具体地,分析单元302可用于执行图1的步骤102,不再赘述。
本实施例中,可以根据电商平台的数据得到目标品牌的第一特征,以便于厂商从电商平台的数据中了解目标品牌的营销效果。
请参阅图4,本发明实施例客户端设备的另一个实施例包括:
爬取单元401,用于通过爬虫引擎爬取电商平台的数据,电商平台为能够通过爬虫引擎爬取数据的电商平台,数据包括用户的注册信息,用户的购买行为信息和商品属性信息,具体地,可用于执行图2的步骤201,不再赘述。
清洗单元402,用于对电商平台的数据进行数据清洗,具体地,可用于执行图2的步骤202,不再赘述。
处理单元403,用于将清洗后的电商平台的数据进行不同字段的拆分建表和分字段存储,具体地,可用于执行图2的步骤203,不再赘述。
分析单元404,用于根据电商平台的数据分析目标品牌的第一特征,第一特征用于评价目标品牌的营销效果。
本实施例中,以第一特征包括用户惰性指数,价格敏感指数和品牌依赖指数,第二特征包括用户粘性指数为例,分析单元还包括:
获取模块4041,用于从电商平台的数据中获取同一商品类型的数据,具体地,可用于执行图2的步骤204,不再赘述。
第一确定模块4042,用于在同一商品类型的数据中确定第一预置时间段内购买目标品牌的商品两次以上的第一用户;以及用于在第一用户中确定第二预置时间段内购买目标品牌的商品两次以上且只对目标品牌的商品进行评论的第二用户,第二预置时间段早于第一预置时间段;以及用于确定第一用户的数量与第二用户的数量的比值为第一预置时间段内目标品牌的用户惰性指数。具体地,可用于执行图2的步骤205,不再赘述。
第二确定模块4043,用于在同一商品类型的数据中确定第一预置时间段内对目标品牌的商品评论中包含价格关键词的评论数;以及用于在同一商品类型的数据中确定第一预置时间段内购买目标品牌商品的总数;以及用于确定包含价格关键词的评论数与购买目标品牌商品的总数的比值为第一预置时间段内目标品牌的价格敏感指数。具体地,可用于执行图2的步骤206,不再赘述。
第三确定模块4044,用于在同一商品类型的数据中确定第一预置时间段内对目标品牌的商品评论中包含品牌关键词的评论数;以及用于确定包含品牌关键词的评论数与购买目标品牌商品的总数的比值为第一预置时间段内目标品牌的品牌依赖指数。具体地,可用于执行图2的步骤207,不再赘述。
计算单元405,用于将第一特征按照预置的公式计算目标品牌的第二特征,第二特征为受第一特征影响的特征。具体地,可用于执行图2的步骤208,不再赘述。
本实施例中,对第一特征和第二特征进行了细化,并详细说明了如何通过处理后的电商平台数据分析得到第一特征和第二特征,可以让厂商不仅能通过目标品牌的第一特征来了解品牌的营销效果,也可以通过第二特征来了解目标品牌的营销效果。
以上从模块化功能实体的角度对本发明实施例中的客户端设备进行描述,下面从硬件处理的角度对本发明实施例的客户端设备进行描述。
请参阅图5,本发明实施例中客户端设备的另一实施例包括:
输入装置501、输出装置502、处理器503和存储器504(其中客户端设备的处理器801的数量可以一个或多个,图5中以一个处理器501为例)。在本发明的一些实施例中,输入装置501、输出装置502、处理器503和存储器504可通过总线或其它方式连接,其中,图5中以通过总线连接为例。
其中,通过调用存储器504存储的操作指令,处理器503用于执行如下步骤:
通过爬虫引擎爬取电商平台的数据,电商平台为能够通过爬虫引擎爬取数据的电商平台,数据包括用户的注册信息,用户的购买行为信息和商品属性信息;
根据电商平台的数据分析目标品牌的第一特征,第一特征用于评价目标品牌的营销效果。
具体地,本实施例中的客户端设备可用于执行图1,图2中的动作,不再赘述。
本实施例中,可以根据电商平台的数据得到目标品牌的第一特征,以便于厂商从电商平台的数据中了解目标品牌的营销效果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。