数据分析方法、装置、计算机设备和存储介质与流程

文档序号:17222209发布日期:2019-03-27 12:06阅读:226来源:国知局
数据分析方法、装置、计算机设备和存储介质与流程

本申请涉及计算机技术领域,特别是涉及一种数据分析方法、装置、计算机设备和存储介质。



背景技术:

随着计算机技术和互联网的发展,越来越多的活动在互联网上举办。有的活动举办的效果比较好,有的活动举办的效果不好。对于举办效果不好的活动,只能从活动的内容进行分析得出原因。然而,从活动的内容分析并不能准确地得到原因,存在数据分析准确度较低的问题。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够数据分析准确度的数据分析方法、装置、计算机设备和存储介质。

一种数据分析方法,所述方法包括:

获取原始用户样本集合中每个用户对应的属性标签,其中,所述原始用户样本集合中包含目标用户样本集合,所述属性标签是用户在操作网页过程中生成的,所述属性标签包括第一属性标签、第二属性标签和第三属性标签;

根据所述第一属性标签和第二属性标签对所述目标用户样本集合中的用户进行第一分类处理,并统计所述第一分类处理得到的每个分类中包含的用户的第一数量;

根据所述第三属性标签对所述目标用户样本集合中的用户进行第二分类处理,并统计所述第二分类处理得到的每个分类中包含的用户的第二数量;

根据统计得到的所述第一数量获取第一分析数据,并根据得到的所述第二数量和所述原始用户样本集合中包含的用户的数量获取第二分析数据;

根据所述第一分析数据和第二分析数据生成数据分析结果。

一种数据分析装置,所述装置包括:

属性标签获取模块,用于获取原始用户样本集合中每个用户对应的属性标签,其中,所述原始用户样本集合中包含目标用户样本集合,所述属性标签是用户在操作网页过程中生成的,所述属性标签包括第一属性标签、第二属性标签和第三属性标签;

第一分类处理模块,用于根据所述第一属性标签和第二属性标签对所述目标用户样本集合中的用户进行第一分类处理,并统计所述第一分类处理得到的每个分类中包含的用户的第一数量;

第二分类处理模块,用于根据所述第三属性标签对所述目标用户样本集合中的用户进行第二分类处理,并统计所述第二分类处理得到的每个分类中包含的用户的第二数量;

分析数据获取模块,用于根据统计得到的所述第一数量获取第一分析数据,并根据得到的所述第二数量和所述原始用户样本集合中包含的用户的数量获取第二分析数据;

数据分析结果生成模块,用于根据所述第一分析数据和第二分析数据生成数据分析结果。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述数据分析方法的步骤。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述数据分析方法的步骤。

上述数据分析方法、装置、计算机设备和存储介质,获取原始用户样本集合中每个用户对应的属性标签,其中,原始用户样本集合中包含目标用户样本集合,属性标签是用户在操作网页过程中生成的,属性标签包括第一属性标签、第二属性标签和第三属性标签;根据第一属性标签和第二属性标签对目标用户样本集合中的用户进行第一分类处理,并统计第一分类处理得到的每个分类中包含的用户的第一数量;根据第三属性标签对目标用户样本集合中的用户进行第二分类处理,并统计第二分类处理得到的每个分类中包含的用户的第二数量;根据统计得到的第一数量获取第一分析数据,并根据得到的第二数量和原始用户样本集合中包含的用户的数量获取第二分析数据;根据第一分析数据和第二分析数据生成数据分析结果。通过对原始用户样本集合中每个用户对应的属性标签进行分类处理,并统计每个分类中的数量,从而得到第一分析数据和第二分析数据,根据第一分析数据和第二分析数据得到数据分析结果,可以提高数据分析的准确度。

附图说明

图1为一个实施例中数据分析方法的应用环境图;

图2为一个实施例中数据分析方法的流程示意图;

图3为一个实施例中获取无效用户步骤的流程示意图;

图4为另一个实施例中数据分析方法的流程示意图;

图5为一个实施例中第二分类处理结果的各个类别的示意图;

图6为一个实施例中输入数据和分析数据的示意图;

图7为一个实施例中数据分析装置的结构框图;

图8为一个实施例中数据分析装置的结构框图;

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请实施例提供的数据分析方法,可以应用于如图1所示的应用环境中。其中,各个用户的终端102通过网络与服务器104通过网络进行通信。各个用户的终端102在操作网页的过程中,服务器104可以获取原始用户样本集合中每个用户对应的属性标签,其中,原始用户样本集合中包含目标用户样本集合,属性标签是用户在操作网页过程中生成的,属性标签包括第一属性标签、第二属性标签和第三属性标签;根据第一属性标签和第二属性标签对目标用户样本集合中的用户进行第一分类处理,并统计第一分类处理得到的每个分类中包含的用户的第一数量;根据第三属性标签对目标用户样本集合中的用户进行第二分类处理,并统计第二分类处理得到的每个分类中包含的用户的第二数量;根据统计得到的第一数量获取第一分析数据,并根据得到的第二数量和原始用户样本集合中包含的用户的数量获取第二分析数据;根据第一分析数据和第二分析数据生成数据分析结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种数据分析方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:

步骤202,获取原始用户样本集合中每个用户对应的属性标签,其中,原始用户样本集合中包含目标用户样本集合,属性标签是用户在操作网页过程中生成的,属性标签包括第一属性标签、第二属性标签和第三属性标签。

其中,原始用户样本集合指的是进行数据分析的所有用户样本的集合。属性标签指的是用于标示用户在操作网页过程中的属性的标签。如“参与”、“未参与”、“停留时间长”、“停留时间短”、“分享”、“打开”等。

步骤204,根据第一属性标签和第二属性标签对目标用户样本集合中的用户进行第一分类处理,并统计第一分类处理得到的每个分类中包含的用户的第一数量。

其中,目标用户样本集合指的是用于分类处理处理的用户样本的集合。具体地,获取原始用户样本集合中每个用户对应的第二属性标签的原始数据,根据原始数据从原始用户样本集合中获取目标用户;根据获取的目标用户生成目标用户样本集合。

具体地,目标用户样本集合中的用户可以同时具有第一属性标签和第二属性标签,根据第一属性标签和第二属性标签对目标用户样本集合中的用户进行分类,并统计每个分类中的用户的数量。

例如,第一属性标签可以是“参与”、“未参与”,第二属性标签可以是“停留时间长”、“停留时间短”。根据第一属性标签和第二属性标签对目标用户样本集合中的用户进行第一分类处理,可以得到四个分类“参与停留时间长”、“参与停留时间短”、“未参与停留时间长”和“未参与停留时间短”。

当用户在操作网页时,点击网页中的按钮如“充值”、“付款”,则该用户的第一属性标签为“参与”;未点击网页中的任何按钮时,则该用户的第一属性标签为“未参与”。用户在开始操作网页到退出网页的整个过程中,在网页上停留的时间超过时长阈值时,则该用户的第二属性标签为“停留时间长”;在网页上停留的时间小于或等于时长阈值时,则该用户的第二属性标签为“停留时间短”。

“参与停留时间长”表示用户在网页上停留的时间长的同时点击了网页中的按钮。“参与停留时间短”表示用户在网页上停留的时间短的同时点击了网页中的按钮。“未参与停留时间长”表示用户在网页上停留的时间长的同时未点击网页中的任何按钮。“未参与停留时间短”表示用户在网页上停留的时间短的同时未点击网页中的任何按钮。

步骤206,根据第三属性标签对目标用户样本集合中的用户进行第二分类处理,并统计第二分类处理得到的每个分类中包含的用户的第二数量。

例如,第三属性标签可以是“打开”、“完成”、“推荐”。根据第三属性标签“打开”、“完成”、“推荐”可以将目标用户样本集合中的用户分为三类“打开”、“完成”和“推荐”,并统计每个分类中包含的用户的数量。

“打开”表示用户打开了网页。“完成”表示用户点击了网页中的按钮并且完成了网页中的活动的步骤。“推荐”表示用户将网页进行分享。

步骤208,根据统计得到的第一数量获取第一分析数据,并根据得到的第二数量和原始用户样本集合中包含的用户的数量获取第二分析数据。

其中,第一分析数据指的是对第一数量进行分析得到的数据。第二分析数据指的是对第二数量和原始用户样本集合中包含的用户的数量进行分析得到的数据。

例如,对目标用户样本集合中的用户进行第一分类处理后,得到四个分类“参与停留时间长”、“参与停留时间短”、“未参与停留时间长”和“未参与停留时间短”的第一数量,根据四个第一数量可以得到第一分析数据为清晰度和参与度。

对目标用户样本集合中的用户进行第二分类处理后,得到三个分类“打开”、“完成”和“推荐”的第二数量,根据三个第二数量和原始用户样本集合中包含的用户的数量可以得到第二分析数据为可见度、完成度和推荐度。

步骤210,根据第一分析数据和第二分析数据生成数据分析结果。

例如,数据分析结果可以是“可见度过低,可能是由于链接入口不明显,用户很难注意到”,或者是“吸引度过低,可能是由于活动的奖金太少,对用户缺少吸引力”。

进一步地,还可以通过数据分析结果得到改进的方法,如“由于可见度过低,可以适当投放广告获取用户的入口”,“由于吸引度过低,可以适当提高奖金额度,或者提高奖品数量,吸引更多的用户”。

上述数据分析方法,获取原始用户样本集合中每个用户对应的属性标签,其中,原始用户样本集合中包含目标用户样本集合,属性标签是用户在操作网页过程中生成的,属性标签包括第一属性标签、第二属性标签和第三属性标签;根据第一属性标签和第二属性标签对目标用户样本集合中的用户进行第一分类处理,并统计第一分类处理得到的每个分类中包含的用户的第一数量;根据第三属性标签对目标用户样本集合中的用户进行第二分类处理,并统计第二分类处理得到的每个分类中包含的用户的第二数量;根据统计得到的第一数量获取第一分析数据,并根据得到的第二数量和原始用户样本集合中包含的用户的数量获取第二分析数据;根据第一分析数据和第二分析数据生成数据分析结果。通过对原始用户样本集合中每个用户对应的属性标签进行分类处理,并统计每个分类中的数量,从而得到第一分析数据和第二分析数据,根据第一分析数据和第二分析数据得到数据分析结果,可以提高数据分析的准确度。

在一个实施例中,获取原始用户样本集合中每个用户对应的属性标签之后,还包括:获取原始用户样本集合中每个用户对应的第二属性标签的原始数据,根据原始数据从原始用户样本集合中获取无效用户;获取除无效用户之外的目标用户生成目标用户样本集合。

其中,第二属性标签可以是“停留时间长”、“停留时间短”。无效用户指的是数据为无效数据,也就是对数据分析没有价值的用户,如在操作网页过程中停留时间小于1s的用户,认为该用户可能是误操作或者恶意操作引起的,说明该用户产生的数据没有分析价值,则该用户为无效用户。

在原始用户样本集合中,存在一些对数据分析没有价值的数据,如果将原始用户样本集合中的每个用户都进行分析,会降低数据分析的准确度。如一些用户在操作网页的过程中,由于网络原因停留在网页上的时间过长,一直未能退出。或者由于服务器的原因,在短时间内同时出现同一个数据。因此,需要将一些对数据分析没有价值的数据去除,从原始用户样本集合中获取无效用户,再根据无效用户获取目标用户,根据目标用户生成目标用户集合。

在本实施例中,根据原始用户样本集合中每个用户对应的第二属性标签的原始数据,从原始用户样本集合中获取无效用户,再获取除无效用户之外的目标用户的数据进行分析,可以提高数据分析的准确度。

在一个实施例中,原始数据包括第一原始数据和第二原始数据,其中,第一原始数据用于表示用户开始操作网页的时刻,第二原始数据用于表示用户操作网页的时长;

获取原始用户样本集合中每个用户对应的第二属性标签的原始数据,根据原始数据从原始用户样本集合中获取无效用户,包括以下方式中至少一种:

步骤302,获取原始用户样本集合中每个用户对应的第二属性标签的第二原始数据,将第二原始数据小于第一数据阈值的用户作为无效用户。

其中,第二原始数据可以是“10s”、“2s”。第一数据阈值可以是预先设置的,也可以是实时设置的,不限于此。

可以理解的是,当用户在操作网页的过程中,可以由于网络原因或者误操作,在短时间内开始操作网页并退出网页。因此,该用户的数据为无效数据,该用户为无效用户。

例如,可以设置第一数据阈值为1s,获取原始用户样本集合中每个用户对应的第二属性标签的第二原始数据,当第二原始数据小于1s,则该第二原始数据是对数据分析没有价值的数据,将该小于1s的第二原始数据去掉。当第二原始数据大于1s,则将该第二数据对应的用户作为无效用户。

步骤304,获取原始用户样本集合中每个用户对应的第二属性标签的第一原始数据和第二原始数据,根据第一原始数据对原始用户样本集合中的用户进行聚类,统计聚类得到的每一类别中的用户数量,将用户数量大于数量阈值的类别作为目标类别,当目标类别中的所有用户对应的第二原始数据在数据范围内时,将目标类别中的用户作为无效用户。

其中,第一原始数据可以是“2018年11月14日15:54”。

具体地,根据第一原始数据对原始用户样本集合中的用户进行聚类,可以将开始操作网页的时刻为同一秒的用户聚类为同一个类别,也可以将开始操作网页时刻至退出网页时刻在目标时段内的用户聚类为同一个类别,如在2018年11月14日15:54-2018年11月14日15:55时段内,将在该时段内开始操作网页时刻并同时在该时段内退出网页时刻的用户聚类为一个类别。

然后统计每一类别中的用户数量,当用户数量大于数量阈值时,则将该类别作为目标类别。其中,数量阈值可以预先设置,也可以实时进行设置,不限于此。

获取目标类别后,当目标类别中的所有用户对应的第二原始数据,也就是用户在操作网页的时长在数据范围内时,将目标类别中的用户作为无效用户。

可以理解的是,在一些情况下,可以通过一些电子设备不断更改电子设备的ip(internetprotocol,互联网协议)地址,在短时间内频繁进行点击网页链接,从而提高网页链接的点击量和阅读量。然而,通过更改ip地址短时间内提高点击量和阅读量,并不是用户操作网页的真实过程,即该数据为无效数据。如果将无效数据与目标用户的数据一起进行数据分析,会降低数据分析的准确度。

在另外一个实施例中,根据第一属性标签“参与”和“未参与”将原始用户样本集合中用户分为两个类别。在类别“参与”中,获取第二属性标签的第二原始数据中的最大值,并将该最大值作为最长时长。在类别“未参与”中,当用户的第二原始数据大于最长时长,则将该用户作为无效用户。

可以理解的是,在用户操作网页的过程中,可以因为其他的事情而一直停留在网页中且未退出网页,但是用户实际并没有进行操作网页的过程,即用户并未进行参与,且停留时间大于参与类别中的最长时长,则该用户为无效用户。

在本实施例中,通过从原始用户样本集合中获取无效用户,并将无效用户的数据去除,可以提高数据分析的准确度。

在一个实施例中,根据第一属性标签和第二属性标签对用户样本集合中的用户进行第一分类处理,包括:

步骤402,根据第一属性标签对目标用户样本集合中的用户进行分类处理,得到第一分类处理结果。

步骤404,根据第二属性标签对第一分类处理结果进行分类处理,得到第二分类处理结果。

例如,第一属性标签可以是“参与”、“未参与”,则将目标用户样本集合中的用户进行分类处理,得到第一分类处理结果为两个类别“参与”的用户和“未参与的用户”。第二属性标签可以是“停留时间长”、“停留时间短”。再将第一分类处理结果参与的用户和未参与的用户分别进行分类处理,得到第二分类处理结果为四个类别“参与停留时间长”、“参与停留时间短”、“未参与停留时间长”和“未参与停留时间短”。

统计第一分类处理得到的每个分类中包含的用户的第一数量,包括:

步骤406,统计第二分类处理结果得到的每个分类中包含的用户的第一数量。

例如,第二分类处理结果可以为四个类别“参与停留时间长”、“参与停留时间短”、“未参与停留时间长”和“未参与停留时间短”,统计第二分类结果中每个类别的用户的数量。

在本实施例中,先根据第一属性标签对目标用户样本集合中的用户进行分类处理,得到第一分类处理结果,再根据第二属性标签对第一分类处理结果进行分类处理,得到第二分类处理结果,通过第二分类处理结果得到第一数量,可以更加准确地进行数据分析。

在一个实施例中,根据统计得到的第一数量获取第一分析数据,包括:根据所述每个分类中包含的用户的第一数量,按照第一计算公式计算得到第一分析数据。

如图5所示,第二分类处理结果可以为四个类别:类别501为“参与停留时间长”、类别502为“参与停留时间短”、类别503为“未参与停留时间长”和类别504为“未参与停留时间短”。相应地,第一分析数据可以是清晰度。第一计算公式可以包括清晰度的计算公式和吸引度的计算公式。

具体地,参与表示用户点击了网页中的按钮参与了网页中的活动,说明用户被网页中的内容吸引。未参与表示用户未点击网页中的任何按钮,说明用户没有被网页中的内容吸引。停留时间短表示用户在网页中停留的时间短,说明网页中的内容比较清晰。停留时间长表示用户在网页中停留的时间长,说明网页中的内容不清晰。

进一步地,如图5所示,在类别504为“未参与停留时间短”的用户中,可以分为“未参与停留时间短理解”和“未参与停留时间短不能理解”。“未参与停留时间短理解”指的是用户未参与、在短时间内对网页中的内容可以理解后退出网页的。“未参与停留时间短不能理解”指的是用户未参与、在短时间内对网页中的内容不能理解后退出网页的。

可以理解的是,类别为“未参与停留时间短理解”的用户数量在类别为“未参与停留时间短”中占的比例,与类别为“参与停留时间短”的用户数量在类别为“参与”中占的比例相同。也就是说,在进行参与的类别中对网页中的内容理解的用户比例,与在未进行参与且停留时间短的类别中对网页中的内容理解的用户比例相同。

具体地,用户在操作网页的过程中,停留时间短且进行参与,即类别为“参与停留时间短”的用户为对网页中的内容清晰的用户。另外,对网页中的内容清晰的用户还包括未进行参与、停留时间短且理解的用户,即类别为“未参与停留时间短理解”的用户。

因此,清晰度可以通过以下计算公式得到:清晰度=(j+i*j/(j+j))/(i+i+j+j)。其中,i表示类别为“未参与停留时间短”的用户数量,i表示类别为“未参与停留时间长”的用户数量,j表示类别为“参与停留时间短”的用户数量,j表示类别为“参与停留时间长”的用户数量,i*j/(j+j)表示类别为“未参与停留时间短理解”的用户数量。

如图6所示,类别为“未参与停留时间短”的用户数量i=9188,类别为“未参与停留时间长”的用户数量i=2162,类别为“参与停留时间短”的用户数量j=1173,类别为“参与停留时间长”的用户数量j=667。则类别为“未参与停留时间短理解”的用户数量i*j/(j+j)=9188*1173(667+1173)=5857.35,清晰度=(j+i*j/(j+j))/(i+i+j+j)=(1173+5857.35)/(9188+2162+1173+667)=53.30%。

进一步地,如图5所示,在类别503为“未参与停留时间长”的用户中,可以分为“未参与停留时间长被吸引”和“未参与停留时间长不被吸引”。“未参与停留时间长被吸引”指的是用户未参与、在网页操作过程中停留时间长且被吸引的。“未参与停留时间长不被吸引”指的是用户未参与、在网页操作过程中停留时间长且不被吸引的。

可以理解的是,类别为“未参与停留时间长被吸引”的用户数量在类别为“未参与停留时间长”中占的比例,与类别为“参与停留时间短”的用户数量在类别为“停留时间短”中占的比例相同。

具体地,用户在操作网页的过程中,类别为“参与”的用户为被网页中的内容吸引的用户。另外,被网页中的内容吸引的用户还包括未进行参与、停留时间长且被吸引的用户,即类别为“未参与停留时间长被吸引”的用户。

因此,吸引度可以通过以下计算公式得到:吸引度=(j+j+i*j/(i+j))/(i+i+j+j)。其中,i*j/(i+j)表示类别为“未参与停留时间长被吸引”的用户数量。

如图6所示,类别为“未参与停留时间短”的用户数量i=9188,类别为“未参与停留时间长”的用户数量i=2162,类别为“参与停留时间短”的用户数量j=1173,类别为“参与停留时间长”的用户数量j=667。则类别为“未参与停留时间长被吸引”的用户数量i*j/(i+j)=2162*1173/(9188+1173)=244.76,吸引度=(j+j+i*j/(i+j))/(i+i+j+j)=(1173+667+244.76)/(9188+2162+1173+667)=15.81%。

在本实施例中,根据每个分类中包含的用户的第一数量,按照第一计算公式计算得到第一分析数据为清晰度和吸引度,可以更加准确地得到第一分析数据。

在一个实施例中,根据得到的第二数量和原始用户样本集合中包含的用户的数量获取第二分析数据,包括:根据得到的第二数量和原始用户样本集合中用户的数量,按照第二计算公式计算得到第二分析数据。

例如,第二数量可以是“打开”、“完成”、“推荐”三个类别中包含的用户的数量。相应地,第二分析数据可以是可见度、完成度和推荐度。类别为“打开”的用户数量也就是目标用户样本集合中的用户数量,即为网页链接到达用户的数量。

可见度可以通过以下计算公式计算得到:可见度=打开的用户数量/原始用户样本集合中用户的数量。完成度可以通过以下计算公式计算得到:完成度=完成的用户数量/打开的用户数量。推荐度可以通过以下计算公式计算得到:推荐度=分享的用户数量/打开的用户数量。

如图6所示,原始用户样本集合中用户的数量为150000,打开的用户数量,即目标用户样本集合中用户的数量为13190,完成的用户数量为1000,分享的用户数量为65。则可见度=打开的用户数量/原始用户样本集合中用户的数量=13190/150000=8.79%,完成度=完成的用户数量/打开的用户数量=1000/13190=7.58%,推荐度=分享的用户数量/打开的用户数量=65/13190=0.49%。

在本实施例中,根据第二数量和原始用户样本集合中用户的数量,按照第二计算公式计算得到第二分析数据可见度、完成度和推荐度,可以更加准确地得到第二分析数据。

在一个实施例中,数据分析结果包括第一数据分析结果和第二数据分析结果,根据第一分析数据和第二分析数据生成数据分析结果,包括:获取第一分析数据对应的第一数据阈值,并获取第二分析数据对应的第二数据阈值;当第一分析数据小于第一数据阈值时,生成第一数据分析结果;当第二分析数据小于第二数据阈值时,生成第二数据分析结果。

其中,第一数据阈值和第二数据阈值可以预先设置,也可以实时进行设置,不限于此。第一数据阈值和第二数据阈值可以通过大数据获取,或者根据本领域的行业标准进行获取。

如图6所示,第一分析数据可以包括清晰度和吸引度,清晰度为53.30%,吸引度为15.81%。第一数据阈值包括清晰度阈值和吸引度阈值,清晰度阈值可以是50%,吸引度阈值可以是20%。第二分析数据可以包括可见度、完成度和推荐度,可见度为8.79%,完成度为7.58%,推荐度为0.49%。第二数据阈值包括可见度阈值、完成度阈值和推荐度阈值,可见度阈值可以是30%,完成度阈值5%,推荐度阈值0.4%。

则清晰度53.30%大于清晰度阈值50%,吸引度15.81%小于吸引度阈值20%,可见度8.79%小于可见度阈值30%,完成度7.58%大于完成度阈值5%,推荐度0.49%大于推荐度阈值0.4%。

因此,第一数据分析结果可以是“吸引度过低,可能是由于活动的奖金太少,对用户缺少吸引力”。第二数据分析结果可以是“可见度过低,可能是由于链接入口不明显,用户很难注意到”。

在本实施例中,通过将第一分析数据与第一数据阈值比较,并同时将第二分析数据与第二数据阈值比较,分别生成第一数据分析结果和第二数据分析结果,可以更加准确地得到数据分析的结果。

应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图7所示,提供了一种数据分析装置,包括:属性标签获取模块702、第一分类处理模块704、第二分类处理模块706、分析数据获取模块708和数据分析结果生成模块710,其中:

属性标签获取模块702,用于获取原始用户样本集合中每个用户对应的属性标签,其中,所述原始用户样本集合中包含目标用户样本集合,所述属性标签是用户在操作网页过程中生成的,所述属性标签包括第一属性标签、第二属性标签和第三属性标签。

第一分类处理模块704,用于根据所述第一属性标签和第二属性标签对所述目标用户样本集合中的用户进行第一分类处理,并统计所述第一分类处理得到的每个分类中包含的用户的第一数量。

第二分类处理模块706,用于根据所述第三属性标签对所述目标用户样本集合中的用户进行第二分类处理,并统计所述第二分类处理得到的每个分类中包含的用户的第二数量。

分析数据获取模块708,用于根据统计得到的所述第一数量获取第一分析数据,并根据得到的所述第二数量和所述原始用户样本集合中包含的用户的数量获取第二分析数据。

数据分析结果生成模块710,用于根据第一分析数据和第二分析数据生成数据分析结果。

上述数据分析装置,获取原始用户样本集合中每个用户对应的属性标签,其中,原始用户样本集合中包含目标用户样本集合,属性标签是用户在操作网页过程中生成的,属性标签包括第一属性标签、第二属性标签和第三属性标签;根据第一属性标签和第二属性标签对目标用户样本集合中的用户进行第一分类处理,并统计第一分类处理得到的每个分类中包含的用户的第一数量;根据第三属性标签对目标用户样本集合中的用户进行第二分类处理,并统计第二分类处理得到的每个分类中包含的用户的第二数量;根据统计得到的第一数量获取第一分析数据,并根据得到的第二数量和原始用户样本集合中包含的用户的数量获取第二分析数据;根据第一分析数据和第二分析数据生成数据分析结果。通过对原始用户样本集合中每个用户对应的属性标签进行分类处理,并统计每个分类中的数量,从而得到第一分析数据和第二分析数据,根据第一分析数据和第二分析数据得到数据分析结果,可以提高数据分析的准确度。

在一个实施例中,如图8所示,提供了一种数据分析装置,包括:属性标签获取模块802、目标用户样本集合生成模块804、第一分类处理模块806、第二分类处理模块808、分析数据获取模块810和数据分析结果生成模块812,其中:

属性标签获取模块802,用于获取原始用户样本集合中每个用户对应的属性标签,其中,所述原始用户样本集合中包含目标用户样本集合,所述属性标签是用户在操作网页过程中生成的,所述属性标签包括第一属性标签、第二属性标签和第三属性标签。

目标用户样本集合生成模块804,用于获取原始用户样本集合中每个用户对应的第二属性标签的原始数据,根据原始数据从原始用户样本集合中获取无效用户;获取除无效用户之外的目标用户生成目标用户样本集合。

第一分类处理模块806,用于根据所述第一属性标签和第二属性标签对所述目标用户样本集合中的用户进行第一分类处理,并统计所述第一分类处理得到的每个分类中包含的用户的第一数量。

第二分类处理模块808,用于根据所述第三属性标签对所述目标用户样本集合中的用户进行第二分类处理,并统计所述第二分类处理得到的每个分类中包含的用户的第二数量。

分析数据获取模块810,用于根据统计得到的所述第一数量获取第一分析数据,并根据得到的所述第二数量和所述原始用户样本集合中包含的用户的数量获取第二分析数据。

数据分析结果生成模块812,用于根据第一分析数据和第二分析数据生成数据分析结果。

在本实施例中,通过从原始用户样本集合中获取目标用户样本集合,再对目标用户样本集合中的每个用户对应的属性标签进行分类处理,并统计每个分类中的数量,从而得到第一分析数据和第二分析数据,根据第一分析数据和第二分析数据得到数据分析结果,可以更加提高数据分析的准确度。

在一个实施例中,上述目标用户样本集合生成模块804还用于获取原始用户样本集合中每个用户对应的第二属性标签的原始数据,根据原始数据从原始用户样本集合中获取无效用户,包括以下方式中至少一种:获取原始用户样本集合中每个用户对应的第二属性标签的第二原始数据,将第二原始数据小于原始数据阈值的用户作为无效用户;获取原始用户样本集合中每个用户对应的第二属性标签的第一原始数据和第二原始数据,根据第一原始数据对原始用户样本集合中的用户进行聚类,统计聚类得到的每一类别中的用户数量,将用户数量大于数量阈值的类别作为目标类别,当目标类别中的所有用户对应的第二原始数据在数据范围内时,将目标类别中的用户作为无效用户。

在一个实施例中,上述第一分类处理模块806还用于根据第一属性标签对目标用户样本集合中的用户进行分类处理,得到第一分类处理结果;根据第二属性标签对第一分类处理结果进行分类处理,得到第二分类处理结果。统计第一分类处理得到的每个分类中包含的用户的第一数量,包括:统计第二分类处理结果得到的每个分类中包含的用户的第一数量。

在一个实施例中,上述分析数据获取模块810还用于根据每个分类中包含的用户的第一数量,按照第一计算公式计算得到第一分析数据。

在一个实施例中,上述分析数据获取模块810还用于根据得到的第二数量和原始用户样本集合中用户的数量,按照第二计算公式计算得到第二分析数据。

在一个实施例中,上述数据分析结果生成模块812还用于获取第一分析数据对应的第一数据阈值,并获取第二分析数据对应的第二数据阈值;当第一分析数据小于第一数据阈值时,生成第一数据分析结果;当第二分析数据小于第二数据阈值时,生成第二数据分析结果。

关于数据分析装置的具体限定可以参见上文中对于数据分析方法的限定,在此不再赘述。上述数据分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据分析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取原始用户样本集合中每个用户对应的属性标签,其中,原始用户样本集合中包含目标用户样本集合,属性标签是用户在操作网页过程中生成的,属性标签包括第一属性标签、第二属性标签和第三属性标签;根据第一属性标签和第二属性标签对目标用户样本集合中的用户进行第一分类处理,并统计第一分类处理得到的每个分类中包含的用户的第一数量;根据第三属性标签对目标用户样本集合中的用户进行第二分类处理,并统计第二分类处理得到的每个分类中包含的用户的第二数量;根据统计得到的第一数量获取第一分析数据,并根据得到的第二数量和原始用户样本集合中包含的用户的数量获取第二分析数据;根据第一分析数据和第二分析数据生成数据分析结果。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取原始用户样本集合中每个用户对应的第二属性标签的原始数据,根据原始数据从原始用户样本集合中获取无效用户;获取除无效用户之外的目标用户生成目标用户样本集合。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取原始用户样本集合中每个用户对应的第二属性标签的第二原始数据,将第二原始数据小于原始数据阈值的用户作为无效用户;获取原始用户样本集合中每个用户对应的第二属性标签的第一原始数据和第二原始数据,根据第一原始数据对原始用户样本集合中的用户进行聚类,统计聚类得到的每一类别中的用户数量,将用户数量大于数量阈值的类别作为目标类别,当目标类别中的所有用户对应的第二原始数据在数据范围内时,将目标类别中的用户作为无效用户。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据第一属性标签对目标用户样本集合中的用户进行分类处理,得到第一分类处理结果;根据第二属性标签对第一分类处理结果进行分类处理,得到第二分类处理结果。统计第一分类处理得到的每个分类中包含的用户的第一数量,包括:统计第二分类处理结果得到的每个分类中包含的用户的第一数量。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据每个分类中包含的用户的第一数量,按照第一计算公式计算得到第一分析数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据得到的第二数量和原始用户样本集合中用户的数量,按照第二计算公式计算得到第二分析数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取第一分析数据对应的第一数据阈值,并获取第二分析数据对应的第二数据阈值;当第一分析数据小于第一数据阈值时,生成第一数据分析结果;当第二分析数据小于第二数据阈值时,生成第二数据分析结果。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取原始用户样本集合中每个用户对应的属性标签,其中,原始用户样本集合中包含目标用户样本集合,属性标签是用户在操作网页过程中生成的,属性标签包括第一属性标签、第二属性标签和第三属性标签;根据第一属性标签和第二属性标签对目标用户样本集合中的用户进行第一分类处理,并统计第一分类处理得到的每个分类中包含的用户的第一数量;根据第三属性标签对目标用户样本集合中的用户进行第二分类处理,并统计第二分类处理得到的每个分类中包含的用户的第二数量;根据统计得到的第一数量获取第一分析数据,并根据得到的第二数量和原始用户样本集合中包含的用户的数量获取第二分析数据;根据第一分析数据和第二分析数据生成数据分析结果。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取原始用户样本集合中每个用户对应的第二属性标签的原始数据,根据原始数据从原始用户样本集合中获取无效用户;获取除无效用户之外的目标用户生成目标用户样本集合。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤::获取原始用户样本集合中每个用户对应的第二属性标签的第二原始数据,将第二原始数据小于原始数据阈值的用户作为无效用户;获取原始用户样本集合中每个用户对应的第二属性标签的第一原始数据和第二原始数据,根据第一原始数据对原始用户样本集合中的用户进行聚类,统计聚类得到的每一类别中的用户数量,将用户数量大于数量阈值的类别作为目标类别,当目标类别中的所有用户对应的第二原始数据在数据范围内时,将目标类别中的用户作为无效用户。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据第一属性标签对目标用户样本集合中的用户进行分类处理,得到第一分类处理结果;根据第二属性标签对第一分类处理结果进行分类处理,得到第二分类处理结果。统计第一分类处理得到的每个分类中包含的用户的第一数量,包括:统计第二分类处理结果得到的每个分类中包含的用户的第一数量。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据每个分类中包含的用户的第一数量,按照第一计算公式计算得到第一分析数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据得到的第二数量和原始用户样本集合中用户的数量,按照第二计算公式计算得到第二分析数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取第一分析数据对应的第一数据阈值,并获取第二分析数据对应的第二数据阈值;当第一分析数据小于第一数据阈值时,生成第一数据分析结果;当第二分析数据小于第二数据阈值时,生成第二数据分析结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1