一种参数确定方法和装置与流程

文档序号:14835902发布日期:2018-06-30 12:23阅读:115来源:国知局
一种参数确定方法和装置与流程

本发明涉及数据分析技术领域,尤其涉及一种参数确定方法和装置。



背景技术:

当今社会,每时每刻都在产生大量的数据,而这些数据的背后往往隐藏着重要的信息,因此数据分析占据越来越重要的地位。

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

电子商务是以信息网络技术为手段,以商品交换为中心的商务活动;也可理解为在互联网(Internet)、企业内部网(Intranet)和增值网(Value Added Network,VAN)上以电子交易方式进行交易活动和相关服务的活动,是传统商业活动各环节的电子化、网络化、信息化。

在电子商务领域,付费用户是一个大市场。根据某电商网站的数据统计,付费用户平均每年在该网站上的开支几乎是非付费用户的两倍,可以看出,付费用户平均每年为该电商的营业收入贡献非常大。

要增加付费用户的数量,可以先确定成为付费用户潜在可能性大的普通用户,进而采用宣传或推送等营销手段尽可能地使具有潜在可能性大的普通用户成为付费用户。

要确定成为付费用户潜在可能性大的普通用户,就需要知道成为付费用户潜在可能性大的普通用户的参数,因此如何确定成为付费用户潜在可能性大的普通用户的参数是目前待解决的技术问题。



技术实现要素:

本发明提供了一种参数确定方法和装置,解决了如何确定成为付费用户潜在可能性大的普通用户的参数的技术问题。

本发明提供了一种参数确定方法,包括:

从样本用户群组的访问日志和/或用户行为数据中提取每个用户的多个属性及每个所述属性的实际值,所述属性的种类是预置的;

按预置的属性顺序对所述样本用户群组依次进行拆分;

在每个属性对应的拆分过程中,通过判断每个用户的实际值是否在预置范围内将母用户群组拆分成两个子用户群组,并以是否为付费用户为判断标准计算两个子用户群组的混合度,然后将两个所述子用户群组作为下一个属性对应拆分过程中的两个母用户群组,所述预置范围与所述属性对应,所述母用户群组初始为样本用户群组,拆分形成的两个所述子用户群组对应一个混合度;

当出现混合度为0的两个子用户群组时或所述样本用户群组经过所有属性的拆分后,判定所述属性顺序对应的拆分结束;

将混合度最小的用户群组中付费用户多的用户群组对应的所述属性、所述属性顺序和所述实际值,作为成为付费用户潜在可能性大的普通用户的参数,所述用户群组包括拆分形成的所有子用户群组和样本用户群组。

优选地,

以是否为付费用户为判断标准计算两个子用户群组的混合度具体包括:

以是否为付费用户为判断标准计算两个子用户群组的基尼不纯度;

以是否为付费用户为判断标准计算两个子用户群组的熵。

优选地,

预置的所述属性顺序有多种;

所述用户群组包括样本用户群组和按每个所述属性顺序拆分形成的所有子用户群组。

优选地,

每个所述属性对应多个所述预置范围;

通过判断每个用户的实际值是否在预置范围内将母用户群组拆分成两个子用户群组,并以是否为付费用户为判断标准计算两个子用户群组的混合度,然后将两个所述子用户群组作为下一个属性对应拆分过程中的两个母用户群组具体包括:

对于每个所述预置范围,均通过判断每个用户的实际值是否在预置范围内将母用户群组拆分成两个子用户群组,并以是否为付费用户为判断标准计算两个子用户群组的混合度;

将混合度最小的两个子用户群组作为下一个属性对应拆分过程中的两个母用户群组。

优选地,

所述的参数确定方法,还包括:

计算所述样本用户群组的混合度;

将所述样本用户群组的混合度与所述用户群组的最小混合度比较,若差值在预设范围内,则改变所述属性的种类、改变预置的所述属性顺序、重新选取样本用户群组后或改变至少一个所述属性对应的所述预置范围,重新进行参数确定。

本发明提供了一种参数确定装置,包括:

取值单元,用于从样本用户群组的访问日志和/或用户行为数据中提取每个用户的多个属性及每个所述属性的实际值,所述属性的种类是预置的;

拆分单元,用于按预置的属性顺序对所述样本用户群组依次进行拆分,在每个属性对应的拆分过程中,通过判断每个用户的实际值是否在预置范围内将母用户群组拆分成两个子用户群组,然后将两个所述子用户群组作为下一个属性对应拆分过程中的两个母用户群组,所述预置范围与所述属性对应,所述母用户群组初始为样本用户群组,拆分形成的两个所述子用户群组对应一个混合度;

混合度计算单元,用于在每个属性对应的拆分过程中,以是否为付费用户为判断标准计算两个子用户群组的混合度;

判定单元,用于当出现混合度为0的两个子用户群组时或所述样本用户群组经过所有属性的拆分后,判定所述属性顺序对应的拆分结束;

确定单元,用于将混合度最小的用户群组中付费用户多的用户群组对应的所述属性、所述属性顺序和所述实际值,作为成为付费用户潜在可能性大的普通用户的参数,所述用户群组包括拆分形成的所有子用户群组和样本用户群组。

优选地,

所述混合度计算单元具体用于:

以是否为付费用户为判断标准计算两个子用户群组的基尼不纯度;

以是否为付费用户为判断标准计算两个子用户群组的熵。

优选地,

预置的所述属性顺序有多种;

所述用户群组包括样本用户群组和按每个所述属性顺序拆分形成的所有子用户群组。

优选地,

当每个所述属性对应多个所述预置范围时,所述拆分单元具体用于:

按预置的属性顺序对所述样本用户群组依次进行拆分,在每个属性对应的拆分过程中,对于每个所述预置范围,均通过判断每个用户的实际值是否在预置范围内将母用户群组拆分成两个子用户群组,并以是否为付费用户为判断标准计算两个子用户群组的混合度;

将混合度最小的两个子用户群组作为下一个属性对应拆分过程中的两个母用户群组。

优选地,

所述的参数确定装置,还包括:优化单元;

所述混合度计算单元,还用于计算所述样本用户群组的混合度;

所述优化单元,用于将所述样本用户群组的混合度与所述用户群组的最小混合度比较,若差值在预设范围内,则改变所述属性的种类、改变预置的所述属性顺序、重新选取样本用户群组后或改变至少一个所述属性对应的所述预置范围,重新进行参数确定。

从以上技术方案可以看出,本发明具有以下优点:

从样本用户群组的访问日志和/或用户行为数据中提取每个用户的多个属性及每个属性的实际值,属性的种类是预置的;然后按预置的属性顺序对样本用户群组依次进行拆分;在每个属性对应的拆分过程中,通过判断每个用户的实际值是否在预置范围内将母用户群组拆分成两个子用户群组,并以是否为付费用户为判断标准计算两个子用户群组的混合度,然后将两个子用户群组作为下一个属性对应拆分过程中的两个母用户群组,预置范围与属性对应,母用户群组初始为样本用户群组,拆分形成的两个子用户群组对应一个混合度;当出现混合度为0的两个子用户群组时或样本用户群组经过所有属性的拆分后,判定属性顺序对应的拆分结束;将混合度最小的用户群组中付费用户多的用户群组对应的属性、属性顺序和实际值,作为成为付费用户潜在可能性大的普通用户的参数,用户群组包括拆分形成的所有子用户群组和样本用户群组;解决了如何分析影响普通用户成为付费用户的属性的技术问题,这样,就可以根据参数中的属性,并按照参数中的属性顺序和对应的实际值去筛选普通用户,从而可以确定成为付费用户潜在可能性大的普通用户,然后尽可能地使具有潜在可能性大的普通用户成为付费用户。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。

图1为本发明提供的一种参数确定方法的第一实施例的流程示意图;

图2为本发明提供的一种参数确定方法的第二实施例的流程示意图;

图3为本发明提供的一种参数确定装置的第一实施例的结构示意图;

图4为本发明提供的一种参数确定装置的第二实施例的结构示意图。

具体实施方式

本发明提供了一种参数确定方法的装置,解决了如何分析影响普通用户成为付费用户的属性的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

目前,为了尽可能地增加付费用户的数量,一般依靠工作人员的经验和判断力,或者通过访谈和调查问卷的形式去发现成为付费用户潜在可能性大的普通用户,然后制定相应的营销策略,尽可能地使普通用户变成付费用户。

研究人员发现,目标人群数量太大,没有具体和统一的参数,去衡量一个普通用户成为付费用户的可能性,只靠经验去发现不仅工作量大,而且效率低,若靠访谈和调查问卷去了解,也需很大的工作量,因此需要确定成为付费用户潜在可能性大的普通用户的参数。

通过本实施例提供的一种参数确定方法和装置,解决了如何确定成为付费用户潜在可能性大的普通用户的参数的技术问题,从而可以根据参发现成为付费用户潜在可能性最大的普通用户,然后尽可能地使具有潜在可能性大的普通用户成为付费用户。

请参阅图1,本发明提供的一种参数确定方法的第一实施例的流程示意图。

本发明提供了一种参数确定方法的第一实施例,包括:

步骤101,从样本用户群组的访问日志和/或用户行为数据中提取每个用户的多个属性及每个属性的实际值,属性的种类是预置的。

可以理解的是,在进行步骤101之前,首先需要获取样本用户群组。

访问日志可以包括用户在网站的停留时间、跳出率、回访者、新访问者、回访次数和回访相隔天数。

用户行为可以包括用户的来源地区、来路域名和页面,也可以包括用户所使用的搜索引擎和关键词,还可以包括用户在不同时段的访问量情况等。

从访问日志和用户行为数据中可以提取到影响普通用户成为付费用户的属性。

可以理解的是,访问日志和用户行为除了包括前述信息外,还均包括用户的账户信息和个人信息,例如用户的性别、账号注册地址和年龄等,此处不作详述。

属性可以理解为与用户相关的信息,属性的种类有很多,不同的用户有不同的属性,属性的种类可以根据实际需要进行选择,例如可以包括用户性别、年龄和浏览某个页面的次数。

实际值的形式有很多,与属性对应,例如,当属性为性别时,实际值只能为男和女;当属性为年龄时,实际值为数字;当属性为访问地区时,实际值是具体的某个访问地区。

步骤102,按预置的属性顺序对样本用户群组依次进行拆分,在每个属性对应的拆分过程中,通过判断每个用户的实际值是否在预置范围内将母用户群组拆分成两个子用户群组,并以是否为付费用户为判断标准计算两个子用户群组的混合度,然后将两个子用户群组作为下一个属性对应拆分过程中的两个母用户群组,预置范围与属性对应,母用户群组初始为样本用户群组,拆分形成的两个子用户群组对应一个混合度。

对样本用户群组依次进行拆分是指对样本用户群组连续进行拆分,而不是指分别拆分;例如属性数量有两个,利用第一个属性对样本用户群组拆分后,然后利用第二个属性对第一个属性对应的拆分结果继续进行拆分,而不是第一个属性和第二属性分别对样本用户群组进行拆分。

预置范围与属性对应,例如当属性为性别时,预置范围可以是男性,那么通过判断用户的性别即可将母用户群组拆分成男性和女性两个子用户群组;当属性为年龄时,预置范围可以是80后,那么通过判断用户的年龄即可将母用户群组拆分成80后和非80后两个子用户群组。

预置范围可以根据需要进行设定。

步骤103,当出现混合度为0的两个子用户群组时或样本用户群组经过所有属性的拆分后,判定属性顺序对应的拆分结束。

因为混合度是以是否为付费用户为判断标准计算的,所以当混合度为0时,两个子用户群组分别为付费用户和普通用户,此时没必要对这两个子用户群组进行拆分,因为无论怎么拆分,之后的子用户群组混合度都为0,而且混合度为0的两个子用户群组对应的所有属性的实际值便是想要的结果,所以至此可以判定该属性顺序对应的拆分结束。

步骤104,将混合度最小的用户群组中付费用户多的用户群组对应的属性、属性顺序和实际值,作为成为付费用户潜在可能性大的普通用户的参数,用户群组包括拆分形成的所有子用户群组和样本用户群组。

因为当出现混合度为0的两个子用户群组时判定属性顺序对应的拆分结束,所以除非样本用户群组全部是普通用户,否则不可能出现对全部是普通用户的母用户群组进行拆分的情况,而如果样本用户群组全是普通用户,那么就没有分析的必要。

因此,拆分形成的两个子用户群组中,至少有一个子用户群组包括付费用户。

例如,以性别、年龄和页面浏览次数的属性顺序对样本用户群组进行拆分,拆分结束后,确定的混合度最小的用户群组是年龄为80后、页面浏览次数大于20次的男性用户群组和年龄为80后、页面浏览次数小于等于20次的男性用户群组,而年龄为80后、页面浏览次数大于20次的男性用户群组中付费用户的数量较多,那么就将男性、年龄为80后、页面浏览次数大于20次这样的属性、属性顺序以及实际值作为普通用户成为付费用户潜在可能性最大的参数,从而可以对普通用户依次进行男性、年龄为80后、页面浏览次数大于20次的筛选,进而挑选出成为付费用户潜在可能性最大的普通用户,然后尽可能地使具有潜在可能性大的普通用户成为付费用户。

请参阅图2,本发明提供的一种参数确定方法的第二实施例的流程示意图。

本发明提供了一种参数确定方法的第二实施例,包括:

步骤201,从样本用户群组的访问日志和/或用户行为数据中提取每个用户的多个属性及每个属性的实际值,属性的种类是预置的。

步骤201与本申请第一实施例中步骤101的内容相同,具体描述可以参见第一实施例步骤101的内容,在此不再赘述。

步骤202,按预置的属性顺序对样本用户群组依次进行拆分,在每个属性对应的拆分过程中,每个属性对应多个预置范围,对于每个预置范围,均通过判断每个用户的实际值是否在预置范围内将母用户群组拆分成两个子用户群组,并以是否为付费用户为判断标准计算两个子用户群组的混合度,将混合度最小的两个子用户群组作为下一个属性对应拆分过程中的两个母用户群组。

其中母用户群组初始为样本用户群组,拆分形成的两个子用户群组对应一个混合度。

需要说明的是,在本实施例中,混合都可以用基尼不纯度表示,也可以用熵表示。

基尼不纯度是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率。

熵代表的集合的无序程度。

当集合中数据的混合度越高,基尼指数也就越高,熵也越高。例如,某个用户群组全为付费用户,那么该用户群组的基尼不纯度为最低0,熵也为0。

在本实施例中,预置的属性顺序也可以有多种,对于每种属性顺序,都需按属性顺序对样本用户群组进行拆分。

步骤203,当出现混合度为0的两个子用户群组时或样本用户群组经过所有属性的拆分后,判定属性顺序对应的拆分结束。

步骤203与本申请第一实施例中步骤103的内容相同,具体描述可以参见第一实施例步骤103的内容,在此不再赘述。

步骤204,将混合度最小的用户群组中付费用户多的用户群组对应的属性、属性顺序和实际值,作为成为付费用户潜在可能性大的普通用户的参数。

因为属性顺序有多种,所以用户群组包括样本用户群组和按每个属性顺序拆分形成的所有子用户群组。

步骤205,计算样本用户群组的混合度。

需要说明的是,步骤205与步骤201至步骤204均没有先后顺序。

若步骤205在步骤201之前进行,那么可以通过样本用户群组的混合度估计拆分的工作量。

步骤206,将样本用户群组的混合度与用户群组的最小混合度比较,若差值在预设范围内,则改变属性的种类、改变预置的属性顺序、重新选取样本用户群组后或改变至少一个属性对应的预置范围,重新进行参数确定。

可以将预设范围设置的小一点,那么如果差值在预设范围内,则说明样本用户群组的混合度与用户群组的最小混合度相差较小,一定程度上说明可能是属性种类选的不够好,可能是样本用户群组选的不够好,或者是拆分的属性顺序选择的不够好,也或者是属性对应的预置范围设置的不够好,所以要改变属性的种类、改变预置的属性顺序、重新选取样本用户群组后或改变至少一个属性对应的预置范围,重新进行参数确定。

需要说明的是,改变预置的属性顺序可以是增加一种新的属性顺序,也可以用新的属性顺序替换旧的属性顺序。

可以理解的是,属性顺序的数量最多就是排列组合的最大值。

请参阅图3,本发明提供的一种参数确定装置的第一实施例的结构示意图。

本发明提供了一种参数确定装置的第一实施例,包括:

取值单元301,用于从样本用户群组的访问日志和/或用户行为数据中提取每个用户的多个属性及每个属性的实际值,属性的种类是预置的。

拆分单元302,用于按预置的属性顺序对样本用户群组依次进行拆分,在每个属性对应的拆分过程中,通过判断每个用户的实际值是否在预置范围内将母用户群组拆分成两个子用户群组,然后将两个子用户群组作为下一个属性对应拆分过程中的两个母用户群组,预置范围与属性对应,母用户群组初始为样本用户群组,拆分形成的两个子用户群组对应一个混合度。

混合度计算单元303,用于在每个属性对应的拆分过程中,以是否为付费用户为判断标准计算两个子用户群组的混合度。

判定单元304,用于当出现混合度为0的两个子用户群组时或样本用户群组经过所有属性的拆分后,判定属性顺序对应的拆分结束。

确定单元305,用于将混合度最小的用户群组中付费用户多的用户群组对应的属性、属性顺序和实际值,作为成为付费用户潜在可能性大的普通用户的参数,用户群组包括拆分形成的所有子用户群组和样本用户群组。

请参阅图4,本发明提供的一种参数确定装置的第二实施例的结构示意图。

本发明提供了一种参数确定装置第二实施例,包括:

取值单元401,用于从样本用户群组的访问日志和/或用户行为数据中提取每个用户的多个属性及每个属性的实际值,属性的种类是预置的;

拆分单元402,用于按预置的属性顺序对样本用户群组依次进行拆分,在每个属性对应的拆分过程中,对于每个预置范围,均通过判断每个用户的实际值是否在预置范围内将母用户群组拆分成两个子用户群组,然后将混合度最小的两个子用户群组作为下一个属性对应拆分过程中的两个母用户群组,每个属性对应多个预置范围,母用户群组初始为样本用户群组,拆分形成的两个子用户群组对应一个混合度,预置的属性顺序有多种;

混合度计算单元403,用于在每个属性对应的拆分过程中,以是否为付费用户为判断标准计算两个子用户群组的基尼不纯度;

以是否为付费用户为判断标准计算两个子用户群组的熵。

混合度计算单元403,还用于计算样本用户群组的混合度。

判定单元404,用于当出现混合度为0的两个子用户群组时或样本用户群组经过所有属性的拆分后,判定属性顺序对应的拆分结束。

确定单元405,用于将混合度最小的用户群组中付费用户多的用户群组对应的属性、属性顺序和实际值,作为成为付费用户潜在可能性大的普通用户的参数,用户群组包括拆分形成的所有子用户群组和样本用户群组。

优化单元406,用于将样本用户群组的混合度与用户群组的最小混合度比较,若差值在预设范围内,则改变属性的种类、改变预置的属性顺序、重新选取样本用户群组后或改变至少一个属性对应的预置范围,重新进行参数确定。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1