一种目标用户分类方法、装置及系统与流程

文档序号:11952858阅读:268来源:国知局
一种目标用户分类方法、装置及系统与流程

本发明涉及信息技术领域,尤其涉及一种目标用户分类方法、装置及系统。



背景技术:

数据挖掘技术近几年得到了广泛应用,分类是数据挖掘技术的主要内容之一,随着相关算法的不断完善,分类算法已经应用在各个领域。银行、运营商、超市等服务行业在进行新产品或相关活动的推介时,会对不同的用户进行针对性的宣传,准确的目标用户是准确营销的基础,只有确定消费群体中的某类目标用户,才能展开有效的具有针对性的营销事务。因此,如何对目标用户进行有效的分类成为各行业关注的重点。

现有的对目标用户进行分类的分类方法主要采用决策树方法和贝叶斯方法。其中,由于贝叶斯方法是无环图和概率理论的有机结合,具有坚实的概率理论基础而被广泛应用。对所有的用户数据来说,特征属性表征了用户的相关信息,以移动电话用户为例:用户的性别、年龄、网龄、月均流量、流量套餐价值、通话次数、通话费等都是特征属性。而向用户推送产品等服务时,会根据不同类别的用户进行推送,例如:可以将年龄大于30岁的用户作为第一目标用户类别,年龄不大于30岁的用户作为第二目标用户类别。在对目标用户进行分类时,首先确定每个类别在数据样本中出现的概率,以及每个特征属性对每个类别的条件概率估计即先验概率,通过贝叶斯算法,使用已确定的条件概率估计,计算待分类目标用户在每个类别的后验概率,将最大后验概率对应的类别作为待分类目标用户的类别。

上述对目标用户分类使用的贝叶斯方法需要假设各个特征属性是相互独立,但实际上用户数据的特征属性之间是具有一定的相关性的,因此这种独立性的假设使得目标用户分类不准确。



技术实现要素:

本发明实施例提供一种目标用户分类方法、装置及系统,用以解决现有技术中存在的目标用户分类准确性低的问题。

本发明实施例提供一种目标用户分类方法,包括:

确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的条件概率估计,所述用户类别的概率为该用户类别下训练样本的数量与训练样本总数量的比值,所述每个用户类别下特征属性组的条件概率估计为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值;所述特征属性组包括所述训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,所述特征属性表征训练样本数据的特点;

采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的条件概率估计,确定待分类目标用户在每个类别的后验概率;

将后验概率最大对应的类别确定为所述待分类目标用户的用户类别。

通过本发明实施例提供的上述方法,将具有相关性的特征属性组成特征属性组,且特征属性组之间相互独立,符合使用贝叶斯方法的各参量相互独立的假设条件,因此对目标用户分类时,提高了目标用户分类的准确性。

进一步的,所述待分类目标用户在每个类别的后验概率采用如下公式确定:

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <munderover> <mi>&Pi;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>k</mi> <mo>=</mo> <mi>n</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mi>r</mi> </mrow> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>kj</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中,Ci为第i个用户类别,1≤i≤m,m为用户类别的总数量,P(Xkj|Ci)表示第k个特征属性组的各特征属性在预设条件j时,在用户类别Ci下第k个特征属性组的条件概率估计,n为特征属性组的数量,r为预设条件的个数,P(Ci)表示用户类别Ci出现的概率,P(X|Ci)表示待分类目标用户X在用户类别Ci的后验概率。

进一步的,上述方法,还包括:

在将后验概率最大对应的类别确定为所述待分类目标用户的类别之前,将确定的最大的后验概率与预设的风险控制系数进行比较,并确定所述最大的后验概率大于预设的风险控制系数。

进一步的,上述方法,还包括:

当确定所述最大的后验概率不大于预设的风险控制系数时,舍弃对所述待分类目标用户的分类判定。

这样,将最大的后验概率不大于预设的风险控制系数的待分类目标用户舍弃,降低了营销风险,可以提高营销成功率。

本发明实施例还提供了一种目标用户分类装置,包括:

第一确定单元,用于确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的条件概率估计,所述用户类别的概率为该用户类别下训练样本的数量与训练样本总数量的比值,所述每个用户类别下特征属性组的条件概率估计为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值;所述特征属性组包括所述训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,所述特征属性表征训练样本数据的特点;

第二确定单元,用于采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的条件概率估计,确定待分类目标用户在每个类别的后验概率;

第三确定单元,用于将后验概率最大对应的类别确定为所述待分类目标用户的用户类别。

通过本发明实施例提供的上述装置,将具有相关性的特征属性组成特征属性组,且特征属性组之间相互独立,符合使用贝叶斯方法的各参量相互独立的假设条件,因此对目标用户分类时,提高了目标用户分类的准确性。

进一步的,所述第二确定单元,具体用于采用如下公式确定所述待分类目标用户在每个类别的后验概率:

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <munderover> <mi>&Pi;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>k</mi> <mo>=</mo> <mi>n</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mi>r</mi> </mrow> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>kj</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中,Ci为第i个用户类别,1≤i≤m,m为用户类别的总数量,P(Xkj|Ci)表示第k个特征属性组的各特征属性在预设条件j时,在用户类别Ci下第k个特征属性组的条件概率估计,n为特征属性组的数量,r为预设条件的个数,P(Ci)表示用户类别Ci出现的概率,P(X|Ci)表示待分类目标用户X在用户类别Ci的后验概率。

进一步的,上述装置,还包括:

比较单元,用于在将后验概率最大对应的类别确定为所述待分类目标用户的类别之前,将确定的最大的后验概率与预设的风险控制系数进行比较,并确定所述最大的后验概率大于预设的风险控制系数。

进一步的,上述装置,还包括:

舍弃单元,用于当确定所述最大的后验概率不大于预设的风险控制系数时,舍弃对所述待分类目标用户的分类判定。

这样,将最大的后验概率不大于预设的风险控制系数的待分类目标用户舍弃,降低了营销风险,可以提高营销成功率。

本发明实施例还提供了一种目标用户分类系统,包括:

如上述实施例提供的目标用户分类装置。

本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发 明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1为本发明实施例提供的目标用户分类方法的流程图;

图2为本发明实施例1提供的目标用户分类方法的流程图;

图3为本发明实施例2提供的目标用户分类装置的结构示意图。

具体实施方式

为了给出提高目标用户分类准确性的实现方案,本发明实施例提供了一种目标用户分类方法、装置及系统,以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

本发明实施例提供一种目标用户分类方法,如图1所示,包括:

步骤101、确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的概率,该用户类别的概率为该用户类别下训练样本的数量与训练样本总数量的比值,该每个用户类别下特征属性组的概率为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值,该特征属性组包括训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,该特征属性表征训练样本数据的特点。

步骤102、采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的概率,确定待分类目标用户在每个类别的后验概率。

步骤103、将后验概率最大对应的类别确定为该待分类目标用户的用户类别。

本发明实施例中,目标用户的分类方法可以应用在各商家或企业的精确营销服务中,对于一种营销服务,训练样本可以为对该营销服务下的前期已使用过该服务的各用户的基础数据,通过随机抽样的方式获取得到。在该营销服务 下,一个用户数据即为一个实例。其中,特征属性表征训练样本的特点,以移动服务为例,训练样本包括前期用户分别使用移动服务的各种数据,特征属性可以包括:用户性别、年龄、网龄、月均流量、流量套餐价值、通话次数、通话费等。

对于一种营销服务的训练样本中所有的特征属性,提取具有相关性的特征属性,将具有相关性的特征属性构成特征属性组,特征属性组之间相互独立。具体的,特征属性组的数量可以根据不同的营销服务进行灵活设置。

其中,用户类别为预先设定的为用户推送具体产品的类型。

下面结合附图,用具体实施例对本发明提供的方法及装置和相应系统进行详细描述。

实施例1:

图2为本发明实施例1提供的目标用户分类方法的流程图,具体包括如下处理步骤:

步骤201、构建特征属性组。

本实施例中,针对一种营销服务,将该营销服务下的前期已使用过该服务的各用户的基础数据作为原始样本数据,每个用户的基础数据为一条原始样本数据,随机抽取预设样本数量的原始样本数据作为训练样本。原始样本数据中包括各种特征属性,结合该营销服务的数据特点,在所有的特征属性中选择具有相关性的特征属性构成特征属性组。例如:以移动服务为例,可以将具有相关性的特征属性分为几个组,流量组(包含流量ARPU(Average Revenue Per-User,每用户平均收入)、月均流量、超套餐流量,流量套餐价值),终端组(包含终端制式,机龄),通话组(包含通话次数、通话费),用户费用组(用户月均费用)。上述这种方式是将所有具有相关性的特征属性分为一个特征属性组,进一步的,还可以从具有相关性的所有特征属性中选择部分特征属性作为特征属性组,例如:可以选择流量组(月均流量,流量ARPU),终端组((机龄),通话组(通话次数,通话费),用户费用组(用户月均费用)作为特征属 性组。

假设s个特征属性分别为A1,A2,……As,用户类别的数量为m个,分别为C1,C2,……Cm,在训练样本据中,各个特征属性值分别为(X1,X2,……Xs),构建n个特征属性组分别为B1=(A1,A2,A3),B2=(A4,A6),B3=(A5)……Bn。下面以具体训练样本为例,假设将训练样本分为2个用户类别,C1为4G套餐用户,C2为非4G套餐用户,训练样本的数量为5万个用户,其中,5000个用户是4G套餐用户,45000个用户是非4G套餐用户。

步骤202、确定在该训练样本中各用户类别的概率。

本步骤中,用户类别C1出现的概率P(C1)=5000/50000=0.1,用户类别C2出现的概率P(C2)=45000/50000=0.9。

步骤203、确定在每个用户类别下各特征属性组的条件概率估计。

本步骤中,每个用户类别下各特征属性组的条件概率估计,为在每一个用户类别下的训练样本中,针对该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值。其中,特征属性组对应的预设条件可以为多个预设条件。

例如:第k个特征属性组中包括2个特征属性,月均流量-A1和流量APRU-A2,该特征属性组对应的预设条件有4种:(1)A1≤10,A2≤10;(2)A1≤10,A2>10;(3)A1>10,A2≤10;(4)A1>10,A2>10。4G套餐用户的训练样本数据中,分别满足上述4中预设条件的4G套餐用户数量分别为500、2500、1000、1000,那么,第k个特征属性组中各特征属性满足第一种预设条件时,在用户类别C1下第k个特征属性组的条件概率估计P(Xk1|C1)=500/5000=0.1;第k个特征属性组中各特征属性满足第二种预设条件时,在用户类别C1下第k个特征属性组的条件概率估计P(Xk2|C1)=2500/5000=0.5,第k个特征属性组中各特征属性满足第三种预设条件时在用户类别C1下第k个特征属性组的条件概率估计P(Xk3|C1)=1000/5000=0.2;第k个特征属性组中各特征属性满足第四种预设条 件时在用户类别C1下第k个特征属性组的条件概率估计P(Xk4|C1)=1000/5000=0.2。类似的,可以确定第k个特征属性组中各特征属性分别满足上述4中预设条件时,在用户类别C2下第k个特征属性组的条件概率估计。

采用上述相同的方式,可以确定其它各特征属性组满足该特征属性组对应的预设条件时,在每一个用户类别下该特征属性组的条件概率估计,确定的条件概率估计即为特征属性组对每个用户类别的先验概率,也就相当于,通过对训练样本数据采用步骤201-步骤203的方式进行训练生成了分类器。

步骤204、采用贝叶斯公式,根据确定的各用户类别出现的概率和条件概率估计,确定待分类目标用户在每个类别的后验概率。

本步骤中,采用如下公式确定待分类目标用户在每个类别的后验概率:

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <munderover> <mi>&Pi;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>k</mi> <mo>=</mo> <mi>n</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mi>r</mi> </mrow> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>kj</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中,Ci为第i个用户类别,1≤i≤m,m为用户类别的总数量,P(Xkj|Ci)表示第k个特征属性组的各特征属性在预设条件j时,在用户类别Ci下第k个特征属性组的条件概率估计,n为特征属性组的数量,r为预设条件的个数,P(Ci)表示用户类别Ci出现的概率,P(X|Ci)表示待分类目标用户X在用户类别Ci的后验概率。

步骤205、确定最大的后验概率是否大于预设的风险控制系数,如果是,进入步骤206,如果否,进入步骤207。

其中,预设的风险控制系数可以根据实际情况进行灵活设置。

步骤206、将后验概率最大对应的类别确定为该待分类目标用户的类别。

步骤207、舍弃该待分别目标用户的分类判定。

本发明实施例中,由于在进行营销服务时,需要向不同类别的目标用户推送该类别对应的服务,即使确定了最大的后验概率对应的类别,该类别对应的服务也有可能是该待分类目标用户不希望被推送的,因此预设的风险控制系数 用来判定该类别具有的风险程度,如果最大的后验概率不大于该风险控制系数,则认为该待分类目标用户的类别是有风险的,该分类也是不准确的,舍弃该待分别目标用户的分类判定,后续不再向该待分类目标用户推送服务。

通过本发明实施例1提供的方法,将具有相关性的特征属性组成特征属性组,且特征属性组之间相互独立,符合使用贝叶斯方法的各参量相互独立的假设条件,因此对目标用户分类时,提高了目标用户分类的准确性。并且,将最大的后验概率不大于预设的风险控制系数的待分类目标用户舍弃,降低了营销风险,可以提高营销成功率。

实施例2:

基于同一发明构思,根据本发明上述实施例提供的目标用户分类方法,相应地,本发明实施例2还提供了一种目标用户分类装置,其结构示意图如图3所示,具体包括:

第一确定单元301,用于确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的条件概率估计,所述用户类别的概率为该用户类别下训练样本的数量与训练样本总数量的比值,所述每个用户类别下特征属性组的条件概率估计为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值;所述特征属性组包括所述训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,所述特征属性表征训练样本数据的特点;

第二确定单元302,用于采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的条件概率估计,确定待分类目标用户在每个类别的后验概率;

第三确定单元303,用于将后验概率最大对应的类别确定为所述待分类目标用户的用户类别。

进一步的,所述确定各特征属性组中的各特征属性满足该特征属性组对应的预设条件时在每一个用户类别的条件概率估计为在每一个用户类别下的训练样本数据中,针对每一个特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与所述用户类别下的训练样本数量的比值。

进一步的,第二确定单元302,具体用于采用如下公式确定所述待分类目标用户在每个类别的后验概率:

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <munderover> <mi>&Pi;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>k</mi> <mo>=</mo> <mi>n</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mi>r</mi> </mrow> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>kj</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中,Ci为第i个用户类别,1≤i≤m,m为用户类别的总数量,P(Xkj|Ci)表示第k个特征属性组的各特征属性在预设条件j时,在用户类别Ci下第k个特征属性组的条件概率估计,n为特征属性组的数量,r为预设条件的个数,P(Ci)表示用户类别Ci出现的概率,P(X|Ci)表示待分类目标用户X在用户类别Ci的后验概率。

进一步的,上述装置,还包括:

比较单元304,用于在将后验概率最大对应的类别确定为所述待分类目标用户的类别之前,将确定的最大的后验概率与预设的风险控制系数进行比较,并确定所述最大的后验概率大于预设的风险控制系数。

进一步的,上述装置,还包括:

舍弃单元305,用于当确定所述最大的后验概率不大于预设的风险控制系数时,舍弃对所述待分类目标用户的分类判定。

本发明实施例2还提供了一种目标用户分类系统,包括:

本发明实施例2提供的上述目标用户分类装置。

上述各单元的功能可对应于图1或图2所示流程中的相应处理步骤,在此不再赘述。

综上所述,本发明实施例提供的方案,包括:确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的概率,该用户类别的概率为该 用户类别下训练样本的数量与训练样本总数量的比值,该每个用户类别下特征属性组的概率为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值,该特征属性组包括训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,该特征属性表征训练样本数据的特点;采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的条件概率估计,确定待分类目标用户在每个类别的后验概率;将后验概率最大对应的类别确定为所述待分类目标用户的用户类别。采用本发明实施例的方案,提高了目标用户分类的准确性。

本申请的实施例所提供的目标用户分类装置可通过计算机程序实现。本领域技术人员应该能够理解,上述的模块划分方式仅是众多模块划分方式中的一种,如果划分为其他模块或不划分模块,只要目标用户分类装置具有上述功能,都应该在本申请的保护范围之内。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处 理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1