一种目标用户分类方法、装置及系统与流程

文档序号:11952858阅读:来源:国知局

技术特征:

1.一种目标用户分类方法,其特征在于,包括:

确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的条件概率估计,所述用户类别的概率为该用户类别下训练样本的数量与训练样本总数量的比值,所述每个用户类别下特征属性组的条件概率估计为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值;所述特征属性组包括所述训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,所述特征属性表征训练样本数据的特点;

采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的条件概率估计,确定待分类目标用户在每个类别的后验概率;

将后验概率最大对应的类别确定为所述待分类目标用户的用户类别。

2.如权利要求1所述的方法,其特征在于,所述待分类目标用户在每个类别的后验概率采用如下公式确定:

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <munderover> <mi>&Pi;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>k</mi> <mo>=</mo> <mi>n</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mi>r</mi> </mrow> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>kj</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中,Ci为第i个用户类别,1≤i≤m,m为用户类别的总数量,P(Xkj|Ci)表示第k个特征属性组的各特征属性在预设条件j时,在用户类别Ci下第k个特征属性组的条件概率估计,n为特征属性组的数量,r为预设条件的个数,P(Ci)表示用户类别Ci出现的概率,P(X|Ci)表示待分类目标用户X在用户类别Ci的后验概率。

3.如权利要求1所述的方法,其特征在于,在将后验概率最大对应的类别确定为所述待分类目标用户的类别之前,还包括:

将确定的最大的后验概率与预设的风险控制系数进行比较,并确定所述最大的后验概率大于预设的风险控制系数。

4.如权利要求3所述的方法,其特征在于,还包括:

当确定所述最大的后验概率不大于预设的风险控制系数时,舍弃对所述待分类目标用户的分类判定。

5.一种目标用户分类装置,其特征在于,包括:

第一确定单元,用于确定训练样本中各用户类别的概率,以及在每个用户类别下各特征属性组的条件概率估计,所述用户类别的概率为该用户类别下训练样本的数量与训练样本总数量的比值,所述每个用户类别下特征属性组的条件概率估计为在该用户类别下的训练样本中,该特征属性组中各特征属性满足该特征属性组对应的预设条件的训练样本数量与该用户类别的训练样本数量的比值;所述特征属性组包括所述训练样本的所有特征属性中提取的具有相关性的特征属性,且各特征属性组之间相互独立,所述特征属性表征训练样本数据的特点;

第二确定单元,用于采用贝叶斯公式,根据确定的各用户类别的概率和每个用户下各特征属性组的条件概率估计,确定待分类目标用户在每个类别的后验概率;

第三确定单元,用于将后验概率最大对应的类别确定为所述待分类目标用户的用户类别。

6.如权利要求5所述的装置,其特征在于,所述第二确定单元,具体用于采用如下公式确定所述待分类目标用户在每个类别的后验概率:

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <mi>X</mi> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <munderover> <mi>&Pi;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mi>k</mi> <mo>=</mo> <mi>n</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mi>r</mi> </mrow> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>X</mi> <mi>kj</mi> </msub> <mo>|</mo> <msub> <mi>C</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中,Ci为第i个用户类别,1≤i≤m,m为用户类别的总数量,P(Xkj|Ci)表示第k个特征属性组的各特征属性在预设条件j时,在用户类别Ci下第k个特征属性组的条件概率估计,n为特征属性组的数量,r为预设条件的个数,P(Ci)表示用户类别Ci出现的概率,P(X|Ci)表示待分类目标用户X在用户类别Ci的后验概率。

7.如权利要求5所述的装置,其特征在于,还包括:

比较单元,用于在将后验概率最大对应的类别确定为所述待分类目标用户的类别之前,将确定的最大的后验概率与预设的风险控制系数进行比较,并确定所述最大的后验概率大于预设的风险控制系数。

8.如权利要求7所述的装置,其特征在于,还包括:

舍弃单元,用于当确定所述最大的后验概率不大于预设的风险控制系数时,舍弃对所述待分类目标用户的分类判定。

9.一种目标用户分类系统,其特征在于,包括:

如权利要求5-8任一所述的装置。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1