用户状态单分类模型训练方法和装置的制造方法_2

文档序号：8223773阅读：来源：国知局

可W为[1，10,25，……]，该样本特征向量中的1、10 W及25 等均是该样本特征向量的元素。其中按照顺序，该样本特征向量中的元素1表示性别为男，元素10表示已加入与育儿相关的群组数量，元素25表示社交网络中与育儿相关的信息数量，等等，W此类推。
[0049] 在一个实施例中，对于不是数值数据的用户属性信息进行量化，可W用预设长度的由0和1的组成的数值串来表示用户属性信息，且数值串的每一位分别作为样本特征向量中独立的元素。优选地每个数值串中1的数量为1个。本实施例中，考虑到不是数值数据的用户属性信息存在的几种可能情形是平等的关系，如果仅用量化为不同的数值并整体作为样本特征向量中相应的元素，则会因数值大小的不同而导致用户属性信息存在的几种可能情形的重要程度发生倾斜，影响到训练获得的用户状态单分类模型进行分类的准确性。
[0050] 举例说明对非数值数据的用户属性信息的量化。比如用户性别属性存在男和女两种可能情形，可W分别用10和01来表示男和女两种情形，则一个样本特征向量可W为[1， 0,10,25，……]，其中按照顺序，该样本特征向量中的前两个元素1和0 -起表示性别为男，元素10表示已加入与育儿相关的群组数量，元素25表示社交网络中与育儿相关的信息数量，等等，W此类推。
[0化1] 在一个实施例中，步骤204之后，还包括；对提取出的各个样本特征向量进行归一化处理。考虑到不同的用户属性信息量纲、量纲单位不同，直接训练获得用户状态单分类模型，会影响到用户状态单分类模型的分类性能，有必要进行归一化处理。
[0化2] 在一个实施例中，对样本特征向量进行归一化处理，可W用样本特征向量中的每个元素与最小元素的差除W最大元素与最小元素的差所获得的商作为新的样本特征向量中的每个元素。比如一个样本特征向量若为[1，0，10,25,……]，其中最大元素为25,最小元素为0,则归一化后的特征向量为[0. 04,0,0. 4,1，......]，该样特征向量中的各个元素取值均在0?1之间，方便计算。
[0053] 在一个实施例中，对样本特征向量进行归一化处理，可W计算样本特征向量中的各个元素的均值和标准差，然后用样本特征向量中的每个元素与该均值的差再除W该标准差的商作为新的样本特征向量中的每个元素。当然归一化处理还可W采用目前已有的其它方式，该里不--列举。
[0化4] 步骤206,根据样本特征向量来估计模型参数，并根据估计出的模型参数生成概率密度函数模型。
[0化5] 具体地，概率密度函数模型为用户状态单分类模型的一部分，用于接收输入的特征向量，并计算该输入的特征向量属于指定用户状态类的概率。模型参数是概率密度函数模型中的一个参数，训练的主要目的是得到该一个模型参数。
[0056] 在一个实施例中，概率密度函数模型可W采用基于核函数的Parzen Window (己尔森窗）概率密度函数来生成概率密度函数模型。具体采用核函数在每一个样本特征向量处开一个窗口，估计出窗口处的概率密度。对每个样本特征向量而言，对自身所在位置的分布贡献最大，离自身位置越远的分布贡献越小。
[0化7] 进一步地，核函数可W选取均匀核函数和正态核函数。其中均匀核函数如图3所示，均匀核函数也可W称为矩形核函数；正态核函数则如图4所示，正态核函数也可W称为高斯核函数。核函数的横坐标对应特征空间中的位置，而纵坐标则表示特征空间中相应位置处的特征向量的概率分布，对于本实施例而言，表示的是特征空间中相应位置处的特征向量属于指定用户状态类的概率。高斯核函数中e为自然常数，y为数学期望，0为标准差。
[005引参照图5,假设训练样本集中所有正训练样本的样本特征向量分布如图5所示，那么如图6所示，训练获得概率密度函数模型的过程，就是在图5所示的样本特征向量中寻找一个超球面来包围该些样本特征向量。参照图7,对于一个待检测的特征向量，若其在该超球面包围范围内，则说明该特征向量属于指定用户状态类，比如特征向量701 ;若待检测的特征向量不在该超球面包围范围内，则说明该特征向量不属于指定用户状态类，如特征向量 702。
[0059] 在一个实施例中，采用正态核函数在训练样本集中每个正训练样本的样本特征向量处开一个窗口，建立高斯模型。则概率密度函数模型可表示如W下公式（1)所示：
[0060] 公式（1)
【主权项】
1. 一种用户状态单分类模型训练方法，所述方法包括：获取已知属于指定用户状态类的至少两个正训练样本；每个正训练样本具有至少两项用户属性信息；根据每个正训练样本的各项用户属性信息，提取每个正训练样本的样本特征向量；根据所述样本特征向量来估计模型参数，并根据估计出的模型参数生成概率密度函数模型；生成用户状态单分类模型，所述用户状态单分类模型包括用于接收输入的特征向量并计算出函数值的概率密度函数模型，还包括用于根据计算出的函数值运算出表示是否属于所述指定用户状态类的分类结果的分类判定模型。
2. 根据权利要求1所述的方法，其特征在于，所述方法还包括：获取待检测用户标识所对应的至少两项用户属性信息；根据获取到的用户属性信息提取待检测特征向量；将所述待检测特征向量输入所述用户状态单分类模型，输出表示是否属于指定用户状态类的分类结果，W确定所述待检测用户标识所对应的用户状态。
3. 根据权利要求1所述的方法，其特征在于，所述根据所述样本特征向量来估计模型参数，包括：将所有正训练样本划分为第一类正训练样本和第二类正训练样本；在模型参数的取值范围内取预设数量的候选参数值；根据第一类正训练样本和每个候选参数值分别生成候选用户状态单分类模型，W对第二类正训练样本进行分类并统计分类准确率；将对应分类准确率最高的候选参数值作为估计出的模型参数。
4. 根据权利要求1至3中任意一项所述的方法，其特征在于，所述概率密度函数模型为 W自然常数为底数、分别W每个样本特征向量和输入的特征向量之间的函数为指数的指数函数的和；每个样本特征向量和输入的特征向量之间的函数分别为输入的特征向量与相应的样本特征向量的差的转置取负，再乘W模型参数的负二次幕，再乘W输入的特征向量与相应的样本特征向量的差。
5. 根据权利要求4所述的方法，其特征在于，所述方法还包括：计算所有正训练样本的样本特征向量的均值矩阵；根据所述均值矩阵计算方差矩阵；将所述方差矩阵代入模型参数函数W获得模型参数的取值范围；所述模型参数函数为样本特征向量的维数的倒数乘W方差矩阵的迹后开平方，再乘正训练样本总数为底数且W参数变量与所述维数的商取负为指数的指数函数；所述参数变量具有预设取值范围。
6. -种用户状态单分类模型训练装置，其特征在于，所述装置包括：正训练样本获取模块，用于获取已知属于指定用户状态类的至少两个正训练样本；每个正训练样本具有至少两项用户属性信息；样本特征向量提取模块，用于根据每个正训练样本的各项用户属性信息，提取每个正训练样本的样本特征向量；模型参数估计模块，用于根据所述样本特征向量来估计模型参数，并根据估计出的模型参数生成概率密度函数模型；训练执行模块，用于生成用户状态单分类模型，所述用户状态单分类模型包括用于接收输入的特征向量并计算出函数值的概率密度函数模型，还包括用于根据计算出的函数值运算出表示是否属于所述指定用户状态类的分类结果的分类判定模型。
7. 根据权利要求6所述的装置，其特征在于，所述装置还包括：用户属性信息获取模块，用于获取待检测用户标识所对应的至少两项用户属性信息；待检测特征向量提取模块，用于根据获取到的用户属性信息提取待检测特征向量；分类模块，用于将所述待检测特征向量输入所述用户状态单分类模型，输出表示是否属于指定用户状态类的分类结果，W确定所述待检测用户标识所对应的用户状态。
8. 根据权利要求6所述的装置，其特征在于，所述模型参数估计模块包括：样本划分模块，用于将所有正训练样本划分为第一类正训练样本和第二类正训练样本；候选参数值选取模块，用于在模型参数的取值范围内取预设数量的候选参数值；分类统计模块，用于根据第一类正训练样本和每个候选参数值分别生成候选用户状态单分类模型，W对第二类正训练样本进行分类并统计分类准确率；模型参数确定模块，用于将对应分类准确率最高的候选参数值作为估计出的模型参数。
9. 根据权利要求6至8中任意一项所述的装置，其特征在于，所述概率密度函数模型为 W自然常数为底数、分别W每个样本特征向量和输入的特征向量之间的函数为指数的指数函数的和；每个样本特征向量和输入的特征向量之间的函数分别为输入的特征向量与相应的样本特征向量的差的转置取负，再乘W模型参数的负二次幕，再乘W输入的特征向量与相应的样本特征向量的差。
10. 根据权利要求9所述的装置，其特征在于，所述装置还包括：均值矩阵计算模块，用于计算所有正训练样本的样本特征向量的均值矩阵；方差矩阵计算模块，用于根据所述均值矩阵计算方差矩阵；模型参数取值范围计算模块，用于将所述方差矩阵代入模型参数函数W获得模型参数的取值范围；所述模型参数函数为样本特征向量的维数的倒数乘W方差矩阵的迹后开平方，再乘正训练样本总数为底数且W参数变量与所述维数的商取负为指数的指数函数；所述参数变量具有预设取值范围。
【专利摘要】本发明提供了一种用户状态单分类模型训练方法和装置，该方法包括：获取已知属于指定用户状态类的至少两个正训练样本；每个正训练样本具有至少两项用户属性信息；根据每个正训练样本的各项用户属性信息，提取每个正训练样本的样本特征向量；根据所述样本特征向量来估计模型参数，并根据估计出的模型参数生成概率密度函数模型；生成用户状态单分类模型，所述用户状态单分类模型包括用于接收输入的特征向量并计算出函数值的概率密度函数模型，还包括用于根据计算出的函数值运算出表示是否属于所述指定用户状态类的分类结果的分类判定模型。本发明提供的用户状态单分类模型训练方法和装置，分类性能好、人为因素影响小且泛化能力强。
【IPC分类】G06F19-00
【公开号】CN104537252
【申请号】CN201510006021
【发明人】陈蓉
【申请人】深圳市腾讯计算机系统有限公司
【公开日】2015年4月22日
【申请日】2015年1月5日

完整全部详细技术资料下载

当前第2页1 2