用户状态单分类模型训练方法和装置的制造方法

文档序号:8223773阅读:472来源:国知局
用户状态单分类模型训练方法和装置的制造方法
【技术领域】
[0001] 本发明设及计算机信息处理技术领域,特别是设及一种用户状态单分类模型训练 方法和装置。
【背景技术】
[0002] 用户状态是一种具有阶段性的用户属性的描述,比如用户状态可W是学生状态、 育儿状态、单身状态等等。通过检测用户状态,可W根据用户状态来提供差异性服务,比如 仅向具有特定用户状态的用户推送信息或者提供服务,或者向具有和不具有特定用户状态 的用户分别推送不同的信息或者提供不同的服务。
[0003] 目前存在一种比较简单的检测用户状态的方法,需要用户自行设定自己的用户状 态并存储下来,该样在需要时便可W读取用户设定的用户状态W达到检测用户状态的目 的。但是,该种检测用户状态的方法需要用户手工设定用户状态,需要用户配合,操作繁琐, 可行性低。
[0004] 目前还存在一种检测用户状态的方法,需要事先建立一种打分用的数学模型,然 后记录用户一定时间范围内的行为数据,通过分析行为数据而发现用户与需检测的用户状 态相关的信息,采用事先建立的数学模型对每个与用户状态相关的信息打分,把多个相关 的信息的分值相加得到总分值。通过将该总分值与预设的总分值阔值进行比较便可W判断 用户是否处具有某一用户状态。
[0005] 然而,目前用于检测用户状态的数学模型,需要人工设定打分规则,人为因素影响 大。而且,通过打分的方式来检测用户状态,泛化能力太弱,无法检测到潜在用户的用户状 态。该里所谓泛化能力(generalization油ility)是指机器学习算法对新鲜样本的适应 能力。

【发明内容】

[0006] 基于此,有必要针对目前用于检测用户状态的数学模型人为因素影响大,而且泛 化能力弱的问题,提供一种用户状态单分类模型训练方法和装置。
[0007] 一种用户状态单分类模型训练方法,所述方法包括:
[000引获取已知属于指定用户状态类的至少两个正训练样本;每个正训练样本具有至少 两项用户属性信息;
[0009] 根据每个正训练样本的各项用户属性信息,提取每个正训练样本的样本特征向 量;
[0010] 根据所述样本特征向量来估计模型参数,并根据估计出的模型参数生成概率密度 函数模型;
[0011] 生成用户状态单分类模型,所述用户状态单分类模型包括用于接收输入的特征向 量并计算出函数值的概率密度函数模型,还包括用于根据计算出的函数值运算出表示是否 属于所述指定用户状态类的分类结果的分类判定模型。
[0012] 一种用户状态单分类模型训练装置,所述装置包括:
[0013] 正训练样本获取模块,用于获取已知属于指定用户状态类的至少两个正训练样 本;每个正训练样本具有至少两项用户属性信息;
[0014] 样本特征向量提取模块,用于根据每个正训练样本的各项用户属性信息,提取每 个正训练样本的样本特征向量;
[0015] 模型参数估计模块,用于根据所述样本特征向量来估计模型参数,并根据估计出 的模型参数生成概率密度函数模型;
[0016] 训练执行模块,用于生成用户状态单分类模型,所述用户状态单分类模型包括用 于接收输入的特征向量并计算出函数值的概率密度函数模型,还包括用于根据计算出的函 数值运算出表示是否属于所述指定用户状态类的分类结果的分类判定模型。
[0017] 上述用户状态单分类模型训练方法和装置,不同于常规的模式识别方法中采用的 正负两种训练样本进行的训练,而是由属于指定用户状态类的多个正训练样本训练获得。 该样相对于采用正负训练样本训练获得的分类模型,可W避免引入负训练样本造成的对分 类性能的影响,分类性能更好。而且,用户状态单分类模型训练完成后,可W反映出用户属 性信息间存在的内在规律,人为因素影响很小,对于训练样本之外的实例具有很好的预测 能力,泛化能力强。
【附图说明】
[0018] 图1为一个实施例中用于实现用户状态单分类模型训练方法的电子设备的内部 结构图;
[0019] 图2为一个实施例中用户状态单分类模型训练方法的流程示意图;
[0020] 图3为一个实施例中均匀核函数的示意图;
[0021] 图4为一个实施例中正态核函数的示意图;
[0022] 图5为一个实施例中训练样本集中所有正训练样本的样本特征向量分布示意图;
[0023] 图6为一个实施例中在图5所示的样本特征向量中寻找一个超球面W包围样本特 征向量的示意图;
[0024] 图7为一个实施例中利用如图6所示的超球面进行分类的示意图;
[0025] 图8为一个实施例中检测待检测用户标识所对应的用户状态的步骤的流程示意 图;
[0026] 图9为一个实施例中根据样本特征向量来估计模型参数的步骤的流程示意图;
[0027] 图10为一个实施例中获得模型参数的取值范围的步骤的流程示意图;
[002引图11为另一个实施例中根据样本特征向量来估计模型参数的步骤的流程示意 图;
[0029] 图12为一个实施例中计算辅助中间值的步骤的流程示意图;
[0030] 图13为一个实施例中用户状态单分类模型训练装置的结构框图;
[0031] 图14为另一个实施例中用户状态单分类模型训练装置的结构框图;
[0032] 图15为一个实施例中图13中的模型参数估计模块的结构框图;
[0033] 图16为再一个实施例中用户状态单分类模型训练装置的结构框图;
[0034] 图17为另一个实施例中图13中的模型参数估计模块的结构框图;
[0035] 图18为一个实施例中图17中的辅助中间值计算模块的结构框图。
【具体实施方式】
[0036] 为了使本发明的目的、技术方案及优点更加清楚明白,W下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用W解释本发明,并 不用于限定本发明。
[0037] 如图1所示,在一个实施例中,提供了一种电子设备,该电子设备包括通过系统总 线连接的处理器、内存、存储介质和网络接口。其中,该电子设备的存储介质存储有操作系 统、数据库,还存储有一种用户状态单分类模型训练装置。该用户状态单分类模型训练装置 用于实现一种用户状态单分类模型训练方法。该电子设备的处理器被配置为执行一种用户 状态单分类模型训练方法。该电子设备可W是一个独立的设备,或者可W是多个可互联通 信的电子设备组成的电子设备群,用户状态单分类模型训练装置的各个功能模块可W分别 部署在电子设备群中的各个电子设备上。该电子设备可W是台式计算机。
[003引如图2所示,在一个实施例中,提供了一种用户状态单分类模型训练 方法,用于训练生成一个用于检测用户状态的用户状态单分类模型。单分类 (X)ne-Class-Classification)问题,也可称为一分类问题,是指只知道某一类样本的标记, 对未知类别的数据判断是否属于该类的问题。模型则是指数学模型,数学模型就是为了某 种目的,用字母、数字及其它数学符号建立起来的等式或不等式等描述客观事物的特征及 其内在联系的数学结构表达式。用户状态单分类模型则是指预先训练获得的用W判断输入 的特征向量是否属于指定用户状态的一种数学模型。本实施例W该方法应用于上述图1中 的电子设备来举例说明。该方法具体包括如下步骤:
[0039] 步骤202,获取已知属于指定用户状态类的至少两个正训练样本;每个正训练样 本具有至少两项用户属性信息。
[0040] 具体地,获取多个正训练样本W形成训练样本集,且每个正训练样本分别具有至 少两项用户属性信息。为了保证训练获得的用户状态单分类模型的性能,用户属性信息优 选取10项W上。该里仅采用正训练样本,而正训练样本是指已知属于指定用户状态类的训 练样本。
[0041] 指定用户状态则是预先定义的一种用户状态,本实施例主要W指定用户状态为育 儿状态为例进行说明,相应的正训练样本则是已知属于育儿状态的用户的各种用户属性信 息的集合。可W理解的是,可W根据实际需要设定不同的指定用户状态,比如可W是学生状 态、单身状态等等。每个正训练样本的各项用户属性信息均是与指定用户状态相关的。
[0042] 每个正训练样本的各项用户属性信息可W取自用户年龄属性、用户性别属性、用 户学历属性、用户收入属性W及与指定用户状态相关的行为数据。其中与指定用户状态相 关的行为数据包括但不限于已加入的与指定用户状态相关的群组数量、社交网络中与指定 用户状态相关的信息数量、与指定用户状态相关的信息的捜索次数、与指定用户状态相关 的网页的点击次数W及与指定用户状态相关的产品的捜索、浏览、收藏、下单和成交次数。
[0043] 举例来说,当指定用户状态为育儿状态时,则相应的与育儿状态相关的行为数据 包括但不限于:已加入与育儿相关的群组数量、社交网络中与育儿相关的信息数量、与育儿 相关的网页的点击次数、发起的与育儿相关的提问次数、育儿相关信息捜索次数、育儿相关 产品浏览次数、育儿相关产品捜索次数、育儿相关产品下单次数、育儿相关产品成交次数、 育儿相关产品收藏次数等。
[0044] 类似地,当指定用户状态为学生状态时,则相应的与学生状态相关的行为数据包 括但不限于;已加入与学习讨论相关的群组数量、社交网络中与学习相关的信息数量、与学 习相关的网页的点击次数、发起的与学习相关的提问次数、学习相关信息捜索次数、学习用 品捜索、浏览、收藏、下单和成交次数等。
[0045] 步骤204,根据每个正训练样本的各项用户属性信息,提取每个正训练样本的样本 特征向量。
[0046] 每个正训练样本的各个用户属性信息中,部分用户属性信息的值是数值数据,该 种情况下就可W直接将该数值数据作为相应的样本特征向量中对应的元素,比如育儿相关 产品浏览次数、育儿相关产品捜索次数等。
[0047] 每个正训练样本的各个用户属性信息中,还有部分用户属性信息的值不是数值数 据,而是存在几种有限数量的可能情形,该种情况下就需要对该该部分用户属性信息进行 量化。具体可W将用户属性信息的几种可能情形分别用不同的数值来表示,然后将用户属 性信息所量化的数值整体作为相应的样本特征向量中对应的元素。
[0048] 比如用户性别属性存在男和女两种情形,可W分别用1和2来表示男和女两种可 能情形,则一个样本特征向量
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1