基于知识学习和隐私保护的大数据用户购买意愿预测方法

文档序号:6631989阅读:807来源:国知局
基于知识学习和隐私保护的大数据用户购买意愿预测方法
【专利摘要】本发明公开了基于知识学习和隐私保护的大数据用户购买意愿预测方法,其步骤如下:(1)对大量历史数据和少量当前数据做归一化处理;(2)数据划分组并构建训练样本集;(3)统计每一组的用户购买意愿概率;(4)计算组标签;(5)使用改进的支持向量机对训练集训练;(6)构造预测函数;(7)将待预测的数据输入到预测函数中得到预测结果。本发明使用改进的支持向量机,将当前少量的数据组概率信息和大量的历史数据组概率信息融入结构风险最小化学习框架中,通过构造数据间相似距离项来实现不同时期知识的学习,从而构造了一种基于知识学习和隐私保护机制的用户购买意愿的预测方法,可适用于大样本的学习问题。
【专利说明】基于知识学习和隐私保护的大数据用户购买意愿预测方法

【技术领域】
[0001] 本发明属于市场营销【技术领域】,涉及模式识别技术,为基于知识学习和隐私保护 的大数据用户购买意愿预测方法。

【背景技术】
[0002] 本发明属于市场营销【技术领域】,涉及模式识别技术,为基于知识学习和隐私保护 的大数据用户购买意愿预测方法。
[0003] 消费者是企业各种经营活动的向导,消费者的购买意愿是购买行为的基础,可以 用来预测消费者的行为。从市场营销角度来看,当企业掌握消费者的购买意愿后,就可以合 理安排原材料的购买,调整产品的结构,制定产品的生产计划;当营销人员掌握消费者的购 买意愿后,就可以有针对性地向消费者推荐相关商品,提高销售量;当商场、超市掌握消费 者的购买意愿后,就可以有目的地采购商品,加速商品的回转。因此,研究用户的购买意愿 是市场营销研究的重要内容,对正确引导居民消费和指导企业制定科学合理的生产、营销 策略都具有重要的理论和现实意义。
[0004] 一般常见的用户购买意愿的测算方法有两类:第一类是用直接询问的方法测量用 户的购买意愿,如Choice Based模型,该模型设置了八个属性指标,对每个指标确定权重, 然后用户对这八个指标评分,最后根据权重和评分计算用户对该产品的购买意愿。第二类 是使用信息技术,如王萍使用决策树和神经网络方法建立客户购买意向分类模型来预测客 户的购买倾向("运用数据挖掘技术预测客户购买倾向--方法与实证研究",情报科学, 2005年5月);吴国华等人引入几个属性变量,构建描述顾客购买行为或预测购买概率的随 机模型("顾客购买行为影响因素分析及重购概率的预测",管理工程学报,2005年1月)。 但这两类方法都存在缺陷,第一类方法简单易行,但指标的权重不易控制,测算精度低,而 且方法中使用的历史数据不足以反映当前数据的全部特征,第二类方法的前提是顾客前后 购买间隔时间服从Ga_a分布,这在实际使用中存在很大的局限性;而且这两类方法都不 适用于大数据情况下,特别是在模型使用过程中公开了用户的购买意愿,没有考虑到用户 个人信息的保密性。


【发明内容】

[0005] 本发明所要解决的技术问题是:第一,现有的用户购买意愿预测方法在大量历史 相关数据和少量最新数据的场景下,预测的准确度不高;第二,现有方法不适用于大数据场 景,训练模型所需的时间较长;第三,现有方法不能有效保护用户个人信息的隐私性。
[0006] 本发明的技术方案是:基于知识学习和隐私保护的大数据用户购买意愿预测方 法,使用改进的支持向量机技术,将当前少量的数据组购买意愿概率信息和大量的历史数 据组购买意愿概率信息融入结构风险最小化学习框架中,通过构造不同时期数据相似距 离项来实现知识的学习,对用户购买意愿进行预测,包括以下步骤:
[0007] 步骤一:对大量历史数据样本和少量当前数据样本做归一化处理,得到初始样本 集匕,7山=1,...,其中11为样本的特征向量^={+1,-1}为样本的类别标签4为样本的 总个数;
[0008] 步骤二:对历史数据样本和当前数据样本划分组,所分每组数据个数大致相同,构 建训练样本集D = {Di,…,Dn,Dn+1,…,Dn+d},其中前n组为历史数据样本,后d组为当前数 据样本;
[0009] 步骤三:在每一个分组中统计用户购买意愿的概率Pi,如式(1)进行计算:
[0010]

【权利要求】
1.基于知识学习和隐私保护的大数据用户购买意愿预测方法,其特征包括如下步骤: 步骤一:对大量历史数据样本和少量当前数据样本做归一化处理,得到初始样本集 ^7山=1,...^,其中11为样本的特征向量^={+1,-1}为样本的类别标签』为样本的总 个数; 步骤二:对历史数据样本和当前数据样本划分组,所分每组数据个数大致相同,构建训 练样本集D = (D1, --?,0",Dn+1, --?,0_},其中前n组为历史数据样本,后d组为当前数据样 本; 步骤三:在每一个分组中统计用户购买意愿的概率Pi,如式(1)进行计算:
其中,辦)为IT ^ R?<为核空间映射函数,wh和We eRBl别是历史数据样本和当前数 据样本的权向量,Ch和C。分别是历史数据样本和当前数据样本正则化参数,I i和分别 为历史数据样本的松弛变量,h和C分别为当前数据样本的松弛变量,A是平衡参数,为 一个正常数,Ii为公式(2)计算出的组标签,e i和e ' i分别为历史数据样本和当前数据 样本中每组样本的逼近精度,计算公式如以下形式:
其中Pi由公式(1)计算得出,A为一个较小的正常数; 上式可以转换成如下的二次规划形式:
【文档编号】G06F17/30GK104331816SQ201410588278
【公开日】2015年2月4日 申请日期:2014年10月28日 优先权日:2014年10月28日
【发明者】倪彤光, 顾晓清, 孙霓刚, 林逸峰 申请人:常州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1