基于知识学习和隐私保护的大数据用户购买意愿预测方法

文档序号：6631989阅读：807来源：国知局

基于知识学习和隐私保护的大数据用户购买意愿预测方法
【专利摘要】本发明公开了基于知识学习和隐私保护的大数据用户购买意愿预测方法，其步骤如下：(1)对大量历史数据和少量当前数据做归一化处理；(2)数据划分组并构建训练样本集；(3)统计每一组的用户购买意愿概率；(4)计算组标签；(5)使用改进的支持向量机对训练集训练；(6)构造预测函数；(7)将待预测的数据输入到预测函数中得到预测结果。本发明使用改进的支持向量机，将当前少量的数据组概率信息和大量的历史数据组概率信息融入结构风险最小化学习框架中,通过构造数据间相似距离项来实现不同时期知识的学习,从而构造了一种基于知识学习和隐私保护机制的用户购买意愿的预测方法，可适用于大样本的学习问题。
【专利说明】基于知识学习和隐私保护的大数据用户购买意愿预测方法

【技术领域】
[0001] 本发明属于市场营销【技术领域】，涉及模式识别技术，为基于知识学习和隐私保护的大数据用户购买意愿预测方法。

【背景技术】
[0002] 本发明属于市场营销【技术领域】，涉及模式识别技术，为基于知识学习和隐私保护的大数据用户购买意愿预测方法。
[0003] 消费者是企业各种经营活动的向导，消费者的购买意愿是购买行为的基础，可以用来预测消费者的行为。从市场营销角度来看，当企业掌握消费者的购买意愿后，就可以合理安排原材料的购买，调整产品的结构，制定产品的生产计划；当营销人员掌握消费者的购买意愿后，就可以有针对性地向消费者推荐相关商品，提高销售量；当商场、超市掌握消费者的购买意愿后，就可以有目的地采购商品，加速商品的回转。因此，研究用户的购买意愿是市场营销研究的重要内容，对正确引导居民消费和指导企业制定科学合理的生产、营销策略都具有重要的理论和现实意义。
[0004] 一般常见的用户购买意愿的测算方法有两类：第一类是用直接询问的方法测量用户的购买意愿，如Choice Based模型，该模型设置了八个属性指标，对每个指标确定权重，然后用户对这八个指标评分，最后根据权重和评分计算用户对该产品的购买意愿。第二类是使用信息技术，如王萍使用决策树和神经网络方法建立客户购买意向分类模型来预测客户的购买倾向（"运用数据挖掘技术预测客户购买倾向--方法与实证研究"，情报科学， 2005年5月）；吴国华等人引入几个属性变量，构建描述顾客购买行为或预测购买概率的随机模型（"顾客购买行为影响因素分析及重购概率的预测"，管理工程学报，2005年1月）。但这两类方法都存在缺陷，第一类方法简单易行，但指标的权重不易控制，测算精度低，而且方法中使用的历史数据不足以反映当前数据的全部特征，第二类方法的前提是顾客前后购买间隔时间服从Ga_a分布，这在实际使用中存在很大的局限性；而且这两类方法都不适用于大数据情况下，特别是在模型使用过程中公开了用户的购买意愿，没有考虑到用户个人信息的保密性。

【发明内容】

[0005] 本发明所要解决的技术问题是：第一，现有的用户购买意愿预测方法在大量历史相关数据和少量最新数据的场景下，预测的准确度不高；第二，现有方法不适用于大数据场景，训练模型所需的时间较长；第三，现有方法不能有效保护用户个人信息的隐私性。
[0006] 本发明的技术方案是：基于知识学习和隐私保护的大数据用户购买意愿预测方法，使用改进的支持向量机技术，将当前少量的数据组购买意愿概率信息和大量的历史数据组购买意愿概率信息融入结构风险最小化学习框架中，通过构造不同时期数据相似距离项来实现知识的学习，对用户购买意愿进行预测，包括以下步骤：
[0007] 步骤一：对大量历史数据样本和少量当前数据样本做归一化处理，得到初始样本集匕，7山=1，...,其中11为样本的特征向量^={+1，-1}为样本的类别标签4为样本的总个数；
[0008] 步骤二：对历史数据样本和当前数据样本划分组，所分每组数据个数大致相同，构建训练样本集D = {Di，…，Dn，Dn+1，…，Dn+d}，其中前n组为历史数据样本，后d组为当前数据样本；
[0009] 步骤三：在每一个分组中统计用户购买意愿的概率Pi，如式（1)进行计算：
[0010]

【权利要求】
1.基于知识学习和隐私保护的大数据用户购买意愿预测方法，其特征包括如下步骤：步骤一：对大量历史数据样本和少量当前数据样本做归一化处理，得到初始样本集 ^7山=1，...^，其中11为样本的特征向量^={+1，-1}为样本的类别标签』为样本的总个数；步骤二：对历史数据样本和当前数据样本划分组，所分每组数据个数大致相同，构建训练样本集D = (D1, --?，0"，Dn+1, --?，0_}，其中前n组为历史数据样本，后d组为当前数据样本；步骤三：在每一个分组中统计用户购买意愿的概率Pi，如式（1)进行计算：
其中，辦）为IT ^ R?<为核空间映射函数，wh和We eRBl别是历史数据样本和当前数据样本的权向量，Ch和C。分别是历史数据样本和当前数据样本正则化参数，I i和分别为历史数据样本的松弛变量，h和C分别为当前数据样本的松弛变量，A是平衡参数，为一个正常数，Ii为公式（2)计算出的组标签，e i和e ' i分别为历史数据样本和当前数据样本中每组样本的逼近精度，计算公式如以下形式：
其中Pi由公式（1)计算得出，A为一个较小的正常数；上式可以转换成如下的二次规划形式：
【文档编号】G06F17/30GK104331816SQ201410588278
【公开日】2015年2月4日申请日期:2014年10月28日优先权日:2014年10月28日
【发明者】倪彤光, 顾晓清, 孙霓刚, 林逸峰申请人:常州大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：倪彤光;顾晓清;孙霓刚;林逸峰
技术所有人：常州大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。