一种购物行为的预测方法及装置的制造方法

文档序号:10512814阅读:329来源:国知局
一种购物行为的预测方法及装置的制造方法
【专利摘要】本发明公开了一种购物行为的预测方法,包括:为不同购物阶段选取不同目标用户,从所选取目标用户的用户行为日志中获取样本数据;分别从各购物阶段的样本数据中提取标识用户行为的第一特征集;利用决策树模型分别训练不同购物阶段的第一特征集,通过多次迭代得到特征组合,作为第二特征集;以及分别使用各购物阶段的第一特征集和第二特征集训练预先建立的机器学习模型,其中机器学习模型用于预测用户的购物需求度;以及根据不同购物阶段的机器学习模型确定待测用户所属购物阶段。本发明还提供了相应的购物行为的预测装置。
【专利说明】
一种购物行为的预测方法及装置
技术领域
[0001] 本发明涉及互联网领域,尤其涉及对用户购物行为的预测方法及装置。
【背景技术】
[0002] 用户在未来一段时间内对特定商品的购物需求的预估,对于互联网企业特别是电 商类企业的个性化商业决策和精细化广告投放决策意义重大。并且,在很多应用场景下,也 需要实时估算用户的购物需求:例如,个性化广告中的优质流量售卖、保量CPM(Cost Per Mille,每千人成本)广告的保量策略、特别是电商类网站在流量增大时,急需对用户进行个 性化的导购策略以及市场定位,从而提高用户的购物乐趣和满意度。这对于具有海量数据 的互联网公司来说是一个难题。
[0003] 目前行业中一般根据购物种类、搜索记录、浏览记录、相似推荐等数据,对用户进 行购物意愿的预测。在算法实现上,一种实现方式是采用相似性分析方法对用户的购物意 愿进行预估,例如利用用户的历史喜好信息计算用户之间的距离,然后利用目标用户的最 近邻居用户对商品评价的加权评价值来预测目标用户对特定商品的喜好程度,但是这种方 法会存在稀疏问题和可扩展问题,也不适用于用户对特定商品的购买力的预估。另外一种 实现方式是采用线性模型(LR)进行建模和预估,线性模型效率相对较高,但是线性模型对 非线性关系的把握比较差,并且线性模型无法深入数据细部,对特征的选择和提取很麻烦, 需要大量相关行业的知识,故而预测模型准确率难以把控。

【发明内容】

[0004] 为此,本发明提供一种新的购物行为的预测方案,以力图至少解决上面至少一个 问题。
[0005] 根据本发明的一个方面,提供了一种购物行为的预测方法,包括:为不同购物阶段 选取不同目标用户,从所选取目标用户的用户行为日志中获取样本数据;分别从各购物阶 段的样本数据中提取标识用户行为的第一特征集;利用决策树模型分别训练不同购物阶段 的第一特征集,通过多次迭代得到特征组合,作为第二特征集;以及分别使用各购物阶段的 第一特征集和第二特征集训练预先建立的机器学习模型,其中机器学习模型用于预测用户 的购物需求度;以及根据不同购物阶段的机器学习模型确定待测用户所属购物阶段。
[0006] 可选地,根据本发明的购物行为预测方法中,购物阶段包括:关注阶段、兴趣阶段、 意向阶段、和行动阶段。
[0007] 可选地,根据本发明的购物行为预测方法中,根据不同购物阶段的机器学习模型 确定待测用户所属购物阶段的步骤包括:获取待测用户的用户行为日志;执行上述提取、训 练第一特征集的步骤,得到待测用户的第一特征集和第二特征集;以及按照预定顺序将待 测用户的第一特征集和第二特征集输入某一购物阶段的机器学习模型,预测该待测用户是 否属于该购物阶段。
[0008] 可选地,根据本发明的购物行为预测方法中,预定顺序是:行动阶段、意向阶段、关 注阶段、兴趣阶段。
[0009] 可选地,根据本发明的购物行为预测方法中,根据不同的购物阶段选取不同目标 用户的步骤包括:根据不同购物阶段的业务场景,为不同购物阶段选取不同的用户作为目 标用户。
[0010] 可选地,根据本发明的购物行为预测方法中,对于行动阶段,选取有直接购物行为 的用户作为目标用户;和对于意向阶段,选取有销售咨询行为的用户作为目标用户;对于关 注阶段,选取留言、分享行为集中的用户作为目标用户;和对于兴趣阶段,选取浏览、搜索、 收藏行为集中的用户作为目标用户。
[0011] 可选地,根据本发明的购物行为预测方法中,第一特征集包括指向用户特征的用 户浏览行为特征、用户购物意愿特征、预定页面交互行为特征,以及指向用户访问对象特征 的文章文本内容特征。
[0012] 可选地,根据本发明的购物行为预测方法中,利用决策树模型训练第一特征集,通 过多次迭代得到特征组合的步骤包括:将第一特征集作为初始输入参数构造决策树模型; 每迭代计算一次,就在减少残差的梯度方向上建立新的决策树模型;经多次迭代计算后,将 最终决策树模型中各叶子节点的值作为特征组合中的元素值,得到特征组合;以及将多个 特征组合构成第二特征集。
[0013] 可选地,根据本发明的购物行为预测方法中,决策树模型是GBDT模型。
[0014]可选地,根据本发明的购物行为预测方法中,特征组合的个数L为:L=(2~d-l)*m, 其中,d代表决策树深度,m代表决策树数量。
[0015]可选地,根据本发明的购物行为预测方法中,第二特征集包括销售线索类特征、广 告页面交互行为类特征、预定页面交互行为类特征。
[0016]可选地,根据本发明的购物行为预测方法中,机器学习模型为Factorization Machines(FM)模型:
[0018] 其中,xi为第i个特征项,wo为全局偏移参数,wi为特征项xi的参数,Vi为xi特征项的 分解向量参数,η为第一特征集和第二特征集中特征项总数,j^X:)为购物需求度预测值。
[0019] 可选地,根据本发明的购物行为预测方法中,从所选择目标用户的用户行为日志 中获取样本数据的步骤还包括步骤:实时获取用户行为日志,定期更新样本数据。
[0020] 根据本发明的又一个方面,提供一种购物行为的预测装置,包括:数据采集模块, 适于为不同购物阶段选取不同目标用户,从所选取目标用户的用户行为日志中获取样本数 据;特征提取模块,适于分别从各购物阶段的样本数据中提取标识用户行为的第一特征集; 第一训练模块,适于利用决策树模型分别训练不同购物阶段的第一特征集,通过多次迭代 得到特征组合,作为第二特征集;第二训练模块,适于分别使用各购物阶段的第一特征集和 第二特征集训练预先建立的机器学习模型,其中机器学习模型用于预测用户的购物需求 度;以及分类判断模块,适于根据不同购物阶段的机器学习模型确定待测用户所属购物阶 段。
[0021] 可选地,根据本发明的购物行为预测装置中,购物阶段包括:关注阶段、兴趣阶段、 意向阶段、和行动阶段。
[0022] 可选地,根据本发明的购物行为预测装置中,数据采集模块还适于获取待测用户 的用户行为日志;特征提取模块还适于提取待测用户的第一特征集;第一训练模块还适于 训练所述第一特征集,得到待测用户的第二特征集;分类判断模块还适于按照预定顺序为 待测用户选择相应购物阶段的机器学习模型、以及根据第二训练模块预测的购物需求度预 测该待测用户是否属于相应购物阶段;以及第二训练模块还适于根据所选定的机器学习模 型、以及第一特征集和第二特征集预测该待测用户的购物需求度。
[0023] 可选地,根据本发明的购物行为预测装置中,预定顺序是:行动阶段、意向阶段、关 注阶段、兴趣阶段。
[0024] 可选地,根据本发明的购物行为预测装置中,数据采集模块还包括:选择子单元, 适于根据不同购物阶段的业务场景,为不同购物阶段选取不同的用户作为目标用户。
[0025] 可选地,根据本发明的购物行为预测装置中,选择子单元适于选取有直接购物行 为的用户作为行动阶段的目标用户、选取有销售咨询行为的用户作为意向阶段的目标用 户、选取留言、分享行为集中的用户作为关注阶段的目标用户;以及选取浏览、搜索、收藏行 为集中的用户作为兴趣阶段的目标用户。
[0026] 可选地,根据本发明的购物行为预测装置中,第一特征集包括指向用户特征的用 户浏览行为特征、用户购物意愿特征、预定页面交互行为特征,以及指向用户访问对象特征 的文章文本内容特征。
[0027] 可选地,根据本发明的购物行为预测装置中,第一训练模块包括:初始化子单元, 适于将第一特征集作为初始输入参数构造决策树模型;回归迭代子单元,适于执行多次迭 代计算,其中每迭代计算一次,就在减少残差的梯度方向上建立新的决策树模型;特征获取 子单元,适于将最终决策树模型中各叶子节点的值作为特征组合中的元素值,得到特征组 合,并将多个特征组合构成第二特征集。
[0028]可选地,根据本发明的购物行为预测装置中,决策树模型是GBDT模型。
[0029] 可选地,根据本发明的购物行为预测装置中,特征组合的个数L为:L=(2~d_l)*m, 其中,d代表决策树深度,m代表决策树数量。
[0030] 可选地,根据本发明的购物行为预测装置中,第二特征集包括销售线索类特征、广 告页面交互行为类特征、预定页面交互行为类特征。
[0031]可选地,根据本发明的购物行为预测装置中,机器学习模型为Factorization Machines(FM)模型:
[0033] 其中,xi为第i个特征项,wo为全局偏移参数,wi为特征项xi的参数,Vi为xi特征项的 分解向量参数,η为第一特征集和第二特征集中特征项总数,jHx:)为购物需求度预测值。
[0034] 可选地,根据本发明的购物行为预测装置中,数据采集模块还适于实时获取用户 行为日志,定期更新样本数据。
[0035]根据本发明的购物行为预测方案,首先将用户的购物需求度划分了四个阶段:关 注阶段、兴趣阶段、意向阶段、和行动阶段;然后具体根据每个购物阶段的业务场景,选取不 同的目标用户分别作为四个购物阶段的样本数据;再进行后续的提取特征、训练预测模型 步骤。购物阶段的划分,有利于样本的选取,保证样本数据的精确,使得后续的特征提取和 预测都更加准确。
[0036] 再者,本方案采用GBDT+FM的方式对用户的购物需求进行预测,把决策树(GBDT模 型)的路径直接作为FM模型的输入特征使用,省去了人工寻找特征、特征组合的过程,并且 还能充分挖掘不同特征之间的关系,这就在确保预测模型准确率的同时,提高了模型训练 的效率。以及,本发明的技术方案通过定期更新样本数据,对新增加的数据进行及时训练, 也可以提高模型的预测准确率。
【附图说明】
[0037] 为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方 面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面 旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述 以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的 部件或元素。
[0038] 图1示出了根据本发明实施例的购物行为预测方法100的流程图;
[0039]图2示出了根据本发明实施例的购物行为预测装置200的框图;以及
[0040] 图3示出了根据本发明实施例的利用GBDT模型训练第一特征集的一个示例。
【具体实施方式】
[0041] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0042] 图1示出了根据本发明实施例的购物行为预测方法100的流程图。该方法始于步骤 S110,在本步骤中,为不同购物阶段选取不同目标用户,从所选取目标用户的用户行为日志 中获取样本数据。
[0043] 分析发现,对于购物行为预测模型来说,用户定向是模型中很重要的算法模块。通 过收集用户数据、分析用户意图、区分用户类型、定向用户兴趣,向用户呈现真正有效的广 告信息,帮客户寻找潜在消费的目标群体,也为平台实现广告资源的优化配置。
[0044] 因此在本购物行为预测方法中,采用划分购物阶段的方式来定向用户。具体地,通 过用户在电商网站查询、发布等行为,识别预估用户是否已经购买某物品、购买了哪个品 牌、是否有购物的意愿等,从而预测用户的购物意愿,为不同用户提供定向服务。
[0045] 根据一种实现方式,按照销售漏斗模型,将购物阶段分为关注阶段、兴趣阶段、意 向阶段、和行动阶段。根据每个阶段的业务场景,对4个购物阶段(按购物意愿从强到弱排 序)定义如下:
[0046] 行动阶段:指有明确购物意愿、有明确选项、近期会转化行动;
[0047] 意向阶段:指有明确购物意愿、有多个备选项、转化周期不确定;
[0048] 兴趣阶段:指无明确购物意愿、有多个备选项、无转化预期;
[0049] 关注阶段:指无明确购物意愿、无明确选项、无转化预期。
[0050] 为上述4个购物阶段选取不同的目标用户,从该用户的用户行为日志(一般选取用 户前一个月内的行为数据)中获取样本数据,作为提取特征数据的初始数据。根据本发明的 一个实施例,根据用户在网站的浏览、搜索、点击、收藏、留言、分享、支付等行为,选取有直 接购物行为的用户作为行动阶段的目标用户;选取有销售咨询行为的用户作为意向阶段的 目标用户;选取留言、分享行为集中的用户作为关注阶段的目标用户,例如某些用户在购物 平台的论坛里较为活跃,可以认为此类用户属于关注阶段的目标用户;还有,选取浏览、搜 索、收藏行为集中的用户作为兴趣阶段的目标用户,例如某用户对某一类产品的搜索、收藏 行为较为集中,那么可以认为该用户对这类产品感兴趣,属于兴趣阶段的目标用户。
[0051] 对购物阶段进行这样的划分,可以有目的地选取目标用户,保证测试阶段的样本 数据更加准确,进而后续的特征提取和预测也能更精确。
[0052] 随后在步骤S120中,分别从各购物阶段的样本数据中提取标识用户行为的第一特 征集。其中,第一特征集包括指向用户特征的用户浏览行为特征、用户购物意愿特征(例如, 用户有询价、预定、支付等行为的,都认为是反应了用户的购物意愿)、预定页面交互行为特 征,以及指向用户访问对象特征的文章文本内容特征。对于不同的购物阶段,第一特征集会 有所不同。以购车类电商平台为例,例如在汽车之家的购车平台上,有广告专题页面、购车 页面、经销商页面等,设置关注预定页面(例如购车页面)交互行为是考虑到,一般用户在诸 如购车页面等网页上的预订、询价等行为,代表了用户具有强烈的购物意愿、或者已经转化 为行动,所以在本实施例中会提取预定页面上的交互行为特征。
[0053] 根据一种实现方式,第一特征集包括但不限于:
[0054] 1)广告专题页面的销售线索提交行为(包括询价、试驾、置换、拨打电话等)
[0055] 2)经销商页面的销售线索提交行为(包括询价、试驾、置换、拨打电话等)
[0056] 3)购车页面的销售线索提交行为(包括预订、支付订金、抢购、拨打电话等)
[0057] 4)购车页面的浏览及交互行为(包括页面浏览、咨询留言、按钮点击等)
[0058] 5)降价排行榜页面的浏览及交互行为(包括页面浏览、搜索、点击等)
[0059] 6)报价相关的浏览及交互行为(包括产品库报价、车系频道报价、车主价格页、搜 索行情等位置的浏览、点击、留言、分享等)
[0060] 7)经销商页面的浏览及交互行为(包括页面浏览、点击等)
[0061] 8)车型对比功能模块的使用行为(包括对比结果、点击等)
[0062] 9)购车计算器功能模块的使用行为(包括计算结果、点击等)
[0063] 10)广告相关的行为(包括广告的点击、交互等)
[0064] 11)油耗相关的浏览及交互行为(包括首页查油耗、个人中心查油耗等)
[0065] 12) 口碑页面的浏览及交互行为(包括页面浏览、点击、收藏、分享等)
[0066] 13)报价相关的浏览及交互行为(包括产品库报价、车系频道报价、车主价格页等 位置的浏览、点击、留言、分享等)
[0067] 14)配置相关的浏览及交互行为(包括车系频道参数配置、车型详解等位置的浏 览、点击等)
[0068] 15)保养相关的浏览及交互行为(包括产品库保养的浏览、搜索、点击等)
[0069] 16)详情相关的浏览及交互行为(包括搜索综合、搜索知道、车系综述等位置的浏 览、点击等)
[0070] 17)文章相关的浏览及交互行为(包括资讯、评测、说客、搜索文章等位置的浏览、 点击、收减、留g、分孚等)
[0071] 18)视频相关的浏览及交互行为(包括汽车视频、产品库视频、搜索视频等位置的 浏览、点击、播放、收藏、分享等)
[0072] 19)图片相关的浏览及交互行为(包括产品库图片、车系频道图片位置的浏览、点 击、分孚等)
[0073] 20)论坛相关的浏览及交互行为(包括搜索论坛、论坛等位置的浏览、搜索、点击、 收减帖子、留目、分早等)
[0074]应当了解,本发明对于从用户行为日志中提取特征的方法并不做限制,任何特征 提取方法都可以与本实施例相结合使用。
[0075]随后在步骤S130中,利用决策树模型分别训练不同购物阶段的第一特征集,通过 多次迭代得到特征组合,作为相应购物阶段的第二特征集。这样,每个购物阶段就都具有了 自己的第一特征集和第二特征集。
[0076] 在本实施例中,决策树模型采用GBDT模型。GBDT(Gradient Boost Decision Tree)是一种常用的非线性模型,它基于集成学习中的boosting思想,每次迭代都在减少残 差的梯度方向新建立一颗决策树,迭代多少次就会生成多少颗决策树。相对于线性模型, GBDT模型不需要对特征值进行离散化,并能够找出多种有区分性的特征以及特征组合。
[0077] 更进一步地说,由GBDT构造的新特征向量是取值0/1的,向量的每个元素对应于 GBDT模型中树的叶子结点。当一个样本点通过某棵树最终落在这棵树的一个叶子结点上, 那么在新特征向量中这个叶子结点对应的元素值为1,而这棵树的其他叶子结点对应的元 素值为0。新特征向量的长度等于GBDT模型里所有树包含的叶子结点数之和。
[0078] 由于树的每条路径,是通过最小化均方差等方法最终分割出来的有区分性路径, 根据该路径得到的特征、特征组合都相对有区分性,效果理论上不会亚于人工经验的处理 方式。
[0079] 举例说明。如图3示出了利用GBDT模型训练第一特征集的示例。图3中有两棵树,其 中第一棵树(左边)有3个叶子结点,第二棵树(右边)有2个叶子节点。每一个叶子节点可以 看作其所有父节点的特征组合,叶子节点的特征即为特征组合后的特征。对于一个输入样 本点X,如果它在第一棵树最后落在其中的第二个叶子结点,而在第二棵树里最后落在其中 的第一个叶子结点。那么通过GBDT获得的新特征向量就是[0,1,0,1,0 ],其中向量中的前三 位对应第一棵树的3个叶子结点,后两位对应第二棵树的2个叶子结点。
[0080] 结合图3的描述,在本步骤中,先将步骤S120中得到的第一特征集作为初始输入参 数构造决策树模型;在GBDT迭代计算的过程中,每迭代一次,就会建立一棵新的决策树;经 多次迭代计算后,将最终GBDT决策树模型中各叶子节点的值作为特征组合中的元素值,得 到特征组合;最后,将多个所述特征组合构成第二特征集。
[0081 ]在本实施例中,设置决策树数量为m= 30,深度d = 5,那么每一个样本会生成30个 特征,经过GBDT模型训练后,生成的特征组合数量为:
[0082] L = (2'd-l )*m = 930
[0083] 例如对于行动阶段的预测模型,经过GBDT模型后生成的第二特征集多为"销售线 索类特征" "广告页面交互行为类特征""预定页面交互行为类特征",这与后台用户分析工 程师分析后得到的购物需求强的用户行为相近,说明本GBDT模型输出的特征组合结果(也 就是第二特征集)具有可信性。
[0084] 随后在步骤S140中,分别使用各购物阶段的第一特征集和第二特征集训练预先建 立的机器学习模型,其中该机器学习模型用来预测用户的购物需求度。也就是说,将各购物 阶段的第一特征集和第二特征集输入到各购物阶段的机器学习模型中,由其输出对用户购 物需求度的预测结果。
[0085] 这里,可以采用线性模型或者非线性模型对用户的购物需求度进行预测,本发明 对此并不做限制。
[0086] 由于FM(Factorization Machines)模型与其他机器学习模型相比,在CTR(Click_ Through-Rate,点击通过率)预估、用户预估等方面的应用上优势明显。尤其对于广告等行 为来说,用户行为较为稀疏,SVM(在复杂的非线性核空间上)通过稀疏的数据集合,无法学 习到可靠的分类超平面。与之相比,FM可以在高度稀疏的特征集合上估计出可靠的参数;并 且算法实现中容易并行化,可以在线性的时间内进行训练和预测。
[0087]因此,在本发明的实施例中,机器学习模型选择FM模型:
[0089] 其中,xi为第i个特征项,wo为全局偏移参数,wi为特征项xi的参数,Vi为xi特征项的 分解向量参数,n为第一特征集和第二特征集中特征项总数,j)(X)为购物需求度预测值。
[0090] 随后在步骤S150中,根据不同购物阶段的机器学习模型确定待测用户所属购物阶 段。
[0091] 通过步骤S110到S140,就可以初步完成预测模型的训练阶段,建立起用户购物行 为预测模型。在测试阶段,当有待测用户输入时,获取待测用户的用户行为日志,执行提取 第一特征集(同步骤S120)、训练第一特征集(同步骤S130)的步骤,得到待测用户的第一特 征集和第二特征集;再按照预定顺序将待测用户的第一特征集和第二特征集输入某一购物 阶段的机器学习模型,预测该待测用户是否属于该购物阶段。
[0092] 根据本发明的实施例,预定顺序从前往后依次是:行动阶段、意向阶段、关注阶段、 兴趣阶段。故先将待测用户的第一、第二特征集输入经过训练的行动阶段的机器学习模型 中,得到其购物需求度预测值,若该预测值在行动阶段的预定范围内,则确认该用户属于行 动阶段,有强烈的购物需求;若该预测值不在行动阶段的预定范围内,则确认该用户不属于 行动阶段,再将该待测用户的第一、第二特征集输入经过训练的意向阶段的机器学习模型 中,得到其购物需求度预测值,再次判断该预测值是否在意向阶段的预定范围内,若该预测 值在意向阶段的预定范围内,则确认该用户属于意向阶段,有购物意向;若该预测值不在意 向阶段的预定范围内,则确认该用户不属于意向阶段,再将该待测用户的第一、第二特征集 输入关注阶段的机器学习模型中……依次类推,直到确定待测用户所属的购物阶段。
[0093] 本方法100采用GBDT+FM的方式对用户的购物需求进行预测,把决策树(GBDT模型) 的路径直接作为FM模型的输入特征使用,省去了人工寻找特征、特征组合的过程,并且还能 充分挖掘不同特征之间的关系,这就在确保预测模型准确率的同时,提高了模型训练的效 率。
[0094] 可选地,本方法100还会实时获取用户行为日志,并定期更新样本数据,对新增加 的样本数据进行及时训练,以提高模型的预测准确率。
[0095] 为进一步说明本方法100相比于其他预测模型具有更准确的预测效果,计算了如 下几种训练模型的AUC(Area Under roc Curve)值,并进行对比(其中,AUC值越大,表明分 类预测效果越好),如下表所示:
[0097]从上表可以看出,利用本方法建立的预测模型,具有更加准确的预测结果,能更好 地预测出用户的购物需求。
[0098]相应地,图2示出了根据本发明实施例的购物行为预测装置200的框图。该预测装 置200包括:数据采集模块210、特征提取模块220、第一训练模块230、第二训练模块240、以 及分类判断模块250。
[0099] 根据本发明的实施例,将购物阶段按购物需求度划分为:关注阶段、兴趣阶段、意 向阶段、和行动阶段,其中各阶段的定义在上文中已经详细介绍,此处不再赘述。
[0100] 数据采集模块210适于为上述不同购物阶段选取不同目标用户,从所选取目标用 户的用户行为日志(一般选取过去一个月内的用户行为日志)中获取样本数据,然后将样本 数据发送给与之耦接的特征提取模块220。
[0101] 根据本发明的实施例,数据采集模块210还包括选择子单元(未示出),选择子单元 适于根据不同购物阶段的业务场景,为不同购物阶段选取不同的用户作为目标用户。例如, 选取有直接购物行为的用户作为行动阶段的目标用户;选取有销售咨询行为的用户作为意 向阶段的目标用户;选取留言、分享行为集中的用户作为关注阶段的目标用户,如某用户在 购物平台的论坛里较为活跃,可以认为此用户属于关注阶段的目标用户;还有,选取浏览、 搜索、收藏行为集中的用户作为兴趣阶段的目标用户,如某用户对某一类产品的搜索、收藏 行为较为集中,那么可以认为该用户对这类产品感兴趣,属于兴趣阶段的目标用户。
[0102] 特征提取模块220适于分别从各购物阶段的样本数据中提取标识用户行为的第一 特征集。可选地,第一特征集包括指向用户特征的用户浏览行为特征、用户购物意愿特征、 预定页面交互行为特征,以及指向用户访问对象特征的文章文本内容特征。关于第一特征 集进一步的举例参见上文基于图1的相关描述。
[0103] 第一训练模块230与特征提取模块220相耦接,适于利用决策树模型分别训练不同 购物阶段的第一特征集,通过多次迭代得到特征组合,作为第二特征集。可选地,决策树模 型为GBDT模型。图3示出了利用GBDT模型训练特征的一个示例,对于GBDT模型的描述,可以 参考上文中关于图3的描述。
[0104] 根据一种实现方式,第一训练模块230包括:适于将第一特征集作为初始输入参数 构造决策树模型的初始化子单元、适于执行多次迭代计算的回归迭代子单元、以及适于将 最终决策树模型中各叶子节点的值作为特征组合中的元素值,得到特征组合的特征获取子 单元。其中,根据GBDT模型的特点,回归迭代子单元每迭代计算一次,就会在减少残差的梯 度方向上建立新的决策树模型。这样,最终得到特征组合的个数L为:
[0105] L=(2~d_l)*m
[0106] 其中,d代表决策树深度,m代表决策树数量。
[0107] 可选地,第二特征集中会包含销售线索类特征、广告页面交互行为类特征、预定页 面交互行为类特征。
[0108] 第二训练模块240分别与特征提取模块220和第一训练模块230相耦接,适于分别 使用各购物阶段的第一特征集和第二特征集训练预先建立的机器学习模型,其中机器学习 模型用于预测用户的购物需求度。
[0109] 根据一种实施方式,选取Factorization Machines(FM)模型为机器学习模型,FM 的核心理论在于用Factor izat ion (因子分解)来刻画feature (特征)跟feature (特征)之间 的关系,公式如下:
[0111] 其中,xi为第i个特征项,wo为全局偏移参数,wi为特征项xi的参数,Vi为xi特征项的 分解向量参数,η为第一特征集和第二特征集中特征项总数,j)(X)为购物需求度预测值。
[0112] 通过训练,初步建立起4个购物阶段的预测模型。在测试阶段,数据采集模块210还 适于获取待测用户的用户行为日志。同样,特征提取模块220还适于提取该待测用户的第一 特征集,并交由与之耦接的第一训练模块230。第一训练模块230适于训练第一特征集,得到 待测用户的第二特征集。
[0113] 分类判断模块250适于按照预定顺序(即,首先是行动阶段、其次是意向阶段、接着 是关注阶段、最后是兴趣阶段的顺序)为待测用户选择相应购物阶段的机器学习模型,并交 由与之耦接的第二训练模块240,由其将第一特征集和第二特征集输入到所选定的机器学 习模型(FM模型)中,预测该待测用户的购物需求度,分类判断模块250适于根据预测的购物 需求度确定该待测用户是否属于相应购物阶段。
[0114] 换言之,分类判断模块250根据预定顺序首先选择行动阶段的机器学习模型;由第 二训练模块240将第一特征集和第二特征集输入到行动阶段的机器学习模型中,得到待测 用户的购物需求度;分类判断模块250判断该需求度值是否在行动阶段范围内,若是,则判 断该用户属于行动阶段,有很强烈的购物需求,若不是,重新选择意向阶段的机器学习模 型,重复上述步骤,直到确定待测用户属于哪一购物阶段。
[0115] 基于上述描述,本发明的购物需求度预测方案,整合了 GBDT模型和FM模型的训练 结果,在FM模型训练时,通过GBDT模型进行特征的选择、和特征离散化阈值的确定,以获取 准确的预测结果。
[0116] 另外,数据采集模块210还适于实时获取用户行为日志,定期更新样本数据,对新 增加的样本数据进行及时训练,以提高模型的预测准确率。
[0117] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施 例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结 构和技术,以便不模糊对本说明书的理解。
[0118] 类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在 上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施 例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保 护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的 权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵 循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都 作为本发明的单独实施例。
[0119] 本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组 件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备 不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个 子模块。
[0120] 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地 改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单 元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或 子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何 组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任 何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权 利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代 替。
[0121] A6、如A5所述的方法,其中,对于行动阶段,选取有直接购物行为的用户作为目标 用户;对于意向阶段,选取有销售咨询行为的用户作为目标用户;对于关注阶段,选取留言、 分享行为集中的用户作为目标用户;和对于兴趣阶段,选取浏览、搜索、收藏行为集中的用 户作为目标用户。A7、如A1-6中任一项所述的方法,其中,第一特征集包括指向用户特征的 用户浏览行为特征、用户购物意愿特征、预定页面交互行为特征,以及指向用户访问对象特 征的文章文本内容特征。A8、如A1-7中任一项所述的方法,其中利用决策树模型训练第一特 征集,通过多次迭代得到特征组合的步骤包括:将第一特征集作为初始输入参数构造决策 树模型;每迭代计算一次,就在减少残差的梯度方向上建立新的决策树模型;经多次迭代计 算后,将最终决策树模型中各叶子节点的值作为特征组合中的元素值,得到特征组合;以及 将多个特征组合构成第二特征集。A9、如A8所述的方法,其中决策树模型是GBDT模型。A10、 如A9所述的方法,其中特征组合的个数L为:L=(2~d-l)*m,其中,d代表决策树深度,m代表 决策树数量。All、如A1-10中任一项所述的方法,其中,第二特征集包括销售线索类特征、广 告页面交互行为类特征、预定页面交互行为类特征。A12、如A1-11中任一项所述的方法,其 中机器学习模型为Factorization Machines(FM)模型:
[0123]其中,xi为第i个特征项,wo为全局偏移参数,wi为特征项xi的参数,Vi为xi特征项的 分解向量参数,η为第一特征集和第二特征集中特征项总数,为购物需求度预测值。 A13、如A1-12中任一项所述的方法,其中从所选择目标用户的用户行为日志中获取样本数 据的步骤还包括步骤:实时获取用户行为日志,定期更新样本数据。
[0124] B19、如B18所述的装置,其中选择子单元适于选取有直接购物行为的用户作为行 动阶段的目标用户;选择子单元还适于选取有销售咨询行为的用户作为意向阶段的目标用 户;选择子单元还适于选取留言、分享行为集中的用户作为关注阶段的目标用户;和选择子 单元还适于选取浏览、搜索、收藏行为集中的用户作为兴趣阶段的目标用户。B20、如B14-19 中任一项所述的装置,其中第一特征集包括指向用户特征的用户浏览行为特征、用户购物 意愿特征、预定页面交互行为特征,以及指向用户访问对象特征的文章文本内容特征。B21、 如B14-20中任一项所述的装置,其中第一训练模块包括:初始化子单元,适于将第一特征集 作为初始输入参数构造决策树模型;回归迭代子单元,适于执行多次迭代计算,其中每迭代 计算一次,就在减少残差的梯度方向上建立新的决策树模型;特征获取子单元,适于将最终 决策树模型中各叶子节点的值作为特征组合中的元素值,得到特征组合,并将多个特征组 合构成第二特征集。B22、如B21所述的装置,其中决策树模型是GBDT模型。B23、如B22所述的 装置,其中特征组合的个数L为:L= (2 ~d-l) *m,其中,d代表决策树深度,m代表决策树数量。 B24、如B14-23中任一项所述的装置,其中第二特征集包括销售线索类特征、广告页面交互 行为类特征、预定页面交互行为类特征。B25、如B14-24中任一项所述的装置,其中机器学习 模型为Factorization Machines(FM)模型:
[0126] 其中,xi为第i个特征项,wo为全局偏移参数,wi为特征项xi的参数,Vi为xi特征项的 分解向量参数,η为第一特征集和第二特征集中特征项总数,j)(X)为购物需求度预测值。 B26、如B14-25中任一项所述的装置,其中数据采集模块还适于实时获取用户行为日志,定 期更新样本数据。
[0127] 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例 中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的 范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任 意之一都可以以任意的组合方式来使用。
[0128] 此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行 所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法 元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在 此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行 的功能。
[0129] 如在此所使用的那样,除非另行规定,使用序数词"第一"、"第二"、"第三"等等来 描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必 须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
[0130] 尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域 内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意, 本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限 定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本 技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本 发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
【主权项】
1. 一种购物行为的预测方法,包括: 为不同购物阶段选取不同目标用户,从所选取目标用户的用户行为日志中获取样本数 据; 分别从各购物阶段的样本数据中提取标识用户行为的第一特征集; 利用决策树模型分别训练不同购物阶段的第一特征集,通过多次迭代得到特征组合, 作为第二特征集;以及 分别使用各购物阶段的第一特征集和第二特征集训练预先建立的机器学习模型,其中 所述机器学习模型用于预测用户的购物需求度;以及 根据所述不同购物阶段的机器学习模型确定待测用户所属购物阶段。2. 如权利要求1所述的方法,其中, 所述购物阶段包括:关注阶段、兴趣阶段、意向阶段、和行动阶段。3. 如权利要求2所述的方法,其中所述根据不同购物阶段的机器学习模型确定待测用 户所属购物阶段的步骤包括: 获取待测用户的用户行为日志; 执行上述提取、训练第一特征集的步骤,得到待测用户的第一特征集和第二特征集;以 及 按照预定顺序将待测用户的第一特征集和第二特征集输入某一购物阶段的机器学习 模型,预测该待测用户是否属于该购物阶段。4. 如权利要求3所述的方法,其中, 所述预定顺序是:行动阶段、意向阶段、关注阶段、兴趣阶段。5. 如权利要求2-4中任一项所述的方法,其中所述根据不同的购物阶段选取不同目标 用户的步骤包括: 根据不同购物阶段的业务场景,为不同购物阶段选取不同的用户作为目标用户。6. -种购物行为的预测装置,包括: 数据采集模块,适于为不同购物阶段选取不同目标用户,从所选取目标用户的用户行 为日志中获取样本数据; 特征提取模块,适于分别从各购物阶段的样本数据中提取标识用户行为的第一特征 集; 第一训练模块,适于利用决策树模型分别训练不同购物阶段的第一特征集,通过多次 迭代得到特征组合,作为第二特征集; 第二训练模块,适于分别使用各购物阶段的第一特征集和第二特征集训练预先建立的 机器学习模型,其中所述机器学习模型用于预测用户的购物需求度;以及 分类判断模块,适于根据所述不同购物阶段的机器学习模型确定待测用户所属购物阶 段。7. 如权利要求6所述的装置,其中, 所述购物阶段包括:关注阶段、兴趣阶段、意向阶段、和行动阶段。8. 如权利要求7所述的装置,其中, 所述数据采集模块还适于获取待测用户的用户行为日志; 所述特征提取模块还适于提取待测用户的第一特征集; 所述第一训练模块还适于训练所述第一特征集,得到待测用户的第二特征集; 所述分类判断模块还适于按照预定顺序为待测用户选择相应购物阶段的机器学习模 型、以及根据第二训练模块预测的购物需求度预测该待测用户是否属于相应购物阶段;以 及 所述第二训练模块还适于根据所选定的机器学习模型、以及所述第一特征集和第二特 征集预测该待测用户的购物需求度。9. 如权利要求8所述的装置,其中, 所述预定顺序是:行动阶段、意向阶段、关注阶段、兴趣阶段。10. 如权利要求7-9中任一项所述的装置,其中所述数据采集模块还包括: 选择子单元,适于根据不同购物阶段的业务场景,为不同购物阶段选取不同的用户作 为目标用户。
【文档编号】G06Q10/04GK105868847SQ201610174124
【公开日】2016年8月17日
【申请日】2016年3月24日
【发明人】孙铭泽, 华伟
【申请人】车智互联(北京)科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1