一种互联网内容的投放方法及装置与流程

文档序号:11864700阅读:143来源:国知局
一种互联网内容的投放方法及装置与流程

本发明涉及互联网技术领域,特别是涉及一种互联网内容的投放方法及装置。



背景技术:

现如今,随着互联网尤其是移动互联网的发展,互联网可以提供给用户的信息越来越丰富,用户通过互联网可以关注到不同类别的信息内容。例如,对于新闻内容,用户可以通过互联网访问体育类信息、科技类信息、财经类信息和娱乐类信息等等。

根据用户历史上在网站上的行为,比如浏览、搜索、收藏等,可以给用户推送其曾经访问过的对象,如商品等的有关内容。在现有技术中,推荐的方法往往根据业务和经验配置简单的处理规则,例如处理规则所选取的特征为用户浏览对象的时间顺序,按照离当前时间由近至远的顺序排列推荐内容投放顺序,预估用户点击最近一次浏览的对象的可能性更大。

然而,根据现有技术的方法预测的用户对推荐内容的优先点击顺序不够准确,换句话说,较优先推荐的内容不能够准确地代表用户优先点击的内容。



技术实现要素:

本发明解决的技术问题是提供一种互联网内容的投放方法及装置,提高互联网内容投放的准确率。

为解决上述技术问题,本发明实施例提供互联网内容的投放方法,所述方法包括:

获取当前用户在当前网站的历史访问记录数据,并将所述历史访问记录数据切分为多个持续访问记录,每个所述持续访问记录包括所述当前用户对所述当前网站的连续访问行为形成的至少一条访问记录,每条所述访问记录包括所述当前用户在所述当前网站上对对象的访问行为数据;从所述多个持续访问记录包含的访问记录中选取正例样本和负例样本;根据所述正例样本和所述负例样本,从所述历史访问记录数据归纳访问特征数据;基于所述访问特征数据进行模型训练,以得到多个回归模型;基于多个待预测对象的更新访问特征数据以及所述多个回归模型,确定与所述多个待预测对象关联的推荐内容的投放优先顺序。

可选地,从所述多个持续访问记录包含的访问记录中选取正例样本和负例样本包括:

对于每一持续访问记录中的访问记录,如果所述访问记录针对的对象在先前的持续访问记录中被访问过,则将所述访问记录标记为所述正例样本;

对于每一持续访问记录中的访问记录,如果所述访问记录针对的对象在先前的持续访问记录中被访问过,但在当前持续访问记录中没有被访问,则将所述访问记录标记为所述负例样本。

可选地,所述回归模型为GBDT树模型。

可选地,基于多个待预测对象的更新访问特征数据以及所述多个回归模型,确定与所述多个待预测对象关联的推荐内容的投放优先顺序,包括:

基于待预测对象的更新访问特征数据和所述多个回归模型得到所述待预测对象的得分;

根据所述得分按从高至低进行排序,并根据所述排序确定与所述多个待预测对象关联的推荐内容的投放优先顺序。

可选地,所述访问特征数据包括当前用户访问所述当前网站的特征数据、对象被访问的特征数据和所述当前用户访问所述对象的特征数据。

本发明实施例还提供一种互联网内容的投放装置,所述装置包括:

获取单元,适于获取当前用户在当前网站的历史访问记录数据,并将所述历史访问记录数据切分为多个持续访问记录,每个所述持续访问记录包括所述当前用户对所述当前网站的连续访问行为形成的至少一条访问记录,每条所述访问记录包括所述当前用户在所述当前网站上对对象的访问行为数据;

选取单元,适于从所述多个持续访问记录包含的访问记录中选取正例样本和负例样本;

归纳单元,适于根据所述正例样本和所述负例样本,从所述历史访问记录数据归纳访问特征数据;

模型训练单元,适于基于所述访问特征数据进行模型训练,以得到多个回归模型;

确定单元,适于基于多个待预测对象的更新访问特征数据以及所述多个回归模型,确定与所述多个待预测对象关联的推荐内容的投放优先顺序。

可选地,所述选取单元包括:

第一标记子单元,适于对于每一持续访问记录中的访问记录,如果所述访问记录针对的对象在先前的持续访问记录中被访问过,则将所述访问记录标记为所述正例样本;

第二标记子单元,适于对于每一持续访问记录中的访问记录,如果所述访问记录针对的对象在先前的持续访问记录中被访问过,但在当前持续访问记录中没有被访问,则将所述访问记录标记为所述负例样本。

可选地,所述回归模型为GBDT模型。

可选地,所述确定单元包括:

得分获取子单元,适于基于待预测对象的更新访问特征数据和所述多个回归模型得到所述待预测对象的得分;

投放顺序确定子单元,适于根据所述得分按从高至低进行排序,并根据所述排序确定与所述多个待预测对象关联的推荐内容的投放优先顺序。

可选地,所述访问特征数据包括当前用户访问所述当前网站的特征数据、对象被访问的特征数据和所述当前用户访问所述对象的特征数据。

与现有技术相比,本发明实施例的技术方案具有以下有益效果:

本发明实施例的技术方案通过获取当前用户在当前网站的历史访问记录数据,并将所述历史访问记录数据切分为多个持续访问记录,从所述多个持续访问记录包含的访问记录中选取正例样本和负例样本,对每个正例样本和负例样本归纳访问特征数据,基于已被标记为正例或负例的所述访问特征数据进行模型训练,以得到多个回归模型,再通过回归模型和待预测对象的更新访问特征数据确定与所述多个待预测对象关联的推荐内容的投放优先顺序。由于上述过程中,根据用户的连续访问行为将用户的历史访问记录拆分为多个持续访问记录,并以持续访问记录作为判断的基准,从持续访问记录包含的访问记录中选取正例样本和负例样本,这样的正例样本和负例样本提供了更加准确的模型训练优化目标,而基于此目标训练得到的回归模型可以对待预测对象进行较准确的排序,使得该排序可较准确地代表用户点击待预测对象的可能性顺序,当按照该顺序确定向用户投放的推荐内容的优先顺序时,用户点击当前优先级较高的推荐内容的可能性也较大,从而提高了推荐内容投放的准确性。由于投放的推荐内容更加准确,因而可以较好地避免用户为获取其感兴趣的内容而进行多次搜索和浏览等操作,进而可节省为响应用户的再次访问或者搜索所需的网络系统资源。同时,由于用户从推荐内容获取其感兴趣的内容的可能性增大,从而降低需多次搜索和浏览等操作的可能性,进而提升了用户体验。

附图说明

图1是本发明实施例中的一种互联网内容的投放方法的流程图;

图2是本发明实施例中的一种互联网内容的投放方法的结构示意图。

具体实施方式

如背景技术所言,根据现有技术的方法所预测的用户对推荐内容的优先点击顺序不够准确,换句话说,较优先推荐的内容不能够准确地代表用户优先点击的内容。因此,用户为获取其感兴趣的内容,往往需要进行多次搜索和浏览等操作,为响应用户的再次浏览或者搜索,需提供更多的网络系统资源,导致成本上升。与此同时,用户体验也较差。

本发明实施例的技术方案通过获取当前用户在当前网站的历史访问记录数据,并将所述历史访问记录数据切分为多个持续访问记录,从所述多个持续访问记录包含的访问记录中选取正例样本和负例样本,对每个正例样本和负例样本归纳访问特征数据,基于已被标记为正例或负例的所述访问特征数据进行模型训练,以得到多个回归模型,再通过回归模型和待预测对象的更新访问特征数据确定与所述多个待预测对象关联的推荐内容的投放优先顺序。由于上述过程中,根据用户的连续访问行为将用户的历史访问记录拆分为多个持续访问记录,并以持续访问记录作为判断的基准,从持续访问记录包含的访问记录中选取正例样本和负例样本,这样的正例样本和负例样本提供了更加准确的模型训练优化目标,而基于此目标训练得到的回归模型可以对待预测对象进行较准确的排序,使得该排序可较准确地代表用户点击待预测对象的可能性顺序,当按照该顺序确定向用户投放的推荐内容的优先顺序时,用户点击当前优先级较高的推荐内容的可能性也较大,从而提高了推荐内容投放的准确性。由于投放的推荐内容更加准确,因而可以较好地避免用户为获取其感兴趣的内容而进行多次搜索和浏览等操作,进而可节省为响应用户的再次访问或者搜索所需的网络系统资源。同时,由于用户从推荐内容获取其感兴趣的内容的可能性增大,从而降低需多次搜索和浏览等操作的可能性,进而提升了用户体验。

为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例中的一种互联网内容的投放方法的流程图。下面结合图1所示的步骤进行说明。

步骤S101:获取当前用户在当前网站的历史访问记录数据,并将所述历史访问记录数据切分为多个持续访问记录,每个所述持续访问记录包括所述当前用户对所述当前网站的连续访问行为形成的至少一条访问记录,每条所述访问记录包括所述当前用户在所述当前网站上对对象的访问行为数据。

其中,当前网站是待投放互联网内容的网站,其可以是任何适当的网站,例如新闻网站、视频网站、购物网站等。

当前网站的历史访问记录数据来自于所述当前网站的服务器,所述历史访问记录数据可以以某个时间点以前的一个时间范围为限,例如以上一个月的访问行为数据作为本实施例所述的历史访问记录数据。

在具体实施中,所述持续访问记录包括用户的连续的访问行为所形成的至少一条访问记录。其中,连续的访问行为可以是一个会话(session)过程中的访问行为,例如,从用户U打开网站S至关闭网站S的过程即为所述用户U在该网站S的一个会话过程。每条所述访问记录包括所述当前用户在所述当前网站上对对象的访问行为数据。具体地,每条访问记录可以包括访问时间、访问对象、是否为当前会话的第一次访问以及访问类型所构成访问行为数据。本发明实施例所指的“对象”可以是新闻类别、视频类别、商品或者其他特定的对象。所述访问类型包括浏览和搜索。当所述对象为商品时,所述访问类型还可以包括收藏和加入购物车。下面以表1中用户U在网站S的部分访问行为数据为例进行说明:

表1

表1中,Ts1至Ts3界定的会话的访问行为数据为第一持续访问记录S1,包括3条访问记录。Ts4和Ts5界定的会话访问行为数据为第二持续访问记录S2,包括2条访问记录。每条访问记录包括访问时间、是否是当前会话内的第一次访问、访问的商品和访问类型。需要说明的是,访问行为数据不限于上述列举。

步骤S102:从所述多个持续访问记录包含的访问记录中选取正例样本和负例样本。

在具体实施中,对于每一持续访问记录中的访问记录,如果所述访问记录针对的对象在先前的持续访问记录中被访问过,则将所述访问记录标记为所述正例样本;对于每一持续访问记录中的访问记录,如果所述访问记录针对的对象在先前的持续访问记录中被访问过,但在当前持续访问记录中没有被访问,则将所述访问记录标记为所述负例样本。

继续以表1进行说明正例样本和负例样本的选取,在此假设第一持续访问记录为所选取的历史访问记录数据中的第一个持续访问记录,换句话说,历史访问记录数据从时间Ts1开始。其中:

对于第一持续访问记录S1而言,任何商品在之前都没有被访问过,因此第一持续访问记录S1中不产生正例样本和负例样本。对于第二持续访问记录S2而言,由于商品Pid1在第一访问记录中S1被访问过,并且在当前持续访问记录S2中也被访问,因此商品Pid1对应的这一条访问记录被标记为正例样本;商品Pid2在第一持续访问记录S1中被访问过,但是在当前第二持续访问记录S2中没有被访问,因此商品Pid2对应的这一条访问记录被标记为负例样本。

类似地,针对所选取的历史访问记录数据中的其他持续访问记录,也可以从中选出正例样本和负例样本。

需要说明的是,在标记正例样本和负例样本时,可以不仅以被浏览或搜索作为条件,还可以限制满足预设访问类型作为条件。例如,当所述对象为商品,所述访问类型包括浏览、搜索、收藏和加入购物车时,将当前持续访问记录之前的访问记录和当前持续访问记录中访问类型为预设类型的对象标记为所述正例样本,将当前持续访问记录之前的访问记录中访问类型为预设类型,但在当前持续访问记录中访问类型没有预设类型的对象标记为所述负例样本,所述预设类型包括搜索和浏览。在选取正例样本和负例样本时,通过指定需满足的预设类型,可以选出被认为有价值的样本作为模型训练的集合。

步骤S103:根据所述正例样本和所述负例样本,从所述历史访问记录数据归纳访问特征数据。

在具体实施中,所述访问特征数据包括当前用户访问所述当前网站的特征数据、对象被访问的特征数据和所述当前用户访问所述对象的特征数据。其中,当前用户访问所述当前网站的特征数据可以包括当前用户对当前网站的访问行为的统计数据,例如可以是当前用户在预设周期内访问当前网站的次数、浏览不同对象的次数、搜索不同对象的次数等;对象被访问的特征数据可以包括不同对象的统计数据,例如可以是不同对象在各个持续访问记录中被浏览的次数、被搜索的次数等;当前用户访问所述对象的特征数据可以是当前用户对不同对象的访问行为的统计数据,例如可以是当前用户在各个持续访问记录中对不同对象的浏览次数、搜索次数以及最后访问时间等。

以步骤S102从表1中选出的正例样本和负例样本为例进行说明,所述对象为仍为商品。

所述当前用户访问所述当前网站的特征数据可以包括:Ts4之前,当前用户U访问当前网站S的总次数为3次,当前用户U最后的访问时间为Ts3,等等。

所述对象被访问的特征数据可以包括:基于商品Pid1统计,在Ts4之前,商品Pid1被访问共2次(即搜索1次和浏览1次);基于商品Pid2统计,在Ts4之前,商品Pid2被访问共1次(即搜索1次)。

所述当前用户U访问所述对象的特征数据可以包括:在Ts4之前,当前用户U对商品Pid1访问2次(即搜索1次和浏览1次);在Ts4之前,当前用户U对商品Pid2访问1次(即搜索1次);在Ts4之前,当前用户U对商品Pid1的最后访问时间为Ts3,当前用户U对商品Pid2的最后访问时间为Ts2。

需要说明的是,所述访问特征数据还可以根据其他预设标准来进行归纳,在此不做限制。

步骤S104:基于所述访问特征数据进行模型训练,以得到多个回归模型。

在具体实施中,所述回归模型可以是梯度提升决策树(Gradient Boosting Decision Tree,GBDT)模型。所述模型训练的过程为本领域技术人员所能理解的现有技术,在此不赘述。

步骤S105:基于多个待预测对象的更新访问特征数据以及所述多个回归模型,确定与所述多个待预测对象关联的推荐内容的投放优先顺序。

所述待预测对象为针对当前用户可能进行内容推荐的候选对象。例如,需要从100个候选对象中选出8个对象关联的推荐内容对用户进行投放,这100个候选对象为待预测对象。

在具体实施中,可以基于待预测对象的更新访问特征数据和所述多个回归模型得到所述待预测对象的得分,再根据所述得分按从高至低进行排序,并根据所述排序确定与所述多个待预测对象关联的推荐内容的投放优先顺序。例如,待预测对象中有第一对象和第二对象,根据第一对象和第二对象更新的访问特征数据以及所述多个回归模型进行预测,若第一对象的得分比第二对象的得分高,则两者中优先投放第一对象的推荐内容至当前用户。

在具体实施中,可以选取投放优先级顺序排位最高的待预测对象所关联的推荐内容进行投放,或者选取投放优先级顺序处于前N位的待预测对象所关联的推荐内容进行投放。例如,基于100个待预测对象的更新访问特征数据以及所述多个回归模型,可以得到每个待预测对象的得分,按照得分从高至低的顺序,选取得分最高的待预测对象关联的推荐内容向用户进行投放,或者选取得分处于前8位的待预测对象关联的推荐内容向用户进行投放。例如,当所述对象为新闻类别时,所述推荐内容可以是新闻内容;当所述对象为商品时,所述推荐内容可以是互联网广告。

需要说明的是,本发明实施例的步骤S101至步骤S105是针对以一具体的当前用户而言,对于访问当前网站的其他用户可使用同样的实施方式确定针对该用户的推荐内容的投放优先顺序。

本发明的实施例中,从持续访问记录中所包含的访问记录中选取的正例样本和负例样本提供了模型训练优化的目标,而基于此目标训练得到的回归模型可以对待预测对象进行较准确的排序,使得该排序可较准确地代表用户点击待预测对象的可能性顺序,进而提升预估用户点击推荐内容的可能性的准确性,当按照该顺序确定向用户投放的推荐内容的优先顺序时,用户点击当前优先级较高的推荐内容的可能性也较大,从而较好地避免用户为获取其感兴趣的内容而进行多次搜索和浏览等操作,进而可节省为响应用户的再次访问或者搜索所需的网络系统资源。同时,由于用户从推荐内容获取其感兴趣的内容的可能性增大,从而降低需多次搜索和浏览等操作的可能性,进而提升了用户体验。

图2是本发明实施例中的一种互联网内容的投放装置的结构示意图。如图2所示的互联网内容的投放装置可以包括:获取单元201、选取单元202、归纳单元203、模型训练单元204和确定单元205。

所述获取单元201,适于获取当前用户在当前网站的历史访问记录数据,并将所述历史访问记录数据切分为多个持续访问记录,每个所述持续访问记录包括所述当前用户对所述当前网站的连续访问行为形成的至少一条访问记录,每条所述访问记录包括所述当前用户在所述当前网站上对对象的访问行为数据。

所述选取单元202,适于从所述多个持续访问记录包含的访问记录中选取正例样本和负例样本。

在具体实施中,所述选取单元202可以包括:

第一标记子单元,适于对于每一持续访问记录中的访问记录,如果所述访问记录针对的对象在先前的持续访问记录中被访问过,则将所述访问记录标记为所述正例样本;

第二标记子单元,适于对于每一持续访问记录中的访问记录,如果所述访问记录针对的对象在先前的持续访问记录中被访问过,但在当前持续访问记录中没有被访问,则将所述访问记录标记为所述负例样本。

所述归纳单元203,适于根据所述正例样本和所述负例样本,从所述历史访问记录数据归纳访问特征数据。

所述模型训练单元204,适于基于所述访问特征数据进行模型训练,以得到多个回归模型。

在具体实施中,所述回归模型可以是GBDT模型。

所述确定单元205,适于基于多个待预测对象的更新访问特征数据以及所述多个回归模型,确定与所述多个待预测对象关联的推荐内容的投放优先顺序。

在具体实施中,所述确定单元205可以包括:

得分获取子单元,适于基于待预测对象的更新访问特征数据和所述多个回归模型得到所述待预测对象的得分;

投放顺序确定子单元,适于根据所述得分按从高至低进行排序,以根据所述排序确定与所述多个待预测对象关联的推荐内容的投放优先顺序。

有关所述互联网内容的投放装置的结构说明和有益效果可对应参照图1中所述的互联网内容的投放方法的实施说明和有益效果,在此不再赘述。

在具体实施中,当所述互联网内容的投放方法可以应用于互联网广告领域时,所述互联网内容的投放装置可以应用于DSP服务器。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。

以上对本发明实施例的方法及系统做了详细的介绍,本发明并不限于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1