点击率预估方法、装置、机器设备和计算机可读存储介质与流程

文档序号:18743226发布日期:2019-09-21 02:02阅读:185来源:国知局
点击率预估方法、装置、机器设备和计算机可读存储介质与流程

本发明涉及计算机应用技术领域,特别涉及一种点击率预估方法、装置、机器设备和计算机可读存储介质。



背景技术:

随着互联网应用技术的发展,通过向用户进行的前端显示而实现向用户的资源投放,例如,互联网广告的投放。投放的实现依赖对所投放资源的点击率预估,在为用户运算得到每一资源所对应的点击率预测值之后,即可按照这一点击率预测值选取向此用户投放的资源。由此便能够对每一用户都能够推荐其所感兴趣的资源。

由此可见,资源的点击率预估对于互联网广告等资源的投放至关重要。点击率预估是根据用户标签运算得到,但是,每一用户的用户标签纷繁复杂,质量参差不齐,另外对于互联网广告等资源而言,生命周期短,新广告等的更新层出不穷。

因此,如何利用好所有用户标签对新旧资源进行预测,已经成为一个具有挑战的难题。以互联网广告为例,往往需要针对用户的喜好,通过所运算的点击率预测值在短时间内从候选的互联网广告中选择出一款此用户喜欢的广告展示出来。获得点击率预测值所应用的点击率预估模型可以是线性模型或者深度神经网络等非线性模型。

但是,受限于纷繁复杂质量参差不齐的用户标签,以及新旧资源层出不穷所带来的模型训练样本量小,进而使得点击率预估所能够获得的信息量小,面向资源投放所进行的资源点击率预估存在着非常大的偏差。

亟待提供一种能够适应于各种状况下的用户标签且样本量小的点击率预估技术。



技术实现要素:

为了解决相关技术中由于用户标签纷繁复杂质量参差不齐且样本量小而导致点击率预估存在较大偏差的技术问题,本发明提供了一种点击率预估方法、装置、机器设备和计算机可读存储介质。

一种点击率预估方法,所述方法包括:

获取用户标签,所述用户标签用于描述请求进行资源投放的用户;

获取所述用户相对资源的点击率预估中使用的逻辑回归参数,以及获取用户标签对所述资源的影响值,所述影响值用于描述所述用户标签对于所述资源处于点击类别的贡献;

针对每一资源,根据所述逻辑回归参数以及用户标签对所述资源的影响值对所述用户标签以及所对应资源特征运算所述用户对所述资源的点击率预测值。

一种点击率预估装置,所述装置包括:

标签获取模块,用于获取用户标签,所述用户标签用于描述请求进行资源投放的用户;

参数获取模块,用于获取所述用户相对资源的点击率预估中使用的逻辑回归参数,以及获取用户标签对所述资源的影响值,所述影响值用于描述所述用户标签对于所述资源处于点击类别的贡献;

特征运算模块,用于针对每一资源,根据所述逻辑回归参数以及用户标签对所述资源的影响值对所述用户标签以及所对应资源特征运算所述用户对所述资源的点击率预测值。

一种机器设备,包括:

处理器;以及

存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如前所述的点击率预估方法。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述的点击率预估方法。

本发明的实施例提供的技术方案可以包括以下有益效果:

在携带进行资源投放请求的用户流量到达后台时,对于请求进行资源投放的用户,首先获取相应用户标签,用户标签用于描述用户,将通过用户标签对此用户进行每一资源的点击率预估,在运算用户对于每一资源的点击率预测值之前,将获取所有资源所分别对应的逻辑回归参数,以及获取用户标签对资源的影响值,此影响值用于描述用户标签对于资源处于点击类别贡献,即指示了用户标签对于发生用户对此资源点击行为的影响,最后即可针对于每一资源,根据所对应逻辑回归参数以及用户标签对资源的影响值对用户标签运算用户对此资源的点击率预测值,在此运算中,通过用户标签对资源的影响值实现了用户标签与资源本身特性的组合,一方面带来了更多的信息量,进而能够降低点击率预估的偏差,提高点击率预测值的准确性,另一方面也在用户标签对资源的影响值的作用下以及用户标签对资源影响值的参与运算,使得用户标签和资源的深层特性以及关联性被挖掘且应用于点击率预测值的运算中,屏蔽了用户标签的质量参差不齐以及由此而导致的不稳定情况,既坚固了信息量也保证了稳定性。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的本发明所涉及实施环境的示意简略图;

图2是根据一示例性实施例示出的一种装置的框图;

图3是根据一示例性实施例示出的一种点击率预估方法的流程图;

图4是根据另一示例性实施例示出的一种点击率预估方法的流程图;

图5是根据图4对应实施例示出的对步骤430进行描述的流程图;

图6是根据一示例性实施例示出的广告业务架构示意图;

图7是根据一示例性实施例示出的本发明实现点击率预估所使用的建模图形示意图;

图8是根据一示例性实施例示出的点击率预估中使用梯度下降法参数更新流程图;

图9是一示例性实施例示出的一种点击率预估装置的框图;

图10是另一示例性实施例示出的一种点击率预估装置的框图;

图11是根据图10对应实施例示出的对参数更新模块进行描述的框图。

具体实施方式

这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的本发明所涉及实施环境的示意简略图。在一个示例性实施例中,本发明所实现的点击率预估承载于后台所部署的机器上,以在此为所到达用户流量实现每一用户的资源点击率预估,将为此用户获得的点击率预测值推送至部署了推荐系统的机器,在此推荐系统按照点击率预测值选取所投放的资源之后,便可通过所配合的前端系统向此用户投放。

在此,所指的机器,比如服务器110,提供点击率预估甚至于推荐服务,进而支持各种场景。

在一支持的场景中,如图1所示的,后台部署了配置实现点击率预估的服务110,用以实现点击率预估系统;除此之外,后台还部署了配置实现推荐服务的推荐系统130以及前端系统150。

以互联网广告这一资源为例,在服务器110所实现点击率预估系统、推荐系统130以及前端系统150的作用下,为到达的用户流量进行点击率预估,进而即可由推荐系统130依据点击率预测值获得推荐的互联网广告,并在前端系统150的配合下,对用户实现千人千面的广告投放效果。

并且由于所投放的互联网广告是对应于用户的点击率预测值的,并有能够通过本发明所实现的点击率预估保证准确性,故所投放的互联网广告向用户曝光之后,被点击、转化的可能性极大。

图2是根据一示例性实施例示出的一种装置的框图。例如,装置200可以是图1所示的推荐服务器。

参照图2,该装置200可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)222(例如,一个或一个以上处理器)和存储器232,一个或一个以上存储应用程序242或数据244的存储介质230(例如一个或一个以上海量存储设备)。其中,存储器232和存储介质230可以是短暂存储或持久存储。存储在存储介质230的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器222可以设置为与存储介质230通信,在装置200上执行存储介质230中的一系列指令操作。装置200还可以包括一个或一个以上电源226,一个或一个以上有线或无线网络接口250,一个或一个以上输入输出接口258,和/或,一个或一个以上操作系统241,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。下述图3、图4和图5所示实施例中所述的由服务器所执行的步骤可以基于该图2所示的装置结构。

图3是根据一示例性实施例示出的一种点击率预估方法的流程图。该点击率预估方法,适用于前述所示环境的机器110,在一个示例性实施例中,如图3所示,至少包括以下步骤。

在步骤310中,获取相应用户标签,用户标签用于描述请求进行资源投放的用户。

其中,资源是向用户投放的各种电子资源,例如,互联网广告、虚拟道具、虚拟物品、视频资源、音乐资源、携带各种内容的电子红包等。用户能够借由所投放的资源获取到所需要的信息,或者通过所投放的资源满足当前互联网访问的需求。例如,通过所投放的互联网广告,获知当前感兴趣的商品信息;通过所投放的虚拟物品,能够在一虚拟场景中获得用户自身所希冀的物品;通过所投放的视频资源,使得用户能够直接跳转进入此视频资源的播放。

也就是说,所请求进行投放的资源是与所在的场景强相关的,例如,所在的场景为一互联网广告的投放场景的。

用户所请求进行的资源投放,是指用户在进行前端页面的访问中,跳转进入的页面存在着资源投入区域,例如,页面部署了广告位,此时,便向后台发起了进行资源投放的请求。与之相对应的,携带进行资源投放请求的用户流量到达后台,在后台所部署实现点击率预估的服务器控制下,将对此用户获取相应的用户标签。

随着互联网中用户行为的触发,每一用户都有相应的用户标签,当然,不同用户之间用户标签往往长短不一,即每一用户所拥有用户标签的数目往往各不相同,对于一维度上的标签,有的用户可能拥有,而有的用户则可能没有。

用户标签用于描述所对应用户的喜好、兴趣等。对于用户而言,一用户标签的存在便在所对应维度上确定了所对应特征的存在。因此,用户标签将构成了用户的多值特征。

在一个示例性实施例中,对于请求进行资源投放的用户,相应用户标签是通过沉淀的用户画像数据获取得到的。例如,在所存储的用户画像数据中,为此用户查找所对应的用户画像,此用户画像便是由用户标签所构成的,从而即可为请求进行资源投放的用户获取相应用户标签。

应当理解,对于请求进行资源投放的每一用户,都将获取相应用户标签,通过所获取的用户标签方能够为此用户发起面向所有资源的点击率预估。

在步骤330中,获取用户相对资源的点击率预估中使用的逻辑回归参数,以及获取用户标签对资源的影响值,该影响值用于描述用户标签对于资源处于点击类别的贡献。

其中,面向于所有资源进行用户相对资源的点击率预估。应当说明的是,用户相对资源的点击率预估,是为请求进行资源投放的用户预测接受这一资源的可能性,是围绕用户而对每一资源进行的,以此类推,即可实现此用户相对于所有资源所分别对应的点击率预估。

而在此所指的用户对资源的接受,是指用户对资源触发的用户行为,根据资源的不同,所对应的用户行为也各不相同。例如,对于虚拟物品而言,用户对资源的接收即为用户对此虚拟物品的接受;对于互联网广告而言,用户对资源的接受,即为用户对此互联网广告的点击,通过所触发的点击行为而跳转至此互联网广告的落地页面,进而转换为落地页面上的购买行为。

无认是何种资源,用户对资源的接受往往都是通过对资源发起点击行为而实现的,并且用户对资源的接受表征了用户对所投放资源的喜欢或者感兴趣程度,因此,任一种资源都能够通过点击率来表征用户的接受程度,所发起的点击率预估,则必然是预测用户对所投放资源的喜欢或者感兴趣程度的,以此来找到用户最为感兴趣的资源,反之,也将通过所进行的点击率预估来保证资源投放的有效性和精准性。

面向所有资源而进行的用户相对资源的点击率预估,是结合逻辑回归运算进行的,并在此基础之上通过用户标签与资源之间的特征组合挖掘用户标签所涵盖的兴趣与资源之间的相关性,进而获知存在此类用户标签的用户,点击资源的可能性较高,由此即可在逻辑回归运算的基础上引入更多信息进行点击率预估。

应当理解,用户标签下的一兴趣与资源相契合,使得向用户投放此资源被点击的可能性非常高,也就是说,这一用户标签对此资源被点击存在着非常大的贡献,在数值上便通过用户标签对资源的影响值衡量。

由此,将需要为所进行的点击率预估获取资源所对应的逻辑回归参数以及用户标签对资源的影响值。

逻辑回归参数用于为用户标签的逻辑回归运算提供运算所需要的参数。用户标签对资源的影响值,则如前述描述所指出的,用于表征用户标签对于资源被点击而由曝光转为点击类别的贡献。应当说明的是,向用户投放的资源,存在着曝光和点击类别,曝光和点击类别包括曝光类别以及点击类别。投放而未被用户触发点击的资源,正处于曝光类别,被点击的资源则转换为点击类别。

应当指出的是,用户标签对资源的影响值,是面向于所有用户标签的。在一示例性实施例中,对于面向所有资源投放而获得的所有样本数据而言,将从所有用户标签分别映射的隐藏向量来挖掘相对于一资源用户标签的影响。

例如,一条样本数据中记录了用户标签以及所点击的资源,则此条样本数据的用户标签和资源之间可能对应了较大的用户标签对资源影响值,当然,用户标签下隐藏的兴趣与所点击资源无关时,用户标签对资源的影响值仍然为一较小值。

用户标签下隐藏的兴趣(其通过前述所指的隐藏向量表征)与资源之间的相关性在数值上的表现即为用户标签对资源的影响值。

无论是逻辑回归参数还是用户标签对资源的影响值,都将通过样本数据而进行的模型训练获得,并且也将随着资源的投放不断优化更新参数。在一示例性实施例中,逻辑回归参数和用户标签对资源的影响值将通过逻辑回归模型所迭代进行的参数估计获得,进而被所进行的点击率预估所使用。

在步骤350中,针对每一资源,根据逻辑回归参数以及用户标签对资源的影响值对用户标签以及所对应资源特征运算用户对资源的点击率预测值。

其中,在获得运算所需要的逻辑回归参数以及用户标签对资源的影响值之后,便可运算用户对此资源的点击率预测值,以此类推,也将运算得到用户对所有资源的点击率预测值。

由所使用的逻辑回归参数可以获知,所进行点击率预测值的运算必然是在逻辑回归运算的基础上进行的。对于请求进行资源投放的用户,其用户标签将作为运算的输入数据,除此之外,如前所述的,需为此用户运算其对每一资源的点击率预测值,因此,为用户而进行的点击率预测值运算是面向于所有资源的,也就是说,针对于每一资源都将为用户进行点击率预测值的运算。

因此,在针对资源为用户而进行的点击率预测值运算中,除了用户标签之外,所对应的资源特征也将作为运算的输入数据存在。

在一个示例性实施例中,资源特征用于描述资源本身。例如,对于互联网广告这一类资源,其资源特征即为广告特征,广告特征包括了广告标识、广告类目、所曝光的广告位以及上下文等,广告特征将描述了互联网广告本身的情况。

对于每一资源,都可获得相应的资源特征,进而使用逻辑回归参数以及用户标签对资源的影响值对用户标签和资源特征进行运算,以获得用户对此资源的点击率预测值。

逻辑回归参数的使用应当理解,所进行的运算是通过逻辑回归模型进行的逻辑回归运算,但在此逻辑回归运算中引入了用户标签对资源的影响值,以为所进行的逻辑回归运算提供更多信息,进而保证所运算得到点击率预测值的准确性以及可靠性。

至此,在标签对资源的影响值作用下,避免了用户标签个数较为单一,进而使得点击率预估出现不稳定的情况,用户标签对资源影响值的引入,使得点击率预估能够经由长短不一的用户标签实现准确运算,具有泛化能力。

在一个示例性实施例中,步骤350至少包括:对每一资源通过逻辑回归参数进行用户标签以及所对应资源特征的逻辑回归运算,且在逻辑回归运算中新增用户标签对资源的影响值为附加项,获得用户对资源的点击率预测值。

其中,如前所述的,通过逻辑回归参数,将对用户标签以及资源特征进行逻辑回归运算。应用逻辑回归参数对用户标签以及资源特征所进行的逻辑回归运算中,进行以用户标签和资源特征作为输入特征,进行特征与逻辑回归参数之间的加权运算。

在一示例性实施例中,使用逻辑回归模型对特征向量所进行的逻辑回归运算如下述表达式:

y=P(t=1|x)=σ(ω·x)

其中,t∈0,1表示资源所对应的曝光和点击类别,0表示曝光,1表示点击;x=(x1,…,xM),表示特征向量,特征的维度是M;在有业务数据,即前述所指样本数据{xi,ti}i=1,…,N,预测拥有特征向量x时点击资源的概率,即获得点击率预测值y=P(t=1|x)。

此外,w=(w1,…,wM)表示参数向量,即为逻辑回归参数。

此为对资源进行点击率预测值运算的基础,在此基础之上,增加用户标签对资源的影响值,使其成为特征向量和参数向量的加权运算中的一附加项,进而为所用户标签和资源特征所形成特征向量的运算增加运算准确性的辅助,通过更多信息量的引入保证预测的准确性和稳定性。

图4是根据另一示例性实施例示出的一种点击率预估方法的流程图。在另一示例性实施例中,步骤350之后,如图4所示,该点击率预估方法,至少包括以下步骤。

在步骤410中,根据向用户投放资源而为资源生成的用户行为日志获取资源对应的曝光和点击类别。

其中,在通过图3对应实施例中的步骤350运算得到用户对每一资源的点击率预测值之后,即可根据点击率预测值向用户投放资源。此时,用户所访问的前端页面便加载显示所投放的资源。

对于用户在前端页面所进行的浏览而言,为用户所投放的资源显示于前端页面中,如果用户对所投放的资源感兴趣,则会对点击此资源,以进行此资源所相关的进一步访问。

被点击的资源,其曝光和点击类别由曝光类别变换为点击类别。所投放的资源,将获取此资源所相关的用户行为日志,此资源所相关的用户行为日志将记录了此资源被触发的用户行为。

因此,对于实现点击率预估的后台而言,承载点击率预估系统的服务器将获取为此资源生成的用户行为日志,以从中获得向用户投放资源所对应的曝光和点击类别。

在步骤430中,以用户对应的用户标签以及资源对应的资源特征为样本数据,资源相对用户的曝光和点击类别为目标,根据用户对资源的点击预测值进行所对应逻辑回归参数的更新,获取更新的逻辑回归参数,且借助于逻辑回归参数配合更新用户标签对资源的影响值。

其中,对于所投放的资源,以所对应用户的用户标签以及资源本身的资源特征为样本数据,对应于资源相对用户的曝光和点击类别,根据用户对资源的点击预测值进行参数的在线更新。

对于逻辑回归参数,将通过最小化的目标函数控制所更新逻辑回归参数的迭代过程终止,以此来停止参数迭代过程获得更新的逻辑回归参数。

而对于此逻辑回归参数的迭代更新,在一个示例性实施例中,是通过mini batch梯度下降法实现的,当然,也可采用随即梯度下降法,在此不进行限定。

除此之外,还可采用简易的梯度求导得到更新的逻辑回归参数,所对应的更新过程如下所示,即:

其中,在此更新方程中,ωj是前述所指逻辑回归参数对应的参数向量。N为参数,一般设置较小值,例如,在随即梯度下降法中设置N=1。

用户标签对资源影响值的更新,是借助于逻辑回归参数实现的。也就是说,将借助于逻辑回归参数更新中使用的更新方程,照此更新方程所实现的更新方式来完成用户标签对资源影响值的更新。

也就是说,也将通过梯度计算的进行更新得到用户标签对资源的影响值。

在一个示例性实施例中,对于逻辑回归参数的更新过程包括:以用户对应的用户标签以及资源对应的资源特征为样本数据,资源相对用户的曝光和点击类别为目标,根据用户对资源的点击预测值进行逻辑回归运算中的逻辑回归参数更新,获得更新的逻辑回归参数。

其中,为实现以及优化点击率预估,将获取样本数据,此样本数据为新增样本数据,用于进行所使用参数的估计。在此应当理解,将通过逻辑回归模型中参数更新的方式就可以获得由新增样本数据优化的逻辑回归参数。

图5是根据图4对应实施例示出的对步骤430进行描述的流程图。该步骤430中借助于逻辑回归参数配合更新用户标签对资源的影响值,在一个示例性实施例中,如图5所示,至少包括以下步骤。

在步骤431中,引入样本数据对应的用户标签长度,借助逻辑回归运算中逻辑回归参数的更新,为用户标签对资源的影响值更新,配合更新样本数据中用户标签以及资源分别进行特征抽象而对应的标签特征抽象项以及资源特征抽象项。

其中,用户标签长度,即为用户标签数目。对于用户所拥有的用户标签而言,不同用户所拥有的用户标签总数一致,换而言之,无论哪一用户都可在所设定的所有维度上配置用户标签。但是,由于所对应状况的不同,有的用户在某些维度并没有相应的用户标签,因此,不同用户所对应的用户标签长度并不相同,即如前所述的,用户标签长短不一。

因此,需要引入样本数据对应的用户标签长度,以控制所进行迭代更新的准确性。

应当补充说明的是,用户标签对资源的影响值,是对标签特征抽象项以及资源特征抽象项之间关联关系在数值上的平均值。因此,在一个示例性实施例中,对标签特征抽象项和资源特征抽象项取内积后的平均值即可作为用户标签对资源的影响值。

标签特征抽象项是以用户标签为目标进行特征抽象所得到的,资源特征抽象项则是以资源本身,即资源标识(ID,IDentity)为目标进行特征抽象而获得的。由此,标签特征抽象项将是由用户标签在若干维上的隐藏向量所形成的。

通过标签特征抽象项和资源特征抽象项来得到用户标签对资源的影响值,将实现了用户标签与资源标识两类特征之间的特征组合,进而为预测带来更多信息量。

此外,另一方面的,前述通过标签特征抽象项和资源特征抽象项所实现的用户标签对资源影响值的获得,充分利用了用户标签,对于用户标签的质量参差不齐、所设定维度在实际配置用户标签上的覆盖率大小不一的情况,通过标签特征抽象项以及由此而获得的用户标签对资源的影响值,使得所有用户标签的隐藏向量都平均起来,避免了不稳定因素的影响。

在此用户标签对资源影响值的更新中,需要按照逻辑回归参数的更新方式进行着标签特征抽象项以及资源特征抽象项的更新,再由所更新得到的标签特征抽象项以及资源特征抽象项获得更新的用户标签对资源的影响值。

在一个示例性实施例中,此步骤431包括:在用户标签对资源的影响值更新中引入样本数据中用户标签对应的用户标签长度,借助于逻辑回归参数的更新方式对标签特征抽象项以及资源特征抽象项执行梯度计算获得分别描述用户标签和资源的每一元素更新,更新的元素分别形成更新的标签特征抽象项以及资源特征抽象项,标签特征抽象项以及资源特征抽象项是以样本数据中用户标签和所指示资源为目标抽象所获得的。

其中,正如前述所指出的,标签特征抽象项是对用户标签这一维度的特征执行特征抽象所获得的,其是用户标签这一维度特征的向量表达。

标签特征抽象项和资源特征抽象项是分别对用户标签以及资源标识在若干维度上的向量表达,因此,所进行的更新是对其中每一元素更新的过程。

在一个示例性实施例中,在逻辑回归的基础上,结合互联网广告等资源点击率预测的业务特点,使用长度为K的实数向量代表用户标签和资源ID两个维度上的特征。对于用户标签这一维度上的特征,所对应的每一用户标签可以理解为在K个隐藏维度的权重,资源ID这一维度上也可对资源特征抽象项所对应的实数向量理解每一资源ID在K个隐藏维度上的权重。

由此,所进行的元素更新,一方面借助于逻辑回归参数的更新方式实现,另一方面则是依照用户标签长度以及相对用户标签对资源的影响值所存在的标签特征抽象项与资源特征抽象项之间的关系,使用所借助的更新方式完成每一元素的更新。

在一个示例性实施例中,相对用户标签对资源的影响值所存在的标签特征抽象项与资源特征抽象项之间的关系是标签特征抽象项与资源特征抽象项之间内积的关系,相应的,所进行的元素更新,可通过下述更新方式实现,即:

其中,Qk,i是资源特征抽象项;Pu,k是标签特征抽象项;loss为前述所指的最小化的目标函数,是最大似然函数的负数,用以控制更新方式中迭代的进行;y是点击率预测值,t则是所对应数值化描述的曝光和点击类别。

通过此梯度计算的进行实现各元素的更新,在此基础上也可增加正则项来来进行元素的更新。当然,在一个示例性实施例中,也可以采用FTRL(Follow-the-regularized-Leader)更新方式实现元素的更新,在此不进行限定。

在步骤433中,进行标签特征抽象项和资源特征抽象项相互之间关联的平均化处理,获得用户标签对资源的影响值更新。

其中,标签特征抽象项和资源特征抽象项相互之间的关联,是指借助于隐藏向量而在用户标签和资源之间搭建的关联性。例如,隐藏向量对于一用户标签所隐含兴趣的表征,因此,在仅有这一兴趣与资源相关时,可获知此拥有此用户标签的用户也是对此资源感兴趣的。

通过所进行的平均,获得用户标签这样一个特征维度的贡献,进而以此来补充所进行点击率预估需要的信息。

在另一个示例性实施例中,图5所对应实施例中的步骤435之后,该点击率预估方法还包括以下步骤。

对样本数据所运算的点击率预测值相对于样本数据对应的曝光和点击类别偏差最小时,控制更新的影响值和逻辑回归参数被生效至资源的点击率预估中。

其中,在获得更新的逻辑回归参数以及用户标签对资源的影响值之后,需要根据使用更新所获得的参数对样本数据运算此样本数据中用户标签和资源特征所对应的点击率预测值。

在所运算得到的点击率预测值最为接近于样本数据对应的曝光和点击类别时,所进行的迭代更新停止,可将更新所获得的参数生效至资源的点击率预估中,后续所进行的点击率预估将使得当前更新所获得的参数。

在一个示例性实施例中,基于更新的用户标签对资源影响值以及逻辑回归参数对样本数据运算得到点击率预测值之后,所运算得到点击率预测值与所对应曝光点击类别之间的偏差可通过最小化的目标函数确定。

最小化的目标函数如下述公式所示,即:

在loss变化很少时满足终止条件,使得所进行的迭代更新停止。

通过如上所述的示例性实施例,保留了逻辑回归模型的优点,即,具有解释性,健壮性,可以较好的预测冷门的特征组合,可以单独设计高阶组合特征,也拥有非线性模型的优点,即有较强的拟合能力、泛化能力。

在此基础之上,针对于资源投放,特别是广告投放业务的特点,特殊选择了用户标签与广告ID作为抽象的目标,进而自然的支持用户标签作为多值特征使用。

通过如上所述的示例性实施例,得以应用于广告、视频、电商、音乐等领域的推荐,进而为所进行的推荐保证了精准性。

如上所述的示例性实施例,以逻辑回归为基础,使得所进行的运算具备可解释性,即,每个特征有其物理意义,通过观察每个特征权重的大小,可以清楚的知道每个特征对点击率的作用。

也将得以使得那些“稀疏高秩”可以做精准的预测。“稀疏高秩”,举例来说,某个用标签user_interest_a,仅仅集中出现在某个广告itemid_1上,在其他广告上行为甚少。那么逻辑回归模型可以对同时出现user_interest_a和itemid_1的样本就会一个精准的预测。

以广告业务为例,结合广告业务的实现来描述上述点击率预估过程。在此过程中,通过点击率预估的实现为广告业务的运营选择适合用户的广告,并投放。

图6是根据一示例性实施例示出的广告业务架构示意图。在此示例性实施例中,广告业务架构包括广告前端系统510、数据接收系统530、数据仓库550、实时计算系统560、分布式存储系统570、点击率预估系统580以及推荐引擎590。

广告前端系统510,一方面向用户展示广告,另一方面实时把用户曝光、点击以及转换等用户行为日志上报到数据接收系统530。

数据接收系统530一方面会把所接收的数据落地数据仓库550,另一方面使得数据注入实时计算系统560。此数据包括用户行为日志。

实时计算系统560通过访问分布式存储系统570获取相应用户画像等数据,并将数据整理为点击率预估系统580可用的形式,进而落地到HDFS文件系统。

点击率预估系统580,一方面根据HDFS文件系统的数据训练得到点击率预估模型,即实现前述所使用逻辑回归参数以及用户标签对资源的影响值的估计。由此,点击率预估系统580就可以向推荐系统590提供点击率预测值。

广告前端系统510在需要向用户展示广告时,通过推荐系统590进行所获得点击率预测值的排序,进而获得即将向用户展示的广告。

由此,便使得广告前端系统510能够向用户推送感兴趣的广告。

而在点击率预估系统580所进行的点击率预测值运算中,所使用的运算模型如图7所示。

图7是根据一示例性实施例示出的本发明实现点击率预估所使用的建模图形示意图。进行点击率预测值运算所使用的运算模型包括了图7左侧以基础属性、用户标签、广告ID、广告类目、广告位、上下文为特征为输入的逻辑回归模型,在此基础上,用户标签这一维度以及广告ID这一维度都分别进行了一定维度上的特征抽取,所抽取的特征项执行内积和平均之后,就可融入到逻辑回归运算的加权运算中,以此来获得所预估的点击率预测值。

图8是根据一示例性实施例示出的点击率预估中使用梯度下降法参数更新流程图。在一示例性实施例中,随着点击率预估的进行,还相应进行着参数的更新。例如,在使用梯度下降法更新参数的过程中,将对每一样本数据计算预测值,并基于此来以此样本数据中曝光和点击类别为目标,进行参数更新,如步骤630。

所获得的参数,在最小化的目标函数loss变化很少时,如步骤650所示的,将结束迭代更新。

通过如上所述的示例性实施例,将能够对未同时出现的特征进行预测,且能够针对于样本量小的广告、用户标签这些特征,预测偏差非常小,有效的利用了已有的特征进行了各种类型广告的精准预测。

下述为本发明装置实施例,可以用于执行本发明上述点击率预估方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明点击率预估方法实施例。

图9是一示例性实施例示出的一种点击率预估装置的框图。该点击率预估装置,如图9所示,包括但不限于:标签获取模块710、参数获取模块730和特征运算模块750。

标签获取模块710,用于获取用户标签,所述用户标签用于描述请求进行资源投放的用户;

参数获取模块730,用于获取所述用户相对资源的点击率预估中使用的逻辑回归参数、以及获取用户标签对所述资源的影响值,所述影响值用于描述所述用户标签对于所述资源处于点击类别的贡献;

特征运算模块750,用于针对每一资源,根据所述逻辑回归参数以及用户标签对所述资源的影响值对所述用户标签以及所对应资源特征运算所述用户对所述资源的点击率预测值。

在一个示例性实施例中,特征运算模块750进一步用于对每一资源通过逻辑回归参数进行所述用户标签以及所对应资源特征的逻辑回归运算,且在所述逻辑回归运算中新增用户标签对所述资源的影响值为附加项,获得所述用户对所述资源的点击率预测值。

图10是另一示例性实施例示出的一种点击率预估装置的框图。在另一示例性实施例中,如图10所示的,该点击率预估装置还包括类别获取模块810和参数更新模块830。

类别获取模810,用于根据向所述用户投放资源而为所述资源生成的用户行为日志获取所述资源对应的曝光和点击类别;

参数更新模块830,用于以所述用户对应的用户标签以及所述资源对应的资源特征为样本数据,所述资源相对所述用户的曝光和点击类别为目标,根据所述用户对所述资源的点击预测值进行所对应逻辑回归参数的更新,获取更新的逻辑回归参数,且借助于所述逻辑回归参数配合更新用户标签对所述资源的影响值。

图11是根据图10对应实施例示出的对参数更新模块进行描述的框图。在一示例性实施例中,如图11所示的,参数更新模块830包括:元素更新单元831和影响值更新单元833。

元素更新单元831,用于引入所述样本数据对应的用户标签长度,借助所述逻辑回归运算中所述逻辑回归参数的更新,为用户标签对资源的影响值,配合更新所述样本数据对应的标签特征抽象项以及资源特征抽象项,所述标签特征抽象项是所述样本数据中用户标签的特征抽象,所述资源特征抽象项是所述样本数据中资源的特征抽象;

影响值更新单元833,用于进行所述标签特征抽象项和资源特征抽象项相互之间关联的平均化处理,获得用户标签对所述资源的影响值更新。

在另一示例性实施例中,该点击率预估装置还包括更新控制模块。更新控制模块用于对样本数据所运算的点击率预测值相对于所述样本数据对应的曝光和点击类别偏差最小时,控制更新的所述影响值和逻辑回归参数被生效至所述资源的点击率预预估中。

在另一示例性实施例中,元素更新单元835进一步用于在所述用户标签对资源的影响值更新中引入所述样本数据中用户标签对应的用户标签长度,借助于逻辑回归参数的更新方式对标签特征抽象项以及资源特征抽象项执行梯度计算获得分别描述用户标签和资源的每一元素更新,更新的所述元素分别形成更新的所述标签特征抽象项以及资源特征抽象项,所述标签特征抽象项以及资源特征抽象项是以样本数据中用户标签和所指示资源为目标抽象所获得的。

可选的,本发明还提供一种机器设备,该机器设备可以用于前述所示实施环境中,执行图3、图4和图5任一所示的点击率预估方法的全部或者部分步骤。所述装置包括:

处理器;

用于存储处理器可执行指令的存储器;

所述计算机可读指令被所述处理器执行时实现前述所述的点击率预估方法。

该实施例中的装置的处理器执行操作的具体方式已经在有关该点击率预估方法的实施例中执行了详细描述,此处将不做详细阐述说明。

在示例性实施例中,还提供了一种存储介质,该存储介质为计算机可读存储介质,例如可以为包括指令的临时性和非临时性计算机可读存储介质。该存储介质例如包括指令的存储器104,上述指令可由装置100的处理器118执行以完成上述方法。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1