广告投放方法、装置和计算机可读存储介质与流程

文档序号：17743748发布日期：2019-05-24 20:27阅读：143来源：国知局

本申请属于计算机软件应用领域，尤其是广告投放方法和装置。

背景技术：

广告主在广告平台投放广告，广告主希望自己的广告被点击或者转化，广告平台希望通过调整广告投放地域、投放时间和投放目标人群等以提高被投放广告的点击率或者转化率。在投放广告的过程中，广告主会不断地扩展新的广告客户，进而不断引进新的广告(也就是新创意广告)。

目前，在新创意广告投放领域，最常见的投放机制是随机投放机制。具体来说，对于一个用户发来的获取广告播放的请求，广告平台会在众多的新创意广告中随机选取一定数量的广告进行投放。随机投放机制不可避免地忽略了广告自身的属性，导致投放准确性难以保证。新创意广告的历史投放信息不足，预估的点击率、预估的转化率等预估值不准确，进一步降低了广告投放的准确性，增加了广告投放的不均衡性。

技术实现要素：

为克服相关技术中存在的广告投放不准确和不均衡的问题，本申请公开一种广告投放方法和装置，基于用户的属性向量的相似性判断，得到与目标用户最相似的多个第一目标用户。利用该多个第一目标用户的历史广告浏览记录来弥补目标广告历史信息不足的问题以提高目标广告投放的准确性和均衡性。

根据本申请实施例的第一方面，提供一种广告投放方法，包括：包括：

获取目标用户发起的广告播放请求；

分别比较所述目标用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述目标用户最相似的多个第一历史用户；

基于所述多个第一历史用户的历史广告浏览记录，建立关于为所述目标用户投放目标广告的环境状态向量；

基于所述环境状态向量和深度神经网络模型，得到对应于每一个目标广告的投放价值；以及

基于所述每一个目标广告对应的投放价值，将对应的投放价值最高的所述目标广告投放给所述目标用户。

可选地，所述的广告投放方法，还包括：

建立关于投放所述目标广告的所述深度神经网络模型。

可选地，所述建立关于投放所述目标广告的所述深度神经网络模型之前，包括:

对每个用户的所述用户属性进行词嵌入压缩操作，得到所述每个用户的所述属性向量。

可选地，所述分别比较所述目标用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述目标用户最相似的多个第一历史用户，包括：

分别计算所述目标用户的属性向量和多个历史用户的属性向量之间的欧式距离；

比较每一个历史用户对应的欧氏距离和预设阈值，得到与所述目标用户具有相似性的多个第二历史用户；

对所述多个第二历史用户按照相似性由高到低的顺序排序，选取顺序靠前的多个第二历史用户，得到所述多个第一历史用户；

其中，所述多个第一历史用户按照相似性由高到低的顺序排列。

可选地，所述分别比较所述目标用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述目标用户最相似的多个第一历史用户，还包括：

如果所述每一个历史用户对应的欧氏距离小于所述预设阈值，则所述每一个历史用户和所述目标用户具有相似性；

如果所述每一个历史用户对应的欧氏距离大于等于所述预设阈值，则所述每一个历史用户和所述目标用户没有相似性。

可选地，所述基于所述多个第一历史用户的历史广告浏览记录，建立关于为所述目标用户投放目标广告的环境状态向量，包括：

从广告平台的所有广告中筛选出所有的目标广告；

在所述所有的目标广告中随机选出多个目标广告，作为多个第一目标广告；

分别统计所述多个第一目标广告的已投放次数，得到所述多个第一目标广告的投放整体情况向量；

将所述多个第一历史用户和所述目标用户的历史广告浏览记录组合，得到所述目标用户的扩展广告浏览记录向量；以及

将所述多个第一目标广告的所述投放整体情况向量、所述目标用户的所述扩展广告浏览记录向量和所述目标用户的所述属性向量合并，得到将所述第一目标广告投放给所述目标用户的所述环境状态向量。

可选地，所述基于所述环境状态向量和深度神经网络模型，得到对应于每一个目标广告的投放价值，包括:

将所述环境状态向量输入所述深度神经网络模型，得到每一个所述第一目标广告对应的投放价值。

可选地，所述基于所述每一个目标广告对应的投放价值，将对应的投放价值最高的所述目标广告投放给所述目标用户，包括：

对所述多个第一目标广告对应的投放价值按照由高到低的顺序排序，将排在最前面的所述第一目标广告作为第二目标广告，将所述第二目标广告投放给所述目标用户。

可选地，所述建立关于投放所述目标广告的所述深度神经网络模型，包括：

建立深度神经网络目标模型；

对所述深度神经网络目标模型进行线上训练；以及

基于反向传播原理，对所述深度神经网络目标模型的网络参数进行优化。

可选地，所述对所述深度神经网络目标模型进行线上训练，包括：

获取样本用户发起的广告播放请求；

分别比较所述样本用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述样本用户最相似的多个第三历史用户；

基于所述多个第三历史用户的历史广告浏览记录，建立关于为所述样本用户投放样本广告的环境状态向量；

基于所述环境状态向量和所述深度神经网络目标模型，得到对应于每一个样本广告的投放价值；以及

基于所述每一个样本广告对应的投放价值，将对应的投放价值最高的所述样本广告投放给所述样本用户。

可选地，所述分别比较所述样本用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述样本用户最相似的多个第三历史用户，包括：

分别计算所述样本用户的属性向量和多个历史用户的属性向量之间的欧式距离；

比较每一个历史用户对应的欧氏距离和预设阈值，得到与所述样本用户具有相似性的多个第四历史用户；

对所述多个第四历史用户按照相似性由高到低的顺序排序，选取顺序靠前的多个第四历史用户，得到所述多个第三历史用户；

其中，所述多个第三历史用户按照相似性由高到低的顺序排列。

可选地，所述分别比较所述样本用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述样本用户最相似的多个第三历史用户，还包括：

如果所述每一个历史用户对应的欧氏距离小于所述预设阈值，则所述每一个历史用户和所述样本用户具有相似性；

如果所述每一个历史用户对应的欧氏距离大于等于所述预设阈值，则所述每一个历史用户和所述样本用户没有相似性。

可选地，所述基于所述多个第三历史用户的历史广告浏览记录，建立关于为所述样本用户投放样本广告的环境状态向量，包括：

从广告平台的所有广告中筛选出所有的样本广告；

在所述所有的样本广告中随机选出多个样本广告，作为多个第一样本广告；

分别统计所述多个第一样本广告的已投放次数，得到所述多个第一样本广告的投放整体情况向量；

将所述多个第三历史用户和所述样本用户的历史广告浏览记录组合，得到所述样本用户的扩展广告浏览记录向量；以及

将所述多个第一样本广告的所述投放整体情况向量、所述样本用户的所述扩展广告浏览记录向量和所述样本用户的所述属性向量合并，得到将所述第一样本广告投放给所述样本用户的所述环境状态向量。

可选地，所述基于所述环境状态向量和所述深度神经网络目标模型，得到对应于每一个样本广告的投放价值，包括:

将所述环境状态向量输入所述深度神经网络目标模型，得到每一个所述第一样本广告对应的投放价值。

可选地，所述基于所述每一个样本广告对应的投放价值，将对应的投放价值最高的所述样本广告投放给所述样本用户，包括：

对所述多个第一样本广告对应的投放价值按照由高到低的顺序排序，将排在最前面的所述第一样本广告作为第二样本广告，将所述第二样本广告投放给所述样本用户。

可选地，所述建立关于投放所述目标广告的所述深度神经网络模型，还包括：

基于所述样本用户对被投放的所述样本广告的交互行为，计算被投放的所述样本广告对所述深度神经网络目标模型的环境反馈激励；

基于所述环境反馈激励，调整所述深度神经网络目标模型的网络参数。

可选地，所述基于所述样本用户对被投放的所述样本广告的交互行为，计算被投放的所述样本广告对所述深度神经网络目标模型的环境反馈激励，包括：

根据所述样本用户是否点击了所述第二样本广告，给予所述深度神经网络目标模型点击激励；

分别计算所述第二样本广告投放给所述样本用户前和投放给所述样本用户后的所述多个第一样本广告的已投放次数的方差；

根据所述第二样本广告投放给所述样本用户前和投放给所述样本用户后的所述方差的变化，给予所述深度神经网络目标模型均衡性激励；以及

基于所述点击激励和所述均衡性激励，得到被投放的所述第二样本广告对所述深度神经网络目标模型的所述环境反馈激励。

可选地，如果所述第二样本广告投放给所述样本用户前的所述方差小于所述第二样本广告投放给所述样本用户后的方差，则给予所述深度神经网络目标模型负的均衡性激励；

如果所述第二样本广告投放给所述样本用户前的所述方差大于所述第二样本广告投放给所述样本用户后的方差，则给予所述深度神经网络目标模型正的均衡性激励。

可选地，所述的广告投放方法，还包括：

判断所述深度神经网络目标模型是否收敛；

如果所述深度神经网络目标模型收敛，则得到所述深度神经网络模型；

如果所述深度神经网络目标模型不收敛，则当新的样本用户发起新的广告播放请求时，重新计算所述点击激励和所述均衡性激励，优化所述深度神经网络目标模型的网络参数。

根据本发明实施例的第二方面，提供一种广告投放装置，包括：

数据获取单元，被配置为获取目标用户发起的广告播放请求；

比较单元，被配置为分别比较所述目标用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述目标用户最相似的多个第一历史用户；

向量建立单元，被配置为基于所述多个第一历史用户的历史广告浏览记录，建立关于为所述目标用户投放目标广告的环境状态向量；

计算单元，被配置为基于所述环境状态向量和深度神经网络模型，得到对应于每一个目标广告的投放价值；以及

广告投放单元，被配置为基于所述每一个目标广告对应的投放价值，将对应的投放价值最高的所述目标广告投放给所述目标用户。

可选地，所述的广告投放装置，还包括：

模型建立单元，被配置为建立关于投放所述目标广告的所述深度神经网络模型。

可选地，所述建立关于投放所述目标广告的所述深度神经网络模型之前，包括:

嵌入单元，被配置为对每个用户的所述用户属性进行词嵌入压缩操作，得到所述每个用户的所述属性向量。

可选地，所述分别比较所述目标用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述目标用户最相似的多个第一历史用户，包括：

分别计算所述目标用户的属性向量和多个历史用户的属性向量之间的欧式距离；

比较每一个历史用户对应的欧氏距离和预设阈值，得到与所述目标用户具有相似性的多个第二历史用户；

对所述多个第二历史用户按照相似性由高到低的顺序排序，选取顺序靠前的多个第二历史用户，得到所述多个第一历史用户；

其中，所述多个第一历史用户按照相似性由高到低的顺序排列。

可选地，所述分别比较所述目标用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述目标用户最相似的多个第一历史用户，还包括：

如果所述每一个历史用户对应的欧氏距离小于所述预设阈值，则所述每一个历史用户和所述目标用户具有相似性；

如果所述每一个历史用户对应的欧氏距离大于等于所述预设阈值，则所述每一个历史用户和所述目标用户没有相似性。

可选地，所述基于所述多个第一历史用户的历史广告浏览记录，建立关于为所述目标用户投放目标广告的环境状态向量，包括：

从广告平台的所有广告中筛选出所有的目标广告；

在所述所有的目标广告中随机选出多个目标广告，作为多个第一目标广告；

分别统计所述多个第一目标广告的已投放次数，得到所述多个第一目标广告的投放整体情况向量；

将所述多个第一历史用户和所述目标用户的历史广告浏览记录组合，得到所述目标用户的扩展广告浏览记录向量；以及

可选地，所述基于所述环境状态向量和深度神经网络模型，得到对应于每一个目标广告的投放价值，包括:

将所述环境状态向量输入所述深度神经网络模型，得到每一个所述第一目标广告对应的投放价值。

可选地，所述基于所述每一个目标广告对应的投放价值，将对应的投放价值最高的所述目标广告投放给所述目标用户，包括：

可选地，所述建立关于投放所述目标广告的所述深度神经网络模型，包括：

建立深度神经网络目标模型；

对所述深度神经网络目标模型进行线上训练；以及

基于反向传播原理，对所述深度神经网络目标模型的网络参数进行优化。

可选地，所述对所述深度神经网络目标模型进行线上训练，包括：

获取样本用户发起的广告播放请求；

分别比较所述样本用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述样本用户最相似的多个第三历史用户；

基于所述多个第三历史用户的历史广告浏览记录，建立关于为所述样本用户投放样本广告的环境状态向量；

基于所述环境状态向量和所述深度神经网络目标模型，得到对应于每一个样本广告的投放价值；以及

基于所述每一个样本广告对应的投放价值，将对应的投放价值最高的所述样本广告投放给所述样本用户。

可选地，所述建立关于投放所述目标广告的所述深度神经网络模型，还包括：

基于所述样本用户对被投放的所述样本广告的交互行为，计算被投放的所述样本广告对所述深度神经网络目标模型的环境反馈激励；

基于所述环境反馈激励，调整所述深度神经网络目标模型的网络参数。

可选地，所述的广告投放装置，还包括：

判断所述深度神经网络目标模型是否收敛；

如果所述深度神经网络目标模型收敛，则得到所述深度神经网络模型；

如果所述深度神经网络目标模型不收敛，则当新的样本用户发起新的广告播放请求时，重新计算所述环境反馈激励，优化所述深度神经网络目标模型的网络参数。

根据本发明实施例的第三方面，提供一种服务器，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述任意一项所述的广告投放方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令被执行时实现上述广告投放方法。

根据本发明实施例的第五方面，提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机实现第一方面所述的方法步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

从与该目标用户具有相似性的所有历史用户中，选择与该目标用户最相似的特定数量的历史用户，作为特定数量的第一历史用户。将该特定数量的第一目标广告的该投放整体情况向量、该目标用户的该扩展广告浏览记录向量和该目标用户的该属性向量合并，得到将该第一目标广告投放给该目标用户的环境状态向量。利用该特定数量的第一历史用户的历史广告浏览记录来弥补目标广告历史信息不足的问题，从而提高了目标广告投放的准确性。

根据该样本用户是否点击了该第二样本广告，给予该深度神经网络目标模型点击激励。根据该第二样本广告投放给该样本用户前和投放给该样本用户后的该特定数量的第一样本广告的已投放次数的方差的变化，给予该深度神经网络目标模型均衡性激励。根据一定的比例，将该点击激励和该均衡性激励组合，得到环境反馈激励。利用该环境反馈激励来优化该深度神经网络目标模型的网络参数。基于该环境反馈激励对该深度神经网络目标模型的投放环境反馈，调整该深度神经网络目标模型的网络参数，动态调整广告投放策略，提高了广告投放的准确性和均衡性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

图1是根据一示例性实施例示出的广告投放方法的流程图。

图2是根据一示例性实施例示出的广告投放方法的流程图。

图3是根据一示例性实施例示出的广告投放方法的流程图。

图4是根据一示例性实施例示出的广告投放装置的示意图。

图5是根据一示例性实施例示出的广告投放装置的示意图。

图6是根据一示例性实施例示出的一种执行广告投放方法的装置的框图。

图7是根据一示例性实施例示出的一种执行广告投放方法的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的广告投放方法的流程图，具体包括以下步骤：

在步骤s101中，获取目标用户发起的广告播放请求。

在该步骤中，手机软件或者网页等平台接收目标用户发起的广告播放请求。该广告播放请求的触发操作，例如是对该手机软件或者网页的访问请求。该目标用户请求播放的广告包括图片广告、视频广告和互动式flash广告。

在步骤s102中，分别比较所述目标用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述目标用户最相似的多个第一历史用户。

注册或登陆手机软件、网页等平台的用户的用户属性包括：性别、年龄、地区、手机型号、网络制式、关注列表和粉丝列表；用户的广告行为包括：浏览广告、点击广告、将广告标记为喜欢和将广告标记为讨厌。对于用户属性基本相似的用户，通常该用户感兴趣的广告的类别具有一致性，例如，青年男性用户普遍对游戏类广告感兴趣，如果该用户使用的手机是一款游戏机或/和该用户的关注列表等信息中有关于游戏的内容，则判断该用户可能对游戏类广告感兴趣；适婚年龄的女性普遍对婚纱类广告感兴趣，如果该用户的关注列表和粉丝列表等信息中有关于婚纱的内容，则判断该用户可能对婚纱类广告感兴趣。所以，用户的用户属性可以作为决定投放广告的最佳用户群的依据。

在该步骤中，分别计算该目标用户的属性向量和多个历史用户的属性向量之间的距离，例如欧式距离。比较每一个历史用户对应的欧氏距离和预设阈值，得到与该目标用户具有相似性的多个第二历史用户。如果每一个历史用户对应的欧氏距离小于该预设阈值，则每一个历史用户和该目标用户具有相似性。如果每一个历史用户对应的欧氏距离大于等于该预设阈值，则每一个历史用户和该目标用户没有相似性。

对该多个第二历史用户按照相似性由高到低的顺序排序，选取顺序靠前的特定数量的第二历史用户，得到特定数量的第一历史用户。其中，该特定数量的第一历史用户按照相似性由高到低的顺序排列。

在步骤s103中，基于所述多个第一历史用户的历史广告浏览记录，建立关于为所述目标用户投放目标广告的环境状态向量。

广告平台运营的过程中会不断引入新的广告。根据目标用户的请求，广告平台决定将目标广告投放给目标用户。例如，该目标广告是广告投放量小于一定数目的广告。

在该步骤中，从广告平台的所有广告中筛选出所有的目标广告。在所有的目标广告中随机选出特定数量的目标广告，作为特定数量的第一目标广告。分别统计该特定数量的第一目标广告的已投放次数，得到该特定数量的第一目标广告的投放整体情况向量。

将该特定数量的第一历史用户和该目标用户的历史广告浏览记录组合，得到该目标用户的扩展广告浏览记录向量。

将该特定数量的第一目标广告的该投放整体情况向量、该目标用户的该扩展广告浏览记录向量和该目标用户的该属性向量合并，得到将该第一目标广告投放给该目标用户的环境状态向量。

在步骤s104中，基于所述环境状态向量和深度神经网络模型，得到对应于每一个目标广告的投放价值。

该步骤中，将该环境状态向量输入使用q-learning学习框架的该深度神经网络模型，得到每一个第一目标广告对应的q值即每一个第一目标广告对应的投放价值。

在步骤s105中，基于所述每一个目标广告对应的投放价值，将对应的投放价值最高的所述目标广告投放给所述目标用户。

在该步骤中，对该特定数量的第一目标广告对应的投放价值按照由高到低的顺序排序，将排在最前面的第一目标广告作为第二目标广告，将该第二目标广告投放给该目标用户。

根据本申请的实施例，从与该目标用户具有相似性的所有历史用户中，选择与该目标用户最相似的特定数量的历史用户，作为特定数量的第一历史用户。将该特定数量的第一目标广告的该投放整体情况向量、该目标用户的该扩展广告浏览记录向量和该目标用户的该属性向量合并，得到将该第一目标广告投放给该目标用户的环境状态向量。利用该特定数量的第一历史用户的历史广告浏览记录来弥补目标广告历史信息不足的问题，从而提高了目标广告投放的准确性。

图2是根据一示例性实施例示出的广告投放方法的流程图，是比前述实施例更加完善的实施例。具体包括以下步骤：

在步骤s201中，对每个用户的所述用户属性进行词嵌入压缩操作，得到所述每个用户的所述属性向量。

每个用户的用户属性包括：性别、年龄、地区、手机型号、网络制式、关注列表和粉丝列表。每个用户的该用户属性包括大量的离散稀疏属性。

在该步骤中，对每个用户的该用户属性的离散稀疏属性进行嵌入操作，将每个用户的高维的该用户属性压缩为连续空间中的低维向量，得到每个用户的属性向量。

在步骤s202中，建立关于投放所述目标广告的所述深度神经网络模型。

在该步骤中，建立关于投放该目标广告的所述深度神经网络模型。

在步骤s203中，获取目标用户发起的广告播放请求。

在步骤s204中，分别比较所述目标用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述目标用户最相似的多个第一历史用户。

在步骤s205中，基于所述多个第一历史用户的历史广告浏览记录，建立关于为所述目标用户投放目标广告的环境状态向量。

在步骤s206中，基于所述环境状态向量和深度神经网络模型，得到对应于每一个目标广告的投放价值。

在步骤s207中，基于所述每一个目标广告对应的投放价值，将对应的投放价值最高的所述目标广告投放给所述目标用户。

步骤s203至步骤s207与图1中的步骤s101至步骤s105一致，这里就不再赘述。

根据本申请的实施例，对每个用户的该用户属性的离散稀疏属性进行嵌入操作，将每个用户的高维的该用户属性压缩为连续空间中的低维向量，得到每个用户的属性向量。基于与目标用户的属性向量最相近的该特定数量的第一历史用户的历史广告浏览记录、该特定数量的第一目标广告的该投放整体情况向量和目标用户的该属性向量，建立关于为该目标用户投放目标广告的环境状态向量。挖掘与目标用户的属性向量最相近的该特定数量的第一历史用户的历史广告浏览记录与目标用户的属性向量之间的关系，进一步提高目标广告投放的准确性。

图3是根据一示例性实施例示出的广告投放方法的流程图，是步骤s202中，建立关于投放所述目标广告的所述深度神经网络模型的具体过程。具体包括以下步骤：

在步骤s301中，建立深度神经网络目标模型。

在该步骤中，基于深度神经网络算法，建立深度神经网络目标模型。

在步骤s302中，对所述深度神经网络目标模型进行线上训练。

在该步骤中，获取样本用户发起的广告播放请求。分别比较该样本用户的属性向量和多个历史用户的属性向量之间的相似度，得到与该样本用户最相似的多个第三历史用户。例如，分别计算该样本用户的属性向量和多个历史用户的属性向量之间的欧式距离。比较每一个历史用户对应的欧氏距离和预设阈值，得到与该样本用户具有相似性的多个第四历史用户。如果每一个历史用户对应的欧氏距离小于该预设阈值，则每一个历史用户和该样本用户具有相似性。如果每一个历史用户对应的欧氏距离大于等于该预设阈值，则每一个历史用户和该样本用户没有相似性。对该多个第四历史用户按照相似性由高到低的顺序排序，选取顺序靠前的特定数量的第四历史用户，得到特定数量的第三历史用户。其中，该特定数量的第三历史用户按照相似性由高到低的顺序排列。

基于该多个第三历史用户的历史广告浏览记录，建立关于为该样本用户投放样本广告的环境状态向量。例如，从广告平台的所有广告中筛选出所有的样本广告。在所有的样本广告中随机选出特定数量的样本广告，作为特定数量的第一样本广告。分别统计该特定数量的第一样本广告的已投放次数，得到该特定数量的第一样本广告的投放整体情况向量。将该特定数量的第三历史用户和该样本用户的历史广告浏览记录组合，得到该样本用户的扩展广告浏览记录向量。以及将该特定数量的第一样本广告的该投放整体情况向量、该样本用户的该扩展广告浏览记录向量和该样本用户的该属性向量合并，得到将该第一样本广告投放给该样本用户的环境状态向量。

基于该环境状态向量和该深度神经网络目标模型，得到对应于每一个样本广告的投放价值。例如，将该环境状态向量输入该深度神经网络目标模型，得到每一个该第一样本广告对应的投放价值。

基于每一个样本广告对应的投放价值，将对应的投放价值最高的样本广告投放给该样本用户。例如，对该特定数量的第一样本广告对应的投放价值按照由高到低的顺序排序，将排在最前面的第一样本广告作为第二样本广告，将该第二样本广告投放给该样本用户。

在步骤s303中，基于反向传播原理，对所述深度神经网络目标模型的网络参数进行优化。

在该步骤中，基于反向传播原理，对该深度神经网络目标模型的网络参数进行优化。

在步骤s304中，基于所述样本用户对被投放的所述样本广告的交互行为，计算被投放的所述样本广告对所述深度神经网络目标模型的环境反馈激励。

在该步骤中，根据该样本用户是否点击了该第二样本广告，给予该深度神经网络目标模型点击激励r1。例如，如果该目标用户点击了该第二样本广告，给予该深度神经网络目标模型点击激励r1。如果该样本用户没有点击该第二样本广告，给予该深度神经网络目标模型点击激励0*r1。

计算将该第二样本广告投放给该样本用户前，该特定数量的第一样本广告的已投放次数的方差。计算将该第二样本广告投放给该样本用户后，该特定数量的第一样本广告的已投放次数的方差。根据该第二样本广告投放给该样本用户前和投放给该样本用户后的该方差的变化，给予该深度神经网络目标模型均衡性激励r2。例如，如果该第二样本广告投放给该样本用户前的该方差大于该第二样本广告投放给该样本用户后的该方差，则给予该深度神经网络目标模型正的均衡性激励r2。如果该第二样本广告投放给该样本用户前的该方差小于该第二样本广告投放给该样本用户后的该方差，则给予该深度神经网络目标模型负的均衡性激励-r2。如果该第二样本广告投放给该样本用户前的该方差等于该第二样本广告投放给该样本用户后的该方差，则给予该深度神经网络目标模型负的均衡性激励0*r2。

根据一定的比例，将该点击激励r1和该均衡性激励r2组合，得到环境反馈激励r＝r1r1+r2r2。其中，r1，r2为参数。

在步骤s305中，基于所述环境反馈激励，调整所述深度神经网络目标模型的网络参数。

在该步骤中，利用该环境反馈激励r＝r1r1+r2r2来优化该深度神经网络目标模型的网络参数。

在步骤s306中，判断所述深度神经网络目标模型是否收敛。

在该步骤中，判断该深度神经网络目标模型是否收敛。如果该深度神经网络目标模型收敛，则到的深度神经网络模型，将该深度神经网络模型全量线上部署。如果该深度神经网络目标模型不收敛，则新的样本用户发起新的广告播放请求时，重新计算该点击激励和该均衡性激励，优化该深度神经网络目标模型的网络参数。

根据本申请的实施例，根据该样本用户是否点击了该第二样本广告，给予该深度神经网络目标模型点击激励。根据该第二样本广告投放给该样本用户前和投放给该样本用户后的该特定数量的第一样本广告的已投放次数的方差的变化，给予该深度神经网络目标模型均衡性激励。根据一定的比例，将该点击激励和该均衡性激励组合，得到环境反馈激励。利用该环境反馈激励来优化该深度神经网络目标模型的网络参数。基于该环境反馈激励对该深度神经网络目标模型的投放环境反馈，调整该深度神经网络目标模型的网络参数，动态调整广告投放策略，提高了广告投放的准确性和均衡性。

在本申请的一个可选的实施例中，使用actor-critic学习策略来建立该深度神经网络模型。

图4是根据一示例性实施例示出的广告投放装置的示意图。如图4所示，该装置40包括：数据获取单元401、比较单元402、向量建立单元403、计算单元404和广告投放单元405。

数据获取单元401，被配置为获取目标用户发起的广告播放请求。

比较单元402，被配置为分别比较所述目标用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述目标用户最相似的多个第一历史用户。

向量建立单元403，被配置为基于所述多个第一历史用户的历史广告浏览记录，建立关于为所述目标用户投放目标广告的环境状态向量。

计算单元404，被配置为基于所述环境状态向量和深度神经网络模型，得到对应于每一个目标广告的投放价值。以及

广告投放单元405，被配置为基于所述每一个目标广告对应的投放价值，将对应的投放价值最高的所述目标广告投放给所述目标用户。

在本申请的实施例中，数据获取单元401，接收目标用户发起的广告播放请求。该广告播放请求的触发操作，例如是对该手机软件或者网页的访问请求。该目标用户请求播放的广告包括图片广告、视频广告和互动式flash广告。

比较单元402，分别计算该目标用户的属性向量和多个历史用户的属性向量之间的距离，例如欧式距离。比较每一个历史用户对应的欧氏距离和预设阈值，得到与该目标用户具有相似性的多个第二历史用户。如果每一个历史用户对应的欧氏距离小于该预设阈值，则每一个历史用户和该目标用户具有相似性。如果每一个历史用户对应的欧氏距离大于等于该预设阈值，则每一个历史用户和该目标用户没有相似性。

向量建立单元403，，从广告平台的所有广告中筛选出所有的目标广告。在所有的目标广告中随机选出特定数量的目标广告，作为特定数量的第一目标广告。分别统计该特定数量的第一目标广告的已投放次数，得到该特定数量的第一目标广告的投放整体情况向量。

将该特定数量的第一历史用户和该目标用户的历史广告浏览记录组合，得到该目标用户的扩展广告浏览记录向量。

计算单元404，将该环境状态向量输入使用q-learning学习框架的该深度神经网络模型，得到每一个第一目标广告对应的投放价值。

广告投放单元405，对该特定数量的第一目标广告对应的投放价值按照由高到低的顺序排序，将排在最前面的第一目标广告作为第二目标广告，将该第二目标广告投放给该目标用户。

图5是根据一示例性实施例示出的广告投放装置的示意图。是比前述实施例更加完善的实施例。如图5所示，该装置50包括：嵌入单元501、模型建立单元502、数据获取单元503、比较单元504、向量建立单元505、计算单元506和广告投放单元507。

嵌入单元501，被配置为对每个用户的所述用户属性进行词嵌入压缩操作，得到所述每个用户的所述属性向量。

模型建立单元502，被配置为建立关于投放所述目标广告的所述深度神经网络模型。

数据获取单元503，被配置为获取目标用户发起的广告播放请求。

比较单元504，被配置为分别比较所述目标用户的属性向量和多个历史用户的属性向量之间的相似度，得到与所述目标用户最相似的多个第一历史用户。

向量建立单元505，被配置为基于所述多个第一历史用户的历史广告浏览记录，建立关于为所述目标用户投放目标广告的环境状态向量。

计算单元506，被配置为基于所述环境状态向量和深度神经网络模型，得到对应于每一个目标广告的投放价值。以及

广告投放单元507，被配置为基于所述每一个目标广告对应的投放价值，将对应的投放价值最高的所述目标广告投放给所述目标用户。

在本申请的实施例中，嵌入单元501，对每个用户的该用户属性的离散稀疏属性进行嵌入操作，将每个用户的高维的该用户属性压缩为连续空间中的低维向量，得到每个用户的属性向量。模型建立单元502，建立关于投放该目标广告的所述深度神经网络模型。

在本申请的一个可选的实施例中，模型建立单元502使用actor-critic学习策略来建立该深度神经网络模型。

在本申请的一个可选的实施例中，建立关于投放所述目标广告的所述深度神经网络模型的具体过程，包括：基于深度神经网络算法，建立深度神经网络目标模型。

对所述深度神经网络目标模型进行线上训练。具体地，获取样本用户发起的广告播放请求。分别比较该样本用户的属性向量和多个历史用户的属性向量之间的相似度，得到与该样本用户最相似的多个第三历史用户。例如，分别计算该样本用户的属性向量和多个历史用户的属性向量之间的欧式距离。比较每一个历史用户对应的欧氏距离和预设阈值，得到与该样本用户具有相似性的多个第四历史用户。如果每一个历史用户对应的欧氏距离小于该预设阈值，则每一个历史用户和该样本用户具有相似性。如果每一个历史用户对应的欧氏距离大于等于该预设阈值，则每一个历史用户和该样本用户没有相似性。对该多个第四历史用户按照相似性由高到低的顺序排序，选取顺序靠前的特定数量的第四历史用户，得到特定数量的第三历史用户。其中，该特定数量的第三历史用户按照相似性由高到低的顺序排列。

基于反向传播原理，对该深度神经网络目标模型的网络参数进行优化。

根据该样本用户是否点击了该第二样本广告，给予该深度神经网络目标模型点击激励r1。例如，如果该样本用户点击了该第二样本广告，给予该深度神经网络目标模型点击激励r1。如果该样本用户没有点击该第二样本广告，给予该深度神经网络目标模型点击激励0*r1。

根据一定的比例，将该点击激励r1和该均衡性激励r2组合，得到环境反馈激励r＝r1r1+r2r2。其中，r1，r2为参数。

利用该环境反馈激励r＝r1r1+r2r2来优化该深度神经网络目标模型的网络参数。

判断该深度神经网络目标模型是否收敛。如果该深度神经网络目标模型收敛，则到的深度神经网络模型，将该深度神经网络模型全量线上部署。如果该深度神经网络目标模型不收敛，则新的样本用户发起新的广告播放请求时，重新计算该点击激励和该均衡性激励，优化该深度神经网络目标模型的网络参数。

图6是根据一示例性实施例示出的一种执行广告投放方法的装置1200的框图。例如，交互装置1200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图6，装置1200可以包括以下一个或多个组件：处理组件1202，存储器1204，电源组件1206，多媒体组件1208，音频组件1210，输入/输出(i/o)的接口1212，传感器组件1214，以及通信组件1216。

处理组件1202通常控制装置1200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1202可以包括一个或多个处理器1220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1202可以包括一个或多个模块，便于处理组件1202和其他组件之间的交互。例如，处理组件1202可以包括多媒体模块，以方便多媒体组件1208和处理组件1202之间的交互。

存储器1204被配置为存储各种类型的数据以支持在设备1200的操作。这些数据的示例包括用于在装置1200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(sram)，电可擦除可编程只读存储器(eeprom)，可擦除可编程只读存储器(eprom)，可编程只读存储器(prom)，只读存储器(rom)，磁存储器，快闪存储器，磁盘或光盘。

电源组件1206为装置1200的各种组件提供电力。电源组件1206可以包括电源管理系统，一个或多个电源，及其他与为装置1200生成、管理和分配电力相关联的组件。

多媒体组件1208包括在所述装置1200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1208包括一个前置摄像头和/或后置摄像头。当设备1200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1210被配置为输出和/或输入音频信号。例如，音频组件1210包括一个麦克风(mic)，当装置1200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1204或经由通信组件1216发送。在一些实施例中，音频组件1210还包括一个扬声器，用于输出音频信号。

i/o接口1212为处理组件1202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1214包括一个或多个传感器，用于为装置1200提供各个方面的状态评估。例如，传感器组件1214可以检测到设备1200的打开/关闭状态，组件的相对定位，例如所述组件为装置1200的显示器和小键盘，传感器组件1214还可以检测装置1200或装置1200一个组件的位置改变，用户与装置1200接触的存在或不存在，装置1200方位或加速/减速和装置1200的温度变化。传感器组件1214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1214还可以包括光传感器，如cmos或ccd图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1216被配置为便于装置1200和其他设备之间有线或无线方式的通信。装置1200可以接入基于通信标准的无线网络，如wifi，运营商网络(如2g、3g、4g或5g)，或它们的组合。在一个示例性实施例中，通信组件1216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1216还包括近场通信(nfc)模块，以促进短程通信。例如，在nfc模块可基于射频识别(rfid)技术，红外数据协会(irda)技术，超宽带(uwb)技术，蓝牙(bt)技术和其他技术来实现。

在示例性实施例中，装置1200可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1204，上述指令可由装置1200的处理器1220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

图7是根据一示例性实施例示出的一种执行广告投放方法的装置1300的框图。例如，装置1300可以被提供为一服务器。参照图7，装置1300包括处理组件1322，其进一步包括一个或多个处理器，以及由存储器1332所代表的存储器资源，用于存储可由处理组件1322的执行的指令，例如应用程序。存储器1332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1322被配置为执行指令，以执行上述信息列表显示方法。

装置1300还可以包括一个电源组件1326被配置为执行装置1300的电源管理，一个有线或无线网络接口1350被配置为将装置1300连接到网络，和一个输入输出(i/o)接口1358。装置1300可以操作基于存储在存储器1332的操作系统，例如windowsservertm，macosxtm，unixtm,linuxtm，freebsdtm或类似。

本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网平台上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：闫铭;赵乙;徐恪;孔东营
技术所有人：北京达佳互联信息技术有限公司
我是此专利的发明人

上一篇：一种基于复合材料的重载交通道路路面铺装结构的制作方法
上一篇：硫代(二)硅烷的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。