多媒体信息的定向投放方法、装置、电子设备和存储介质与流程

文档序号：32154245发布日期：2022-11-11 21:58阅读：51来源：国知局

1.本技术涉及多媒体技术领域，尤其涉及多媒体信息的定向投放方法、装置、电子设备和存储介质。

背景技术：

2.随着新媒体平台的推广，多媒体信息有了新的投放方式。多媒体信息投放的目的是发掘潜在消费对象，提高产品知名度。
3.相关技术下，在多媒体信息的投放过程中，通常会根据预先设定的定向投放条件筛选出多媒体信息可投放的目标投放对象，再向筛选出的目标投放对象定向发布多媒体信息，以提高多媒体信息的投放效果。因此，目标智能定向是投放多媒体信息的首要条件，也是多媒体信息投放过程中的一个非常重要的环节。
4.目前，目标智能定向技术通常以提升多媒体信息的转化率为目的。例如，在使用机器学习算法训练定向投放模型时，以转化率的损失值作为定向投放模型收敛的条件，而转化率是指点击多媒体信息后产生转化行为(如，从投放平台购买多媒体信息中展示产品)的比例，即为转化多媒体信息的投放对象数目与曝光多媒体信息的投放对象数目的比值。
5.为了提升转化率，相关技术下，可能会通过降低曝光多媒体信息的投放对象数目的技术手段来实现，然而，这样很难兼顾到多媒体信息的曝光率的变化，若曝光率过低，则会导致曝光多媒体信息的投放对象数目减少，进一步地，导致浏览到多媒体信息的投放对象数目变少，由于投放对象只有在浏览到多媒体信息后才可产生转化行为，从而反向降低了转化多媒体信息的投放对象数目，进而严重影响了多媒体信息的定向投放准确率。

技术实现要素：

6.本技术实施例提供多媒体信息的定向投放方法、装置、电子设备和存储介质，用于准确定向投放目标多媒体信息，进而提高转化目标多媒体信息的目标投放对象数目。
7.根据本技术实施例的第一方面，提供一种多媒体信息的定向投放方法，所述方法包括：
8.响应于针对目标多媒体信息触发的定向投放请求，基于所述目标多媒体信息的标识信息，获取所述目标多媒体信息在投放平台的至少一种目标特征向量；
9.基于所述至少一种目标特征向量，采用已训练的目标定向投放模型，从所述投放平台关联的候选投放对象集合中，筛选出满足预设定向投放条件的至少一个目标投放对象，所述已训练的目标定向投放模型是基于预设的投放样本集合训练得到的，所述投放样本集合中包含：定向投放过程中各个预设操作阶段各自对应的投放样本；
10.将所述目标多媒体信息定向投放给所述至少一个目标投放对象。
11.根据本技术实施例的第二方面，提供一种多媒体信息的定向投放装置，所述装置包括：
12.获取模块，用于响应于针对目标多媒体信息触发的定向投放请求，基于所述目标
多媒体信息的标识信息，获取所述目标多媒体信息在投放平台的至少一种目标特征向量；
13.筛选模块，用于基于所述至少一种目标特征向量，采用已训练的目标定向投放模型，从所述投放平台关联的候选投放对象集合中，筛选出满足预设定向投放条件的至少一个目标投放对象，所述已训练的目标定向投放模型是基于预设的投放样本集合训练得到的，所述投放样本集合中包含：定向投放过程中各个预设操作阶段各自对应的投放样本；
14.投放模块，用于将所述目标多媒体信息定向投放给所述至少一个目标投放对象。
15.可选的，所述已训练的目标定向投放模型包含多个嵌入层、转换层和多个卷积层，其中，每个嵌入层用于处理一种目标特征向量，每个卷积层用于确定一个预设操作阶段对应的阶段概率，每个阶段概率表征所述候选投放对象集合中，各个候选投放对象对所述目标多媒体信息产生操作行为的概率；
16.所述筛选模块，具体用于：
17.通过所述多个嵌入层，分别对相应的目标特征向量进行降维处理，并将降维处理后的目标特征向量分别输入至相应的卷积层；
18.通过所述转换层，为降维后的目标特征向量中各个候选投放对象的行为特征向量添加注意力机制，分别确定所述各个预设操作阶段各自对应的行为特征向量，并将确定的各个行为特征向量，分别输入至相应的卷积层；
19.通过所述多个卷积层，分别基于相应的预设操作阶段对应的目标特征向量，确定所述目标多媒体信息在所述相应的预设操作阶段的阶段概率；
20.基于获得的各个阶段概率，从所述投放平台关联的候选投放对象集合中，筛选出满足预设定向投放条件的至少一个目标投放对象。
21.可选的，所述各个预设操作阶段至少包括：访问阶段、曝光阶段和转化阶段；
22.所述筛选模块，具体用于：
23.将所述访问阶段对应的至少一种目标特征向量，输入所述访问阶段对应的卷积层，得到所述访问阶段的第一阶段概率，所述第一阶段概率表征所述候选投放对象集合中，各个候选投放对象访问所述目标多媒体信息所在的投放位置的概率；
24.将所述曝光阶段对应的至少一种目标特征向量，输入所述曝光阶段对应的卷积层，得到所述曝光阶段的第二阶段概率，所述第二阶段概率表征所述候选投放对象集合中，各个候选投放对象曝光所述目标多媒体信息的概率；
25.将所述曝光阶段对应的至少一种目标特征向量，输入所述转化阶段对应的卷积层，得到所述转化阶段的第三阶段概率，所述第三阶段概率表征所述候选投放对象集合中，各个候选投放对象转化所述目标多媒体信息的概率。
26.可选的，所述第一阶段概率与访问所述目标多媒体信息所在的投放位置的候选投放对象数目成正相关，与所述投放平台关联的候选投放对象集合中的总候选投放对象数目成负相关；
27.所述第二阶段概率，与曝光所述目标多媒体信息的候选投放对象数目成正相关，与访问所述投放平台的候选投放对象数目成负相关；
28.所述第三阶段概率，与转化所述目标多媒体信息的候选投放对象数目成正相关，与曝光所述目标多媒体信息的候选投放对象数目成负相关。
29.可选的，所述装置还包括训练模块，用于：
30.获得预设的投放训练样本集合；
31.基于所述投放训练样本集合包含的各个投放训练样本对应的操作行为，对所述各个投放训练样本进行分类；
32.基于分类结果，分别确定所述各个预设操作阶段各自对应的投放训练样本子集，以及获得所述各个预设操作阶段各自对应的真实阶段概率；
33.基于获得的各个投放训练样本子集，对所述待训练的定向投放模型进行多轮迭代训练，直到满足预设的收敛条件为止，并将最后一轮输出的定向投放模型作为目标定向投放模型，其中，在每一轮迭代训练过程中，执行以下操作：
34.将从所述各个投放训练样本子集提取的投放训练样本，输入所述待训练的定向投放模型，分别获得所述各个预设操作阶段各自对应的预测阶段概率；
35.基于获得的各个预测阶段概率和相应的真实阶段概率，确定定向投放损失值，并基于所述定向投放损失值，对待训练的定向投放模型进行参数调整。
36.可选的，所述训练模块，具体用于：
37.从所述投放训练样本集合中，选取对应的操作行为表征被曝光且被转化的多媒体信息，得到第一类别的投放训练样本子集；
38.从所述投放训练样本集合中，选取对应的操作行为表征被曝光且未被转化的多媒体信息，得到第二类别的投放训练样本子集；
39.从所述投放训练样本集合中，选取对应的操作行为表征被访问且未被曝光的多媒体信息，得到第三类别的投放训练样本子集；
40.基于所述投放平台包含的至少一个指定投放时间段，选取对应的操作行为表征被转化未被曝光的各个多媒体信息，得到第四类别的投放训练样本子集，所述至少一个指定投放时间段对应的多媒体信息中，包含所述第一类别的投放训练样本子集中的至少一个多媒体信息。
41.可选的，所述各个预设操作阶段至少包括：访问阶段、曝光阶段和转化阶段；
42.所述训练模块，具体用于：
43.将所述第一类别的投放训练样本子集，确定为所述访问阶段的正投放训练样本，以及将所述第二类别、第三类别和第四类别的投放训练样本子集，确定为所述访问阶段的负投放训练样本；
44.将所述第一类别和第二类别的投放训练样本子集，确定为所述曝光阶段的正投放训练样本，以及将所述第三类别和第四类别的投放训练样本子集，确定为所述曝光阶段的负投放训练样本；
45.将所述第一类别、第二类别和第三类别的投放训练样本子集，确定为所述转化阶段的正投放训练样本，以及将所述第四类别的投放训练样本子集，确定为所述转化阶段的负投放训练样本。
46.可选的，所述基于获得的各个投放训练样本子集，对所述待训练的定向投放模型进行多轮迭代训练之前，还包括：
47.提取设定时长内，所述投放平台上的各个投放对象，针对各个多媒体信息的操作行为特征，并获取所述各个投放对象的画像特征；
48.所述训练模块，具体用于：
49.将所述各个投放对象的操作操行为特征和画像特征，以及从所述各个投放训练样本子集提取的投放训练样本特征，输入所述定向投放模型，分别获得所述各个预设操作阶段各自对应的预测阶段概率。
50.可选的，所述预设操作阶段包括转化阶段；
51.所述训练模块用于：
52.从转化阶段对应的投放训练样本子集中，提取正投放训练样本和负投放训练样本；
53.将所述负投放训练样本乘以一个预设范围内的权重系数后，和所述正投放训练样本一起输入所述定向投放模型，获得所述转化作阶段对应的预测阶段概率。
54.根据本技术实施例的第三方面，提供一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，实现多媒体信息定向投放方法。
55.根据本技术实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现多媒体信息定向投放方法。
56.本技术的实施中，基于目标多媒体信息触发的定向投放请求携带的标识信息，获得目标多媒体信息在投放平台的至少一种目标特征向量，并输入到已训练的目标定向投放模型中，通过已训练的目标定向投放模型，从候选投放对象集合中筛选出满足预设定向投放条件的至少一个目标投放对象，并向筛选出的至少一个目标投放对象投放目标多媒体信息。其中，目标定向投放模型是基于预设的投放样本集合训练得到的，且投放样本集合中包含：定向投放过程中各个预设操作阶段各自对应的投放样本，由于各个预设操作阶段有各自对应的投放样本，这样，可以兼顾定向投放过程中各个预设操作阶段的阶段概率，从而准确地定向投放目标多媒体信息，进而在提高曝光目标多媒体信息投放对象数目的同时，提高转化目标多媒体信息的投放对象数目。
附图说明
57.此处所说明的附图用来提供对本技术的进一步理解，构成本技术的一部分，本技术的示意性实施例及其说明用于解释本技术，并不构成对本技术的不当限定。在附图中：
58.图1为本技术实施例提供的实施环境示意图；
59.图2a为本技术实施例提供的多媒体信息的定向投放流程图；
60.图2b为本技术实施例提供的定向投放过程示意图；
61.图2c为本技术实施例提供的筛选目标投放对象的方法流程图；
62.图2d为本技术实施例提供的目标定向投放模型结构图；
63.图2e为本技术实施例提供的目标定向投放模型的转换层结构图；
64.图2f为本技术实施例提供的转换层的单元结构图；
65.图3a为本技术实施例提供的定向投放方法流程结构图；
66.图3b为采用本技术实施例提供的目标定向投放模型进行目标多媒体信息定向投放的整体方案流程示意图；
67.图3c为本技术实施例提供的生成多任务训练样本的方法流程图；
68.图3d为本技术实施例提供的确定各个预设操作阶段正负样本的方法流程图；
69.图4为本技术实施例提供的目标定向投放模型的训练流程示意图；
70.图5a为本技术实施例提供的定向投放方法投放的界面图；
71.图5b为本技术实施例提供的定向投放方法投放的另一界面图；
72.图6为本技术实施例提供的多媒体信息定向投放装置结构图；
73.图7为本技术实施例提供的电子设备结构图。
具体实施方式
74.为使本技术实施例的目的、技术方案和优点更加清楚，下面将结合本技术实施例中的附图，对本技术的技术方案进行清楚、完整地描述，显然，所描述的实施例是本技术技术方案的一部分实施例，而不是全部的实施例。基于本技术文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术技术方案保护的范围。
75.需要说明的是，本技术的文件中涉及的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例能够以除了在这里图示或描述的内容以外的顺序实施。
76.此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
77.以下，对本公开实施例中的部分用语进行解释说明，以便于本领域技术人员理解。
78.(1)本技术实施例中，术语“终端”包含智能手机，平板电脑，穿戴设备等，可以作为投放目标多媒体信息时使用的投放端设备。其中，投放对象为用户在投放平台使用的账户。
79.(2)本技术实施例中，术语“曝光率”也称为触达率，是指目标多媒体信息定向投放后，在单位时间内展示的次数。本技术实施例对展示方式不做限制性要求，包括但不限于看到、听到。例如，定向投放对象有100人，在1秒中内有80个投放对象浏览了该目标多媒体信息，则曝光率为80/100＝0.8。曝光率和触达率在本技术实施例中表达的含义相同。
80.(3)本技术实施例中，术语“转化率”也称为曝光转化率，是指多媒体信息曝光后，投放对象点击多媒体信息并产生转化行为的比例。本技术实施例对转化方式不做限制性要求，包括但不限于购买、注册会员、转发。例如，有100个投放对象浏览到目标多媒体信息，其中有30个投放对象点击目标多媒体信息的链接进入商品详情页面并下单购买了该商品，则转化率(曝光转化率)为30/100＝0.3。
81.(4)本技术实施例中，术语“esmm模型”的中文名称为全空间多任务模型，是entire space multi task model的简称，是一种用于预估目标多媒体信息的曝光转化率的模型。esmm模型使用多任务的学习思路对用户从曝光到点击到转换的路径建模，不同任务之间共享嵌入层的特征。
82.(5)本技术实施例中，术语“注意力机制(attention mechanism)”源于对人类视觉的研究。在认知科学中，由于信息处理的瓶颈，人类会选择性地关注所有信息的一部分，同
时忽略其他可见的信息，上述机制通常被称为注意力机制。注意力机制可以使得神经网络具备专注于其输入(或特征)子集的能力：选择特定的输入。
83.本技术实施例涉及人工智能(artificial intelligence,ai)和机器学习(machine learning,ml)技术。
84.人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、以及机器学习/深度学习等几大方向。
85.随着人工智能技术研究和进步，人工智能在多个领域展开研究和应用，例如常见的智能家居、图像检索、视频监控、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗等，相信随着技术的发展，人工智能将在更多的领域得到应用，并发挥越来越重要的价值。
86.机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本技术实施例在定向投放目标多媒体信息的方法中，采用了基于机器学习或深度学习的esmm模型，该模型是通过对定向投放过程中各个预设操作阶段各自对应的投放样本训练得到的，从而兼顾各个预设操作阶段的阶段概率，提高目标多媒体信息定向投放的准确率。
87.下面对本技术实施例的设计思想进行简要介绍：
88.随着移动网络的飞速发展和智能终端的推广，各种新媒体平台也应运而生。用户可以在新媒体平台上投放多媒体信息(比如广告)，通过目标智能定向技术，使访问新媒体平台的其他用户曝光投放的多媒体信息，进一步地，通过点击曝光的多媒体信息浏览多媒体信息的内容，进而对多媒体信息产生转化行为(比如购买多媒体信息中的产品、注册为产品会员等)。
89.目标智能定向可以基于过去一段时间多媒体信息投放的流水数据，优化多媒体信息的目标定向条件。目标智能定向引入多媒体信息的转化数据和曝光数据，通过模型计算目标定向结果的评分，然后将在评分预设范围内的评分对应的候选投放对象组成一组目标投放对象，该组目标投放对象可作为目标多媒体信息定向投放的定向号码包(定向条件)。投放平台通过目标智能定向功能召回多媒体信息，相比于利用行业知识通过标签组合创建的定向号码包，目标智能定向的定向号码包能给用户提供更高的转化率和更低的转化成本。
90.目前，目标智能定向一般使用极端梯度提升算法(extreme gradient boosting，xgboost)训练的一个二分类模型，该模型把最近一段时间转化多媒体信息的投放对象作为正样本，将曝光未转化多媒体信息的投放对象作为负样本，然后从投放平台筛选出曝光转化率(本技术实施例中以下简称为转化率)在预设范围内的投放对象作为定向号码包。此方
案存在以下缺点：1)目标智能定向的目的是使访问投放平台的投放对象尽可能多地曝光多媒体信息，进一步地，有更多的投放对象转化多媒体信息，也就是说，曝光多媒体信息的投放对象数目越多，转化多媒体信息的投放对象的数目也就越多，而目前方案以转化多媒体信息的投放对象作为正样本，将曝光未转化多媒体信息的投放对象作为负样本，由于样本选取时未考虑到曝光多媒体信息的投放对象数目，也就达不到提高曝光多媒体信息的投放对象的数目的目的，这样，与目标智能定向的定向目的存在样本选择偏差；2)转化率与转化多媒体信息的对象数目呈正相关，与曝光未转化多媒体信息的投放对象的数目成负相关，而曝光率与曝光多媒体信息的投放对象数目呈正相关，目前方案中曝光未转化多媒体信息的投放对象作为负样本，这样，目前正负样本的选取方式，仅优化了多媒体信息曝光后的转化率，没有兼顾目标智能定向中的曝光率，由于投放对象只有在浏览到多媒体信息后才可产生转化行为，如果曝光率较低，将反向降低转化多媒体信息的投放对象数目，无法达到使投放多媒体信息的用户达到满意的投放效果，进一步地，影响投放平台的效益。
91.本技术的实施例中，在用户触发目标多媒体信息的定向投放请求后，基于定向投放请求携带的标识信息，获取目标多媒体信息在投放平台的至少一种目标特征向量，并输入至已训练的目标定向投放模型，由于已训练的目标定向投放模型是对定向投放过程中各个预设操作阶段各自对应的投放样本训练得到的，其中，各个预设操作阶段包括访问阶段、曝光阶段、转化阶段，因此，目标定向投放模型可以同时兼顾目标多媒体信息的曝光率和转换率，提高目标多媒体信息的定向投放的准确性，进而提高转化目标多媒体信息的投放对象数目；通过已训练的目标定向投放模型，从投放平台关联的候选投放对象集合中，筛选出满足预设定向投放条件的至少一个目标投放对象，并向目标投放对象投放多媒体信息，与相关技术相比，在候选投放对象集合中的投放对象数目不变的情况下，即不增加目标多媒体信息的召回系统的存储负载情况下，可以提高曝光目标多媒体信息的投放对象数目，进而提高转化目标多媒体信息的数目，使得投放平台的用户以较低的成本获得较高的收益，吸引更多的用户在该投放平台投放目标多媒体信息。
92.可选的，为满足各个预设操作阶段的学习任务，本技术实施例中的目标定向投放模型可以为esmm模型。
93.需要说明的是，本技术实施例中的目标多媒体信息可以为广告，主题包括但不限于时尚潮流、教育医疗、创意设计、商业定制。
94.以下结合说明书附图对本技术的实施例进行说明，应当理解，此处所描述的实施例仅用于说明和解释本技术，并不用于限定本技术，并且在不冲突的情况下，本技术中的实施例及实施例中的特征可以相互组合。
95.图1为本技术实施例提供的实施环境示意图；参见图1所示，该实施环境至少包括：终端101和服务器102。
96.终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机等设备，但并不局限于此。可选地，终端101以及服务器102通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。用户通过终端101向新媒体平台的服务器102发送定向投放请求，定向投放请求中携带目标多媒体信息的标识信息，新媒体平台的服务器102接收到定向投放请求后，基于目标多媒体信息的标识信息，获取目标多媒体信息在投放平台的历史投放结果，并通过已训练的目标定向投放模型进行处理，从投放平台关联的候选投放对象集合中，筛
选出满足预设定向投放条件的至少一个目标投放对象，并将目标多媒体信息投放返回给目标投放对象的终端101，目标投放对象通过终端101对曝光的目标多媒体信息进行转化。
97.终端101泛指多个终端中的一个，本技术实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端的数量均可以更多或更少。比如上述终端仅为几个，或者上述终端为几十个或几百个，或者更多数量，本技术实施例对终端的数量和类型均不加以限定。
98.服务器102是独立的物理服务器，或者，多个物理服务器构成的服务器集群或者分布式系统，或者，提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器等。
99.基于图1示出的实施环境，图2a为本技术实施例提供的多媒体信息的定向投放流程图；参见图2a，该流程由投放平台的服务器执行，主要包括以下几步：
100.s201，服务器响应于针对目标多媒体信息触发的定向投放请求，基于目标多媒体信息的标识信息，获取目标多媒体信息在投放平台的至少一种目标特征向量。
101.其中，投放平台包含至少一个投放位置(比如投放平台应用程序的启动界面、投放平台的公众号等)，每个投放位置对应一个唯一的标识；至少一种目标特征向量包括但不限于：目标多媒体信息的内容特征向量(比如目标多媒体信息的文字特征、图片特征、类型特征等等)、目标多媒体信息的投放位置特征向量、以及目标多媒体信息关联的投放对象的行为特征向量(比如访问目标多媒体信息在投放平台的投放位置、曝光多媒体信息、转化多媒体信息等行为)和画像特征向量。可选的，画像特征向量一般为从投放对象在投放平台使用的头像中提取的特征向量。
102.在s201中，用户通过终端访问投放平台的服务器，向服务器发送针对目标多媒体信息的定向投放请求，定向投放请求携带目标多媒体信息的标识信息，比如目标多媒体信息的id号，服务器基于目标多媒体信息的标识信息，获取目标多媒体信息在投放平台的至少一种目标特征向量。
103.针对非第一次投放的目标多媒体信息，可直接从投放平台的系统日志中获取目标多媒体信息的投放位置特征向量、内容特征向量、行为特征向量和画像特征向量。针对第一次投放的目标多媒体信息，部分目标特征向量可根据目标多媒体信息的类别信息确定。
104.例如，目标多媒体信息1为非第一次的投放多媒体信息，目标多媒体信息2为第一次投放的多媒体信息，目标多媒体信息2未关联投放对象的行为特征，目标多媒体1与目标多媒体2均属于化妆品类，这样，可将目标多媒体信息1关联的投放对象的行为特征向量作为目标多媒体信息2关联的投放对象的行为特征向量。
105.需要说明的是，根据类别信息确定第一次投放的目标多媒体信息的部分目标特征向量仅是一种示例，还可以根据其他方式(比如目标多媒体信息的标签)确定第一次投放的目标多媒体信息的部分目标特征向量。
106.s202，服务器基于至少一种目标特征向量，采用已训练的目标定向投放模型，从投放平台关联的候选投放对象集合中，筛选出满足预设定向投放条件的至少一个目标投放对象。
107.在s202中，已训练的目标定向投放模型是基于预设的投放样本集合训练得到的，投放样本集合中包含：定向投放过程中各个预设操作阶段各自对应的投放样本。由于多媒
体信息从投放到转化是分阶段，如图2b所示，首先，投放对象a登陆到投放平台，并访问了目标多媒体信息的投放位置，进一步地，投放对象a在投放位置浏览到目标多媒体信息，即目标多媒体信息被曝光，然后，投放对象a点击被曝光的目标多媒体信息进行内容了解，通过了解，投放对象a满意目标多媒体信息中的内容，对目标多媒体信息进行了转化，整个投放阶段是循序渐进的。可选的，基于投放对象对目标多媒体信息的操作行为，各个预设操作阶段包括访问阶段、曝光阶段、转化阶段。在访问阶段，投放对象访问了目标多媒体信息在投放平台的投放位置，在曝光阶段，投放对象浏览了目标多媒体信息，在转化阶段，投放对象通过了解目标多媒体信息中的内容产生转化行为。
108.其中，已训练的目标定向投放模型包含多个嵌入层、转换层和多个卷积层，每个嵌入层用于处理一种目标特征向量，每个卷积层用于确定一个预设操作阶段对应的阶段概率，每个阶段概率表征候选投放对象集合中，各个候选投放对象对目标多媒体信息产生操作行为的概率。
109.具体实施时，参见图2c所示的流程：
110.s2021，服务器通过多个嵌入层，分别对相应的目标特征向量进行降维处理，并将降维处理后的目标特征向量分别输入至相应的卷积层。
111.在执行s2021时，以目标特征向量包含目标多媒体信息的内容特征向量、目标多媒体信息的投放位置特征向量、以及目标多媒体信息关联的投放对象的行为特征向量和画像特征向量为例，如图2d所示，从目标多媒体信息中提取的内容特征，并进行向量表示，从投放平台的系统日志中获取目标多媒体信息的投放位置的id，并进行向量表示，基于系统日志抽取的投放对象对目标多媒体信息的操作行为，比如访问、点击、转化等，并进行行为特征向量表示，从投放对象在投放平台使用的头像中提取用户画像，并进行画像向量表示。进一步地，分别将投放位置特征向量、行为特征向量、画像特征向量、内容特征向量分别输入至相应的嵌入层，由各个嵌入层对输入的特征向量进行降维处理，以减少后续计算的工作量。
112.降维处理后，将各个预设操作阶段对应的至少一种目标特征向量，分别输入相应预设操作阶段对应的卷积层，以确定相应预设操作阶段的阶段概率。
113.具体实施时，将目标特征向量中目标多媒体信息的投放位置特征向量、访问阶段对应的行为特征向量和画像特征向量，输入访问阶段对应的卷积层；将目标特征向量中曝光段对应的目标多媒体信息的内容特征向量、行为特征向量和画像特征向量，输入曝光阶段对应的卷积层；将目标特征向量中转化阶段对应的目标多媒体信息的内容特征向量、行为特征向量和画像特征向量，输入转化阶段对应的卷积层。
114.可选的，各个预设操作阶段关注的投放对象行为不同。
115.例如，访问阶段更加关注访问目标头媒体信息所在的投放位置的行为，比如访问投放位置的投放对象数目、访问投放位置的时间等；曝光阶段更加关注曝光目标头媒体信息的行为，比如曝光目标多媒体信息的投放对象数目、曝光多媒体信息的时间等；转化阶段更加关注转化目标多媒体信息的行为，比如转化目标多媒体信息的投放对象数目、转化目标多媒体信息的方式等。
116.因此，可对目标特征向量中的行为特征向量添加注意力机制，以更好获得各个预设操作阶段各自关注的显著行为特征向量。
117.s2022，服务器通过转换层，为降维后的目标特征向量中各个候选投放对象的行为特征向量添加注意力机制，分别确定各个预设操作阶段各自对应的行为特征向量，并将确定的各个行为特征向量，分别输入至相应的卷积层
118.具体实施时，转换层采用了编码器-解码器(encoder-decoder)架构，如图2e所示，encoder和decoder的数量仅一种示例，将降维后的目标特征向量中的行为特征向量输入encoder转换层的第一个encoder，前一encoder的输出可作为下一encoder的输入，最后一个encoder的输出可作为每个decoder的输入，前一decoder的输出可作为下一encoder的输入，最后输出各个预设操作阶段关注的行为特征向量。每个encoder和decoder的结构如图2f所示，其中，每个encoder依次包含一个自注意力机制(self-attention)层和一个前馈神经网络(feed forward)，self-attention层用于获取上下文语义。每个decoder依次包含一个self-attention层、编解码注意力机制(encoder decoder attention)层和一个feed forward，encoder decoder attention层用户获取到当前需要关注的重点内容。
119.基于图2e所示的转换层结构，分别确定各个预设操作阶段各自对应的行为特征向量，并将确定的各个行为特征向量，分别输入至相应的卷积层。
120.例如，将访问阶段对应的行为特征向量输入至图2d所示的第一个卷积层，在图2d中用虚线表示；将曝光阶段对应的行为特征向量输入至图2d所示的第二个卷积层，在图2d中用实线表示；将转化阶段对应的行为特征向量输入至图2d所示的第三个卷积层，在图2d中用点画线表示。
121.s2023，服务器通过多个卷积层，分别基于相应的预设操作阶段对应的目标特征向量，确定目标多媒体信息在相应的预设操作阶段的阶段概率。
122.在s2023中，通过图2d中的第一个卷积层，基于嵌入层输入的目标多媒体信息的投放位置特征向量、候选投放对象集合中访问阶段对应的各个候选投放对象的画像特征向量、以及转换层输入的访问阶段对应的行为特征向量，得到访问阶段的第一阶段概率，记为p(posid_imp)。其中，第一阶段概率表征候选投放对象集合中，各个候选投放对象访问目标多媒体信息所在的投放位置的概率，第一阶段概率与访问目标多媒体信息所在的投放位置的候选投放对象数目成正相关，与投放平台关联的候选投放对象集合中的总候选投放对象数目成负相关。可选的，p(posid_imp)＝访问目标多媒体信息所在的投放位置的候选投放对象数目/候选投放对象集合中的总候选投放对象数目。
123.通过图2d中的第二个卷积层，基于嵌入层输入的目标多媒体信息的内容特征向量、候选投放对象集合中曝光阶段对应的各个候选投放对象的画像特征向量、以及转换层输入的曝光阶段对应的行为特征向量，得到曝光阶段的第二阶段概率，记为p(ad_imp)。其中，第二阶段概率表征候选投放对象集合中，各个候选投放对象曝光目标多媒体信息的概率，第二阶段概率与曝光目标多媒体信息的候选投放对象数目成正相关，与访问投放平台的候选投放对象数目成负相关。由于只有候选投放对象访问了目标多媒体信息在投放平台的投放位置，才有可能曝光目标多媒体信息，因此，第二阶段概率为条件概率。
124.例如：可选的，p(ad_imp)＝p(posid_imp)*p(ad_imp|posid_imp)，其中，p(ad_imp|posid_imp)表示候选投放对象访问了目标多媒体信息在投放平台的投放位置后，曝光目标多媒体信息的概率，p(ad_imp)＝曝光目标多媒体信息的候选投放对象数目/访问目标多媒体信息所在的投放位置的候选投放对象数目。
125.通过图2d中的第三个卷积层，基于嵌入层输入的目标多媒体信息的内容特征向量、候选投放对象集合中转化阶段对应的各个候选投放对象的画像特征向量、以及转换层输入的转化阶段对应的行为特征向量，得到曝光阶段的第三阶段概率，记为p(ad_conv)。其中，第三阶段概率表征候选投放对象集合中，各个候选投放对象转化目标多媒体信息的概率，第三阶段概率与转化目标多媒体信息的候选投放对象数目成正相关，与曝光目标多媒体信息的候选投放对象数目成负相关。由于只有候选投放对象曝光了目标多媒体信息，才有可能点击曝光的目标多媒体信息机芯转化，因此，第三阶段概率为条件概率。
126.例如：可选的，p(ad_conv)＝p(ad_imp)*p(ad_conv|ad_imp)＝p(posid_imp)*p(ad_imp|posid_imp)*p(ad_conv|ad_imp)，其中，p(ad_conv|ad_imp)表示候选投放对象曝光了目标多媒体信息后，转化目标多媒体信息的概率，p(ad_conv)＝转化目标多媒体信息的候选投放对象数目/曝光目标多媒体信息的候选投放对象数目。
127.需要说明的是，本技术实施例仅以目标特征向量包含内容特征向量、投放位置特征向量、行为特征向量和画像特征向量为例，描述输入各个预设操作阶段的阶段概率的确定方式，对于目标特征向量包含其他特征向量的情况同样适用。
128.例如，当目标特征向量还包含目标多媒体信息的类别特征向量时，通过嵌入层对类别特征向量进行降维处理后，输入至各个预设操作阶段对应的卷积层，并确定各个预设操作阶段的阶段概率。
129.s2024，服务器基于获得的各个阶段概率，从投放平台关联的候选投放对象集合中，筛选出满足预设定向投放条件的至少一个目标投放对象。
130.在s2024中，基于s2023中得到第三阶段概率p(ad_conv)，对投放平台关联的候选投放对象集合中，各个候选投放对象对应的第三阶段概率进行降序排序，并确定各个候选投放对象各自对应的评分，将在预设评分范围内的评分对应的候选投放对象确定为目标投放对象并输出。
131.本技术实施例对目标投放对象的输出方式不做限制性要求，例如，输出各个目标投放对象的id，在例如，输出各个目标投放对象的账户名。
132.由于p(ad_conv)＝p(ad_imp)*p(ad_conv|ad_imp)＝p(posid_imp)*p(ad_imp|posid_imp)*p(ad_conv|ad_imp)，在优化p(ad_conv)的同时，兼顾了p(ad_imp)的变化，因此，可提高目标多媒体信息投放的准确性，在提高曝光目标多媒体信息的投放对象数目的同时，提高了转化目标多媒体信息的投放对象数目。
133.s203，服务器将目标多媒体信息定向投放给至少一个目标投放对象。
134.在s203中，至少一个目标投放对象是从投放平台关联的候选投放对象集合中筛选出来的，在大概率范围内，至少一个目标投放对象会对目标多媒体信息进行转化。因此，可将目标多媒体信息定向投放给至少一个目标投放对象。可选的，为了简化投放方式，可将至少一个目标投放对象的id可以组成一个定向号码包，由服务器将目标多媒体信息定向投放给该定向号码包。
135.本技术实施例中，采用目标定向投放模型实现上述图2a所示的流程，主要包括线上和线下两部分流程，如图3a所示，线上流程可以包括线上输出定向号码包过程，线下流程可以包括行为特征抽取、多任务训练样本生成和离线模型训练过程。可选的，为了更准确的反映投放平台上投放对象的行为，线下流程可每天例行运行一次，线上流程可根据用户触
发的定向投放请求运行。下面将分别进行介绍。
136.图3b为采用目标定向投放模型进行目标多媒体信息定向投放的整体方案流程示意图。线下流程所需的行为数据可通过投放平台的日志数据获得。下面将分别进行介绍。
137.1、样本收集
138.(1)对象操作行为统计
139.系统日志中包含了投放对象的基本信息(比如用户画像、账户名、账户id等)、多媒体信息的投放信息(比如投放日期、投放位置等)、投放对象对多媒体信息的操作行为(比如曝光、点击、转化等)、以及多媒体信息的内容信息(比如多媒体信息的类别、多媒体信息的图片、文字等)等数据，因而可以对系统日志中所包含数据，按照设定的标准化格式聚合成可用于模型训练的输入数据。其作用是将原始日志抽象成包含完备信息的数据表达，尤其是注重投放对象对多媒体信息的操作行为的记录。
140.由于最近一段时间的数据更能反映投放对象对投放的多媒体信息的反馈，因此，可根据实际情况选择某一时间段的系统日志抽取行为特征。可选的，提取设定时长内，投放平台上的各个投放对象，针对各个多媒体信息的操作行为特征，并获取各个投放对象的画像特征。其中，画像特征可从投放对象在投放平台使用的头像中获取。
141.例如，从投放平台过去14天的系统日志中抽取操作日期、投放位置、多媒体信息的一级类目、对多媒体信息的操作行为等数据，按照操作日期、投放位置、多媒体信息的一级类目、对多媒体信息的操作行为的顺序，聚合为行为特征，表示格式为[行为特征id：操作日期，投放位置，多媒体信息的一级类目、对多媒体信息的操作行为]，每个行为特征的id号唯一。
[0142]
(2)多任务训练样本生成
[0143]
本技术实施例中，多媒体信息的定向投放过程包括访问阶段、曝光阶段、转化阶段。为了预估投放对象在某一阶段的概率，需要针对各个阶段分别生成训练样本。
[0144]
参见图3c所示，生成多任务训练样本的过程包括：
[0145]
s301，服务器获得预设的投放训练样本集合。
[0146]
在s301中，以线下流程每天例行运行一次为例，服务器从系统日志中获取过去一天的多媒体信息以及多媒体信息对应的操作行为，得到投放训练样本集合。
[0147]
s302，服务器基于投放训练样本集合包含的各个投放训练样本对应的操作行为，对各个投放训练样本进行分类。
[0148]
在s302中，在不同的阶段，各个投放训练样本对应的操作行为不同。
[0149]
例如，访问阶段表示对象访问了投放训练样本的投放位置，对应的操作行为访问行为；曝光阶段表示对象浏览了投放训练样本，对应的操作行为曝光行为；转化阶段表示对象点击了曝光的投放训练样本并进行转化，对应的操作行为转化行为。
[0150]
服务器基于各个投放训练样本对应的操作行为，对各个投放训练样本进行分类。具体实施时，参见图3d：
[0151]
s3021：服务器从投放训练样本集合中，选取对应的操作行为表征被曝光且被转化的多媒体信息，得到第一类别的投放训练样本子集。
[0152]
在s3021中，基于系统日志，可以获得投放训练样本集合包含的各个投放训练样本对应的操作行为，以及产生操作行为的投放对象标识，基于获得操作行为，从投放训练样本
集合中，选取对应的操作行为表征被曝光且被转化的多媒体信息，得到第一类别的投放训练样本子集。其中，第一类别的投放训练样本子集中的每个样本，包含被曝光且被转化的多媒体信息的id，以及产生转化行为的对象id。一条多媒体信息可以被多个投放对象转化，也可以被一个投放对象转化。
[0153]
例如，以投放训练样本集合中的多媒体信息1为例，多媒体信息1投放于投放平台的公众号，投放对象a访问该公众号时，浏览到多媒体信息1，即多媒体信息1被投放对象a曝光，投放对象a点击多媒体信息1进行了解后，购买了多媒体信息1中产品，即多媒体信息1被投放对象a转化，则多媒体信息1及对应的投放对象a为第一类别的投放训练样本子集中样本。
[0154]
s3022：服务器从投放训练样本集合中，选取对应的操作行为表征被曝光且未被转化的多媒体信息，得到第二类别的投放训练样本子集。
[0155]
同理，基于从系统日志中获取的各个投放训练样本对应的操作行为，以及产生操作行为的投放对象标识，从投放训练样本集合中，选取对应的操作行为表征被曝光且未被转化的多媒体信息，得到第二类别的投放训练样本子集。其中，第二类别的投放训练样本子集中的每个样本，包含被曝光且未被转化的多媒体信息的id，以及曝光后未产生转化行为的投放对象id。一条多媒体信息可以被多个投放对象曝光后未转化，也可以被一个投放对象曝光后转化。可选的，曝光被转化的多媒体信息后未产生转化行为的投放对象数目，为曝光后产生转化行为的投放对象数目的10倍。
[0156]
例如，仍以s3021中的例子为例，投放对象b访问该公众号时，浏览到多媒体信息1，即多媒体信息1被投放对象b曝光，投放对象b点击多媒体信息1进行了解后，未购买多媒体信息1中产品，即多媒体信息1未被投放对象b转化，则多媒体信息1对应的投放对象b为第二类别的投放训练样本子集中样本。
[0157]
s3023，服务器从投放训练样本集合中，选取对应的操作行为表征被访问且未被曝光的多媒体信息，得到第三类别的投放训练样本子集。
[0158]
同理，基于从系统日志中获取的各个投放训练样本对应的操作行为，以及产生操作行为的投放对象标识，从投放训练样本集合中，选取对应的操作行为表征被访问且未被曝光的多媒体信息，得到第三类别的投放训练样本子集。其中，第三类别的投放训练样本子集中的每个样本，包含被访问了投放位置但未被曝光的多媒体信息的id，以及访问投放位置后未产生曝光行为的投放对象id，该投放位置至少包含一个被转化的多媒体信息。可选的，访问被转化的投放位置后未对被转化的多媒体信息产生曝光行为的投放对象数目，为曝光后产生转化行为的投放对象数目的10倍。
[0159]
例如，仍以s3021中的例子为例，投放对象c访问该公众号时，未浏览到多媒体信息1，即多媒体信息1未被投放对象c曝光，则多媒体信息1对应的投放对象c为第三类别的投放训练样本子集中样本。
[0160]
s3024，服务器基于投放平台包含的至少一个指定投放时间段，选取对应的操作行为表征被转化未被曝光的各个多媒体信息，得到第四类别的投放训练样本子集，至少一个指定投放时间段对应的多媒体信息中，包含第一类别的投放训练样本子集中的至少一个多媒体信息。
[0161]
在s3024中，服务器获取投放平台包含的至少一个指定投放时间段内的多媒体信
息，其中，至少一个指定投放时间段对应的多媒体信息中，包含第一类别的投放训练样本子集中的至少一个多媒体信息。基于系统日志，获取第一类别的投放训练样本子集中的至少一个多媒体信息对应的操作行为，选取对应的操作行为表征被转化未被曝光的各个多媒体信息，得到第四类别的投放训练样本子集。其中，第四类别的投放训练样本子集中的每个样本，包含被转化但未被曝光的多媒体信息的id，以及未对转化后的多媒体信息产生曝光行为的投放对象id。可选的，对被转化的多媒体信息为产生曝光行为的投放对象数目，为曝光后产生转化行为的投放对象数目的10倍。
[0162]
例如，仍以s3021中的例子为例，投放对象d访问了应用程序的热点页面，在热点界面投放对象d未曝光过任何被转化的多媒体信息，比如投放对象d未浏览到多媒体信息1，即多媒体信息1被投放对象a转化但未被投放对象d曝光，则多媒体信息1对应的投放对象d为第四类别的投放训练样本子集中样本。
[0163]
(3)样本标签
[0164]
s303，服务器基于分类结果，分别确定各个预设操作阶段各自对应的投放训练样本子集，并标记样本标签。
[0165]
在s303中，标签定义是指按照学习目标将样本标定为正负样本。在实际应用时，可以将各个预设操作阶段最关心的指标定义为主要指标，并使用单一的标签来区分正负样本。其中，各个预设操作阶段包括访问阶段、曝光阶段和转化阶段。基于s3021-s3024的分类结果，分别确定各个预设操作阶段各自对应的投放训练样本子集，并标记样本标签。具体的，
[0166]
将第一类别的投放训练样本子集，确定为访问阶段的正投放训练样本，以及将第二类别、第三类别和第四类别的投放训练样本子集，确定为访问阶段的负投放训练样本；将第一类别和第二类别的投放训练样本子集，确定为曝光阶段的正投放训练样本，以及将第三类别和第四类别的投放训练样本子集，确定为曝光阶段的负投放训练样本；将第一类别、第二类别和第三类别的投放训练样本子集，确定为转化阶段的正投放训练样本，以及将第四类别的投放训练样本子集，确定为转化阶段的负投放训练样本。
[0167]
为了给各个预设操作阶段标识正负样本，本技术实施例给收集的每一样本中的投放对象id和多媒体信息id对配3个0/1标记位，0表示负投放训练样本，1表示正投放训练样本。其中，第一个标记位表示投放对象是否访问了被转化的多媒体信息所在的投放位置，除第四类别的投放训练样本子集中的样本的第一个标记位为0外，其他类别的投放训练样本子集中的样本的第一标记位均为1；第二个标记位表示投放对象是否曝光了被转化的多媒体信息，第三、第四类别的投放训练样本子集中的样本的第二个标记位为0，第一、第二类别的投放训练样本子集中的样本的第二标记位为1；第三个标记位表示投放对象是否转化的多媒体信息，除第一类别的投放训练样本子集中的样本的第三个标记位为1外，其他类别的投放训练样本子集中的样本的第三标记位均为0。
[0168]
2、离线模型训练
[0169]
训练样本生成后，则可以进行模型训练。具体而言，本技术实施例各个预操作阶段共享训练样本，基于各个预设操作阶段关注的显著行为特征对模型进行训练，进而对各个操作阶段的阶段概率进行预测。
[0170]
下面，对定向投放模型训练的过程进行简单的介绍。基于获得的各个投放训练样
本子集，对待训练的定向投放模型进行多轮迭代训练，直到满足预设的收敛条件为止，并将最后一轮输出的定向投放模型作为目标定向投放模型。参见图4所示，为待训练的定向投放模型训练的流程示意图。
[0171]
s401：服务器获取各个预设操作阶段各自对应的投放训练样本子集，以及获得各个预设操作阶段各自对应的真实阶段概率。
[0172]
在s401中，为了拼接成定向投放模型能够直接使用的训练样本，可对获取的各个预设操作阶段各自对应的投放训练样本子集中，各个多媒体信息的id以及对应的投放对象的id进行映射，并获得各个预设操作阶段各自对应的真实阶段概率。
[0173]
例如，将多媒体信息的id映射成图片特征、文本素材特征、投放位置特征、投放账户id特征、一级类目id特征以及二级类目id特征等，将对应的投放对象id映射成相应的行为特征和画像特征。
[0174]
s402，服务器将从各个投放训练样本子集提取的投放训练样本，输入待训练的定向投放模型，分别获得各个预设操作阶段各自对应的预测阶段概率。
[0175]
在s402中，由于各个预设操作阶段关注的操作行为不同，为了满足各个预设操作阶段对行为特征的需求量，可将行为特征抽取过程中得到的各个投放对象的操作行为特征和画像特征，以及从各个投放训练样本子集提取的投放训练样本特征，输入待训练的定向投放模型，分别获得各个预设操作阶段各自对应的预测阶段概率。
[0176]
其中，各个预设操作阶段各自对应的预测阶段概率的计算参见s2023，在此不再重复。
[0177]
由于各个预设操作阶段的正负投放训练样本的比例相差较大，为了减少正负投放训练样本不均衡的问题，本技术实施例预测转化阶段的概率时，可将转化阶段对应的训练样本子集中的负投放训练样本在损失函数中的权重乘以预设范围内的权重系数。具体的，从转化阶段对应的投放训练样本子集中，提取正投放训练样本和负投放训练样本，将负投放训练样本乘以一个预设范围内的权重系数后，和正投放训练样本一起输入待训练的定向投放模型，获得转化作阶段对应的预测阶段概率。可选的，预设范围为0-1之间，默认权重系数为0.5。
[0178]
s403，服务器基于获得的各个预测阶段概率和相应的真实阶段概率，确定定向投放损失值。
[0179]
在s403中，可将各个预测阶段概率和相应的真实阶段概率进行比较，进而根据比较结果确定定向投放损失值。
[0180]
s404，服务器基于定向投放损失值，确定定向投放模型是否满足收敛条件。
[0181]
具体的，当定向投放损失值不大于预设损失值阈值，表明预测阶段概率和真实阶段概率之间的差异度足够小，因而定向投放模型的准确度达到要求，因而可以确定定向投放模型收敛，得到目标定向投放模型，并获取目标定向投放模型的模型文件，模型文件中包括模型的各个部分的模型参数。相反的，则定向投放模型未收敛。
[0182]
由于各个预设操作阶段可以看作三个二分类问题，所以均使用交叉熵作为定向投放模型训练的损失函数。
[0183]
当定向投放模型未满足收敛条件时，执行s405。
[0184]
s405，基于定向投放损失值，对待训练的定向投放模型进行参数调整，并使用调整
后的定向投放模型进入下一次训练过程，即跳转至步骤402。
[0185]
需要说明的是，在定向投放模型训练过过程中，确定各个预设操作阶段的阶段概率时，可将投放对象特征(行为特征和画像特征)和多媒体信息特征(内容特征和投放位置特征)连接后输入定向投放模型，确定各个预设操作阶段的阶段概率，还可以将用户特征和多媒体信息特征分别输入定向投放模型后，再使用系数矩阵与用户特征和多媒体信息特征相乘，确定各个预设操作阶段的阶段概率。
[0186]
在本技术实施例中，虽然各个预设操作阶段的学习任务不同，但彼此共享投放训练样本集合的中的样本特征，可以使得学习到的特征参数对不同任务是一致的，同时避免了独立优化单个目标存在的训练数据不充分和特征稀疏的问题。
[0187]
3、在线定向投放
[0188]
本技术实施例中，对于已训练的目标定向投放模型可以用于在线定向投放中。具体的，当线上接收到针对目标多媒体信息触发的定向投放请求，服务器获取目标多媒体信息在投放平台的历史投放结果，利用目标定向投放模型，确定曝光转化概率，并对候选投放对象集合中的候选投放对象对应的曝光转化概率进行降序排序，最后将排序结果中分数最高的n个候选投放对象作为目标投放对象，输出一个定向号码包，该定向号码包中包括n个目标投放对象的id。服务器基于输出的定向号码包，投放目标多媒体信息，进而在目标投放对象的用户界面上显示目标多媒体信息。同时，目标投放对象对目标多媒体信息可以进行操作反馈，例如点击、转化等，相应，日志也会收集到这些反馈，进而可以利用收集到的内容对目标定向投放模型进行再训练，从而优化，使得目标定向投放模型的准确性得以提升。
[0189]
在本技术实施例的基础上，还可在训练定向投放模型时，增加用户是否点击多媒体信息的标签，即分别预测投放对象在曝光多媒体信息之后未点击多媒体信息的概率，投放对象点击多媒体信息后未转化多媒体信息的概率，以及投放对象在点击多媒体信息后转化多媒体信息的概率。
[0190]
基于本技术实施例提供的多媒体信息定向投放方法，在相关投放平台的投放对象扩展模块进行了实验验证，如图5a所示，投放对象扩展模块基于当前配置提取的定向号码包，投放用户使用提取的定向号码包进行目标多媒体信息投放之后，基于线下流程的运行周期，自动更新得到一个转化目标多媒体信息的投放对象数目更大的定向号码包。比如，线下流程每天例行运行一次时，定向号码包每天更新一次。
[0191]
基于图5a所示的投放对象扩展模块进行了100次定向投放实验，相比于相关模型(比如xgboost模型)输出的同样大小的定向号码包相比，本技术实施例提供的案发定向触达率提高了21％，转化率提高了15％，可同时提升曝光量和转化量。
[0192]
本技术实施例提供的多媒体信息定向投放方法，还可适用于投放端的自动扩量模块。如图5b所示，投放用户开启自动扩量功能时，投放平台的后台服务器会启动目标智能定向功能，为投放用户新投放的目标多媒体信息生成定向号码包。基于本技术实施例提供的方法，自动扩量模块可以快速生成定向号码包，优化投放用户使用自动扩量功能后的转化量。
[0193]
基于同一发明构思，本技术实施例提供了一种多媒体信息定向投放装置，参见图6，该装置包括：
[0194]
获取模块601，用于响应于针对目标多媒体信息触发的定向投放请求，基于目标多
媒体信息的标识信息，获取目标多媒体信息在投放平台的至少一种目标特征向量；
[0195]
筛选模块602，用于基于至少一种目标特征向量，采用已训练的目标定向投放模型，从投放平台关联的候选投放对象集合中，筛选出满足预设定向投放条件的至少一个目标投放对象，已训练的目标定向投放模型是基于预设的投放样本集合训练得到的，投放样本集合中包含：定向投放过程中各个预设操作阶段各自对应的投放样本；
[0196]
投放模块603，用于将目标多媒体信息定向投放给至少一个目标投放对象。
[0197]
可选的，已训练的目标定向投放模型包含多个嵌入层、转换层和多个卷积层，其中，每个嵌入层用于处理一种目标特征向量，每个卷积层用于确定一个预设操作阶段对应的阶段概率，每个阶段概率表征候选投放对象集合中，各个候选投放对象对目标多媒体信息产生操作行为的概率；
[0198]
筛选模块602，具体用于：
[0199]
通过多个嵌入层，分别对相应的目标特征向量进行降维处理，并将降维处理后的目标特征向量分别输入至相应的卷积层；
[0200]
通过转换层，为降维后的目标特征向量中各个候选投放对象的行为特征向量添加注意力机制，分别确定各个预设操作阶段各自对应的行为特征向量，并将确定的各个行为特征向量，分别输入至相应的卷积层；
[0201]
通过多个卷积层，分别基于相应的预设操作阶段对应的目标特征向量，确定目标多媒体信息在相应的预设操作阶段的阶段概率；
[0202]
基于获得的各个阶段概率，从投放平台关联的候选投放对象集合中，筛选出满足预设定向投放条件的至少一个目标投放对象。
[0203]
可选的，各个预设操作阶段至少包括：访问阶段、曝光阶段和转化阶段；
[0204]
筛选模块602，具体用于：
[0205]
将访问阶段对应的至少一种目标特征向量，输入访问阶段对应的卷积层，得到访问阶段的第一阶段概率，第一阶段概率表征候选投放对象集合中，各个候选投放对象访问目标多媒体信息所在的投放位置的概率；
[0206]
将曝光阶段对应的至少一种目标特征向量，输入曝光阶段对应的卷积层，得到曝光阶段的第二阶段概率，第二阶段概率表征候选投放对象集合中，各个候选投放对象曝光目标多媒体信息的概率；
[0207]
将曝光阶段对应的至少一种目标特征向量，输入转化阶段对应的卷积层，得到转化阶段的第三阶段概率，第三阶段概率表征候选投放对象集合中，各个候选投放对象转化目标多媒体信息的概率。
[0208]
可选的，第一阶段概率与访问目标多媒体信息所在的投放位置的候选投放对象数目成正相关，与投放平台关联的候选投放对象集合中的总候选投放对象数目成负相关；
[0209]
第二阶段概率，与曝光目标多媒体信息的候选投放对象数目成正相关，与访问投放平台的候选投放对象数目成负相关；
[0210]
第三阶段概率，与转化目标多媒体信息的候选投放对象数目成正相关，与曝光目标多媒体信息的候选投放对象数目成负相关。
[0211]
可选的，装置还包括训练模块604，用于：
[0212]
获得预设的投放训练样本集合；
[0213]
基于投放训练样本集合包含的各个投放训练样本对应的操作行为，对各个投放训练样本进行分类；
[0214]
基于分类结果，分别确定各个预设操作阶段各自对应的投放训练样本子集，以及获得各个预设操作阶段各自对应的真实阶段概率；
[0215]
基于获得的各个投放训练样本子集，对待训练的定向投放模型进行多轮迭代训练，直到满足预设的收敛条件为止，并将最后一轮输出的定向投放模型作为目标定向投放模型，其中，在每一轮迭代训练过程中，执行以下操作：
[0216]
将从各个投放训练样本子集提取的投放训练样本，输入待训练的定向投放模型，分别获得各个预设操作阶段各自对应的预测阶段概率；
[0217]
基于获得的各个预测阶段概率和相应的真实阶段概率，确定定向投放损失值，并基于定向投放损失值，对待训练的定向投放模型进行参数调整。
[0218]
可选的，训练模块604，具体用于：
[0219]
从投放训练样本集合中，选取对应的操作行为表征被曝光且被转化的多媒体信息，得到第一类别的投放训练样本子集；
[0220]
从投放训练样本集合中，选取对应的操作行为表征被曝光且未被转化的多媒体信息，得到第二类别的投放训练样本子集；
[0221]
从投放训练样本集合中，选取对应的操作行为表征被访问且未被曝光的多媒体信息，得到第三类别的投放训练样本子集；
[0222]
基于投放平台包含的至少一个指定投放时间段，选取对应的操作行为表征被转化未被曝光的各个多媒体信息，得到第四类别的投放训练样本子集，至少一个指定投放时间段对应的多媒体信息中，包含第一类别的投放训练样本子集中的至少一个多媒体信息。
[0223]
可选的，各个预设操作阶段至少包括：访问阶段、曝光阶段和转化阶段；
[0224]
训练模块604，具体用于：
[0225]
将第一类别的投放训练样本子集，确定为访问阶段的正投放训练样本，以及将第二类别、第三类别和第四类别的投放训练样本子集，确定为访问阶段的负投放训练样本；
[0226]
将第一类别和第二类别的投放训练样本子集，确定为曝光阶段的正投放训练样本，以及将第三类别和第四类别的投放训练样本子集，确定为曝光阶段的负投放训练样本；
[0227]
将第一类别、第二类别和第三类别的投放训练样本子集，确定为转化阶段的正投放训练样本，以及将第四类别的投放训练样本子集，确定为转化阶段的负投放训练样本。
[0228]
可选的，基于获得的各个投放训练样本子集，对待训练的定向投放模型进行多轮迭代训练之前，还包括：
[0229]
提取设定时长内，投放平台上的各个投放对象，针对各个多媒体信息的操作行为特征，并获取各个投放对象的画像特征；
[0230]
训练模块604，具体用于：
[0231]
将各个投放对象的操作操行为特征和画像特征，以及从各个投放训练样本子集提取的投放训练样本特征，输入定向投放模型，分别获得各个预设操作阶段各自对应的预测阶段概率。
[0232]
可选的，预设操作阶段包括转化阶段；
[0233]
训练模块604具体用于：
[0234]
从转化阶段对应的投放训练样本子集中，提取正投放训练样本和负投放训练样本；
[0235]
将负投放训练样本乘以一个预设范围内的权重系数后，和正投放训练样本一起输入定向投放模型，获得转化作阶段对应的预测阶段概率。
[0236]
该装置可以用于执行图2a～图4所示的实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考图2a～图4所示的实施例的描述，不多赘述。
[0237]
基于同一技术构思，本技术实施例还提供了一种电子设备，参见图7，可以包括存储器701和处理器702。
[0238]
存储器701，用于存储处理器702执行的计算机程序。存储器701可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据电子设备的使用所创建的数据等。处理器702，可以是一个中央处理单元(central processing unit，cpu)，或者为数字处理单元等等。本技术实施例中不限定上述存储器701和处理器702之间的具体连接介质。本技术实施例在图7中以存储器701和处理器702之间通过总线703连接，总线703在图7中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线703可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0239]
存储器701可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，ram)；存储器701也可以是非易失性存储器(non-volatile memory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，hdd)或固态硬盘(solid-state drive，ssd)、或者存储器701是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器701可以是上述存储器的组合。
[0240]
处理器702，用于调用存储器701中存储的计算机程序时执行如图2a～图4所示的实施例中设备所执行的方法。
[0241]
在一些可能的实施方式中，本技术提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在电子设备上运行时，程序代码用于使电子设备执行本说明书上述描述的根据本技术各种示例性实施方式的方法中的步骤，例如，电子设备可以执行如图2a～图4所示的实施例中设备所执行的方法。
[0242]
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0243]
尽管已描述了本技术的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0244]
显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围
之内，则本技术也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张思远
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种防止高强螺栓跌落的装置的制作方法
上一篇：一种具有切割保护功能的钢丝拉直机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。