多媒体数据的数据关联窗口的调节方法及装置与流程

文档序号：25041750发布日期：2021-05-14 10:58阅读：138来源：国知局

1.本申请涉及计算机技术领域，尤其涉及一种多媒体数据的数据关联窗口的调节方法及装置。

背景技术：

2.目前，广告在日常生活中是非常普遍的，广告也作为一种重要的多媒体传播方式，可以用于吸引用户、商品推广等。为了向用户推荐该用户感兴趣的广告，一般将广告曝光数据流、广告点击数据流、广告转化数据流进行相应两数据流的实时关联，得到特征数据，以加载到算法模型进行训练得到推荐模型。目前，对于广告曝光数据流和广告点击数据流的实时流关联的实现方式可以包括：
3.方式一，将广告曝光数据流实时存在第三方存储器，如redis和hbase，广告点击数据流实时查询第三方存储器以预设的关联字段(joinkey)进行关联；
4.方式二，基于数据关联窗口(或称“时间窗口”)的流关联，如window join和interval join。其中：
5.window join的流关联方式是将两条数据流存储在预设的数据关联窗口内进行流关联，且无法跨数据关联窗口进行流关联。例如，数据关联窗口大小为5s，0
‑
5s为第一个数据关联窗口，5s
‑
10s为第二个数据关联窗口，则0
‑
5s内的两条数据流存储在第一个数据关联窗口，5s
‑
10s的两条数据流存储在第二个数据关联窗口，且只允许相同数据关联窗口内的两条数据流进行关联。
6.interval join的流关联方式是使用时间戳作为关联条件，在预设的数据关联窗口内进行流关联。例如，数据关联窗口大小为5s，若一个广告曝光数据的时间是4.5s，相应的广告点击数据的时间是5.1s，则5.1s的广告点击数据需要查找5.1s点击时刻之前5s内的广告曝光数据，以查询到4.5s的广告曝光数据并进行关联。
7.然而，方式一中由于第三方存储器存在每秒查询率(query per second，qps)的限制，会导致流关联效率低，且由于该方式没有时间约束，故若广告点击数据流先于广告曝光数据流到达，会提高数据关联的失败率。
8.方式二虽然不存在每秒查询率的限制，但其数据关联窗口的大小是预先设置的，无法进行调节，数据关联窗口过小，会提高数据关联的失败率；数据关联窗口过大，会导致数据关联窗口存储的数据量过大，其中不需要被关联的无效数据量过大，会提高系统的数据背压。

技术实现要素：

9.本申请实施例提供一种多媒体数据的数据关联窗口的调节方法及装置，解决了上述相关技术存在的问题，以实现在低背压的条件下对多媒体数据进行关联，降低数据关联的失败率。
10.本申请实施例提供的具体技术方案如下：
11.第一方面，提供了一种多媒体数据的数据关联窗口的调节方法，该方法可以包括：
12.基于当前数据关联窗口大小，对当前观测周期内的第一多媒体数据和第二多媒体数据进行关联，得到所述当前观测周期的关联数据和相应关联指标的指标值；所述关联指标包括数据关联的关联失败率和数据背压；
13.基于预先配置的关联指标的各指标值范围与各关联指标状态间的映射关系，获取所述指标值对应的目标关联指标状态，并将所述目标关联指标状态确定为当前关联指标状态；所述关联指标状态表征数据关联的关联失败状态和数据背压状态；
14.在所述当前关联指标状态不为预设期望状态时，基于存储的各关联指标状态下选择各候选调节动作的概率表征数据，获取所述当前关联指标状态下的目标调节动作；所述候选调节动作用于调节所述当前数据关联窗口的大小；
15.基于所述目标调节动作，对所述当前数据关联窗口的大小进行调节，得到调节后的数据关联窗口。
16.在一个可选的实现中，所述第二多媒体数据是经用户操作相应第一多媒体数据得到的。
17.在一个可选的实现中，所述方法还包括：
18.若所述当前关联指标状态为预设期望状态，则确定所述当前数据关联窗口为目标数据关联窗口。
19.在一个可选的实现中，所述方法还包括：
20.将所述调节后的数据关联窗口确定为新的当前数据关联窗口，将下一个观测周期确定为新的当前观测周期；
21.基于所述新的当前观测周期对应的新的当前关联指标状态，继续获取所述新的当前观测周期对应的目标调节动作。
22.在一个可选的实现中，基于存储的各关联指标状态下选择各候选调节动作的概率表征数据，获取所述当前关联指标状态下的目标调节动作，包括：
23.基于存储的各关联指标状态下选择各候选调节动作的概率表征数据，计算所述当前关联指标状态下所述各候选调节动作的选择概率值；
24.基于所述各候选调节动作的选择概率值，获取所述当前关联指标状态下的目标调节动作。
25.在一个可选的实现中，所述候选调节动作包括表示数据关联窗口增加预设步长大小的第一候选调节动作、表示保持数据关联窗口不变的第二候选调节动作和表示数据关联窗口减少所述预设步长大小的第三候选调节动作。
26.在一个可选的实现中，所述关联指标的各指标值范围与各关联指标状态间映射关系的配置过程包括：
27.按照预设的数据背压最小单位值，对所述数据背压的值域进行分段，得到所述数据背压的n个背压值范围；以及，
28.按照预设的关联失败率最小单位值，对所述关联失败率的值域进行分段，得到所述关联失败率的m个失败率范围；其中，所述n和所述m均为不为零的整数；
29.将所述数据背压的每个背压值范围分别与所述关联失败率的m个失败率范围进行组合，得到所述关联指标的n*m个指标值范围；
30.对所述n*m个指标值范围中的每个指标值范围进行关联指标状态配置，得到所述关联指标的各指标值范围与各关联指标状态间映射关系。
31.在一个可选的实现中，获取所述新的当前观测周期对应的目标调节动作之前，所述方法还包括：
32.按照预设的数据更新算法，基于所述新的当前观测周期对应的新的当前关联指标状态与所述各候选调节动作对应的概率表征数据中的最大概率表征数据、所述当前观测周期对应的当前关联指标状态下选择所述目标调节动作的概率表征数据和配置的回报函数，对所述存储的各关联指标状态下选择各候选调节动作的概率表征数据中所述当前观测周期内的当前关联指标状态与所述目标调节动作对应的概率表征数据进行更新，得到新的各关联指标状态下选择各候选调节动作的概率表征数据。
33.在一个可选的实现中，所述回报函数的计算公式表示为：
34.r
t
＝{
‑
p*bp
t+1
‑
(1
‑
p)*jf
t+1
}；
35.其中，t为所述当前观测周期，t+1为所述新的当前观测周期，r
t
为所述t内选择目标调节动作的回报函数，p为预设参数，p∈[0,1]，bp
t+1
为所述t+1内的数据背压的背压值，bp
t+1
∈[0,1]，jf
t+1
为所述t+1的关联失败率，jf
t+1
∈[0,1]。
[0036]
在一个可选的实现中，基于当前数据关联窗口大小，对当前观测周期内第一多媒体数据和第二多媒体数据进行关联，得到当前观测周期的关联数据和相应关联指标的指标值，包括：
[0037]
配置所述第一多媒体数据的关联字段；所述关联字段为所述第一多媒体数据中与相应业务请求相关联的组合字段；
[0038]
获取所述第二多媒体数据中，与所述第一多媒体数据的关联字段和所述第一多媒体数据的被操作时间匹配的第二多媒体数据；所述被操作时间包括被操作开始时间和被操作终止时间；
[0039]
基于所述当前数据关联窗口大小，对所述第一多媒体数据与匹配的第二多媒体数据进行关联，得到所述当前观测周期的关联数据；以及，获取所述当前观测周期对应的所述关联指标的指标值。
[0040]
在一个可选的实现中，得到当前观测周期的关联数据之后，所述方法还包括：
[0041]
获取所述关联数据对应的用户信息；
[0042]
将所述关联数据和所述用户信息，确定为所述当前观测周期的多媒体训练样本；
[0043]
获取所述多媒体训练样本的数据特征信息和用户特征信息；
[0044]
基于所述数据特征信息和所述用户特征信息，对预训练多媒体推荐模型进行训练，得到训练的多媒体推荐模型。
[0045]
第二方面，提供了一种多媒体数据的数据关联窗口的调节装置，该装置可以包括：关联单元、获取单元和调节单元；
[0046]
所述关联单元，用于基于当前数据关联窗口大小，对当前观测周期内的第一多媒体数据和第二多媒体数据进行关联，得到所述当前观测周期的关联数据和相应关联指标的指标值；所述关联指标包括数据关联的关联失败率和数据背压；
[0047]
所述获取单元，用于基于预先配置的关联指标的各指标值范围与各关联指标状态间的映射关系，获取所述指标值对应的目标关联指标状态，并将所述目标关联指标状态确
定为当前关联指标状态；所述关联指标状态表征数据关联的关联失败状态和数据背压状态；
[0048]
以及，在所述当前关联指标状态不为预设期望状态时，基于存储的各关联指标状态下选择各候选调节动作的概率表征数据，获取所述当前关联指标状态下的目标调节动作；所述候选调节动作用于调节所述当前数据关联窗口的大小；
[0049]
所述调节单元，用于基于所述目标调节动作，对所述当前数据关联窗口的大小进行调节，得到调节后的数据关联窗口。
[0050]
在一个可选的实现中，所述第二多媒体数据是经用户操作相应第一多媒体数据得到的。
[0051]
在一个可选的实现中，所述装置还包括确定单元；
[0052]
所述确定单元，用于若所述当前关联指标状态为预设期望状态，则确定所述当前数据关联窗口为目标数据关联窗口。
[0053]
在一个可选的实现中，所述确定单元，还用于将所述调节后的数据关联窗口确定为新的当前数据关联窗口，将下一个观测周期确定为新的当前观测周期；
[0054]
所述获取单元，还用于基于所述新的当前观测周期对应的新的当前关联指标状态，继续获取所述新的当前观测周期对应的目标调节动作。
[0055]
在一个可选的实现中，所述获取单元，具体用于基于存储的各关联指标状态下选择各候选调节动作的概率表征数据，计算所述当前关联指标状态下所述各候选调节动作的选择概率值；
[0056]
以及，基于所述各候选调节动作的选择概率值，获取所述当前关联指标状态下的目标调节动作。
[0057]
在一个可选的实现中，所述候选调节动作包括表示数据关联窗口增加预设步长大小的第一候选调节动作、表示保持数据关联窗口不变的第二候选调节动作和表示数据关联窗口减少所述预设步长大小的第三候选调节动作。
[0058]
在一个可选的实现中，所述获取单元，还用于：
[0059]
按照预设的数据背压最小单位值，对所述数据背压的值域进行分段，得到所述数据背压的n个背压值范围；以及，
[0060]
按照预设的关联失败率最小单位值，对所述关联失败率的值域进行分段，得到所述关联失败率的m个失败率范围；其中，所述n和所述m均为不为零的整数；
[0061]
将所述数据背压的每个背压值范围分别与所述关联失败率的m个失败率范围进行组合，得到所述关联指标的n*m个指标值范围；
[0062]
对所述n*m个指标值范围中的每个指标值范围进行关联指标状态配置，得到所述关联指标的各指标值范围与各关联指标状态间映射关系。
[0063]
在一个可选的实现中，所述装置还包括更新单元；
[0064]
所述更新单元，用于按照预设的数据更新算法，基于所述新的当前观测周期对应的新的当前关联指标状态与所述各候选调节动作对应的概率表征数据中的最大概率表征数据、所述当前观测周期对应的当前关联指标状态下选择所述目标调节动作的概率表征数据和配置的回报函数，对所述存储的各关联指标状态下选择各候选调节动作的概率表征数据中所述当前观测周期内的当前关联指标状态与所述目标调节动作对应的概率表征数据
进行更新，得到新的各关联指标状态下选择各候选调节动作的概率表征数据。
[0065]
在一个可选的实现中，所述回报函数的计算公式表示为：
[0066]
r
t
＝{
‑
p*bp
t+1
‑
(1
‑
p)*jf
t+1
}；
[0067]
其中，t为所述当前观测周期，t+1为所述新的当前观测周期，r
t
为所述t内选择目标调节动作的回报函数，p为预设参数，p∈[0,1]，bp
t+1
为所述t+1内的数据背压的背压值，bp
t+1
∈[0,1]，jf
t+1
为所述t+1的关联失败率，jf
t+1
∈[0,1]。
[0068]
在一个可选的实现中，所述关联单元，具体用于：
[0069]
配置所述第一多媒体数据的关联字段；所述关联字段为所述第一多媒体数据中与相应业务请求相关联的组合字段；
[0070]
获取所述第二多媒体数据中，与所述第一多媒体数据的关联字段和所述第一多媒体数据的被操作时间匹配的第二多媒体数据；所述被操作时间包括被操作开始时间和被操作终止时间；
[0071]
基于所述当前数据关联窗口大小，对所述第一多媒体数据与匹配的第二多媒体数据进行关联，得到所述当前观测周期的关联数据；以及，获取所述当前观测周期对应的所述关联指标的指标值。
[0072]
在一个可选的实现中，所述装置还包括训练单元；
[0073]
所述获取单元，还用于获取所述关联数据对应的用户信息；
[0074]
所述确定单元，还用于将所述关联数据和所述用户信息，确定为所述当前观测周期的多媒体训练样本；
[0075]
所述获取单元，还用于获取所述多媒体训练样本的数据特征信息和用户特征信息；
[0076]
所述训练单元，用于基于所述数据特征信息和所述用户特征信息，对预训练多媒体推荐模型进行训练，得到训练的多媒体推荐模型。
[0077]
第三方面，提供了一种电子设备，该电子设备包括：
[0078]
至少一个存储器，用于存储程序指令；
[0079]
至少一个处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行上述第一方面中任一所述的方法步骤。
[0080]
第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
[0081]
本申请实施例提供的多媒体数据的数据关联窗口的调节方法在基于当前数据关联窗口大小，对当前观测周期内的第一多媒体数据和第二多媒体数据进行关联，得到当前观测周期的关联数据和相应关联指标的指标值后，关联指标包括数据关联的关联失败率和数据背压；基于预先配置的关联指标的各指标值范围与各关联指标状态间的映射关系，获取指标值对应的目标关联指标状态，并将目标关联指标状态确定为当前关联指标状态；关联指标状态表征数据关联的关联失败状态和数据背压状态；在当前关联指标状态不为预设期望状态时，基于存储的各关联指标状态下选择各候选调节动作的概率表征数据，获取当前关联指标状态下的目标调节动作；候选调节动作用于调节当前数据关联窗口的大小；基于目标调节动作，对当前数据关联窗口的大小进行调节，得到调节后的数据关联窗口。该方法通过调节数据关联窗口的大小，实现在低背压的条件下对多媒体数据进行关联，降低了
数据关联的失败率。
附图说明
[0082]
图1为本申请实施例中的一种应用多媒体数据的数据关联窗口调节方法的系统结构示意图；
[0083]
图2为本申请实施例中的一种多媒体数据的数据关联窗口的调节方法的流程示意图；
[0084]
图3a为本申请实施例中的一种配置的关联指标的各指标值范围与各关联指标状态间的映射关系的方法流程示意图；
[0085]
图3b为本申请实施例中的一种二维状态空间的结构示意图；
[0086]
图3c为本申请实施例中的一种选择概率值序列对应的选择概率区间的示意图；
[0087]
图4为本申请实施例中的一种多媒体数据的数据关联窗口的调节装置的结构示意图；
[0088]
图5为本申请实施例中的一种电子设备的结构示意图。
具体实施方式
[0089]
下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，并不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。
[0090]
首先对本申请实施例中涉及的部分用语进行说明，以便于本领域技术人员理解。
[0091]
终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。
[0092]
服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。
[0093]
广告在线学习方法：是一种点击率(click
‑
through
‑
rate,ctr)/转化率(conversion rate，cvr)预测模型的训练方法，相对于离线ctr/cvr预测模型训练而言，实时将广告曝光(或称“展示”)数据流、广告点击数据流、广告转化数据流、业务特征数据加载到算法模型进行训练，从而提升模型预测的实时性。在线学习一般包括曝光日志、点击日志、转化日志的实时关联，经过特征工程生成训练样本来实时训练广告推荐模型，以用于线上广告推荐服务。其中，特征工程是指从原始数据转换为特征向量的过程。特征工程包括数据清理、特征提取、特征选择等过程。
[0094]
flink：一种分布式数据处理引擎，用于对无界数据流和有界数据流进行有状态的
计算，为实时数据流的处理提供了新的选择。其相对简单的编程模型加上其高吞吐，低延迟，高性能，以及支持exactly
‑
once语义特性，在线上生产环境被广泛使用。
[0095]
数据关联窗口(window)：定义了一个数据关联的时间范围，即时间段，将时间范围内的数据划分为一个集合。窗口大小即为时间范围大小，窗口一般包括时间上界(upperbound)和时间下界(lowerbound)。
[0096]
曝光数据流：用户浏览终端设备展示出的多媒体数据，产生的实时行为日志。
[0097]
点击数据流：用户对终端设备展示出的多媒体数据进行点击操作，产生的实时行为日志。
[0098]
转化数据流：用户对点击的多媒体数据进行消费等转化操作，产生的实时行为日志。
[0099]
joinkey：两个数据流用于关联的字段，即关联字段，比如曝光数据流与点击数据流关联的时候，joinkey为曝光数据流与点击数据流间的关联信息，且关联字段是与相应业务强相关的组合字段。
[0100]
数据流关联(intervaljoin)：其是flink提供的一种机制，用于实时数据处理系统中的两个数据流，按照相同的joinkey在数据关联窗口内进行的关联操作。特点是任一条数据流到达后就会实时获取对应关联数据流在指定数据关联窗口的数据，其中，超出数据关联窗口的数据会被实时清理掉。
[0101]
背压(backpressure):当接收机处理数据的速度小于发射机发送数据速度时，导致接收机缓存出现溢出。背压为一种系统指标，预设背压值是一种危险边界，若系统背压值大于该预设背压值，则导致新数据发生延迟或将被丢弃。
[0102]
存储设备(rocksdb)：一种key
‑
value型存储引擎，flink中rocks db用于存储计算结果和状态等数据。
[0103]
中间件(kafka)是高吞吐低延迟的高并发、高性能的消息中间件，以统一接口服务的方式开放给各类消费者，可用于日志收集。
[0104]
q学习算法：是强化学习中的一种重要的算法，其实际上是马尔科夫决策过程(markov decision process，mdp)的一种变化形式。假设在每个观测周期t＝1，2，3，
…
，马氏过程状态为周期观测t内状态s
t
时选择动作a
t
，系统收到立即回报r
t
，并转移到下一个状态s
t+1
的过程。q学习算法的目的是学习到一个策略π，使得未来的观测周期内获得的累计折扣回报最大。
[0105]
为进一步说明本申请实施例提供的技术方案，以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本公开，并不用于限定本公开，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。
[0106]
本申请提供的一种多媒体数据的数据关联窗口调节方法可以应用在图1所示的系统中，该系统可以包括终端设备110、多媒体数据服务器120和多媒体数据处理服务器130。
[0107]
终端设备110，用于通过相应应用程序(application，app)向多媒体数据服务器120发送携带多媒体数据特征的业务请求，如广告获取请求；以及，获取多媒体数据服务器120发送的多媒体数据，并在相应app中预设的多媒体数据区域，上展示该多媒体数据。用户
可以看到展示的多媒体数据，进而用户也可以进行浏览、点击、转化等操作，并生成相应的多媒体数据日志。其中，若业务请求为广告获取请求，则多媒体数据为广告，预设的多媒体数据区域为广告位。
[0108]
多媒体数据服务器120，用于根据终端设备110发送的业务请求，向该终端设备发送满足多媒体数据特征的多媒体数据，并将业务请求日志发送至多媒体数据处理服务器130。
[0109]
多媒体数据处理服务器130执行flink数据处理程序，其可以包括中间件kafka1301、数据解析处理模块1302、数据关联模块1303、rocks db1304和窗口动态计算模块1305。
[0110]
kafka1301，用于获取多媒体数据服务器120接收的业务请求日志和终端设备110生成的多媒体数据日志。
[0111]
日志解析处理模块1302，用于对kafka1301中的日志进行预处理，以得到后续可处理的多媒体数据，如将日志中与数据关联无关的数据删除、更新日志中多媒体数据的格式等。
[0112]
rocks db1304，用于将经数据解析处理模块1302处理过的业务请求数据和多媒体数据进行存储。
[0113]
数据关联模块1303，用于实时接收数据解析处理模块1302发送的多媒体数据，并将该多媒体数据与rocks db1304中存储的多媒体数据进行数据关联，具体的：基于当前数据关联窗口大小，对该多媒体数据日志中当前观测周期内的多媒体数据进行关联，得到当前观测周期的关联数据和相应包括关联失败率(join fail ratio，jf)和数据背压(backpressure，bp)的关联指标的指标值；以及将实时接收的多媒体数据进行存储。
[0114]
窗口动态计算模块1305，用于基于预先配置的关联指标的各指标值范围与各关联指标状态间的映射关系，获取指标值对应的当前关联指标状态；关联指标状态表征数据关联的关联失败状态和数据背压状态；且在当前关联指标状态不为预设期望状态时，基于存储的各关联指标状态下选择各用于调节当前数据关联窗口大小的候选调节动作的概率表征数据，获取当前关联指标状态下的目标调节动作，以调节当前数据关联窗口的大小，其中，预设期望状态为低背压值和低关联失败率对应的关联指标状态，实现通过分析数据关联的失败率和系统背压，保证得到的关联数据的准确性，以提高训练出的多媒体推荐模型的推荐精确性。
[0115]
以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本公开，并不用于限定本公开，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。
[0116]
图2为本申请实施例提供的一种多媒体数据的数据关联窗口的调节方法的流程示意图。如图2所示，该方法的执行主体为多媒体数据处理服务器，该方法可以包括：
[0117]
步骤s210、基于当前数据关联窗口大小，对当前观测周期内的第一多媒体数据和第二多媒体数据进行关联，得到当前观测周期的关联数据和相应关联指标的指标值。
[0118]
其中，第二多媒体数据是经用户操作相应第一多媒体数据得到的，以多媒体数据为广告为例，第一多媒体数据可以是广告曝光数据，第二多媒体数据可以是广告点击数据，即用户对曝光的广告进行点击操作的数据；或者第一多媒体数据可以是广告点击数据，第
二多媒体数据可以是广告转化数据，即用户对点击的广告进行消费的数据。
[0119]
具体实施时，获取当前观测周期内的第一多媒体数据和第二多媒体数据。
[0120]
当前观测周期内的第一多媒体数据为rocksdb中存储的多媒体数据，第二多媒体数据为实时接收的多媒体数据。如第一多媒体数据可以为广告曝光数据，第二多媒体数据可以为广告点击数据，或者，第一多媒体数据可以为广告点击数据，第二多媒体数据可以为广告转化数据。
[0121]
可选地，为了减少对无效多媒体数据的查询和处理，提高数据关联效率，在进行数据关联之前，需要配置rocksdb中第一多媒体数据的关联字段joinkey；该关联字段为第一多媒体数据中与相应业务请求相关联的组合字段；例如，广告请求id字段、广告素材id字段和广告位id字段的组合，表征将同一次广告请求中的相同广告素材和广告位的广告数据关联在一起，关联字段可表示为：广告请求id：广告素材id：广告位id。
[0122]
以及，将第一多媒体数据被操作时间与关联字段确定为关联条件，被操作时间包括被操作开始时间(lowerbound)和被操作终止时间(upperbound)。例如，关联条件可以表示为：关联下界：joinkey+lowerbound，关联上界：joinkey+upperbound。
[0123]
之后，获取第二多媒体数据中，与第一多媒体数据的关联字段和第一多媒体数据的被操作时间匹配的第二多媒体数据，也就是说，获取第二多媒体数据中与第一多媒体数据的关联条件匹配的第二多媒体数据。
[0124]
基于当前数据关联窗口大小，对当前观测周期内的第一多媒体数据与匹配的第二多媒体数据进行关联，得到当前观测周期的关联数据；以及，获取当前观测周期对应的关联指标的指标值。
[0125]
其中，关联指标中的关联失败率由当前观测周期内关联失败的第一多媒体数据与相应第二多媒体数据的数量与可关联的第一多媒体数据与相应第二多媒体数据的数量的比值。数据背压表征多媒体数据处理服务器在当前观测周期内的背压状态。
[0126]
步骤s220、基于预先配置的关联指标的各指标值范围与各关联指标状态间的映射关系，获取指标值对应的目标关联指标状态，并将目标关联指标状态确定为当前关联指标状态。
[0127]
其中，关联指标状态表征数据关联的关联失败状态和数据背压状态。
[0128]
在执行该步骤之前，可以按照关联指标进行状态空间的划分，配置的关联指标的各指标值范围与各关联指标状态间的映射关系，如图3a所示，该步骤可以包括：
[0129]
步骤s301、获取数据背压的n个背压值范围和关联失败率的m个失败率范围。
[0130]
具体实施中，按照预设的数据背压最小单位值，对数据背压的值域进行分段，得到数据背压的n个背压值范围；以及，按照预设的关联失败率最小单位值，对关联失败率的值域进行分段，得到关联失败率的m个失败率范围。
[0131]
其中，n和m均为不为零的整数，n和m可以相同，也可以不同，本申请实施例不做限定。
[0132]
步骤s302、将数据背压的每个背压值范围分别与关联失败率的m个失败率范围进行组合，得到关联指标的n*m个指标值范围。
[0133]
步骤s303、对n*m个指标值范围中的每个指标值范围进行关联指标状态配置，得到关联指标的各指标值范围与各关联指标状态间映射关系。
[0134]
在一个例子中，以bp的值域为[0,1]，数据背压最小单位值
▽
bp＝0.1；jf的值域为[0,1]，关联失败率最小单位值
▽
jf＝0.1为例，将bp的值域平均划分为10段，得到10个bp范围，分别为：0
‑
0.1，0.1
‑
0.2，0.3
‑
0.4，0.4
‑
0.5，0.5
‑
0.6，0.6
‑
0.7，0.7
‑
0.8，0.8
‑
0.9和0.9
‑
1。
[0135]
同理，将jf的值域也平均划分为10段，得到10个jf范围，分别为：0
‑
0.1，0.1
‑
0.2，0.3
‑
0.4，0.4
‑
0.5，0.5
‑
0.6，0.6
‑
0.7，0.7
‑
0.8，0.8
‑
0.9和0.9
‑
1。
[0136]
由此，10个bp范围和10个jf范围进行组合，可得到10*10(100个)个指标值范围，对该10*10个指标值范围中的各指标值范围配置一个关联指标状态，可构成10*10的二维状态空间，每个bp范围与每个jf范围对应一个关联指标状态，如图3b所示，10*10的二维状态空间中的关联指标状态的集合为{1,2,3,
…
,99,100}。对于任意观测周期t的关联指标状态s
t
，都有s
t
∈{1,2,3,...,99,100}。
[0137]
回到步骤s220，查找基于预先配置的关联指标的各指标值范围与各关联指标状态间的映射关系，获取该指标值对应的目标关联指标状态，并将目标关联指标状态确定为当前关联指标状态。
[0138]
例如，若第4个观测周期内的bp＝0.45，jf＝0.85。由图3b可知，bp＝0.45，jf＝0.85对应的编码为85，故第4个观测周期对应的关联指标状态s4＝85，并将关联指标状态s4确定为当前关联指标状态。
[0139]
需要说明的是，初始关联指标状态s0对应的数据背压的初始值bp0＝0，对应的初始关联失败率jf0＝1。
[0140]
步骤s230、基于当前关联指标状态与预设期望状态，获取当前关联指标状态下的目标调节动作。
[0141]
具体实施中，若当前关联指标状态为预设期望状态，表明当前关联指标状态对应的关联失败率范围属于期望的低关联失败率范围，当前关联指标状态对应的数据背压范围属于期望的低数据背压范围，则确定当前数据关联窗口为目标数据关联窗口，即不需要对当前数据关联窗口进行调节，故此时从预设的候选调节动作集合中选择保持数据关联窗口不变的候选调节动作，将该候选调节动作确定为当前关联指标状态下的目标调节动作。
[0142]
其中，候选调节动作用于调节当前数据关联窗口的大小；候选调节动作可以包括表示数据关联窗口增加预设步长大小的第一候选调节动作、表示保持数据关联窗口不变的第二候选调节动作和表示数据关联窗口减少预设步长大小的第三候选调节动作。
[0143]
若当前关联指标状态不为预设期望状态，表明当前关联指标状态对应的关联失败率范围不属于期望的低关联失败率范围，当前关联指标状态对应的数据背压范围不属于期望的低数据背压范围，则确定需要对当前数据关联窗口进行调节，故此时需要基于存储的各关联指标状态下选择各候选调节动作的概率表征数据，获取当前关联指标状态下的目标调节动作，以对当前数据关联窗口进行调节。
[0144]
具体的，基于存储的各关联指标状态下选择各候选调节动作的概率表征数据，获取当前关联指标状态下各候选调节动作的概率表征数据，并计算当前关联指标状态下各候选调节动作的选择概率值。
[0145]
其中，各关联指标状态下选择各候选调节动作的概率表征数据可以是q学习算法涉及的q矩阵内的q值，q矩阵内的q值表征在各关联指标状态下选择各候选调节动作的累积
奖励。
[0146]
例如，若存在100个关联指标状态和3个候选调节动作，则此时q矩阵为100*3的二维矩阵，二维矩阵的100个行中每行表示每种关联指标状态，二维矩阵的3个列中每列表示每种候选调节动作，q矩阵中的各q值表示各关联指标状态选择各候选调节动作的累积奖励。如观测周期t的关联指标状态选择候选调节动作的累积奖励可以表示为q(s
t
，a
i
)，其中，s
t
代表观测周期t对应的关联指标状态，a
i
代表第i个候选调节动作。若第4个观测周期的关联指标状态为s4，s4＝85，且选择第2个候选调节动作，则q矩阵中相应的q值可以表示为q(85，2)表示。
[0147]
需要说明的是，初始的各关联指标状态下选择各候选调节动作的概率表征数据可配置成相等的值，即q矩阵中各关联指标状态下选择各候选调节动作的q值相同，如100。由于概率表征数据可以为q矩阵中的q值，故基于q学习算法可以对q值进行更新，即对概率表征数据进行更新。
[0148]
然后，获取存储的q矩阵中当前关联指标状态下各候选调节动作的q值，并计算当前关联指标状态下各候选调节动作的选择概率值。
[0149]
其中，选择概率值的计算公式可以表示为：
[0150][0151]
式中，p(a
i
,s
t
)表示关联指标状态s
t
下选择候选调节动作a
i
的选择概率；q(s
t
,a
i
)表示关联指标状态s
t
下选择候选调节动作a
i
的q值；表示关联指标状态s
t
下选择各个候选调节动作的q值的和。
[0152]
之后，基于各候选调节动作的选择概率值，获取当前关联指标状态下的目标调节动作。
[0153]
具体实施中，基于各候选调节动作的选择概率值，可以采用轮盘赌算法，选择当前关联指标状态下的目标调节动作，具体的：
[0154]
初始化一个随机数，该随机数的取值范围为[0,1]；
[0155]
基于各候选调节动作的选择概率值，获取各候选调节动作对应的选择概率值序列，以及选择概率值序列中各选择概率值对应的选择概率区间；
[0156]
其中，每个选择概率值对应的选择概率区间的下边界概率值为选择概率值序列中该选择概率值之前的选择概率值的和，上边界概率值为选择概率值序列中该选择概率值与该选择概率值之前的选择概率值的和，即该选择概率值与下边界概率值的和；
[0157]
将该随机数所属的选择概率区间对应的选择概率值确定为目标选择概率值，并将该目标选择概率值对应的候选调节动作确定为目标调节动作。
[0158]
例如，第4个观测周期的关联指标状态为s4，s4＝85，该关联指标状态下各候选调节动作的q值分别为q(85，1)＝4，q(85，2)＝3和q(85，3)＝3；
[0159]
基于选择概率值的计算公式可以得到该关联指标状态下各候选调节动作的对应的选择概率值依次为：p1＝0.4，p2＝0.3，p3＝0.3，故相应的选择概率值序列为{0.4，0.3，0.3}。
[0160]
由此，可得到p1，p2和p3对应的选择概率区间，如图3c所示，p1对应的选择概率区间为[0，0.4)；p2对应的选择概率区间为[0.4，0.7)；p3对应的选择概率区间为[0.7，1)。
[0161]
需要说明的是，基于各候选调节动作的选择概率值，还可以采用贪心策略(ε
‑
greedy)的行为选择策略，或其他动作选择策略，如自定义的动作选择策略来选择当前关联指标状态下的目标调节动作，本发明实施例在此不做限定。
[0162]
步骤s240、基于目标调节动作，对当前数据关联窗口的大小进行调节，得到调节后的数据关联窗口。
[0163]
若目标调节动作为第一候选调节动作，则将当前数据关联窗口增加预设步长大小；
[0164]
若目标调节动作为第三候选调节动作，则将当前数据关联窗口减少预设步长大小。
[0165]
进一步的，在得到调节后的数据关联窗口之后，将调节后的数据关联窗口确定为新的当前数据关联窗口，并将下一个观测周期确定为新的当前观测周期；
[0166]
针对新的当前观测周期，返回执行步骤s210
‑
s220，得到新的当前关联指标状态。
[0167]
按照预设的数据更新算法，如q学习算法的q值更新算法，基于新的当前观测周期对应的新的当前关联指标状态与各候选调节动作对应的概率表征数据中的最大概率表征数据、当前观测周期对应的当前关联指标状态下选择目标调节动作的概率表征数据和配置的回报函数，对存储的各关联指标状态下选择各候选调节动作的概率表征数据中当前观测周期内的当前关联指标状态与目标调节动作对应的概率表征数据进行更新，得到新的各关联指标状态下选择各候选调节动作的概率表征数据，并进行存储。
[0168]
也就是说，采用q学习算法的q值更新算法，基于下一观测周期的关联指标状态下选择各候选调节动作的q值中的最大q值、当前观测周期对应的当前关联指标状态下选择目标调节动作的q值和回报函数，对q矩阵中当前关联指标状态与目标调节动作对应的q值进行更新，得到新的q矩阵。
[0169]
(1)q值更新算法的计算公式可以表示为：
[0170][0171]
式中，a为候选调节动作集合，s
t
为观测周期t对应的关联指标状态，a
i
为s
t
下选择的候选调节动作，q(s
t
,a
i
)为s
t
下选择a
i
的q值，newq(s
t
,a
i
)为q(s
t
,a
i
)更新后的q值；r
t
为观测周期t对应的s
t
下选择a
i
的回报值，η为学习率，γ为折扣因子，为下一观测周期t+1的关联指标状态s
t+1
下选择各候选调节动作的q值中的最大q值。
[0172]
(2)回报函数的计算公式可以表示为：
[0173]
r
t
＝{
‑
p*bp
t+1
‑
(1
‑
p)*jf
t+1
}；
[0174]
式中，t为当前观测周期，t+1为新的当前观测周期，r
t
为t内选择目标调节动作的回报函数，p为预设参数，p∈[0,1]，bp
t+1
为t+1内的数据背压的背压值，bp
t+1
∈[0,1]，jf
t+1
为t+1的关联失败率，jf
t+1
∈[0,1]。
[0175]
基于上述回报函数可知，数据背压的背压值越小，数据关联的关联失败率越小，回报值越大。其中，参数p体现了业务对数据背压和关联失败率两个指标的偏向程度。p越大，
数据背压对回报值的影响越大，即bp与r呈正相关，此时关联失败率对回报值的影响越小，即jf与r呈负相关。
[0176]
在一个例子中，若第4个观测周期获取的目标调节动作为第三候选调节动作，对当前数据关联窗口执行该调节动作后，得到调节后的数据关联窗口，并进入第5个观测周期。
[0177]
若在第5个观测周期观测到bp＝0.65，jf＝0.91，结合图3b所示，关联指标状态s5＝97，则在关联指标状态s4执行第三候选调节动作获得的回报值r5＝
‑
p*0.65
‑
(1
‑
p)*0.91；
[0178]
基于q值更新算法的计算公式，得到第5个观测周期内关联指标状态s5＝97选择第三候选调节动作的更新后的q(85,3)值可以表示为：
[0179][0180]
之后，基于新的当前观测周期对应的新的当前关联指标状态，继续执行步骤s230，以获取新的当前观测周期对应的目标调节动作。
[0181]
进一步的，对于不同观测周期得到的关联数据，可用于对预训练多媒体推荐模型进行训练，得到训练的多媒体推荐模型。
[0182]
具体的，获取关联数据对应的用户信息；
[0183]
将关联数据和相应用户信息，确定为当前观测周期的多媒体训练样本；
[0184]
获取多媒体训练样本的数据特征信息和用户特征信息；
[0185]
基于数据特征信息和用户特征信息，对预训练多媒体推荐模型进行训练，得到训练的多媒体推荐模型。
[0186]
本申请实施例提供的多媒体数据的数据关联窗口的调节方法在基于当前数据关联窗口大小，对当前观测周期内的第一多媒体数据和第二多媒体数据进行关联，得到当前观测周期的关联数据和相应关联指标的指标值后，关联指标包括数据关联的关联失败率和数据背压；基于预先配置的关联指标的各指标值范围与各关联指标状态间的映射关系，获取指标值对应的目标关联指标状态，并将目标关联指标状态确定为当前关联指标状态；关联指标状态表征数据关联的关联失败状态和数据背压状态；在当前关联指标状态不为预设期望状态时，基于存储的各关联指标状态下选择各候选调节动作的概率表征数据，获取当前关联指标状态下的目标调节动作；候选调节动作用于调节当前数据关联窗口的大小；基于目标调节动作，对当前数据关联窗口的大小进行调节，得到调节后的数据关联窗口。该方法通过调节数据关联窗口的大小，实现在低背压的条件下对多媒体数据进行关联，降低了数据关联的失败率。
[0187]
与上述方法对应的，本公开实施例还提供一种多媒体数据的数据关联窗口的调节装置，如图4所示，该装置包括：关联单元410、获取单元420和调节单元430；
[0188]
关联单元410，用于基于当前数据关联窗口大小，对当前观测周期内的第一多媒体数据和第二多媒体数据进行关联，得到所述当前观测周期的关联数据和相应关联指标的指标值；所述关联指标包括数据关联的关联失败率和数据背压；
[0189]
获取单元420，用于基于预先配置的关联指标的各指标值范围与各关联指标状态间的映射关系，获取所述指标值对应的目标关联指标状态，并将所述目标关联指标状态确定为当前关联指标状态；所述关联指标状态表征数据关联的关联失败状态和数据背压状态；
[0190]
以及，在所述当前关联指标状态不为预设期望状态时，基于存储的各关联指标状态下选择各候选调节动作的概率表征数据，获取所述当前关联指标状态下的目标调节动作；所述候选调节动作用于调节所述当前数据关联窗口的大小；
[0191]
调节单元430，用于基于所述目标调节动作，对所述当前数据关联窗口的大小进行调节，得到调节后的数据关联窗口。
[0192]
在一个可选的实现中，所述第二多媒体数据是经用户操作相应第一多媒体数据得到的。
[0193]
在一个可选的实现中，所述装置还包括确定单元440；
[0194]
确定单元440，用于若所述当前关联指标状态为预设期望状态，则确定所述当前数据关联窗口为目标数据关联窗口。
[0195]
在一个可选的实现中，确定单元440，还用于将所述调节后的数据关联窗口确定为新的当前数据关联窗口，将下一个观测周期确定为新的当前观测周期；
[0196]
所述获取单元，还用于基于所述新的当前观测周期对应的新的当前关联指标状态，继续获取所述新的当前观测周期对应的目标调节动作。
[0197]
在一个可选的实现中，获取单元420，具体用于基于存储的各关联指标状态下选择各候选调节动作的概率表征数据，计算所述当前关联指标状态下所述各候选调节动作的选择概率值；
[0198]
以及，基于所述各候选调节动作的选择概率值，获取所述当前关联指标状态下的目标调节动作。
[0199]
在一个可选的实现中，所述候选调节动作包括表示数据关联窗口增加预设步长大小的第一候选调节动作、表示保持数据关联窗口不变的第二候选调节动作和表示数据关联窗口减少所述预设步长大小的第三候选调节动作。
[0200]
在一个可选的实现中，获取单元420，还用于：
[0201]
按照预设的数据背压最小单位值，对所述数据背压的值域进行分段，得到所述数据背压的n个背压值范围；以及，
[0202]
按照预设的关联失败率最小单位值，对所述关联失败率的值域进行分段，得到所述关联失败率的m个失败率范围；其中，所述n和所述m均为不为零的整数；
[0203]
将所述数据背压的每个背压值范围分别与所述关联失败率的m个失败率范围进行组合，得到所述关联指标的n*m个指标值范围；
[0204]
对所述n*m个指标值范围中的每个指标值范围进行关联指标状态配置，得到所述关联指标的各指标值范围与各关联指标状态间映射关系。
[0205]
在一个可选的实现中，所述装置还包括更新单元450；
[0206]
更新单元450，用于按照预设的数据更新算法，基于所述新的当前观测周期对应的新的当前关联指标状态与所述各候选调节动作对应的概率表征数据中的最大概率表征数据、所述当前观测周期对应的当前关联指标状态下选择所述目标调节动作的概率表征数据和配置的回报函数，对所述存储的各关联指标状态下选择各候选调节动作的概率表征数据中所述当前观测周期内的当前关联指标状态与所述目标调节动作对应的概率表征数据进行更新，得到新的各关联指标状态下选择各候选调节动作的概率表征数据。
[0207]
在一个可选的实现中，所述回报函数的计算公式表示为：
[0208]
r
t
＝{
‑
p*bp
t+1
‑
(1
‑
p)*jf
t+1
}；
[0209]
其中，t为所述当前观测周期，t+1为所述新的当前观测周期，r
t
为所述t内选择目标调节动作的回报函数，p为预设参数，p∈[0,1]，bp
t+1
为所述t+1内的数据背压的背压值，bp
t+1
∈[0,1]，jf
t+1
为所述t+1的关联失败率，jf
t+1
∈[0,1]。
[0210]
在一个可选的实现中，关联单元410，具体用于：
[0211]
配置所述第一多媒体数据的关联字段；所述关联字段为所述第一多媒体数据中与相应业务请求相关联的组合字段；
[0212]
获取所述第二多媒体数据中，与所述第一多媒体数据的关联字段和所述第一多媒体数据的被操作时间匹配的第二多媒体数据；所述被操作时间包括被操作开始时间和被操作终止时间；
[0213]
基于所述当前数据关联窗口大小，对所述第一多媒体数据与匹配的第二多媒体数据进行关联，得到所述当前观测周期的关联数据；以及，获取所述当前观测周期对应的所述关联指标的指标值。
[0214]
在一个可选的实现中，所述装置还包括训练单元460；
[0215]
获取单元420，还用于获取所述关联数据对应的用户信息；
[0216]
确定单元440，还用于将所述关联数据和所述用户信息，确定为所述当前观测周期的多媒体训练样本；
[0217]
获取单元420，还用于获取所述多媒体训练样本的数据特征信息和用户特征信息；
[0218]
训练单元460，用于基于所述数据特征信息和所述用户特征信息，对预训练多媒体推荐模型进行训练，得到训练的多媒体推荐模型。
[0219]
本公开上述实施例提供的多媒体数据的数据关联窗口的调节装置的各功能单元的功能，可以通过上述各方法步骤来实现，因此，本公开实施例提供的多媒体数据的数据关联窗口的调节装置中的各个单元的具体工作过程和有益效果，在此不复赘述。
[0220]
基于上述实施例，参阅图5所示为本申请实施例中电子设备的结构示意图。
[0221]
本申请实施例提供了一种电子设备，该电子设备可以包括处理器510(center processing unit，cpu)、存储器520、输入设备530和输出设备540等，输入设备530可以包括键盘、鼠标、触摸屏等，输出设备540可以包括显示设备，如液晶显示器(liquid crystal display，lcd)、阴极射线管(cathode ray tube，crt)等。
[0222]
存储器520可以包括只读存储器(rom)和随机存取存储器(ram)，并向处理器510提供存储器520中存储的程序指令和数据。在本申请实施例中，存储器520可以用于存储本申请实施例中任一种多媒体数据的数据关联窗口的调节方法的程序。
[0223]
处理器510通过调用存储器520存储的程序指令，处理器510用于按照获得的程序指令执行本申请实施例中任一种多媒体数据的数据关联窗口的调节方法。
[0224]
基于上述实施例，本申请实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意方法实施例中的多媒体数据的数据关联窗口的调节方法。
[0225]
本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机
可用存储介质(包括但不限于磁盘存储器、cd
‑
rom、光学存储器等)上实施的计算机程序产品的形式。
[0226]
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0227]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0228]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0229]
显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张家强;高硕硕;蒋能学;郑磊;朱杰
技术所有人：杭州网易云音乐科技有限公司
我是此专利的发明人

上一篇：一种用于宫颈锥切手术的宫颈牵拉器的制作方法
上一篇：一种导电性较强的高性能陶瓷材料及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。