视频处理方法、装置、存储介质及计算机设备与流程

文档序号：31677928发布日期：2022-09-28 03:37阅读：86来源：国知局

1.本技术涉及计算机视觉技术领域，更具体地，涉及一种视频处理方法、装置、存储介质及计算机设备。

背景技术：

2.储存技术和通信技术的快速进步，使得信息的主要载体逐渐从文字和图像向视频转移。与文字，图像相比，视频可以承载更多的信息，也更加贴近人类所感知的世界，视频数据不仅同时包含时间维度和空间维度，还载有音频信息和文本信息，其应用场景非常丰富。因此，视频理解的相关技术受到人们的广泛关注。
3.幕分割作为视频理解的相关技术之一，可以根据视频呈现形式、叙事手法的不同，将一段完整的视频切分为多个幕，以便开展后续的视频混剪或者派生等视频创意工作。目前，幕分割技术通常采用先做镜头切分，再做镜头聚合，进而找出幕分割点的方案，这种方案不仅计算效率较低且幕分割结果的精确度不高。

技术实现要素：

4.本技术实施例提供一种视频处理方法、装置、存储介质以及计算机设备。旨在提升幕分割结果的精确度及幕分割的计算效率。
5.一方面，本技术实施例提供一种视频处理方法，该方法包括：获取视频数据及视频数据关联的文本数据进行模态融合，得到多模态特征；基于时序网络生成多模态特征对应的高时序分辨率特征；根据幕分割点预测网络对高时序分辨率特征进行幕分割点预测，得到每个时序位置为幕分割点的概率；对高时序分辨率特征进行池化操作，得到低时序分辨率特征；根据幕完整性评估网络对低时序分辨率特征进行幕完整性评估，得到每个提名区间的幕完整性评估分数；结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数，生成视频数据对应的多个目标幕。
6.另一方面，本技术实施例还提供一种视频处理装置，该装置包括：模态融合模块，用于获取视频数据及视频数据关联的文本数据进行模态融合，得到多模态特征；特征生成模块，用于基于时序网络生成多模态特征对应的高时序分辨率特征；分割点预测模块，用于根据幕分割点预测网络对高时序分辨率特征进行幕分割点预测，得到每个时序位置为幕分割点的概率；特征池化模块，用于对所述高时序分辨率特征进行池化操作，得到低时序分辨率特征；完整性评估模块，用于根据幕完整性评估网络对低时序分辨率特征进行幕完整性评估，得到每个提名区间的幕完整性评估分数；目标幕生成模块，用于结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数，生成视频数据对应的多个目标幕。
7.另一方面，本技术实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有程序代码，其中，在所述程序代码被处理器运行时执行上述的视频处理方法。
8.另一方面，本技术实施例还提供一种计算机设备，该计算机设备包括处理器以及存储器，存储器存储有计算机程序指令，计算机程序指令被处理器调用时执行上述的视频
处理方法。
9.另一方面，本技术实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述计算机设备执行上述视频处理方法中的步骤。
10.本技术提供的一种视频处理方法，可以获取视频数据及视频数据关联的文本数据进行模态融合，得到多模态特征，并基于时序网络生成多模态特征对应的高时序分辨率特征，进而根据幕分割点预测网络对高时序分辨率特征进行幕分割点预测，得到每个时序位置为幕分割点的概率，并对高时序分辨率特征进行池化操作，得到低时序分辨率特征，进而根据幕完整性评估网络对低时序分辨率特征进行幕完整性评估，得到每个提名区间的幕完整性评估分数，进而结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数，生成视频数据对应的多个目标幕。如此，在幕分割点预测分支精确定位出幕分割点的同时，利用幕完整性评估分支对包含有幕分割点的提名区域进行幕完整性的评估，抑制过分割问题，从而大大提升幕分割结果的精确度。并且无需依赖镜头切分的分段处理，从而降低幕分割的计算成本，提高幕分割的效率。
附图说明
11.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
12.图1示出了本技术提供的一种包含多个幕的视频示意图。
13.图2示出了本技术实施例提供的一种系统架构示意图。
14.图3示出了本技术实施例提供的一种视频处理方法的流程示意图。
15.图4示出了本技术实施例提供的一种时序网络的网络结构图。
16.图5示出了本技术实施例提供的一种幕分割点预测网络的网络结构图。
17.图6示出了本技术实施例提供的一种幕完整性评估网络的网络结构图。
18.图7示出了本技术实施例提供的另一种视频处理方法的流程示意图。
19.图8示出了本技术实施例提供的一种应用场景示意图。
20.图9示出了本技术实施例提供的一种模态融合的流程示意图。
21.图10示出了本技术实施例提供的一种获取提名特征的流程示意图。
22.图11示出了本技术实施例提供的一种幕分割任务的流程图。
23.图12是本技术实施例提供的一种视频处理装置的模块框图。
24.图13是本技术实施例提供的一种计算机设备的模块框图。
25.图14是本技术实施例提供的一种计算机可读存储介质的模块框图。
具体实施方式
26.下面详细描述本技术的实施方式，实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施方式是示例性地，仅用于解释本技术，而不能理解为对本技术的限制。
27.为了使本技术领域的人员更好地理解本技术的方案，下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
28.幕分割(scene segmentation)任务具体为根据视频的叙事手法、呈现形式对视频中语义连贯的幕进行划分。与动作、镜头等概念相比，幕是更高层的语义概念。就像物体与场景的关系，相互关联的物体的组合形成场景的概念，而幕是由一组语义连贯的镜头组成的超镜头。幕分割任务就是需要根据视频片段高层语义的不同对视频进行分段。
29.请参阅图1，图1示出了一段包含有六个幕的视频，该视频时长为34秒，以第一幕为例，第一幕为该视频在第0秒至第13秒的视频区间，第一幕包含有四个镜头。示例性地，第一幕可以为客服与用户进行电话沟通的过程，镜头a和镜头e为客服在工位打电话的场景，镜头b和镜头f为用户在街上打电话的场景，虽然客服在工位打电话和用户在街上打电话处于不同的场景，但这四个镜头共同表达了打电话的语义，因此它们组成了第一幕。
30.近年来，随着深度学习不断发展，幕分割在实际的应用场景中体现出很高的应用价值。例如，面对海量的广告视频，人工对广告视频进行时序分析耗时耗力，幕分割技术利用深度学习算法根据广告视频呈现形式、叙事手法的不同，可以将一段完整的广告视频切分为多个幕，其中，每一幕即可作为由一组语义连贯的镜头构成的广告素材，这些广告素材可以用于开展后续的广告视频混剪、派生等广告创意工作，是广告创意工作的基础。
31.目前，幕分割方法通常采用自底向上的解决思路，首先使用镜头分割算法将视频分割成独立的镜头，然后提取每个镜头视频片段的时空特征，最后使用聚类算法将时间上连续且特征上相近的镜头拼接起来组合成幕。该方案的边界准确性完全依赖于镜头检测算法，且必须采用两阶段的训练方式，所以在网络训练和推理的过程无法实现端到端，因而计算成本大，效率低。此外，长短不一的镜头有着不同的重要程度，但均被概括为等长的时空特征用于聚类，最终导致幕分割结果的精确度不高。
32.为了解决上述问题，发明人经过研究，提出了本技术实施例提供的视频处理方法，该方法可以获取视频数据及视频数据关联的文本数据进行模态融合，得到多模态特征，并基于时序网络生成多模态特征对应的高时序分辨率特征，进而根据幕分割点预测网络对高时序分辨率特征进行幕分割点预测，得到每个时序位置为幕分割点的概率，并根据幕完整性评估网络对高时序分辨率特征进行幕完整性评估，得到每个提名区间的幕完整性评估分数，进而结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数，生成视频数据对应的多个目标幕。
33.由此，在幕分割点预测分支精确定位出幕分割点的同时，利用幕完整性评估分支对包含有幕分割点的提名区域进行幕完整性的评估，抑制过分割问题，从而大大提升幕分割结果的精确度。并且无需依赖镜头切分的分段处理，从而降低幕分割的计算成本，提高幕分割的效率。
34.下面先对本技术所涉及到的视频处理方法的系统的架构进行介绍。
35.如图2所示，本技术实施例提供的视频处理方法可以应用在系统300中，数据采集设备320用于采集训练数据。针对本技术实施例的视频处理方法来说，训练数据可以包括用
于训练的视频数据、文本数据以及训练所用的训练标签，其中，训练所用的标签可以是人工预先标注或计算得到的标签。在采集到训练数据之后，数据采集设备320可以将这些训练数据存入数据库340，训练设备360基于数据库340中维护的训练数据训练得到目标模型301。
36.训练设备360基于输入的视频数据和文本数据对预设的神经网络进行训练，直至预设的神经网络满足预设条件，得到训练后的目标模型301。其中，预设条件可以为：目标损失函数的总损失值小于预设值、目标损失函数的总损失值不再变化、或者训练次数达到预设次数等。
37.上述目标模型301能够用于实现本技术实施例的视频处理方法。本技术实施例中的目标模型301具体可以为深度神经网络模型，例如，卷积神经网络。需要说明的是，在实际的应用中，数据库340中维护的训练数据不一定都来自于数据采集设备320的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备360也不一定完全基于数据库340维护的训练数据进行目标模型301的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本技术实施例的限定。
38.根据训练设备360训练得到的目标模型301可以应用于不同的系统或设备中，如应用于图2所示的执行设备310，所述执行设备310可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，ar)ar/虚拟现实(virtual reality，vr)等，还可以是服务器或者云端等。
39.在图2中，执行设备310可以用于与外部设备进行数据交互，例如，用户可以使用客户设备330通过网络向执行设备310输入数据。输入数据在本技术实施例中可以包括：客户设备输入的待处理视频。在执行设备310对输入数据进行预处理，或者在执行设备310的计算模块311执行计算等相关的处理过程中，执行设备310可以调用数据存储系统350中的数据、代码等以用于相应的计算处理，也可以将相应计算处理得到的数据、指令等存入数据存储系统350中。
40.最后，执行设备310将处理结果，例如，目标模型301生成的多个目标幕通过网络返回给客户设备330，从而提供给用户。值得说明的是，训练设备360可以针对不同的目标或不同的任务，基于不同的训练数据生成相应的目标模型301，该相应的目标模型301即可以用于实现上述目标或或者完成上述任务，从而为用户提供所需的结果。
41.可选地，图2所示的系统可以为client-server(c/s)系统架构，执行设备310可以为服务端(如，云服务器)，客户设备330可以为客户端(如，笔记本电脑)。用户可以利用笔记本电脑中的幕分割软件，通过网络上传待进行幕分割的视频至云服务器，云服务器在接受到待进行幕分割的视频时，利用目标模型301进行幕分割生成多个目标幕，并将多个目标幕返回至笔记本电脑，进而用户即可在幕分割软件上获取多个目标幕。
42.值得注意的是，图2仅是本技术实施例提供的一种系统架构的示意图，本发明实施例描述的系统的架构以及应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定。例如，图2中的数据存储系统350相对执行设备310是外部存储器，在其它情况下，也可以将数据存储系统350置于执行设备310中。执行设备310也可以作为客户端直接获取待进行幕分割的视频，并进行幕分割，此时，执行设备310即为客户设备。本领域普通技术人员可知，随着系统架构的演变和新的应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。
43.请参阅图3，图3示出了本技术一个实施例提供的视频处理方法的流程示意图。在具体的实施例中，所述视频处理方法应用于如图12所示的视频处理装置500以及配置有视频出装置500的计算机设备600(图13)。
44.下面将以计算机设备为例，说明本实施例的具体流程，可以理解的是，本实施例所应用的计算机设备可以为服务器或者终端等，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、区块链以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。所述视频处理方法具体可以包括以下步骤：
45.步骤s110：获取视频数据及视频数据关联的文本数据进行模态融合，得到多模态特征。
46.考虑到与动作相关的视频理解问题相比，幕分割任务更加复杂，而视频中的文本往往会对视频内容进行总结概括，对幕分割任务很有帮助。因此，本技术将视频数据和文本数据作为输入，帮助模型能够理解更高层次的语义信息，以提高幕分割结果的精确度。
47.其中，视频数据为需要进行幕分割的视频，例如，一段宣传某个产品的广告视频，通过对该广告视频进行幕分割，可以基于幕分割生成的多个幕进行视频推荐和视频创意衍生等下游任务。可选地，利用光学字符识别(optical character recognition，ocr)技术获取该视频数据中的字幕，也即该视频数据关联的文本数据。也可以直接获取该视频已有的台词或文案作为文本数据，在此不做限定。
48.在一些实施例中，获取视频数据及视频数据关联的文本数据之后，可以先分别使用特征提取器提取视频数据对应的视频特征和文本数据对应的文本特征，进一步地，使用交叉注意力网络(cross-attention)对视频特征和文本特征的特征进行模态融合，得到多模态特征表示，其中，交叉注意力网络可以为引入注意力机制的深度神经网络，用于实现线性空间复杂度完成指定阶显式特征组合，在本技术实施例中，交叉注意力网络能够根据视频特征与文本特征的相关性，在每个时序位置选取最合适的文本特征，再将该最合适的文本特征与视频特征进行融合得到多模态特征。
49.例如，获取用户上传的一段游戏广告视频，可以基于该游戏广告视频获取对应的ocr文本，进而将游戏广告视频输入至视频特征提取器中，得到视频特征，如，包含视频帧图像信息的向量表示(embedding)，并将ocr文本输入至文本特征提取器中，得到文本特征，如，包含文本信息的向量表示。
50.进一步地，可以将视频特征和文本特征输入至交叉注意力网络中进行模态融合，得到该游戏广告视频对应的多模态特征，需要注意的是，由于视频特征与文本特征均不包含时序位置信息，所以交叉注意力网络在进行模态融合的过程中会对视频特征和文本特征添加时序位置信息。
51.由于ocr文本信息中包含对幕分割任务有帮助的语义信息，所以模态融合生成的多模态特征对后续的幕分割可以起到很好的辅助作用，从而，提高幕分割任务生成多个目标幕的精确度。
52.步骤s120：基于时序网络生成多模态特征对应的高时序分辨率特征。
53.幕(scene)最初是源自于戏剧的概念，它是指在同一场景下发生的一系列相关联事件的组合。幕分割问题是指根据视频的叙事手法、呈现形式对视频中语义连贯的幕进行划分，输出视频中每一幕的起止时间。因为在同一幕中视频帧的外观特征可能发生巨大的变化，例如，多个镜头切换的过程中，会出现多个镜头整体语义是连贯的，但是镜头之间会有很大改变的情况，也即，单看镜头(底层特征)是不连贯，但语义是连贯的。这就导致幕分割时非常容易出现误分割的情况，所以用于幕分割的模型必须有长时语义建模的能力。
54.在本技术实施例中，时序网络为具有长时语义建模的能力深度神经网络。请参阅图4，图4示出了一种时序网络的网络结构图。该时序网络共有三种时序尺度层级，每层之间为2倍时序尺度关系。其中，向上的箭头表示时序维度两倍上采样操作(up sample)，由最近临插值操作实现，向下的箭头表示时序维度两倍下采样操作(down sample)，由核大小为3，步长为2的1维(dimension)卷积实现。水平的箭头表示卷积单元，包括核大小为3，步长为1的1维卷积和批归一化层。
55.作为一种实施方式，该时序网络的第一层级为高时序分辨率子网络，第二层级和第三层级为低时序分辨率子网络，第一层级、第二层级和第三层级并行连接。在获取多模态特征之后，可以将该多模态特征输入至时序网络的第一层级，进而通过在并行的多个时序分辨率子网络上反复交换信息(上采样及下采样)来进行多尺度的重复融合，最终通过第一层级输出多模态特征对应的高时序分辨率特征。
56.该时序网络在整个计算过程中保持着高时序分辨率的特征，因此避免了从低时序分辨率特征恢复高时序分辨率特征时带来的信息损失，同时，多种时序分辨率的特征不断融合，使得最终得到的特征能够捕捉视频中的长距离依赖关系，生成能提高幕分割任务对时序语义的理解能力的高时序分辨率特征，从而提高幕分割任务生成多个目标幕的精确度。
57.步骤s130：根据幕分割点预测网络对高时序分辨率特征进行幕分割点预测，得到每个时序位置为幕分割点的概率。
58.考虑到现有的幕分割方法的边界准确性完全依赖于镜头检测算法，且必须采用两阶段的训练方式，无法实现端到端。并且长短不一的镜头有着不同的重要程度，但均被概括为等长的时空特征用于组合成幕，进而得到的幕的精确度不高。
59.为此，本技术提出幕分割点预测网络和幕完整性评估网络，通过从整体与局部两个维度对视频进行端到端的幕分割。通常视频是由许多视频帧按照时间序列排列组成的，时序位置可以理解为某视频帧在时间序列维度上的具体位置，幕分割点预测网络的输入采用高时序分辨率的局部特征，据此可以精确地找出视频中语义变化的具体时间，即可以找出每个时序位置为幕分割点的概率。
60.在一些实施例中，该根据幕分割点预测网络对高时序分辨率特征进行幕分割点预测，得到每个时序位置为幕分割点的概率的步骤可以包括：
61.(1)基于至少四个卷积块生成高时序分辨率特征对应的目标预测特征图。
62.其中，幕分割点预测网络包括至少四个卷积块，每个卷积块包括卷积层、批归一化层和非线性层，每个卷积块中的卷积核相同及卷积步长相同。可选地，卷积块的个数还可以根据实际应用的需求结合实验进行设置，在此举例不做限定。请参阅图5，图5示出了一种幕分割点预测网络的网络结构图。
63.该幕分割点预测网络包括第一卷积块、第二卷积块、第三卷积块以及第四卷积块。每个卷积块中包含一个1维卷积层、一个批归一化层以及一个relu(randomized leaky)非线形层。1维卷积层的卷积核大小为3，卷积步长为1，以便保持每层输出的时序维度与输入的时序维度相同。
64.作为一种实施方式，可以将时序网络输出的高时序分辨率特征输入至第一卷积块进行第一卷积处理，得到第一预测特征图，并将第一预测特征图输入至第二卷积块，得到第二预测特征图，进而将第二预测特征图输入至第三卷积块，得到第三预测特征图，并将第三预测特征图输入至第四卷积块，得到目标预测特征图，通过连续的卷积块对高时序分辨率特征进行特征融合，将预测的幕分割点映射到具有更精细时间和空间维度的目标预测特征图上。
65.(2)基于目标预测特征图，利用第一激活函数计算出每个时序位置为幕分割点的概率。
66.作为一种实施方式，第一激活函数可以为sigmoid函数，sigmoid函数可以作幕分割点预测网络的输出层，以此，在得到目标预测特征图之后，可以将该目标预测特征图作为自变量输入至sigmoid函数，进而sigmoid函数可以计算出每个时序位置为幕分割点的概率。可选地，可以将目标预测特征图作为自变量输入tanh激活函数计算出每个时序位置的边界修正偏移量。
67.步骤s140：对高时序分辨率特征进行池化操作，得到低时序分辨率特征。
68.由于幕完整性评估主要任务是对提名区域内整体语义信息进行理解，因此不需要太高的时序分辨率，降低时序分辨率能够在不影响模型表现的情况下，可以大大降低gpu显存占用，提高吞吐量，从而提高幕分割的计算效率。
69.作为一种实施方式，可以通过最大值池化层对高时序分辨率特征进行池化操作(pooling)来降低高时序分辨率特征的时间分辨率，进而得到该高时序分辨率特征对应的低时序分辨率特征。
70.步骤s150：根据幕完整性评估网络对低时序分辨率特征进行幕完整性评估，得到每个提名区间的幕完整性评估分数。
71.考虑到幕分割点预测网络输入为高时间时序分辨率的局部特征，也即仅有局部感受野，因为缺乏完整的上下文信息，所以其输出的幕分割点有可能是幕中特征变化较大的镜头切分点。因此，本技术提出了幕完整性评估网络来解决这一问题。
72.其中，提名区间指的是一个可能包含动作片段的时序区间(从开始边界到结束边界)。幕完整性评估网络负责基于整体特征对提名区域的幕完整性进行评估，主要用于抑制幕分割点检测可能出现的过分割问题，可以输出每个提名区间的幕完整性评估分数，该幕完整性评估分数越高，对应的提名区间的幕完整性越好，反之，幕完整性越差。请参阅图6，图6示出了一种幕完整性评估网络的网络结构图。
73.在一些实施例中，该根据幕完整性评估网络对高时序分辨率特征进行幕完整性评估，得到每个提名区间的幕完整性评估分数的步骤可以包括：
74.(1)基于低时序分辨率特征以及采样权重矩阵，确定提名特征图。
75.幕完整性评估网络会基于低时序分辨率特征对每个提名区域内的特征进行采样，然后判断此提名区域的幕完整性，其中，采样权重矩阵为每个提名区间上，n个采样点对应
的采样权重掩码组成的矩阵，进而根据该采样权重矩阵确定提名特征图。
76.作为一种实施方式，该基于低时序分辨率特征以及采样权重矩阵，确定提名特征图的步骤可以包括：
77.(1.1)获取多个提名区间。
78.(1.2)基于提名区间生成采样权重矩阵。
79.(1.3)基于低时序分辨率特征和采样权重矩阵的点积，确定多个提名区间对应的提名特征图。
80.具体地，可以对一个提名区间进行区间扩展，得到扩展后的扩展提名区间，例如将提名区间左右边界各扩展半个区间长度，进而在扩展提名区间中进行采样操作，得到多个采样点对应的采样权重掩码，基于多个采样权重掩码确定采样权重矩阵。需要说明的是，对于固定长度的视频片段来说，每个视频的采样权重矩阵都是一样的，因此只需要预先生成一次即可。
81.进一步地，将低时序分辨率特征和该提名区间对应的采样权重矩阵进行点积，计算出该提名区间对应的特征表示，进一步地，枚举所有可能的提名区间，可以得到最终的所有可能的提名区间的提名特征图。
82.(2)对提名特征图进行特征融合，得到中间评估特征图。
83.作为一种实施方式，与幕分割点预测网络的网络结构类似，可以使用4个2维卷积块(conv2d
×
4)来对提名特征图进行特征融合，每个卷积块中包含一个2维卷积层、一个批归一化层和一个relu非线形层，其中，2维卷积核的大小为3，卷积步长为1，以保持每层输出的特征维度与输入的特征维度相同。
84.(3)对中间评估特征图进行上采样，得到目标评估特征图。
85.由于，在计算提名特征图的过程中，特别表示为低时序分辨率特征，为了与幕分割点预测网络输出的特征的时序分辨率相同，需要将中间评估特征图恢复到原来的高时序分辨率。可选地，对中间评估特征图使用双线性插值算法(bilinear interpolation)进行上采样，得到目标评估特征图。
86.(4)基于目标评估特征图，利用第二激活函数计算出每个提名区间的幕完整性评估分数。
87.作为一种实施方式，第二激活函数可以为sigmoid函数，在得到目标评估特征图之后，可以将该目标评估特征图作为自变量输出至sigmoid函数，进而，该sigmoid函数计算得到每个提名区间的幕完整性评估分数。
88.步骤s160：结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数，生成视频数据对应的多个目标幕。
89.其中，当获取到每个时序位置为幕分割点的概率以及每个提名区间的幕完整性评估分数时，可以将两者进行融合，计算出每个提名区间的预测分数，进而基于预测分数得到所有可能的提名区间的预测集合，并对预测集合中的幕分割结果的位置进行微调，得到多个目标幕。
90.在一些实施例中，该结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数，生成视频数据对应的多个目标幕的步骤可以包括：
91.(1)获取每个提名区间对应的衰减系数。
92.其中，衰减系数它与提名区间内(不包含区间端点)幕分割点的概率的最大值呈反比，即当提名区间内已经包含可能性较大的幕分割点时，降低该提名区间的预测得分，具体地，每个提名区间的衰减系数可以基于该提名区间内(不包含区间端点)幕分割点的概率的最大值计算得出。
93.(2)基于每个时序位置为幕分割点的概率，确定每个提名区间的区间端点位置为幕分割点的概率。
94.(3)基于衰减系数、区间端点位置为幕分割点的概率以及幕完整性评估分数，确定每个提名区间的预测分数。
95.(4)根据每个提名区间的预测分数，确定多个预选幕。
96.作为一种实施方式，可以从每个时序位置为幕分割点的概率中获取每个提名区间的区间端点位置为幕分割点的概率，进一步地，基于每个提名区间的衰减系数、每个提名区间的区间端点位置为幕分割点的概率以及每个提名区间的幕完整性评估分数，进行乘积运算得到该提名区间的预测分数。根据每个提名区间的预测分数，可以得到所有可能的提名区间的预测集合。
97.进一步地，可以对该多个预选幕组成的预测集合使用重叠阈值为0的非极大值抑制算法(non-maximum suppression，nms)得到互不重叠幕分割结果，也即多个预选幕。
98.(5)对多个预选幕进行微调操作，得到多个预选幕对应的多个目标幕。
99.幕分割点预测的目标是实现高精度的幕分割点检测，为了实现这个目标，幕分割点预测网络的输入采用高时间分辨率的局部特征，据此找出语义变化的具体时间，同时还可以使用边界修正偏移量基于时间锚点对幕分割时间点进行微调，进而得到对应更为准确的多个目标幕。
100.作为一种实施方式，该对多个预选幕进行微调操作，得到多个预选幕对应的多个目标幕的步骤可以包括：
101.(5.1)获取每个时序位置的边界修正偏移量。
102.(5.2)根据边界修正偏移量对多个预选幕进行微调操作，得到多个预选幕对应的多个目标幕。
103.在实际幕分割的过程中，受最大分辨率的影响，被分割截出来的一段一段视频会出现闪帧的现象，给用户带来不好的观感体验，因此，可以为时序点预测一个前后有0.5秒的偏移量，也即边界修正偏移量，使得幕分割的结果更加精准。
104.具体地，在幕分割点预测网络生成高时序分辨率特征对应的目标预测特征图之后，可以利用激活函数(如，tanh激活函数)计算出每个时序位置的边界修正偏移量。进一步地，基于边界修正偏移量对每个预选幕的幕分割边界点进行微调，得到对应的多个目标幕。
105.本技术实施例中，可以获取视频数据及视频数据关联的文本数据进行模态融合，得到多模态特征，并基于时序网络生成多模态特征对应的高时序分辨率特征，进一步地，将高时序分辨特征输入至幕分割点预测网络，根据当前时刻附近的特征判断是否为幕分割点，为了进一步提升在高精度幕分割需求下的算法表现，利用边界修正偏移量在小范围内对幕分割点的位置进行微调，从而使得幕分割任务具备了精细分割点定位的能力，提高了幕分割结果的精确度。
106.进一步地，将池化操作得到的低时序分辨特征输入至幕完整性评估网络，幕完整
性评估网络会对整个提名区域内的特征进行采样，然后判断此提名区域的幕完整性，幕完整性评估分支使模型具备了长时语义建模的能力。最后，结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数，生成视频数据对应的多个目标幕作为幕分割结果。本技术提出的幕分割方法并不依赖于镜头检测结果，因此可以实现端到端的网络计算，从而大大提升了幕分割的计算效率。
107.结合上述实施例所描述的方法，以下将举例作进一步详细说明。
108.本技术的视频处理方法涉及人工智能(artificial intelligence,ai)技术，人工智能技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
109.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
110.计算机视觉(computer vision,cv)技术作为人工智能技术的一个分支是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。
111.计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
112.本实施例提供的视频处理方法具体涉及人工智能的计算机视觉等技术，下面将以视频处理装置具体集成在计算机设备中为例进行说明，并将针对图7所示的流程结合图8所示的应用场景进行详细地阐述，该计算机设备可以为服务器或者终端设备等。请参阅图7，图7示出了本技术实施例提供的另一种视频处理方法，在具体的实施例中，该视频处理方法可以运用到如图8所示的广告创意场景中。
113.广告创意服务供应商提供服务端，该服务端包括云训练服务器410以及云执行服务器430。云训练服务器410用于训练出进行广告创意的幕分割模型，云执行服务器430用于部署进行广告创意操作所用的幕分割模型，对客户端发送的视频进行幕分割。其中，客户端为用户使用广告创意服务时，在笔记本电脑上打开的广告创意软件420。所述视频处理方法具体可以包括以下步骤：
114.步骤201：计算机设备获取训练数据集合。
115.本技术实施例中提供的视频处理方法包括对预设注意力网络、预设时序网络，预设分割网络以及预设评估网络的训练，值得说明的是，对预设注意力网络、预设时序网络，预设分割网络以及预设评估网络的训练可以是根据获取的训练样本数据集合预先进行的，后续在每次需要对视频进行幕分割时，可以利用训练得到的交叉注意力网络、时序网络，幕
分割点预测网络以及幕完整性评估网络直接计算，而无需每次进行幕分割时，再次进行网络训练。
116.在本技术实施例中，训练数据集合包括视频训练特征，文本训练特征，分割点检测标签，边界修正偏移量标签以及幕完整性评估标签。其中，视频训练特征，文本训练特征可以是预先通过特征提取器生成的。例如，利用swin-transformer作为视频特征提取器，获取视频训练特征f
′
video
，利用预训练的语言表征模型(bidirectional encoder representation from transformers，bert)作为文本特征提取器，获取文本训练特征f
′
text
。
117.可选地，定义视频的幕分割点标注为其中，si为第i个幕分割点的归一化时间，ng为视频中幕分割点的数量，真实幕区间对于特征图上的时序位置t，定义其代表的时间临域为[t-0.5,t+0.5]。可以根据幕分割点标注得到分割点检测标签边界修正偏移量标签对于幕完整性评估分数图上的每个位置(s,e)，幕完整性评估标签可以根据以下公式计算：
[0118][0119]
其中，为提名区间(s,e)与所有真实幕区间iou的最大值。
[0120]
步骤202：计算机设备获取预设注意力网络、预设时序网络、预设分割网络以及预设评估网络。
[0121]
示例性地，预设注意力网络、预设时序网络、预设分割网络以及预设评估网络都是预先设置的神经网络，其中，预设注意力网络可以为基于attention结构的transformer中多头注意力(multi-head attention)构建，模态融合由预设注意力网络训练后得到的交叉注意力网络执行。预设时序网络、预设分割网络以及预设评估网络的网络结构可以参照本技术实施例中有关时序网络，幕分割点预测网络以及幕完整性评估网络的描述，在此不做叙述。
[0122]
步骤203：计算机设备通过训练数据集合对预设注意力网络、预设时序网络、预设分割网络以及预设评估网络进行端到端的网络联合训练，直至预设注意力网络，预设时序网络，预设分割网络以及预设评估网络满足预设条件，得到训练后的交叉注意力网络、时序网络、幕分割点预测网络以及幕完整性评估网络。
[0123]
考虑现有的幕分割技术采用镜头分割和镜头拼接的两段式的训练方式，无法实现端到端的训练，导致网络训练的效率低下，并且网络在推理(应用)阶段的计算效率也比较差，所以本技术实施例提出对预设注意力网络、预设时序网络、预设分割网络以及预设评估网络进行端到端的网络联合训练，以提高网络训练的效率。
[0124]
作为一种实施方式，将视频训练特征和文本训练特征输入至对预设注意力网络得到模态融合后的多模态训练特征，并将该多模态训练特征输入预设时序网络，得到高时序分辨率训练特征。
[0125]
进一步地，将该高时序分辨率训练特征输入预设分割网络得到分割点概率边界偏移量并将该高时序分辨率经过池化层得到低时序分辨率训练特征，进而将低时序分辨率训练特征输入预设评估网络得到完整性评估分数
[0126]
进一步地，基于分割点概率和分割点检测标签确定分割点预测损失函数，例如，采用交叉熵损失函数，计算公式如下：
[0127][0128]
进一步地，基于边界偏移量和边界修正偏移量标签确定边界偏移损失函数，例如，采用smooth l1损失函数，计算公式如下：
[0129][0130]
进一步地，基于幕完整性评估标签和完整性评估分数确定评估损失函数，例如，采用smooth l1损失函数，计算公式如下：
[0131][0132]
进一步地，根据分割点预测损失函数ls，边界偏移损失函数l0，评估损失函数lc确定网络整体的目标损失函数l为：
[0133]
l＝αls+βl0+γlc[0134]
其中，α，β，γ分别为损失函数比例系数，以根据实验的实际情况进行确定。进而，计算机设备根据目标损失函数对预设注意力网络，预设时序网络，预设分割网络以及预设评估网络进行端到端的网络联合训练，直至预设注意力网络，预设时序网络，预设分割网络以及预设评估网络满足预设条件。
[0135]
需要说明的是，预设条件可以为：目标损失函数的总损失值小于预设值、目标损失函数的总损失值不再变化、或者训练次数达到预设次数等。可选的，可以采用优化器去优化目标损失函数，基于实验经验设置学习率(learning rate)、训练时的批量大小(batch size)以及训练的时期(epoch)。
[0136]
示例性地，如图8所示的广告创意场景中，服务端的云训练服务器410可以获取获取训练数据集合，并获取预设注意力网络，预设时序网络，预设分割网络以及预设评估网络。进而通过训练数据集合对预设注意力网络，预设时序网络，预设分割网络以及预设评估网络进行端到端的网络联合训练，直至预设注意力网络，预设时序网络，预设分割网络以及预设评估网络满足预设条件，得到训练后的交叉注意力网络，时序网络，幕分割点预测网络以及幕完整性评估网络。
[0137]
进一步地，将交叉注意力网络，时序网络，幕分割点预测网络以及幕完整性评估网络部署在云执行服务器430上，云执行服务器430可以对客户端发送来的视频进行幕分割。
[0138]
步骤204：计算机设备获取的视频数据及视频数据关联的文本数据。
[0139]
示例性地，如图8所示的广告创意场景中，用户可以通过笔记本电脑440上的广告创意软件420点击上传一段游戏广告视频，同时广告创意软件420可以基于该游戏广告视频获取对应的ocr文本。可选地，云执行服务器430在接受到该游戏广告视频时也可以基于该游戏广告视频获取对应的ocr文本。文本数据的获取方式可以根据实际产品开发的需要进行设置。
[0140]
步骤205：计算机设备基于视频特征提取器，提取视频数据对应的视频特征，基于
文本特征提取器，提取文本数据对应的文本特征。
[0141]
示例性地，如图8所示的广告创意场景中，云执行服务器430可以利用swin-transformer提取游戏广告视频对应的视频特征fv，可以利bert提取ocr文本对应的文本特征f
t
。
[0142]
需要注意的一点是，视频中某些时间段内可能没有文本信息，因此需要根据ocr时间戳用0进行填充(zero padding)，以保证视频特征与文本特征在时序维度是对齐的。
[0143]
步骤206：计算机设备基于视频特征和文本特征进行模态融合，得到多模态特征。
[0144]
考虑到模态融合是时序敏感的，但原本的视频特征与文本特征均不包含时序位置信息。因此需要为融合特征添加时序位置信息。本技术实施例采用交叉注意力网络进行模态融合。交叉注意力网络能够根据视频特征与文本特征的相关性，在每个时序位置选取最合适的文本特征。请参阅图9，图9示出了一种模态融合的流程示意图，以下将结合图9进行模态融合过程的详细阐述。
[0145]
作为一种实施方式，该计算机设备基于视频特征和文本特征进行模态融合，得到多模态特征的步骤可以包括：
[0146]
(1)计算机设备获取位置编码。
[0147]
(2)基于位置编码分别计算出视频特征的视频中间特征和文本特征的文本中间特征。
[0148]
可选地，位置编码可以通过学习得到，也可以直接获取固定的。例如，基于正弦函数和余弦函数计算出位置编码pe(positional encoding)，在此不做限定。计算机设备在获取位置编码后，可以在通道维度上将位置编码分别拼接在视频特征和文本特征后，得到视频复合特征fv+pe和文本复合特征f
t
+pe。
[0149]
(3)计算机设备对视频复合特征和文本复合特征进行线性变化，得到视频中间特征对应的查询向量，以及文本中间特征对应的键向量和值向量。
[0150]
示例性地，计算机设备可以通过利用投影参数矩阵wq，wk以及wv对视频复合特征和文本复合特征进行线性变化，得到视频复合特征对应的查询向量qv，以及文本复合特征对应的键向量k
t
和值向量v
t
，具体计算公式如下：
[0151]qv
＝wq(fv+pe)
[0152]kt
＝wk(f
t
+pe)
[0153]vt
＝wv(f
t
+pe)
[0154]
(4)计算机设备将查询向量、键向量以及值向量输入至交叉注意力网络，得到中间文本特征。
[0155]
(5)计算机设备根据中间文本特征以及视频特征生成多模态特征。
[0156]
示例性地，计算机设备可以将查询向量qv，键向量k
t
和值向量v
t
输入至交叉注意力网络，基于多头注意力的网路结构(multi-head attention，mha)计算出中间文本特征fo。进一步地，将中间文本特征fo与视频特征fv进行拼接(concat)得到多模态特征f
fution
。
[0157]
步骤207：计算机设备基于时序网络生成多模态特征对应的高时序分辨率特征。
[0158]
示例性地，计算机设备在获取多模态特征之后，可以将该多模态特征输入至时序网络的第一层级，进而通过在并行的多个时序分辨率子网络上反复交换信息(上采样及下采样)来进行多尺度的重复融合，最终通过第一层级输出多模态特征对应的高时序分辨率
特征。
[0159]
步骤208：计算机设备根据幕分割点预测网络对高时序分辨率特征进行幕分割点预测，得到每个时序位置为幕分割点的概率。
[0160]
在一些实施例中，该计算机设备根据幕分割点预测网络对高时序分辨率特征进行幕分割点预测，得到每个时序位置为幕分割点的概率的步骤可以包括：
[0161]
(1)计算机设备基于至少四个卷积块生成高时序分辨率特征对应的目标预测特征图。
[0162]
(2)计算机设备基于目标预测特征图，利用第一激活函数计算出每个时序位置为幕分割点的概率。
[0163]
示例性地，幕分割点预测网络可以包括四个卷积块，每个卷积块中包含一个1维卷积层、一个批归一化层和一个relu非线形层。计算机设备将高时序分辨率特征输入至幕分割点预测网络，得到目标预测特征图f
ssd
。
[0164]
进一步地，基于目标预测特征图f
ssd
，利用sigmoid激活函数计算出每个时序位置为幕分割点的概率具体计算公式如下：
[0165][0166]
步骤209：计算机设备对高时序分辨率特征进行池化操作，得到低时序分辨率特征。
[0167]
计算机设备将高时序分辨率特征输入至池化层，得到低时序分辨率特征。示例性地，可以使用最大值池化层将高时序分辨率特征降低为低时序分辨率特征f
p
，具体计算公式如下：
[0168][0169]
步骤210：计算机设备根据幕完整性评估网络对低时序分辨率特征进行幕完整性评估，得到每个提名区间的幕完整性评估分数。
[0170]
在一些实施例中，该计算机设备根据幕完整性评估网络对低时序分辨率特征进行幕完整性评估，得到每个提名区间的幕完整性评估分数的步骤可以包括：
[0171]
(1)计算机设备基于低时序分辨率特征以及采样权重矩阵，确定提名特征图。
[0172]
请参阅图10，图10示出了一种获取提名特征的流程示意图。以下将结合图10进行确定提名特征图过程的详细阐述。作为一种实施方式，该计算机设备基于低时序分辨率特征以及采样权重矩阵，确定提名特征图的步骤可以包括：
[0173]
(1.1)获取多个提名区间。
[0174]
(1.2)基于提名区间生成采样权重矩阵。
[0175]
(1.3)基于低时序分辨率特征和采样权重矩阵的点积，确定多个提名区间对应的提名特征图。
[0176]
示例性地，如图10所示，给出一个提名区间r＝(ts,te)，为了获取提名区间附近的上下文信息，将左右边界各扩展半个区间长度，扩展后的扩展提名区间其中，d＝t
e-ts，表示提名区间的长度。
[0177]
进一步地，在扩展提名区间r
extend
内均匀采样n个点，将这n个点处的特征拼接起来
作为该提名区间r的特征表示。但是采样点的时序位置可能不是整数，需要用其附近位置的两个特征插值得到，这一操作可以使用采样权重掩码实现。对于拓展提名区间r
extend
内的第n个采样点tn，定义其采样权重掩码：
[0178][0179]
从而，其中，dec为取小数部分的函数，floor为取整数部分的函数。那么采样点tn处的提名特征可以通过以下公式计算：
[0180][0181]
进一步地，将n个采样点的采样权重掩码写成矩阵形式，便可以得到提名区间的r＝(ts,te)的采样权重矩阵从而得到提名区间特征表示f
s,e
：
[0182][0183]
进一步地，枚举所有可能的提名区间，可以得到所有提名区间的提名特征所组成的提名特征图值得注意的是，对于固定长度的视频片段来说，每个视频的采样权重矩阵都是一样的，因此只需要预先生成一次即可。
[0184]
(2)计算机设备对提名特征图进行特征融合，得到中间评估特征图。
[0185]
(3)计算机设备对中间评估特征图进行上采样，得到目标评估特征图。
[0186]
(4)计算机设备基于目标评估特征图，利用第二激活函数计算出每个提名区间的幕完整性评估分数。
[0187]
作为一种实施方式，与幕分割点预测网络的网络结构类似，可以使用4个2维卷积块(conv2d
×
4)来对提名特征图进行特征融合，每个卷积块中包含一个2维卷积层、一个批归一化层和一个relu非线形层，其中，2维卷积核的大小为3，卷积步长为1，以保持每层输出的特征维度与输入的特征维度相同。
[0188]
进一步地，对提名特征图进行特征融合，得到中间评估特征图，并对中间评估特征图进行上采样，得到目标评估特征图，进而利用第二激活函数计算出每个提名区间的幕完整性评估分数
[0189]
pc＝sigmoid(upsample(conv(fm)))
[0190]
步骤211：计算机设备结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数，生成视频数据对应的多个目标幕。
[0191]
作为一种实施方式，该计算机设备结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数，生成视频数据对应的多个目标幕的步骤可以包括：
[0192]
(1)获取每个提名区间对应的衰减系数。
[0193]
其中，衰减系数它与提名区间内(不包含区间端点)幕分割点的概率的最大值呈反比，即当提名区间内已经包含可能性较大的幕分割点时，降低该提名区间的预测得分，具体地，每个提名区间的衰减系数可以基于该提名区间内(不包含区间端点)幕分割点的概率的
最大值计算得出。
[0194]
(2)基于每个时序位置为幕分割点的概率，确定每个提名区间的区间端点位置为幕分割点的概率。
[0195]
(3)基于衰减系数、区间端点位置为幕分割点的概率以及幕完整性评估分数，确定每个提名区间的预测分数。
[0196]
示例性地，给定一个提名区间(s,e)，融合后的预测得分可以根据以下公式计算：
[0197][0198][0199]
其中，为衰减系数。
[0200]
(4)计算机设备根据每个提名区间的预测分数，确定多个预选幕。
[0201]
(5)计算机设备对多个预选幕进行微调操作，得到多个预选幕对应的多个目标幕。
[0202]
示例性地，计算机设备根据每个提名区间的预测分数，确定多个预选幕，记作所有可能的提名区间的预测集合进一步地，计算机设备在幕分割点预测网络生成高时序分辨率特征对应的目标预测特征图之后，可以利用激活函数(如，tanh激活函数)计算出每个时序位置的边界修正偏移量po＝0.5
×
tanh(f
ssd
)，po∈(-0.5,0.5)。
[0203]
进一步地，对预测集合φ使用重叠阈值为0的非极大值抑制算法便可以得到互不重叠幕分割结果，最后再使用边界修正偏移量po对幕分割边界点进行微调，得到最终的幕分割预测结果
[0204]
示例性地，请参阅图11，图11示出了一种幕分割任务的流程图，在具体的实施例中，该幕分割任务可以运用到如图8所示的广告创意场景中。具体地，云执行服务器430在获取广告创意软件420发送来的广告视频后，可以基于该广告视频的视频片段和ocr文本进行特征提取与模态融合，得到多模态特征，并基于时序网络计算出多模态特征对应的高时序分辨率特征。
[0205]
进一步地，基于高时序分辨率特征分别进行幕分割点预测分支和幕完整性评估分支的计算，得到幕分割点概率、边界修正偏移量以及完整性评估分数，进而根据幕分割点概率、边界修正偏移量以及完整性评估分数进行分数融合得到多个预选幕组成的预测集合，并对该预测集合进行微调得到最终的幕分割结果。进而，云执行服务器430将幕分割结果发送至广告创意软件420，用户得到该广告视频切分出的多个幕，通过这些分出的多个幕，也即广告素材，便可以开展后续的广告视频混剪等广告创意工作。
[0206]
本技术实施例中，可以获取训练数据集合，并获取预设时序网络，预设分割网络以及预设评估网络，进而通过训练数据集合对预设时序网络，预设分割网络以及预设评估网络进行端到端的网络联合训练，直至预设时序网络，预设分割网络以及预设评估网络满足预设条件，得到训练后的时序网络，幕分割点预测网络以及幕完整性评估网络。从而实现了自顶向下的端到端的幕分割框架，无需依赖镜头分割算法便可以实现高效地幕分割。
[0207]
进一步地，可以获取视频数据及视频数据关联的文本数据进行模态融合，得到多模态特征，并基于时序网络生成多模态特征对应的高时序分辨率特征，进而，将高时序分辨特征输入至幕分割点预测网络，根据当前时刻附近的特征判断是否为幕分割点。进一步地，
将经过池化操作得到的低时序分辨特征输入至幕完整性评估网络，幕完整性评估网络会对整个提名区域内的特征进行采样，然后判断此提名区域的幕完整性，幕完整性评估分支使幕分割具备了长时语义建模的能力，避免过分割问题。
[0208]
进一步地，结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数，生成视频数据对应的多个目标幕作为幕分割结果。为了进一步提升在高精度幕分割需求下的算法表现，利用边界修正偏移量在小范围内对幕分割点的位置进行微调，从而使得幕分割任务具备了精细分割点定位的能力，提高了幕分割结果的精确度。
[0209]
请参阅图12，其示出了本技术实施例提供的一种视频处理装置500的结构框图。该视频处理装置500包括：模态融合模块510，用于获取视频数据及视频数据关联的文本数据进行模态融合，得到多模态特征；特征生成模块520，用于基于时序网络生成多模态特征对应的高时序分辨率特征；分割点预测模块530，用于根据幕分割点预测网络对高时序分辨率特征进行幕分割点预测，得到每个时序位置为幕分割点的概率；特征池化模块540，用于对所述高时序分辨率特征进行池化操作，得到低时序分辨率特征；完整性评估模块550，用于根据幕完整性评估网络对低时序分辨率特征进行幕完整性评估，得到每个提名区间的幕完整性评估分数；目标幕生成模块560，用于结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数，生成视频数据对应的多个目标幕。
[0210]
在一些实施例中，目标幕生成模块560可以包括：系数获取单元，用于获取每个提名区间对应的衰减系数；概率确定单元，用于基于每个时序位置为幕分割点的概率，确定每个提名区间的区间端点位置为幕分割点的概率；分数确定单元，用于基于衰减系数、区间端点位置为幕分割点的概率以及幕完整性评估分数，确定每个提名区间的预测分数；预选幕确定单元，用于根据每个提名区间的预测分数，确定多个预选幕；目标幕生成单元，用于对多个预选幕进行微调操作，得到多个预选幕对应的多个目标幕。
[0211]
在一些实施例中，目标幕生成单元可以具体用于：获取每个时序位置的边界修正偏移量；根据边界修正偏移量对多个预选幕进行微调操作，得到多个预选幕对应的多个目标幕。
[0212]
在一些实施例中，模态融合由交叉注意力网络执行，视频处理装置500还可以包括：训练数据获取模块，获取训练数据集合，训练数据集合包括视频训练特征、文本训练特征、分割点检测标签、边界修正偏移量标签以及幕完整性评估标签；预设网络获取模块，用于获取预设注意力网络、预设时序网络、预设分割网络以及预设评估网络；预设网络训练模块，用于通过训练数据集合对预设注意力网络、预设时序网络、预设分割网络以及预设评估网络进行端到端的网络联合训练，直至预设时序网络、预设分割网络以及预设评估网络满足预设条件，得到训练后的交叉注意力网络、时序网络、幕分割点预测网络以及幕完整性评估网络。
[0213]
在一些实施例中，幕分割点预测网络包括至少四个卷积块，分割点预测模块530可以包括：预测特征图生成单元，用于基于至少四个卷积块生成高时序分辨率特征对应的目标预测特征图，其中，每个卷积块包括卷积层、批归一化层和非线性层，每个卷积块中的卷积核相同和卷积步长相同；分割点概率计算单元，用于基于目标预测特征图，利用第一激活函数计算出每个时序位置为幕分割点的概率和每个时序位置的边界修正偏移量。
[0214]
在一些实施例中，预测特征图生成单元可以具体用于：将高时序分辨率特征输入
至第一卷积块进行第一卷积处理，得到第一预测特征图；将第一预测特征图输入至第二卷积块，得到第二预测特征图；将第二预测特征图输入至第三卷积块，得到第三预测特征图；将第三预测特征图输入至第四卷积块，得到目标预测特征图。
[0215]
在一些实施例中，完整性评估模块550可以包括：提名特征图确定单元，用于基于低时序分辨率特征以及采样权重矩阵，确定提名特征图；特征融合单元，用于对提名特征图进行特征融合，得到中间评估特征图；上采样单元，用于对中间评估特征图进行上采样，得到目标评估特征图；完整性评估单元，用于基于目标评估特征图，利用第二激活函数计算出每个提名区间的幕完整性评估分数。
[0216]
在一些实施例中，提名特征图确定单元可以包括：区间获取子单元，用于获取多个提名区间；矩阵生成子单元，用于基于提名区间生成采样权重矩阵；特征图确定子单元，用于基于低时序分辨率特征和采样权重矩阵的点积，确定提名特征图。
[0217]
在一些实施例中，矩阵生成子单元可以具体用于：对每个提名区间进行区间扩展，得到扩展后的扩展提名区间；在扩展提名区间中进行采样操作，得到多个采样点对应的采样权重掩码；基于多个采样权重掩码确定采样权重矩阵。
[0218]
在一些实施例中，模态融合模块510可以包括：数据获取单元，用于获取的视频数据及视频数据关联的文本数据；视频特征提取单元，用于基于视频特征提取器，提取视频数据对应的视频特征；文本特征提取单元，用于基于文本特征提取器，提取文本数据对应的文本特征；模态融合单元，用于基于视频特征和文本特征进行模态融合，得到多模态特征。
[0219]
在一些实施例中，模态融合单元可以具体用于：获取位置编码；基于位置编码生成视频特征对应的查询向量；基于位置编码生成文本数据对应的键向量和值向量；将查询向量、键向量以及值向量输入至交叉注意力网络，得到中间文本特征；根据中间文本特征以及视频特征生成多模态特征。
[0220]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0221]
在本技术所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。
[0222]
另外，在本技术各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。
[0223]
本技术提供的方案，可以获取视频数据及视频数据关联的文本数据进行模态融合，得到多模态特征，并基于时序网络生成多模态特征对应的高时序分辨率特征，进而根据幕分割点预测网络对高时序分辨率特征进行幕分割点预测，得到每个时序位置为幕分割点的概率，并对高时序分辨率特征进行池化操作，得到低时序分辨率特征，进而根据幕完整性评估网络对低时序分辨率特征进行幕完整性评估，得到每个提名区间的幕完整性评估分数，进而结合每个时序位置为幕分割点的概率与每个提名区间的幕完整性评估分数，生成视频数据对应的多个目标幕。
[0224]
如此，在幕分割点预测分支精确定位出幕分割点的同时，利用幕完整性评估分支对包含有幕分割点的提名区域进行幕完整性的评估，抑制过分割问题，从而大大提升幕分割结果的精确度。并且无需依赖镜头切分的分段处理，从而降低幕分割的计算成本，提高幕
分割的效率。
[0225]
如图13所示，本技术实施例还提供一种计算机设备600，该计算机设备600包括处理器610、存储器620、电源630和输入单元640，存储器620存储有计算机程序指令，计算机程序指令被处理器610调用时，可实执行上述的实施例提供的各种方法步骤。本领域技术人员可以理解，图中示出的计算机设备的结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：
[0226]
处理器610可以包括一个或多个处理核。处理器610利用各种接口和线路连接整个电池管理系统内的各种部分，通过运行或执行存储在存储器620内的指令、程序、代码集或指令集，调用存储在存储器620内的数据，执行电池管理系统的各种功能和处理数据，以及执行计算机设备的各种功能和处理数据，从而对计算机设备进行整体控制。可选地，处理器610可以采用数字信号处理(digital signal processing，dsp)、现场可编程门阵列(field-programmable gate array，fpga)、可编程逻辑阵列(programmable logic array，pla)中的至少一种硬件形式来实现。处理器610可集成中央处理器610(central processing unit，cpu)、图像处理器610(graphics processing unit，gpu)和调制解调器等中的一种或几种的组合。其中，cpu主要处理操作系统、用户界面和应用程序等；gpu用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器610中，单独通过一块通信芯片进行实现。
[0227]
存储器620可以包括随机存储器620(random access memory，ram)，也可以包括只读存储器620(read-only memory)。存储器620图可用于存储指令、程序、代码、代码集或指令集。存储器620可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各种方法实施例的指令等。存储数据区还可以存储计算机设备在使用中所创建的数据(比如电话本和音视频数据)等。相应地，存储器620还可以包括存储器控制器，以提供处理器610对存储器620的访问。
[0228]
电源630可以通过电源管理系统与处理器610逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源630还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
[0229]
输入单元640，该输入单元640可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
[0230]
尽管未示出，计算机设备600还可以包括显示单元等，在此不再赘述。具体在本实施例中，计算机设备中的处理器610会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器620中，并由处理器610来运行存储在存储器620中的应用程序，从而实现前述实施例提供的各种方法步骤。
[0231]
如图14所示，本技术实施例还提供一种计算机可读存储介质700，该计算机可读存储介质700中存储有计算机程序指令610，计算机程序指令710可被处理器调用以执行上述实施例中所描述的方法。
[0232]
计算机可读存储介质可以是诸如闪存、eeprom(电可擦除可编程只读存储器)、eprom、硬盘或者rom之类的电子存储器。可选地，计算机可读存储介质包括非易失性计算机
可读存储介质(non-transitory computer-readable storage medium)。计算机可读存储介质700具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。
[0233]
根据本技术的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例提供的各种可选实现方式中提供的方法。
[0234]
以上，仅是本技术的较佳实施例而已，并非对本技术作任何形式上的限制，虽然本技术已以较佳实施例揭示如上，然而并非用以限定本技术，任何本领域技术人员，在不脱离本技术技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本技术技术方案内容，依据本技术的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本技术技术方案的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：权融威张浩鑫芦清林刘威
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种机场停机位与航空器滑行路径的联合优化方法
上一篇：一种甜瓜膳食纤维饼干及其制备方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。