视频字幕去除方法及装置与流程

文档序号：33029689发布日期：2023-01-20 20:29阅读：61来源：国知局

1.本技术涉及视频技术领域，尤其涉及一种视频字幕去除方法及装置。

背景技术：

2.随着智能终端的普及，人们越来越多地在网上通过分享视频的方式进行交流。人们分享的视频在很多时候都是加了字幕或者弹幕等文字的，这些字幕或者弹幕等文字有时会影响了视频的观感。为此，我们在观看视频时，想要将视频中的了字幕或者弹幕等文字去除。
3.现有技术中，为了把视频中的文字去除，会通过视频补全和修复技术对文字的位置进行检测，然后对检测到的文字位置进行像素填充，然而，发明人发现，现有技术中像素填充效果较差，影响用户对视频的观看体验。

技术实现要素：

4.有鉴于此，现提供一种视频字幕去除方法、装置、计算机设备及计算机可读存储介质，以解决现有技术中对字幕位置进行像素填充时，效果较差，导致用户体验较差的问题。
5.本技术提供了一种视频字幕去除方法，包括：
6.从视频中获取待去除字幕的当前视频帧以及所述当前视频帧的上一帧视频帧；
7.将所述当前视频帧与所述上一帧视频帧输入至字幕去除模型中，得到所述当前视频帧中包含的字幕位置信息、所述当前视频帧相对于所述上一帧视频帧的光流图、所述光流图对应的遮挡区域信息及修复图像，所述遮挡区域信息用于确定不能采用所述光流图对所述当前视频帧中的字幕像素点进行替换的区域；
8.根据所述字幕位置信息、所述光流图、所述遮挡区域信息、所述修复图像、所述当前视频帧及所述上一帧视频帧对所述当前视频帧进行字幕去除处理，得到去除字幕的图像。
9.可选地，根据所述字幕位置信息、所述光流图、所述遮挡区域信息、所述修复图像、所述当前视频帧及所述上一帧视频帧对所述当前视频帧进行字幕去除处理，得到去除字幕的图像包括：
10.根据字幕位置信息及所述当前视频帧确定所述当前视频帧中包含的字幕像素点；
11.根据所述光流图及所述上一帧视频帧对所述当前视频帧中包含的字幕像素点进行替换，得到替换后的图像；
12.根据所述遮挡区域信息、所述修复图像及所述替换后的图像生成所述去除字幕的图像。
13.可选地，所述根据所述遮挡区域信息、所述修复图像及所述替换后的图像生成所述去除字幕的图像包括：
14.根据所述遮挡区域信息及所述修复图像确定替换像素点；
15.将所述替换像素点替换所述替换后的图像中与所述替换像素点相对应的像素点，
生成所可选地，所述字幕去除模型按照如下方式预先训练获得：
16.获取多个训练样本图像，其中，每一个训练样本图像包括第一视频帧及所述第一视频帧的上一帧视频帧；
17.根据多个所述训练样本图像中的第一视频帧中的字幕添加位置及第一视频帧对应的原始图像生成多个所述训练样本图像各自的训练标签；
18.基于多个训练样本图像及各自的训练标签对预设的神经网络模型进行训练，得到所述字幕去除模型。
19.可选地，每一个训练样本图像按照如下方式获得：
20.从不具有字幕的视频中获取第二视频帧及所述第二视频帧的上一帧视频帧；
21.在所述第二视频帧中添加字幕，得到所述第一视频帧；
22.将所述第一视频帧及所述第二视频帧的上一帧视频帧作为一个训练样本图像。
23.可选地，所述从视频中获取待去除字幕的当前视频帧以及所述当前视频帧的上一帧视频帧包括：
24.采用字幕检测模型对所述视频的每一帧视频帧进行检测，并在检测到字幕时，从所述视频中获取待去除字幕的当前视频帧以及所述当前视频帧的上一帧视频帧。
25.可选地，所述字幕去除模型包括编码器以及解码器，所述将所述当前视频帧与所述上一帧视频帧输入至字幕去除模型中，得到所述当前视频帧中包含的字幕位置信息、所述当前视频帧相对于所述上一帧视频帧的光流图、所述光流图对应的遮挡区域信息及修复图像包括：
26.将所述当前视频帧与所述上一帧视频帧输入至字幕去除模型中，通过所述编码器对所述当前视频帧与所述上一帧视频帧进行编码得到特征图，并通过所述解码器对所述特征图进行解码得得到所述当前视频帧中包含的字幕位置信息、所述当前视频帧相对于所述上一帧视频帧的光流图、所述光流图对应的遮挡区域信息及修复图像，其中，所述解码器中包含有convgru神经网络结构。
27.本技术还提供了一种视频字幕去除装置，包括：
28.获取模块，用于从视频中获取待去除字幕的当前视频帧以及所述当前视频帧的上一帧视频帧；
29.输入模块，用于将所述当前视频帧与所述上一帧视频帧输入至字幕去除模型中，得到所述当前视频帧中包含的字幕位置信息、所述当前视频帧相对于所述上一帧视频帧的光流图、所述光流图对应的遮挡区域信息及修复图像，所述遮挡区域信息用于确定不能采用所述光流图对所述当前视频帧中的字幕像素点进行替换的区域；
30.字幕处理模块，用于根据所述字幕位置信息、所述光流图、所述遮挡区域信息、所述修复图像、所述当前视频帧及所述上一帧视频帧对所述当前视频帧进行字幕去除处理，得到去除字幕的图像。
31.本技术还提供了一种计算机设备，所述计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。
32.本技术还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。
33.本实施例中通过预先训练好的字幕去除模型中的编码器对图像进行编码处理，得到特征图，然后通过解码器对特征图进行解码处理，从而预测得到待去除字幕的当前视频帧的字幕位置信息、光流图、遮挡区域信息及修复图像，进而可以根据字幕位置信息、光流图、遮挡区域信息、修复图像及待去除字幕的当前视频帧合成去除字幕后的图像。由于本技术中采用通过端到端的方式进行训练得到的字幕去除模型可以准确预测得到字幕的位置信息、光流图、遮挡区域信息及修复图像，这样，在进行像素替换与填充时，可以使得最终根据字幕的位置信息、光流图、遮挡区域信息、修复图像及待去除字幕的当前视频帧合成去除字幕后的图像更加接近原始视频帧，提高用户体验。
附图说明
34.图1为本技术实施例的视频字幕去除方法的一实施例的环境示意图；
35.图2为本技术实施例的视频字幕去除方法的另一实施例的环境示意图；
36.图3为本技术所述的视频字幕去除方法的一种实施例的流程图；
37.图4为本技术一实施方式中在视频播放的过程中，所述采用第一预设频率对所述视频的原始帧图像进行目标对象检测处理，并在检测到所述目标对象时，输出所述目标对象在所述原始帧图像中的显示区域的步骤细化流程示意图；
38.图5为本技术一实施方式中采用第一预设频率对所述视频的原始帧图像进行目标对象检测处理，并在检测到所述目标对象时，输出所述目标对象在所述原始帧图像中的显示区域的步骤细化流程示意图；
39.图6为本技术一实施方式中在视频播放的过程中，采用第一预设频率对所述视频的原始帧图像进行目标对象检测处理，并在检测到所述目标对象时，输出所述目标对象在所述原始帧图像中的显示区域的步骤细化流程示意图；
40.图7为本技术所述的视频字幕去除装置的一种实施例的程序模块图；
41.图8为本技术实施例提供的执行视频字幕去除方法的计算机设备的硬件结构示意图。
具体实施方式
42.以下结合附图与具体实施例进一步阐述本技术的优点。
43.这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
44.在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
45.应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第
一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
46.在本技术的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本技术及区别每一步骤，因此不能理解为对本技术的限制。
47.图1示意性示出了根据本技术实施例的视频字幕去除方法的环境示意图。
48.终端设备2可以被配置为基于当前视频帧及当前视频帧的上一帧实现对当前视频帧中的字幕去除，生成去除字幕后的图像。终端设备2可以包括为诸如智能手机、平板设备、膝上型计算机、工作站等。
49.终端设备2可以包括客户端2a，如视频字幕去除的应用。客户端2a可以将去除字幕后得到的图像输出(例如，显示、渲染、呈现)给用户。
50.服务器4可以通过网络3连接多个终端设备2。服务器4可以位于诸如单个场所之类的数据中心，或者分布在不同的物理位置(例如，在多个场所)中。服务器4可以经由一个或多个网络3提供服务。网络3包括各种网络设备，例如路由器，交换机，多路复用器，集线器，调制解调器，网桥，中继器，防火墙，代理设备和/或类似。网络3可以包括物理链路，例如同轴电缆链路，双绞线电缆链路，光纤链路，其组合等。网络3可以包括无线链路，诸如蜂窝链路，卫星链路，wi-fi链路等。
51.服务器4可以为应用服务器，用于提供一些功能服务。服务器4包括多个网络节点。多个网络节点可以处理与消息服务相关联的任务。多个网络节点可以被实现为一个或多个计算设备，一个或多个处理器，一个或多个虚拟计算实例，它们的组合，和/或类似的东西。多个网络节点可以由一个或多个计算机设备实现。一个或多个计算机设备可以包括虚拟化的计算实例。虚拟化的计算实例可以包括虚拟机，例如计算机系统，操作系统，服务器等的仿真。计算机设备可以基于虚拟映像和/或定义用于仿真的特定软件(例如，操作系统，专用应用程序，服务器)的其他数据，由计算机设备加载虚拟机。随着对不同类型的处理服务的需求改变，可以在一个或多个计算机设备上加载和/或终止不同的虚拟机。可以实现管理程序来管理同一计算机设备上不同虚拟机的使用。
52.参阅图2，其为本技术一实施例的视频字幕去除方法的流程示意图。本技术的视频字幕去除方法可以应用于视频字幕去除客户端中。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。从图中可以看出，本实施例中所提供的视频字幕去除方法包括：
53.步骤s21、从视频中获取待去除字幕的当前视频帧以及所述当前视频帧的上一帧视频帧。
54.具体地，可以通过字幕检测模型对视频中的每一帧视频帧进行检测，并在检测到视频帧中存在字幕时，可以将该存在字幕的视频帧作为待去除字幕的当前视频帧，这样，在确定待去除字幕的当前视频帧后，即可以从所述视频中获取待去除字幕的当前视频帧以及所述当前视频帧的上一帧视频帧，以便后续可以将这两帧视频帧输入至字幕去除模型进行字幕去除处理。
55.在本实施例中，所述字幕检测模型可以通过训练样本数据对神经网络模型进行训练得到，通过该字幕检测模型可以从视频帧中检测到其是否存在字幕。在一实施方式中，所述字幕检测模型也可以采用现有技术中的开源的字幕检测模型，比如，ocr识别模型。
56.可以理解的是，在获取到第一个待去除字幕的当前视频帧后，会继续对视频中的其他视频帧进行检测处理，以将其中包含的所有需要进行字幕去除处理的视频帧找出。
57.需要说明的是，本实施例中的字幕可以为传统意义的字幕，也可以为弹幕，甚至可以为水印。
58.步骤s21、将所述当前视频帧与所述上一帧视频帧输入至字幕去除模型中，得到所述当前视频帧中包含的字幕位置信息、所述当前视频帧相对于所述上一帧视频帧的光流图、所述光流图对应的遮挡区域信息及修复图像，所述遮挡区域信息用于确定不能采用所述光流图对所述当前视频帧中的字幕像素点进行替换的区域。
59.具体地，所述字幕去除模型可以为基于cnn结构(convolutional neural network，卷积神经网络)训练得到的。其中，所述字幕去除模型可以包括编码器以及解码器。
60.在一示例性的实施方式中，所述字幕去除模型包括编码器以及解码器，所述将所述当前视频帧与所述上一帧视频帧输入至字幕去除模型中，得到所述当前视频帧中包含的字幕位置信息、所述当前视频帧相对于所述上一帧视频帧的光流图、所述光流图对应的遮挡区域信息及修复图像包括：将所述当前视频帧与所述上一帧视频帧输入至字幕去除模型中，通过所述编码器对所述当前视频帧与所述上一帧视频帧进行编码得到特征图，并通过所述解码器对所述特征图进行解码得得到所述当前视频帧中包含的字幕位置信息、所述当前视频帧相对于所述上一帧视频帧的光流图、所述光流图对应的遮挡区域信息及修复图像，其中，所述解码器中包含有convgru神经网络结构
61.其中，cnn编码器可以对输入的当前视频帧与上一帧视频帧进行编码处理，得到特征隐码，又称特征图(feature map)。在一具体实施方式中，可以将当前视频帧与上一帧视频中的各自三通道(总共6通道)的像素值输入至cnn编码器中进行编码，得到512x32x32的特征图。
62.其中，通过cnn解码器可以对特征图进行解码还原，以将特征图还原成字幕位置信息、所述当前视频帧相对于所述上一帧视频帧的光流图、所述光流图对应的遮挡区域信息及修复图像。
63.在本实施例中，所述字幕位置信息为字幕去除模型对所述当前视频帧与所述上一帧视频帧进行处理后得到的预测输出信息，所述字幕位置信息可以采用字幕的掩码来表示字幕的像素级位置，比如，某一个像素点为字幕像素点，则可以采用“1”表示，若某一个像素点不为字幕像素点，则可以采用“0”表示，这样，在解码输出的字幕位置信息时，可以输出n个掩码，n的取值为所述当前视频帧包含的总像素点的数量。
64.在本实施例中，所述光流图为字幕去除模型对所述当前视频帧与所述上一帧视频帧进行处理后得到的预测输出信息，所述光流图用于描述当前视频帧中的每一个像素点相对于所述当前视频帧的上一帧视频帧的每一个像素点的变化情况，即当前视频帧中的每一个像素点相对于上一帧视频帧中对应像素点是否发生变化。在一实施方式中，所述光流图也可以采用掩码的方式来表示每一个像素点的变化情况，比如，采用“1”表示当前视频帧的像素点相对于上一帧视频帧的像素点发生了变化，采用“0”表示当前视频帧的像素点相对于上一帧视频帧的像素点没有发生变化。这样，在解码输出的时候，也可以输出由n个掩码组成的光流图，n的取值为所述当前视频帧包含的总像素点的数量。
65.其中，光流(optical flow or optic flow)是关于视域中的物体运动检测中的概念。用来描述相对于观察者的运动所造成的观测目标、表面或边缘的运动。光流法在样型识别、计算机视觉以及其他影像处理领域中非常有用，可用于运动检测、物件切割、碰撞时间与物体膨胀的计算、运动补偿编码，或者通过物体表面与边缘进行立体的测量等。
66.在本实施例中，所述遮挡区域信息用于确定不能采用所述光流图对所述当前视频帧中的字幕像素点进行替换的区域，即光流有遮挡(也可以称有变化)的区域的像素点不能使用上一帧视频帧的像素点进行替换。在一实施方式中，也可以采用掩码的方式来表示像素级的遮挡区域，比如，采用“1”表示当前视频帧的像素点不能采用所述光流图的方式对所述当前视频帧中的对应像素点进行替换，采用“0”表示当前视频帧的像素点可以采用所述光流图的方式对所述当前视频帧中的对应像素点进行替换。这样，在解码输出的时候，也可以输出由n个掩码组成的遮挡区域信息，n的取值为所述当前视频帧包含的总像素点的数量。
67.在本实施例中，所述修复图像为为字幕去除模型对所述当前视频帧与所述上一帧视频帧进行处理后得到的预测输出图像，所述修复图像为用于对字幕区域进行修复的图像。具体而言，在采用修复图像对字幕区域进行修复时，采用修复图像中与字幕区域中相对应位置的像素点替代字幕区域中像素点，实现字幕区域的修复。
68.在一示例性的实施方式中，为了使得解码器解码得到的字幕位置信息、光流图、遮挡区域信息及修复图像更加准确，所述解码器中包含有convgru神经网络结构。
69.其中，convgru神经网络结构是根据convlstm进行了修改，将lstm转化为了gru进行计算的神经网络结构。convlstm是使用卷积核代替lstm中的全连接层，即将全连接变为局部连接，使用gru进行对比，基于torch进行计算的神经网络结构。
70.在本实施例中，通过在解码器中增加convgru神经网络结构，从而可以保留更多时序信息，使得利用上一帧信息来做去字幕和修复处理操作得到的图像更加准确。
71.步骤s22、根据所述字幕位置信息、所述光流图、所述遮挡区域信息、所述修复图像、所述当前视频帧及所述上一帧视频帧对所述当前视频帧进行字幕去除处理，得到去除字幕的图像。
72.具体地，在得到字幕位置信息后，可以通过该字幕位置信息来确定当前视频帧中包含的字幕的位置，然后可以根据光流图对字幕的位置像素进行像素首次替换处理，从而得到替换后的图像，之后，可以根据遮挡区域信息确定字幕对应的位置区域中属于遮挡区域的目标区域，最后，根据修复图像对目标区域对应的字幕位置像素进行再次替换处理，从而得到最终的去除字幕的图像。
73.在一示例性的实施方式中，参阅图3，所述根据所述字幕位置信息、所述光流图、所述遮挡区域信息、所述修复图像、所述当前视频帧及所述上一帧视频帧对所述当前视频帧进行字幕去除处理，得到去除字幕的图像包括：
74.步骤s30，根据字幕位置信息及所述当前视频帧确定所述当前视频帧中包含的字幕像素点。
75.具体的，由于字幕位置信息中包含有属于字幕像素点的像素级位置，因而，根据该字幕位置信息即可以从当前视频帧中确定具体哪些像素点属于字幕像素点。
76.作为示例，字幕位置信息为[1,0,0,1,1,0]，则表明当前视频帧中的第1个像素点、
第4个像素点及第5个像素点为字幕像素点。
[0077]
步骤s31，根据所述光流图及所述上一帧视频帧对所述当前视频帧中包含的字幕像素点进行替换，得到替换后的图像。
[0078]
具体地，由于光流图中记载了当前视频帧中具体哪些像素点发生了变化，因此，在获取到光流图后，先可以从出找出所述当前视频帧中包含的字幕像素点所对应的光流信息，然后根据该光流信息确定是否需要从所述上一帧视频帧中获取对应的像素点，比如根据找到的光流信息确定字幕像素点中字幕像素点a及字幕像素点b没有发生变化，则可以从上一帧视频帧中获取与所述字幕像素点a及字幕像素点b相对应的两个字幕像素点来替换该字幕像素点a及字幕像素点b，从而，得到替换后的图像。
[0079]
步骤s32，根据所述遮挡区域信息、所述修复图像及所述替换后的图像生成所述去除字幕的图像。
[0080]
具体地，由于所述遮挡区域信息中记载了具体哪些像素点不能采用光流图的方式对像素点进行像素替换处理，因此，在确定了不能采用光流图的方式对像素点进行像素替换处理的目标像素点后，可以继续采用修复图像中的像素点对目标像素点进行像素替换处理，从而生成所述去除字幕的图像。
[0081]
在一示例性的实施方式中，参阅图4，所述根据所述遮挡区域信息、所述修复图像及所述替换后的图像生成所述去除字幕的图像包括：
[0082]
步骤s40，根据所述遮挡区域信息及所述修复图像确定替换像素点。
[0083]
步骤s41，将所述替换像素点替换所述替换后的图像中与所述替换像素点相对应的像素点，生成所述去除字幕的图像。
[0084]
具体地，由于所述遮挡区域信息记载了具体哪些字幕像素点不能采用所述光流图的方式对所述当前视频帧中的字幕像素点进行替换，比如，记载了字幕像素点c不能采用光流图的方式对所述当前视频帧中的字幕像素点进行替换，则会从所述修复图像中获取与所述字幕像素点c对应的替换像素点c，然后将该替换像素点c替换所述字幕像素点c，从而生成所述去除字幕的图像。
[0085]
在一示例性的实施方式中，参阅图5，字幕去除模型按照如下方式预先训练获得：
[0086]
步骤s50，获取多个训练样本图像，其中，每一个训练样本图像包括第一视频帧及所述第一视频帧的上一帧视频帧。
[0087]
具体地，可以通过对不具有字幕的视频中的视频帧进行字幕的添加处理操作，从而得到一个训练样本图像。
[0088]
在一示例性的实施方式中，参阅图6，每一个训练样本图像按照如下方式获得：步骤s60，从不具有字幕的视频中获取第二视频帧及所述第二视频帧的上一帧视频帧；步骤s61，在所述第二视频帧中添加字幕，得到所述第一视频帧；步骤s62，将所述第一视频帧及所述第二视频帧的上一帧视频帧作为一个训练样本图像。
[0089]
具体地，针对每一个训练样本图像，从而从不具有字幕的视频中取出所述第二视频帧及所述第二视频帧的上一帧视频帧，其中，所述第二视频帧为不具有字幕的视频中除第一帧之外的任意一帧视频帧。在得到所述第二视频帧后，可以在该视频帧中的任意区域上添加字幕，并将添加好字幕的第二视频帧作为所述第一视频帧。在对第二视频帧进行字幕添加处理后，可以将所述第一视频帧及所述第二视频帧的上一帧视频帧作为一个训练样
本图像。在一实施方式中，在将第一视频帧及所述第二视频帧的上一帧视频帧作为一个训练样本图像之前，也可以对第二视频帧的上一帧视频帧进行字幕添加处理，然后，将添加好字幕的第二视频帧的上一帧视频帧与所述第一视频帧作为一个训练样本图像。
[0090]
在一示例性的实施方式中，为了提高训练样本的多样性，在生成训练样本图像时，可以在第二视频帧中的多种位置添加各种字体以及各种尺寸的字幕。
[0091]
步骤s51，根据多个所述训练样本图像中的第一视频帧中的字幕添加位置及第一视频帧对应的原始图像生成多个所述训练样本图像各自的训练标签。
[0092]
具体地，所述原始图像为训练样本图像中的第一视频帧在未添加字幕之前的图像，即为所述第二视频帧。
[0093]
在本实施例中，在对第二视频帧添加字幕时，记载字幕添加位置。
[0094]
在生成训练标签时，根据字幕添加位置生成第一训练标签，根据原始图像生成第二训练标签。所述第一训练标签及所述第二训练标签组成所述训练样本图像各自的训练标签。
[0095]
在一实施例方式中，可以根据字幕添加位置生成掩码形式的第一训练标签；可以将原始图像的所有像素点作为第二训练标签。
[0096]
步骤s52，基于多个训练样本图像及各自的训练标签对预设的神经网络模型进行训练，得到所述字幕去除模型。
[0097]
具体地，在进行训练的过程中，对于字幕位置信息、光流图以及遮挡区域信息，可以将其定义为分类问题进行预测输出。
[0098]
在本实施例中，在进行训练时，可以采用交叉熵作为损失函数，以保证端到端的训练结果尽可能接近原始图像。
[0099]
本实施例中通过预先训练好的字幕去除模型中的编码器对图像进行编码处理，得到特征图，然后通过解码器对特征图进行解码处理，从而预测得到待去除字幕的当前视频帧的字幕位置信息、光流图、遮挡区域信息及修复图像，进而可以根据字幕位置信息、光流图、遮挡区域信息、修复图像及待去除字幕的当前视频帧合成去除字幕后的图像。由于本技术中采用通过端到端的方式进行训练得到的字幕去除模型可以准确预测得到字幕的位置信息、光流图、遮挡区域信息及修复图像，这样，在进行像素替换与填充时，可以使得最终根据字幕的位置信息、光流图、遮挡区域信息、修复图像及待去除字幕的当前视频帧合成去除字幕后的图像更加接近原始视频帧，提高用户体验。
[0100]
参阅图7所示，是本技术视频字幕去除装置70一实施例的程序模块图。
[0101]
本实施例中，所述视频字幕去除装置70包括一系列的存储于存储器上的计算机程序指令，当该计算机程序指令被处理器执行时，可以实现本技术各实施例的视频字幕去除功能。在一些实施例中，基于该计算机程序指令各部分所实现的特定的操作，视频字幕去除装置70可以被划分为一个或多个模块，具体可以划分的模块如下：
[0102]
获取模块71，用于从视频中获取待去除字幕的当前视频帧以及所述当前视频帧的上一帧视频帧；
[0103]
输入模块72，用于将所述当前视频帧与所述上一帧视频帧输入至字幕去除模型中，得到所述当前视频帧中包含的字幕位置信息、所述当前视频帧相对于所述上一帧视频帧的光流图、所述光流图对应的遮挡区域信息及修复图像，所述遮挡区域信息用于确定不
能采用所述光流图对所述当前视频帧中的字幕像素点进行替换的区域；
[0104]
字幕处理模块73，用于根据所述字幕位置信息、所述光流图、所述遮挡区域信息、所述修复图像、所述当前视频帧及所述上一帧视频帧对所述当前视频帧进行字幕去除处理，得到去除字幕的图像。
[0105]
在一示例性的实施方式中，字幕处理模块73，还用于根据字幕位置信息及所述当前视频帧确定所述当前视频帧中包含的字幕像素点；根据所述光流图及所述上一帧视频帧对所述当前视频帧中包含的字幕像素点进行替换，得到替换后的图像；根据所述遮挡区域信息、所述修复图像及所述替换后的图像生成所述去除字幕的图像。
[0106]
在一示例性的实施方式中，字幕处理模块73，还用于根据所述遮挡区域信息及所述修复图像确定替换像素点；将所述替换像素点替换所述替换后的图像中与所述替换像素点相对应的像素点，生成所述去除字幕的图像。
[0107]
在一示例性的实施方式中，视频字幕去除装置70还包括训练模块。
[0108]
所述训练模块，用于获取多个训练样本图像，其中，每一个训练样本图像包括第一视频帧及所述第一视频帧的上一帧视频帧；根据多个所述训练样本图像中的第一视频帧中的字幕添加位置及第一视频帧对应的原始图像生成多个所述训练样本图像各自的训练标签；基于多个训练样本图像及各自的训练标签对预设的神经网络模型进行训练，得到所述字幕去除模型。
[0109]
在一示例性的实施方式中，所述训练模块，还用于从不具有字幕的视频中获取第二视频帧及所述第二视频帧的上一帧视频帧；在所述第二视频帧中添加字幕，得到所述第一视频帧；将所述第一视频帧及所述第二视频帧的上一帧视频帧作为一个训练样本图像。
[0110]
在一示例性的实施方式中，所述获取模块71，还用于采用字幕检测模型对所述视频的每一帧视频帧进行检测，并在检测到字幕时，从所述视频中获取待去除字幕的当前视频帧以及所述当前视频帧的上一帧视频帧。
[0111]
在一示例性的实施方式中，输入模块72，还用于将所述当前视频帧与所述上一帧视频帧输入至字幕去除模型中，通过所述编码器对所述当前视频帧与所述上一帧视频帧进行编码得到特征图，并通过所述解码器对所述特征图进行解码得得到所述当前视频帧中包含的字幕位置信息、所述当前视频帧相对于所述上一帧视频帧的光流图、所述光流图对应的遮挡区域信息及修复图像，其中，所述解码器中包含有convgru神经网络结构。
[0112]
图8示意性示出了根据本技术实施例的适于实现视频字幕去除方法的计算机设备8的硬件架构示意图。本实施例中，计算机设备8是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图8所示，计算机设备8至少包括但不限于：可通过系统总线相互通信链接存储器111、处理器121、网络接口122。其中：
[0113]
存储器111至少包括一种类型的计算机可读存储介质，该可读存储介质可以是易失性的，也可以是非易失性的，具体而言，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器111可以是计算机设备8的内部存储模块，例如该计
算机设备8的硬盘或内存。在另一些实施例中，存储器111也可以是计算机设备8的外部存储设备，例如该计算机设备8上配备的插接式硬盘，智能存储卡(smart media card，简称为smc)，安全数字(secure digital，简称为sd)卡，闪存卡(flash card)等。当然，存储器111还可以既包括计算机设备8的内部存储模块也包括其外部存储设备。本实施例中，存储器111通常用于存储安装于计算机设备8的操作系统和各类应用软件，例如视频字幕去除方法的程序代码等。此外，存储器111还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0114]
处理器121在一些实施例中可以是中央处理器(central processing unit，简称为cpu)、控制器、微控制器、微处理器、或其它视频字幕去除芯片。该处理器121通常用于控制计算机设备8的总体操作，例如执行与计算机设备8进行数据交互或者通信相关的控制和处理等。本实施例中，处理器121用于运行存储器111中存储的程序代码或者处理数据。
[0115]
网络接口122可包括无线网络接口或有线网络接口，该网络接口122通常用于在计算机设备8与其它计算机设备之间建立通信链接。例如，网络接口122用于通过网络将计算机设备8与外部终端相连，在计算机设备8与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(global system of mobile communication，简称为gsm)、宽带码分多址(wideband code division multiple access，简称为wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi-fi等无线或有线网络。
[0116]
需要指出的是，图8仅示出了具有部件111～122的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。
[0117]
在本实施例中，存储于存储器111中的视频字幕去除方法可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器121)所执行，以完成本技术。
[0118]
本技术实施例提供了一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的视频字幕去除方法的步骤。
[0119]
本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，简称为smc)，安全数字(secure digital，简称为sd)卡，闪存卡(flash card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中的视频字幕去除方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0120]
以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到至少两个网络单元上。可以根据实际的需要筛选出其中的部分或者全部模块来实现本技术实施例方案的目的。本领域普通技术人员在不付出
创造性的劳动的情况下，即可以理解并实施。
[0121]
通过以上的实施方式的描述，本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory，rom)或随机存储记忆体(randomaccessmemory，ram)等。
[0122]
最后应说明的是：以上各实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述各实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何涛
技术所有人：上海哔哩哔哩科技有限公司
我是此专利的发明人

上一篇：一种基于多尺度特征投票的点云配准方法及系统
上一篇：显示界面的布局控制方法、装置、设备及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。