一种视频字幕的遮挡方法、装置、存储介质及电子设备与流程

文档序号：19183859发布日期：2019-11-20 01:17阅读：402来源：国知局

本发明涉及数据处理技术领域，具体涉及一种视频字幕的遮挡方法、装置、存储介质及电子设备。

背景技术：

在观看或者使用一些视频时，有相当一部分观众出于不同的原因并不希望在视频中看到字幕，因此，针对这部分群体就有去除字幕的需要。

传统的字幕遮挡方案中，对mv(musicvideo，音乐视频)等视频中的字幕进行遮挡时，多是采用静态遮挡，在视频的播放过程中，无论是视频开头的前奏部分还是无字幕的间奏部分，进行全时间段的无差别遮挡，而且往往难以准确定位字幕的位置，遮挡面积较大，影响用户体验。

技术实现要素：

本发明实施例提供一种视频字幕的遮挡方法、装置、存储介质及电子设备，旨在实现针对出现的时间和位置对视频中的字幕进行动态遮挡。

本发明实施例提供一种视频字幕的遮挡方法，包括：

获取待处理视频和所述待处理视频对应的字幕数据；

获取所述字幕数据中的时间标签，并根据所述时间标签从所述待处理视频中提取目标视频帧；

根据预设的文本检测网络模型，识别所述目标视频帧的字幕文本在所述目标视频帧中的位置；

在所述待处理视频的播放过程中，根据所述字幕文本在所述目标视频帧中的位置对所述时间标签对应的时间段内的字幕进行动态遮挡。

本发明实施例还提供一种视频字幕的遮挡装置，包括：

数据获取单元，用于获取待处理视频和所述待处理视频对应的字幕数据；

视频帧确定单元，用于获取所述字幕数据中的时间标签，并根据所述时间标签从所述待处理视频中提取目标视频帧；

字幕识别单元，用于根据预设的文本检测网络模型，识别所述目标视频帧的字幕文本在所述目标视频帧中的位置；

字幕遮挡单元，用于在所述待处理视频的播放过程中，根据所述字幕文本在所述目标视频帧中的位置对所述时间标签对应的时间段内的字幕进行动态遮挡。

本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一视频字幕的遮挡方法。

本发明实施例提供的视频字幕的遮挡方案，获取待处理视频和该待处理视频的字幕数据，获取字幕数据中的时间标签，根据时间标签从待处理视频中提取目标视频帧，目标视频帧中均包含字幕，接下来，根据预设的文本检测网络模型识别目标视频帧中的字幕文本在所述目标视频帧中的位置，在待处理视频的播放过程中，根据字幕文本在所述目标视频帧中的位置对时间标签对应的时间段内的字幕进行动态遮挡，通过本发明的方案，通过字幕数据中的时间标签精准定位字幕出现的时间段，根据预设的文本检测网络模型准确识别字幕在视频画面中的空间位置，故在待处理视频的播放过程中，可以针对字幕出现的时间段和在画面中的空间位置，对待处理视频中的字幕进行动态遮挡，而那些没有字幕出现的时间段，例如视频开头的前奏部分、间奏部分等无字幕出现的视频画面均不会被遮挡，能够有效提升用户体验。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的视频字幕的遮挡方法的第一流程示意图；

图1b是本发明实施例提出的视频字幕的遮挡方法中ctpn模型的网络结构示意图；

图1c是本发明本实施例提出的视频字幕的遮挡方法中目标视频帧的文本定位示意图；

图1d是本发明本实施例提出的视频字幕的遮挡方法中字幕在视频画面中的位置示意图；

图1e是本发明本实施例提出的视频字幕的遮挡方法中第一文本框聚合为第二文本框的示意图；

图2是本发明实施例提供的视频字幕的遮挡方法的第二流程示意图；

图3a是本发明实施例提供的视频字幕的遮挡装置的第一种结构示意图；

图3b是本发明实施例提供的视频字幕的遮挡装置的第二种结构示意图；

图3c是本发明实施例提供的视频字幕的遮挡装置的第三种结构示意图；

图4是本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例提供一种视频字幕的遮挡方法，该视频字幕的遮挡方法的执行主体可以是本发明实施例提供的视频字幕的遮挡装置，或者集成了该视频字幕的遮挡装置的电子设备，其中该视频字幕的遮挡装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。

如图1a所示，该视频字幕的遮挡方法的具体流程可以如下：

101、获取待处理视频和所述待处理视频对应的字幕数据。

本发明实施例提出的方法可以应用于对具有字幕数据的视频进行字幕的遮挡，其中，字幕数据中包含有时间标签，时间标签表示每行字幕的播放时间和持续时间。接下来，以音乐视频为例对本方案的实施例进行说明，例如，电子设备上安装有可以播放音乐视频的应用程序，使用该应用程序播放音乐视频的过程中，可以使用本发明实施例提出的方法对字幕进行动态遮挡。比如，当接收到音乐视频播放指令时，确定所述播放指令对应的音乐视频，将该音乐视频作为待处理视频，从电子设备获取视频数据和对应的字幕数据。

例如，获取待播放的音乐视频作为所述待处理视频，从该音乐视频中获取字幕数据，对于音乐视频来说，字幕数据可以是歌词文件，例如qrc格式的歌词文件。

其中，qrc格式的歌词文件的形式如下：

[开始时间t1，持续时间t1]歌词(开始时间t11，持续时间t11)歌词(开始时间t12，持续时间t12)……)；

[开始时间t2，持续时间t2]歌词(开始时间t21，持续时间t21)歌词(开始时间t22，持续时间t22……)；

……

[开始时间tn，持续时间tn]歌词(开始时间tn1，持续时间tn1)歌词(开始时间tn2，持续时间tn2……)。

方括号和小括号内的数据即为时间标签，方括号内的时间标签表示一行歌词的播放开始时间和持续时间，小括号内的时间标签该行歌词中每个字的播放开始时间和持续时间，其时间单位均为毫秒(ms)。此外，可以理解的是，t1+t1＝t2，……tn-1+tn-1＝tn，其中，n为字幕的行数。

102、获取所述字幕数据中的时间标签，并根据所述时间标签从所述待处理视频中提取目标视频帧。

在获取到字幕数据后，以字幕行为单位对字幕数据进行分析。当字幕数据为qrc格式的歌词文件时，歌词行即字幕行，歌词文件中的一行歌词一般为一行字幕。每一行字幕的出现时间以及在音乐视频中持续的时长可以根据字幕行对应的时间标签中获取，即上述例子的中括号中的时间标签。

在一些实施例中，为了减少数据计算量，提高字幕定位的效率。针对每行字幕，取每行字幕对应的一张视频帧作为目标视频帧进行分析。例如，获取所述字幕数据中的时间标签，并根据所述时间标签从所述待处理视频中提取目标视频帧，可以包括：

确定所述字幕数据包含的多个字幕行；

从所述字幕数据中获取每一字幕行的时间标签，其中，所述时间标签包括字幕行的起始时间和持续时长；

根据所述时间标签，从所述待处理视频获取每一字幕行的中间时刻的视频帧，作为目标视频帧。

假设待处理的音乐视频中一共有n行字幕，则获取这n行字幕中每一行字幕对应的时间标签，根据时间标签中的播放开始时间和持续时间可以得到一行字幕的在画面中显示的开始时间和结束时间，根据开始时间和结束时间计算该字幕行的中间时刻。此外，视频是由一系列连续的视频帧图像组成的，每一帧视频帧有对应的播放时间。因此，可以获取字幕行的中间时刻的视频帧作为该字幕行对应的视频帧，按照这样的方式可以获取到字幕数据中每一行字幕对应的目标视频帧。假设对于有n行字幕的音乐视频，则可以获取到n张目标视频帧。

103、根据预设的文本检测网络模型，识别所述目标视频帧的字幕文本在所述目标视频帧中的位置。

在确定目标视频帧之后，将目标视频帧作为字幕文本识别的对象，进行分析。具体地，使用文本检测模型对目标视频帧进行检测，精准定位字幕在视频画面中的空间位置。

其中，字幕检测实质上属于文本检测的范畴，本发明实施例的方案在于对图像中的文本进行检测。本发明实施例中采用ctpn(connectionisttextproposalnetwork，连接文本提案网络)模型作为文本检测网络模型识别目标视频帧中的文本，其中，ctpn模型是在faster-rcnn(faster-regionswithconvolutionalneuralnetworks，快速区域卷积神经网络)模型的基础上串联lstm(longshort-termmemory，长短期记忆网络)模块构成的。

参照图1b所示，为本发明实施例提出的视频字幕的遮挡方法中ctpn模型的网络结构示意图。在本申请实施例中，采用ctpn模型对图片中的文本行进行准确定位，其基本做法是，在fastrcnn检测框架基础上引入区域建议网络(rpn，regionproposalnetwork)，直接在卷积层获得的featuremap(特征图)上生成的一系列适当尺寸的文本proposals(预选框)进行文本行的检测；通过roi(regionofinterest)pooling层为多种尺寸参考框产生出归一化固定尺寸的区域特征。接下来，使用blstm(bidirectionallongshort-termmemory，双向长短时记忆网络)层提取字符序列上下文特征，然后通过fc(fullconnected，全连接)层，末端经过预测分支输出各个文字块的坐标值和分类结果概率值。在数据后处理阶段，将合并相邻的小文字块为文本行。

其中，在本发明实施例中，按照如下方式训练ctpn模型：获取预设数量的无字幕图片；根据多种预设语种、预设文本格式的文字生成样本字幕；将所述样本字幕添加至所述无字幕图片上，生成样本图片；为所述样本图片添加位置标签；根据所述样本图片训练所述ctpn模型，确定所述ctpn模型的模型参数。

其中，无字幕图片可以从一些开源图片库中获取，例如，从开源库openimage中随机选取图片，图片中基本都没有文字。获取到无字幕图片后，采用在无字幕图片上添加字幕的方法构建字幕数据集，为了使本方案适用于多种语种和文字格式的字幕的遮挡，可以根据需要选择使用多种预设语种、预设文本格式的文字生成样本字幕，例如，针对中文简体、中文繁体、英文、日文、韩文的五种字体，随机生成不同文字大小、不同文本颜色的多个样本字幕数据，例如，构成10万条样本字幕数据，将这些样本字幕数据添加至获取的多张无字幕图片上，构成10万张样本图片。为样本图片添加训练标签，其中，训练标签为样本字幕数据在图像上的位置信息，位置信息一般表示为矩形框，以如下格式表示(x，y，w，h)，其中，(x，y)是文字所在矩形框的左上角坐标，w和h是矩形框的宽和高。使用具有标签的样本图片训练ctpn模型，确定ctpn模型的模型参数。

ctpn模型基于上述原理识别n张目标视频帧中的字幕文本在所述目标视频帧中的位置，由于在一帧视频帧上，字幕中文字与文字之间的距离可能不相同，因此，通过ctpn模型识别一帧目标视频帧，可能会得到多个文本框，参照图1c所示，为本发明本实施例提出的视频字幕的遮挡方法中目标视频帧的文本定位示意图，其中，目标视频帧中的一行字幕被识别为三个文本框。

基于此，可以采用如下方式表示一帧目标视频帧中的文本框的位置：针对第i帧目标视频帧，其第k个文本框的位置表示为(xik,yik,wik,hik)。

对于音乐视频来说，绝大多数情况下，字幕会出现在视频的若干特定位置。例如，在视频画面的左侧、右侧或者下方等，不同的字幕行在视频画面中的位置可能不一样，参照图1d所示，为本发明本实施例提出的视频字幕的遮挡方法中字幕在视频画面中的位置示意图。比如在一首音乐视频中，有十二句歌词，构成十二个字幕行，第一行至第四行字幕出现在视频画面的左侧，第五行至第八行字幕出现在视频画面的下方，第九行至第十二行字幕出现在视频画面的右侧。

并且，除了字幕文本之外，在视频画面中可能还存在其他的干扰文字，例如，衣服上的文字、背景文字、广告牌上的文字等。因此，在对字幕文本进行识别时，也要考虑如何消除这些干扰文字产生的影响，避免在遮挡字幕时，将这些干扰文字也进行了遮挡处理，影响用户观看视频。

此外，由于一行字幕中的文字之间的间距可能不同，这种情况下，一行字幕可能被识别为多个文本框。为了进一步提高对字幕进行准确遮挡，本发明实施例采用预设的聚类算法对n帧目标视频帧的全部文本框进行聚类处理。同时，通过聚类还能够识别出视频画面中的干扰文字的异常文本框。

在一些实施例中，根据预设的文本检测网络模型，识别所述目标视频帧的字幕文本在所述目标视频帧中的位置，可以包括：

a、根据预设的文本检测网络模型识别所述目标视频帧中的文本，生成多个第一文本框。

使用ctpn模型识别n张目标视频帧中的文本，生成多个第一文本框，针对第i帧目标视频帧，其第k个第一文本框的位置表示为(xik,yik,wik,hik)。

b、根据预设的聚类算法对所述多个第一文本框进行聚类，生成多个文本框类别，并根据聚类结果删除所述多个第一文本框中的异常文本框。

对全部的目标视频帧中的第一文本框进行聚类，例如，采用dbscan聚类算法(density-basedspatialclusteringofapplicationswithnoise，具有噪声的基于密度的聚类方法)，对全部的第一文本框进行聚类。其中，对于dbscan聚类算法来说，预先设置好聚类半径和密度参数即可，由于在本发明实施例场景中，事先并不知道字幕出现位置的数量，因此无需设置类别数量。

此外，本发明提供一种计算两个第一文本框之间的距离函数，距离函数的计算公式如下：

其中，b1、b2分别为两个第一文本框的面积，|b1∩b2|为所述两个第一文本框交集部分的面积。用二者面积的最小值作为分母部分，这样，即使两个文本框大小差别较大(字幕分散的时候某句字幕可能会被识别为若干个文本框)，也能够准确计算两个文本框之间的距离。

在按照dbscan聚类算法进行聚类时，按照上述距离函数计算两个文本框之间的距离，通过聚类处理，将被一行字幕被分割得到的多个第一文本框合并为一个簇，即一个文本框类别。其中，干扰文字一般不会从头到尾一直出现，只会在少数视频帧中出现，因此，在聚类过程中，干扰文字的第一文本框会被识别为离散文本框，不会被分到任何一个文本框类别，这些离散文本框即为异常文本框，可以将其删除。

c、按照预设算法对各文本框类别包含的第一文本框进行聚合，生成多个第二文本框，其中，一个第二文本框对应多个第一文本框。

d、获取所述目标视频帧中第一文本框对应的第二文本框的位置，将所述位置作为所述目标视频帧对应的字幕文本在所述目标视频帧中的位置。

将属于一个文本框类别的多个第一文本框聚合为一个第二文本框，例如，选取该文本框类别位置的最大闭包作为聚合结果，聚合结果的位置即为单帧目标视频帧的字幕文本在所述目标视频帧中的位置。参照图1e所示，为本发明本实施例提出的视频字幕的遮挡方法中文本框聚合示意图。经过聚类处理后，出现在视频画面同一位置处的字幕行的第一文本框会被分到同一文本框类别。图1d中的出现在视频画面下方的第五行至第八行字幕中，每一行字幕的第一文本框的数量和具体位置可能不同，但是在经过聚类合处理后，第五行至第八行字幕的多个第一文本框对应于同一个文本框类别，再对第五行至第八行字幕的全部第一文本框经过聚合处理后，第五行至第八行字幕的多个第一文本框聚合为一个第二文本框，即第五行至第八行字幕具有相同的字幕文本在所述目标视频帧中的位置。同理可得，第一行至第四行字幕具有相同的字幕文本在所述目标视频帧中的位置，第九行至第十二行字幕具有相同的字幕文本在所述目标视频帧中的位置。

经过聚类处理和聚合处理之后，将多个第一文本框转换为多个第二文本框，确定每一张目标视频帧对应的第二文本框。由于一个字幕行对应与一张目标视频帧，因此，确定目标视频帧对应的第二文本框的位置，相当于确定了字幕行对应的第二文本框的位置。

其中，目标视频帧有多个第一文本框，将其第一文本框所属的第二文本框的位置作为该目标视频帧对应的字幕文本在所述目标视频帧中的位置。

104、在所述待处理视频的播放过程中，根据所述字幕文本在所述目标视频帧中的位置对所述时间标签对应的时间段内的字幕进行动态遮挡。

由于字幕数据中包含有每一字幕行对应的时间标签，时间标签中的播放开始时间即该行字幕开始出现的时间，持续时间即该行字幕在视频画面中持续显示的时间，因此，可以根据时间标签确定字幕在视频画面中出现的时间段。在确定了每一字幕行对应的字幕文本在所述目标视频帧中的位置后，在该音乐视频的播放过程中，即可针对每一行字幕，在其出现的时间段内，将其对应的字幕文本在所述目标视频帧中的位置进行遮挡处理。例如，对字幕文本在所述目标视频帧中的位置对应的区域进行高斯模糊处理。

在一些实施例中，在所述待处理视频的播放过程中，根据所述字幕文本在所述目标视频帧中的位置对所述时间标签对应的时间段内的字幕进行动态遮挡之前，还包括：

根据所述字幕文本在所述目标视频帧中的位置和所述时间标签生成字幕位置文件；

所述在所述待处理视频的播放过程中，根据所述字幕文本在所述目标视频帧中的位置对所述时间标签对应的时间段内的字幕进行动态遮挡，包括：

在所述待处理视频的播放过程中，根据所述字幕位置文件对所述时间标签对应的时间段内的字幕进行动态遮挡。

其中，根据所述字幕文本在所述目标视频帧中的位置和所述时间标签生成字幕位置文件，可以包括：将字幕行的目标视频帧对应的字幕文本在所述目标视频帧中的位置，作为所述字幕行的字幕文本在所述目标视频帧中的位置；根据每一字幕行的字幕文本在所述目标视频帧中的位置和时间标签，生成字幕位置文件。

该字幕位置文件类似与qrc文件，其中，每一行包含与一行字幕的时间标签和字幕文本在所述目标视频帧中的位置，字幕文本在所述目标视频帧中的位置表示为(xp,yp,wp,hp)。

其中，字幕位置文件中，第i行字幕文本在所述目标视频帧中的位置可以表示为：

[开始时间t，持续时间t](xi,yi,wi,hi)。

则字幕位置文件可以表示为：

[开始时间t1，持续时间t1](xp,yp,wp,hp)；

[开始时间t2，持续时间t2](xp,yp,wp,hp)；

……

[开始时间tn，持续时间tn](xf,yf,wf,hf)。

其中，(xf,yf,wf,hf)为属于同一类别f的若干第一文本框聚合得到的第二文本框的位置坐标。

在视频的播放过程中，由于字幕数据会随着视频画面同步显示，故可以按照字幕位置文件对显示的字幕进行同步遮挡。

由上所述，本发明实施例提出的视频字幕的遮挡方法，获取待处理视频和该待处理视频的字幕数据，获取字幕数据中的时间标签，根据时间标签从待处理视频中确定目标视频帧，目标视频帧中均包含字幕，接下来，根据预设的文本检测网络模型识别目标视频帧中的字幕文本在所述目标视频帧中的位置，在待处理视频的播放过程中，根据字幕文本在所述目标视频帧中的位置对时间标签对应的时间段内的字幕进行动态遮挡。由此，通过字幕数据中的时间标签精准定位字幕出现的时间段，根据预设的文本检测网络模型准确识别字幕在视频画面中的空间位置，在视频播放过程中，可以针对字幕出现的时间和在画面中的位置，对视频中的字幕进行动态遮挡，而那些没有字幕出现的时间段，例如视频开头的前奏部分、间奏部分等无字幕出现的视频画面均不会受到任何遮挡，能够有效提升用户体验。

并且，本申请实施例提出的视频字幕的遮挡方法，能够实现对各种具有类型的视频进行字幕遮挡，特别是对于音乐视频(mv)，音乐视频中的字幕不同于一般的视频字幕，其字幕往往包含较多艺术效果，例如不同字幕出现位置不同、字幕字体变化等，在相关字幕遮挡方案中往往难以准确定位每句字幕的位置，一般需要用较大的面积进行遮挡，导致较多视频画面被遮挡，影响用户体验，而通过本申请的方案则可以解决该问题，通过对字幕位置的准确识别，以尽可能小的字幕文本在所述目标视频帧中的位置来遮挡字幕。

根据前面实施例所描述的方法，以下将举例作进一步详细说明。

请参阅图2，图2是本发明实施例提供的视频字幕的遮挡方法的第二流程示意图。所述方法包括：

201、获取待处理视频和所述待处理视频对应的字幕数据。

获取待播放的音乐视频作为所述待处理视频，从该音乐视频中获取字幕数据，对于音乐视频来说，字幕数据可以是歌词文件，例如qrc格式的歌词文件。

202、确定所述字幕数据包含的多个字幕行，从所述字幕数据中获取每一字幕行的时间标签，其中，所述时间标签包括字幕行的起始时间和持续时长。

当字幕数据为qrc格式的歌词文件时，歌词行即字幕行，歌词文件中的一行歌词一般为一行字幕。每一行字幕的出现时间以及在音乐视频中持续的时长可以根据字幕行对应的时间标签中获取，时间标签包括字幕行的起始时间和持续时长。

203、根据所述时间标签，从所述待处理视频获取每一字幕行的中间时刻的视频帧，作为目标视频帧。

假设待处理的音乐视频中一共有n行字幕，则获取这n行字幕中每一行字幕对应的时间标签，并获取字幕行的中间时刻的视频帧作为该字幕行对应的视频帧，可以获取到n张目标视频帧。

204、根据预设的文本检测网络模型识别所述目标视频帧中的文本，生成多个第一文本框。

通过ctpn模型对获取到的n张目标视频帧进行文本识别，得到每一帧目标视频帧中的文本框的位置：针对第i帧目标视频帧，其第k个文本框的位置表示为(xik,yik,wik,hik)。

205、根据预设的聚类算法对所述多个第一文本框进行聚类，生成多个文本框类别，并根据聚类结果删除所述多个第一文本框中的异常文本框。

预设的聚类算法为dbscan聚类算法，所述根据预设的聚类算法对所述多个第一文本框进行聚类，生成多个文本框类别，并根据聚类结果删除所述多个第一文本框中的异常文本框，包括：

确定所述字幕数据中的字幕数量，根据所述字幕数量确定聚类参数；

根据所述聚类参数和预设距离函数，对所述多个第一文本框进行聚类，生成多个文本框类别，并根据聚类结果删除所述多个第一文本框中的异常文本框。

采用dbscan聚类算法，对全部的第一文本框进行聚类。其中，预先设置好聚类半径和密度参数即可，由于在本发明实施例场景中，事先并不知道字幕出现位置的数量，因此无需设置类别数量。

其中，本发明实施例中，dbscan聚类算法的半径参数依赖距离计算方式，即距离函数，本方案中的基于所述距离函数的距离计算已经做了归一化，只需要在(0,1)之间选择一个合适的参数作为半径参数即可。密度参数和字幕中的字幕数量直接相关，选取(0,1)之间的一个参数作为预设参数，确定密度参数时，将该预设参数乘以字幕数量后取整即可作为密度参数，其中，半径参数和所述预设参数可以经过大量的测验得到，可以作为固定不变的经验值设置在应用程序中。

此外，本发明实施例采用的特定的距离函数计算两个第一文本框之间的距离。通过聚类处理，将被一行字幕被分割得到的多个第一文本框合并为一个簇，即一个文本框类别。其中，干扰文字一般不会在视频中从头到尾一直出现，只会在少数帧中出现，因此，在聚类过程中，干扰文字的第一文本框会被识别为离散文本框，不会被分到任何一个文本框类别，这些离散文本框即为异常文本框，可以将其删除。

206、按照预设算法对各文本框类别包含的第一文本框进行聚合，生成多个第二文本框，其中，一个第二文本框对应多个第一文本框。

将属于一个文本框类别的多个第一文本框聚合为一个第二文本框，例如，选取该文本框类别位置的最大闭包作为聚合结果。具体来说，对于同一类别p的若干第一文本框的位置表示为(xpq,ypq,wpq,hpq)，将同一类别p的若干第一文本框聚合为一个第二文本框，位置为(xp,yp,wp,hp)，按照如下公式计算得到(xp,yp,wp,hp)：

xp＝minxpq,

yp＝minypq,

wp＝max(xpq+wpq)-min(xpq+wpq),

hp＝max(ypq+hpq)-min(ypq+hpq)。

207、获取所述目标视频帧中第一文本框对应的第二文本框的位置，将所述位置作为所述目标视频帧对应的字幕文本在所述目标视频帧中的位置。

经过聚类处理和聚合处理之后，将多个第一文本框转换为多个第二文本框之后，确定每一张目标视频帧对应的第二文本框。由于一个字幕行对应与一张目标视频帧，因此，确定目标视频帧对应的第二文本框的位置，相当于确定了字幕行对应的第二文本框的位置。将目标视频帧的第一文本框所属的第二文本框的位置作为该目标视频帧对应的字幕文本在所述目标视频帧中的位置。通过这种方式可以单帧目标视频帧对应的字幕文本在所述目标视频帧中的位置，而一行字幕会对应多个视频帧，该目标视频帧属于所述多个视频帧中的一帧，故所述多个视频帧具有与该目标视频帧相同的字幕文本在所述目标视频帧中的位置，因此，单帧目标视频帧对应的字幕文本在所述目标视频帧中的位置即该单帧目标视频帧对应的字幕行的字幕文本在所述目标视频帧中的位置。

208、在所述待处理视频的播放过程中，根据所述字幕文本在所述目标视频帧中的位置对所述时间标签对应的时间段内的字幕进行动态遮挡。

具体地，在所述待处理视频的播放过程中，从所述字幕位置文件中获取时间标签和字幕文本在所述目标视频帧中的位置；当播放至所述时间标签对应的时间段时，对所述字幕文本在所述目标视频帧中的位置处进行高斯模糊处理，以进行字幕遮挡。

由上所述，本发明实施例提出的视频字幕的遮挡方法，获取待处理视频和该待处理视频的字幕数据，获取字幕数据中的时间标签，根据时间标签从待处理视频中确定目标视频帧，目标视频帧中均包含字幕，接下来，根据预设的文本检测网络模型识别目标视频帧中的文本，生成多个第一文本框，按照预设的聚类算法对多个第一文本框得到多个第二文本框，将第二文本框的位置作为目标视频帧的字幕文本在所述目标视频帧中的位置。由此，通过字幕数据中的时间标签精准定位字幕出现的时间段，根据预设的文本检测网络模型准确识别字幕在视频画面中的空间位置，在视频播放过程中，根据字幕文本在所述目标视频帧中的位置对时间标签对应的时间段内的字幕进行动态遮挡，而那些没有字幕出现的时间段，例如视频开头的前奏部分、间奏部分等无字幕出现的视频画面均不会受到任何遮挡，能够有效提升用户体验。

为了实施以上方法，本发明实施例还提供一种视频字幕的遮挡装置，该视频字幕的遮挡装置具体可以集成在终端设备如手机、平板电脑等设备中。

例如，如图3a所示，是本发明实施例提供的视频字幕的遮挡装置的第一种结构示意图。该视频字幕的遮挡装置可以包括数据获取单元301、视频帧确定单元302、字幕识别单元303和字幕遮挡单元304，如下：

数据获取单元301，用于获取待处理视频和所述待处理视频对应的字幕数据.

视频帧确定单元302，用于获取所述字幕数据中的时间标签，并根据所述时间标签从所述待处理视频中提取目标视频帧。

字幕识别单元303，用于根据预设的文本检测网络模型，识别所述目标视频帧的字幕文本在所述目标视频帧中的位置。

字幕遮挡单元304，用于在所述待处理视频的播放过程中，根据所述字幕文本在所述目标视频帧中的位置对所述时间标签对应的时间段内的字幕进行动态遮挡。

如图3b所示，是本发明实施例提供的视频字幕的遮挡装置的第二种结构示意图。在一些实施例中，视频帧确定单元302包括：

字幕行确定子单元3021，用于确定所述字幕数据包含的多个字幕行；

标签获取子单元3022，用于从所述字幕数据中获取每一字幕行的时间标签，其中，所述时间标签包括字幕行的起始时间和持续时长；

视频帧确定子单元3023，用于根据所述时间标签，从所述待处理视频获取每一字幕行的中间时刻的视频帧，作为目标视频帧。

如图3c所示，是本发明实施例提供的视频字幕的遮挡装置的第三种结构示意图。在一些实施例中，字幕识别单元303包括：

文本识别子单元3031，用于根据预设的文本检测网络模型识别所述目标视频帧中的文本，生成多个第一文本框；

文本聚类子单元3032，用于根据预设的聚类算法对所述多个第一文本框进行聚类，生成多个文本框类别，并根据聚类结果删除所述多个第一文本框中的异常文本框；

文本聚合子单元3033，用于按照预设算法对各文本框类别包含的第一文本框进行聚合，生成多个第二文本框，其中，一个第二文本框对应多个第一文本框；

位置确定子单元3034，用于获取所述目标视频帧中第一文本框对应的第二文本框的位置，将所述位置作为所述目标视频帧对应的字幕文本在所述目标视频帧中的位置。

在一些实施例中，该视频字幕的遮挡装置还可以包括文件生成单元，该文件生成单元用于：根据所述字幕文本在所述目标视频帧中的位置和所述时间标签生成字幕位置文件；

字幕遮挡单元304还用于：在所述待处理视频的播放过程中，根据所述字幕位置文件对所述时间标签对应的时间段内的字幕进行动态遮挡。

在一些实施例中，文件生成单元还用于：将字幕行的目标视频帧对应的字幕文本在所述目标视频帧中的位置，作为所述字幕行的字幕文本在所述目标视频帧中的位置；

根据每一字幕行的字幕文本在所述目标视频帧中的位置和时间标签，生成字幕位置文件。

在一些实施例中，所述预设的聚类算法为dbscan聚类算法，文本聚类子单元3032还用于：确定所述字幕数据中的字幕数量，根据所述字幕数量确定聚类参数；

在一些实施例中，所述距离函数为：

其中，b1、b2分别为两个第一文本框的面积，|b1∩b2|为所述两个第一文本框交集部分的面积。

在一些实施例中，字幕遮挡单元304还用于：在所述待处理视频的播放过程中，从所述字幕位置文件中获取时间标签和字幕文本在所述目标视频帧中的位置；

当播放至所述时间标签对应的时间段时，对所述字幕文本在所述目标视频帧中的位置处进行高斯模糊处理，以进行字幕遮挡。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

应当说明的是，本发明实施例提供的视频字幕的遮挡装置与上文实施例中的视频字幕的遮挡方法属于同一构思，在视频字幕的遮挡装置上可以运行视频字幕的遮挡方法实施例中提供的任一方法，其具体实现过程详见视频字幕的遮挡方法实施例，此处不再赘述。

本发明实施例提出的视频字幕的遮挡装置，通过数据获取单元301获取待处理视频和该待处理视频的字幕数据，视频帧确定单元302获取字幕数据中的时间标签，根据时间标签从待处理视频中确定目标视频帧，目标视频帧中均包含字幕，接下来，字幕识别单元303根据预设的文本检测网络模型识别目标视频帧中的字幕文本在所述目标视频帧中的位置，字幕遮挡单元304在待处理视频的播放过程中，根据字幕文本在所述目标视频帧中的位置对时间标签对应的时间段内的字幕进行动态遮挡。由此，通过字幕数据中的时间标签精准定位字幕出现的时间段，根据预设的文本检测网络模型准确识别字幕在视频画面中的空间位置，在视频播放过程中，可以针对字幕出现的时间和在画面中的位置，对视频中的字幕进行动态遮挡，而那些没有字幕出现的时间段，例如视频开头的前奏部分、间奏部分等无字幕出现的视频画面均不会受到任何遮挡，能够有效提升用户体验。

本发明实施例还提供一种电子设备，如图4所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解，图4中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。可选的，处理器401可包括一个或多个处理核心；优选的，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

电子设备还包括给各个部件供电的电源403，优选的，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入单元404，该输入单元404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

尽管未示出，电子设备还可以包括显示单元等，在此不再赘述。具体在本实施例中，电子设备中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取待处理视频和所述待处理视频对应的字幕数据；

获取所述字幕数据中的时间标签，并根据所述时间标签从所述待处理视频中提取目标视频帧；

根据预设的文本检测网络模型，识别所述目标视频帧的字幕文本在所述目标视频帧中的位置；

在所述待处理视频的播放过程中，根据所述字幕文本在所述目标视频帧中的位置对所述时间标签对应的时间段内的字幕进行动态遮挡。