视频处理方法、系统、装置及存储介质与流程

文档序号：29572391发布日期：2022-04-09 04:19阅读：113来源：国知局

1.本技术涉及人工智能领域，尤其涉及一种视频处理方法、系统、装置及存储介质。

背景技术：

2.随着多媒体信息技术的不断发展，越来越多信息以视频作为载体进行呈现，而为了获取视频中指定的信息(如人像信息)，则需要对动态的视频进行人像分割处理，例如在一段包含多人的街景采访视频中，需要将主持人分割出来，并且将其他的路人忽略。而由于镜头切换，场景跳转等原因，相关技术难以准确捕捉当前帧中指定的人，因此难以根据视频完成准确的人像分割。

技术实现要素：

3.本技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本技术提出一种视频处理方法、系统、装置及存储介质。
4.第一方面，本技术实施例提供了一种视频处理方法，包括：根据获取到的待处理视频，确定第一文本；其中，所述第一文本为对应目标人物语音的文字内容，所述目标人物为所述待处理视频中说话次数最多的人物；根据所述待处理视频，确定若干第一人脸区域；根据若干所述第一人脸区域，确定若干第二文本；其中，所述第二文本为对所述第一人脸区域进行唇语识别后确定的文本；根据所述第一文本、所述第二文本和所述第一人脸区域，确定若干第二人脸区域，其中，所述第二人脸区域为所述目标人物对应的人脸区域；对所述待处理视频中的每一帧进行特征提取，获取每一帧图像对应的特征矩阵；根据每一帧的所述特征矩阵，确定所述待处理视频中任意相邻两帧之间的相似度；根据所述第二人脸区域和每一帧的所述相似度，确定所述待处理视频中的目标人物框；其中，所述目标人物框为所述目标人物对应的位置框；对所述目标人物框进行人像分割处理，确定目标视频。
5.可选地，所述根据获取到的待处理视频，确定第一文本，包括：确定所述待处理视频对应的待处理音频；对所述待处理音频进行语音识别，确定识别文本；对所述待处理音频进行语谱特征提取，确定语谱信息；根据语谱信息对所述待处理音频进行分类，确定目标音频；其中，所述目标音频为对应所述目标人物的音频；根据所述目标音频和所述识别文本，确定所述第一文本。
6.可选地，所述根据所述第一文本、所述第二文本和所述第一人脸区域，确定若干第二人脸区域，包括：计算所述第一文本和所述第二文本之间的编辑距离；当所述编辑距离低于或等于第一阈值，确定当前所述第一文本对应的所述第一人脸区域为所述第二人脸区域。
7.可选地，所述对所述待处理视频中的每一帧进行特征提取，获取每一帧图像对应的特征矩阵，包括：通过骨架网络提取到所述待处理视频中每一帧图像对应的特征图；根据所述特征图，确定编码矩阵；对所述编码矩阵进行全局跨通道融合，确定所述特征矩阵。
8.可选地，所述根据每一帧的所述特征矩阵，确定所述待处理视频中任意相邻两帧
之间的相似度，包括：通过孪生网络，计算任意相邻两帧所对应的两个所述特征矩阵的所述相似度。
9.可选地，所述根据所述第二人脸区域和每一帧的所述相似度，确定所述待处理视频中的目标人物框，包括：当所述相似度高于第二阈值，根据所述第二人脸区域，对所述目标人物进行目标追踪，确定所述目标人物框；当所述相似度低于或等于所述第二阈值，根据所述第一人脸区域和所述第二人脸区域，对所述目标人物进行重识别，确定所述目标人物框。
10.第二方面，本技术实施例提供了一种视频处理系统，包括第一模块、第二模块、第三模块、第四模块、第五模块、第六模块、第七模块和第八模块；所述第一模块用于根据获取到的待处理视频，确定第一文本；其中，所述第一文本为对应目标人物语音的文字内容，所述目标人物为所述待处理视频中说话次数最多的人物；所述第二模块用于根据所述待处理视频，确定若干第一人脸区域；所述第三模块用于根据若干所述第一人脸区域，确定若干第二文本；其中，所述第二文本为对所述第一人脸区域进行唇语识别后确定的文本；所述第四模块用于根据所述第一文本、所述第二文本和所述第一人脸区域，确定若干第二人脸区域，其中，所述第二人脸区域为所述目标人物对应的人脸区域；所述第五模块用于对所述待处理视频中的每一帧进行特征提取，获取每一帧图像对应的特征矩阵；所述第六模块用于根据每一帧的所述特征矩阵，确定所述待处理视频中任意相邻两帧之间的相似度；所述第七模块用于根据所述第二人脸区域和每一帧的所述相似度，确定所述待处理视频中的目标人物框；其中，所述目标人物框为所述目标人物对应的位置框；所述第八模块用于对所述目标人物框进行人像分割处理，确定目标视频。
11.第三方面，本技术实施例提供了一种装置，包括：至少一个处理器；至少一个存储器，用于存储至少一个程序；当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如第一方面所述的视频处理方法。
12.第四方面，本技术实施例提供了一种计算机存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由所述处理器执行时用于实现如第一方面所述的视频处理方法。
13.本技术实施例的有益效果如下：根据获取到的待处理视频，确定第一文本；其中，第一文本为对应目标人物语音的文字内容，目标人物为待处理视频中说话次数最多的人物；根据待处理视频，确定若干第一人脸区域；根据若干第一人脸区域，确定若干第二文本；其中，第二文本为对第一人脸区域进行唇语识别后确定的文本；根据第一文本、第二文本和第一人脸区域，确定若干第二人脸区域，其中，第二人脸区域为目标人物对应的人脸区域；对待处理视频中的每一帧进行特征提取，获取每一帧图像对应的特征矩阵；根据每一帧的特征矩阵，确定待处理视频中任意相邻两帧之间的相似度；根据第二人脸区域和每一帧的相似度，确定待处理视频中的目标人物框；其中，目标人物框为目标人物对应的位置框；对目标人物框进行人像分割处理，确定目标视频。本技术实施例实现在待处理视频中对说话次数最多的目标人物进行人像分割，通过语音识别、人脸目标检测、唇形识别等方式确定目标人物，并根据相似度对相邻两帧进行重识别或者是目标追踪，提高目标人物识别的准确度，最终得到只包含目标人物的目标视频。本技术实施例可以广泛应用于人像抠图美化、照片/视频背景替换、证件照制作、隐私保护等场景。
附图说明
14.附图用来提供对本技术技术方案的进一步理解，并且构成说明书的一部分，与本技术的实施例一起用于解释本技术的技术方案，并不构成对本技术技术方案的限制。
15.图1是本技术实施例提供的视频处理方法的步骤流程图；
16.图2是本技术实施例提供的根据待处理视频获得第一文本的步骤流程图；
17.图3为本技术实施例提供的获取每一帧图像对应的特征矩阵的步骤流程图；
18.图4是本技术实施例提供的视频处理系统的示意图；
19.图5为本技术实施例提供的一种装置的示意图。
具体实施方式
20.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
21.需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。
22.下面结合附图，对本技术实施例作进一步阐述。
23.参考图1，图1是本技术实施例提供的视频处理方法的步骤流程图，该步骤包括但不限于步骤s100-s170：
24.s100、根据获取到的待处理视频，确定第一文本；其中，第一文本为对应目标人物语音的文字内容，目标人物为待处理视频中说话次数最多的人物；
25.具体地，以待处理视频为街景采访的视频为例，在这一类视频中，主要的角色是主持人，由于主持人一般是说话次数比较多的人，因此，如果要在视频中将主持人的人像分割出来，则将待人像分割的主持人称为目标人物，目标人物为待处理视频中说话次数最多的人物。该目标人物在待处理视频中所说的所有语音内容所对应的文字，在本技术实施例中称为第一文本。根据待处理视频获得第一文本的步骤将在下面的内容中展开阐述。
26.参照图2，图2是本技术实施例提供的根据待处理视频获得第一文本的步骤流程图，该步骤包括但不限于步骤s101-s105：
27.s101、确定待处理视频对应的待处理音频；
28.具体地，对待处理视频进行音频分离，得到对应于待处理视频的待处理音频。上述内容中提到，待处理视频可能是街景采访视频，则可以根据实际需要，对待处理音频进行去噪、消除背景音等预处理，得到比较清晰的待处理音频。
29.s102、对待处理音频进行语音识别，确定识别文本；
30.具体地，对待处理音频进行语音识别，具体可以利用相关技术中的hmm方法、神经网络方法等进行语音识别，从而得到对应于待处理音频的识别文本。
31.s103、对待处理音频进行语谱特征提取，确定语谱信息；
32.具体地，声音有响度、音调和音色三个特征，而这些特征又可以通过声波的振动幅度、频率和波形这些语谱特征来提取。因此，在本步骤中需要对待处理音频进行语谱特征提
取，例如：根据待处理音频不同句子之间的停顿，将待处理音频分为多个小节，对每个小节的音频进行语谱特征的提取，得到多段语谱信息。
33.s104、根据语谱信息对待处理音频进行分类，确定目标音频；其中，目标音频为对应目标人物的音频；
34.具体地，通过k-means聚类等聚类方法，对拥有相似特征的语谱信息进行分类，同一类的语谱信息可以看做是代表同一个说话人。而在步骤s100中已经说明，在本技术实施例中，目标人物为说话次数最多的人，则可以根据语谱信息的条数，确定对应于目标人物的目标音频。
35.s105、根据目标音频和识别文本，确定第一文本；
36.具体地，通过步骤s105确定了目标人物对应的目标音频，则可以根据目标音频，在识别文本中确定第一文本。例如，可以在目标音频在待处理音频中的对应的开始时间点和结束时间点，确定对应位置的识别文本为第一文本。根据步骤s100，第一文本为目标人物说话内容所对应的文本。
37.通过步骤s101-s105，本技术实施例提供了通过待处理视频获取到对应于目标视频的第一文本的步骤。
38.通过步骤s101-s105，步骤s100已经阐述完毕，下面开始阐述步骤s100。
39.s110、根据待处理视频，确定若干第一人脸区域；
40.具体地，对待处理视频中的人脸进行目标检测，具体可以通过如s3fd等人脸检测算法，对待处理视频中的每一帧图像进行目标检测，确定每一帧图像中人脸所在的区域，将这些区域称为第一人脸区域。
41.可以理解的是，由于在画面中可能会有多张人脸，因此，每一帧图像可以存在多个第一人脸区域。
42.s120、根据若干第一人脸区域，确定若干第二文本；其中，第二文本为对第一人脸区域进行唇语识别后确定的文本；
43.具体地，对每一帧图像的第一人脸区域进行唇语识别，根据唇形确定第一人脸区域对应的文本内容。例如，构建一个以lstm为核心的唇语识别网络，将第一人脸区域的图像输入卷积层，获取到唇形的特征信息，并将这些特征信息输入lstm层，获取到序列的时域信息，将时域信息输入多层感知机，最后通过softmax分类器处理，获取到若干第一人脸区域所对应的文本内容，将这些文本内容确定为第二文本。
44.需要说明的是，由于本步骤是对每一帧所有的第一人脸区域进行唇语识别，因此得到的第二文本也是对应所有的第一人脸区域，第二文本中包含目标人物说话内容对应的文本内容，也包含待处理视频中除了目标人物以外其他人物说话内容对应的文本内容。
45.s130、根据第一文本、第二文本和第一人脸区域，确定若干第二人脸区域，其中，第二人脸区域为目标人物对应的人脸区域；
46.具体地，通过第一文本和第二文本，可以从第一人脸区域中确定第二人脸区域。例如，首先计算第一文本和第二文本之间的编辑距离，编辑距离是用于度量两个序列相似程度的指标。也就是说，通过计算由语音识别获得的第一文本以及由唇形识别得到的第二文本之间的编辑距离，可以确定与第一文本中与第二文本最接近的内容，例如将第一文本和第二文本分为多个段落，计算第一文本和第二文本中对应段落的编辑距离，当编辑距离低
于或等于预设的第一阈值，则说明第一文本当前的段落和第二文本当前的段落很相似，则可以确定第二文本中与第一文本最相似的内容，由于第二文本与第一人脸区域存在对应关系，也就是说可以在第一人脸区域中，确定与第一文本匹配的人脸区域，并将这些人脸区域确定为第二人脸区域。由于第一文本为目标人物说话的文本内容，因此，第一文本可以与第二人脸区域对应起来，换言之，第二人脸区域就是表示目标人物的人脸区域。
47.s140、对待处理视频中的每一帧进行特征提取，获取每一帧图像对应的特征矩阵；
48.具体地，在上述内容中提到，相关技术难以完成整个待处理视频中对指定的目标人物的人像分割的原因之一，是视频中可能会存在场景变换、镜头切换等影响因素，当以上影响因素出现，视频特征会发生改变，人物的位置、大小等也可能发生改变。在本步骤中，需要对待处理视频中的每一帧进行特征提取，以确定该待处理视频中出现场景变换、镜头切换的节点。
49.参照图3，图3为本技术实施例提供的获取每一帧图像对应的特征矩阵的步骤流程图，该方法包括但不限于步骤s141-s143：
50.s141、通过骨架网络提取到待处理视频中每一帧图像对应的特征图；
51.具体地，将待处理视频中的每一帧输入骨架网络，对图像进行特征提取，并且将提取到的特征进行高维度编码。利用残差结构、金字塔池化、注意力机制能够实现高效的特征编码。在本技术实施例中，骨架网络可以是vgg、resnet、densenet、transformer等经典神经网络的骨架网络。为了加快该骨架网络在小规模的数据集上的收敛速度，可以先在现有的比较大型的数据集上对该骨架网络进行初始化。训练完成后，将每一帧图像输入骨架网络，该骨架网络会输出对应的、形状如(c,h,w)的特征图，其中c为通道数，h，w分别为特征图的高和宽。
52.s142、根据特征图，确定编码矩阵；
53.具体地，步骤s141中生成的特征图，会经过多尺度的并行卷积，也就设置不同的卷积核，例如是7*7或者是5*5，将特征图通过并行卷积层的结构送入不同大小卷积核的卷积层，生成对应大小的特征图，并完成对边缘缺陷的特征图的补零。最后，对不同卷积核对应的结果进行通道维度的加和，例如：多尺度并行卷积中某层的输出为(c1,h,w)，另一层的输出为(c2,h,w)，通道加和的结果即为(c1+c2,h,w)。对加和的结果进行多次连续的标准卷积，得到最终的编码矩阵。
54.s143、对编码矩阵进行全局跨通道融合，确定特征矩阵；
55.具体地，对步骤s142生成编码矩阵进行全局跨通道融合，其流程如下：首先对输入的编码矩阵进行形状变换，方便后续的运算，如将形状为(c,h,w)的编码矩阵调整为(1,c,h*w)的矩阵。进行形状变换之后，将编码矩阵送入膨胀卷积系数不同的多条膨胀卷积层，对通道间的信息进行提取与融合。膨胀卷积层一般选取为三层，膨胀卷积系数分别设置为[8,12,16]，膨胀卷积核一般设置数量为4。数据融合完成后，将融合的结果变换为原始形状，具体是对不同膨胀卷积层卷积后的结果在通道维度进行加和，得到形状为(n,c,h
×
w)的矩阵，n表示膨胀卷积核数量和膨胀卷积层的乘积。将该形状为(n,c,h
×
w)的矩阵进行卷积核为(1,1)的标准卷积，将其调整为(1,c,h*w)的矩阵，再将该(1,c,h*w)的矩阵调整得到形状为(c,h,w)特征矩阵。
[0056]
通过上述步骤s141-s143，本技术实施例提供了生成每一帧图像对应的特征矩阵
的方法，通过该特征图像，可以确定对应的待处理视频在前后两帧是否出现了场景变换或镜头变换。
[0057]
通过步骤s141-s143，本步骤s140已经阐述完毕，下面开始阐述步骤s150。
[0058]
s150、根据每一帧的特征矩阵，确定待处理视频中任意相邻两帧之间的相似度；
[0059]
具体地，在本技术实施例中，利用孪生网络来处理待处理视频任意两帧对应的两个特征矩阵。孪生网络是一个双路神经网络，两路网络规模相同，权值共享。不同的两个特征矩阵输入分别送进双路网络，两路网络分别得到对应输入的特征向量，然后再对两个特征向量进行计算，并由此得到任意相邻两帧之间的相似度。
[0060]
s160、根据第二人脸区域和每一帧的相似度，确定待处理视频中的目标人物框；其中，目标人物框为目标人物对应的位置框；
[0061]
具体地，根据步骤s150，确定待处理视频中任意相邻两帧之间的所有相似度。将每一个相似度与预设的第二阈值进行比较，当相似度高于第二阈值，则说明相邻两帧的特征比较相似，可以认为没有进行比较大的场景转换或者是镜头切换，而目标人物在当前相邻两帧中的移动也比较小，因此，根据相邻两帧的第二人脸区域，对该目标人物进行目标追踪，确定相邻两帧中目标人物所在的目标人物框为该目标人物对应的位置框，包括但不限于人脸、四肢和躯干部分。
[0062]
在一些实施例中，实现目标追踪的过程包括：首先获取相邻两帧对应的特征矩阵，然后通过金字塔池化得到特征矩阵中在不同维度下的特征，最后根据特征生成候选框，并通过sotfmax函数得到候选框的置信度，最后将置信度高的候选框输出作为结果，得到位置信息，然后再通过匹配算法，计算该候选框与对应的第二人脸区域是否为同一个区域，从而实现目标追踪。
[0063]
通过以上内容，在相邻两帧相似度较高的情况下，对目标人物进行特征追踪，以确定目标人物在相邻两帧中的位置。
[0064]
而当相似度低于或等于第二阈值，则说明相邻两帧的相似度比较低，在当前的相邻两帧，很可能发生了较大的场景切换或者是镜头切换，或者是目标人物进行了比较大范围的移动，因此，为了保证后一帧中识别目标人物的准确度，在后一帧进行目标人物的重识别，重新确定后一帧中目标人物所在的目标人物框。
[0065]
在一些实施例中，实现目标重识别的过程包括：首先获取相邻两帧对应的特征矩阵，然后将获取到的特征矩阵映射到高维空间，进行度量学习，使相同的目标在高维空间距离更近，不同的目标距离更远。最后再通过特征匹配，将前一帧中的第二人脸区域与后一帧的第一人脸区域匹配起来，从而确定后一帧中的第二人脸区域，并且确定该第二人脸区域对应的目标人物框。
[0066]
通过对比相邻两帧的相似度，决定对视频帧进行目标追踪或者是目标重识别，从而确定整个待处理视频中所有目标人物出现的区域，也就是所有的目标任务框。
[0067]
s170、对目标人物框进行人像分割处理，确定目标视频。
[0068]
具体地，对步骤s160中确定的所有目标人物框进行人像分割，也就是说，将每一帧图像中除了目标人物框以外的所有区域视为背景，将目标任务框和背景分割开来，完成人像分割，将只保留了目标任务框的多帧图像合成，得到只有目标人物的目标视频。
[0069]
通过步骤s100-s170，本技术实施例实现在待处理视频中对说话次数最多的目标
人物进行人像分割，通过语音识别、人脸目标检测、唇形识别等方式确定目标人物，并根据相似度对相邻两帧进行重识别或者是目标追踪，提高目标人物识别的准确度，最终得到只包含目标人物的目标视频。本技术实施例可以广泛应用于人像抠图美化、照片/视频背景替换、证件照制作、隐私保护等场景。
[0070]
参照图4，图4是本技术实施例提供的视频处理系统的示意图，该系统400包括第一模块410、第二模块420、第三模块430、第四模块440、第五模块450、第六模块460、第七模块470和第八模块480；第一模块用于根据获取到的待处理视频，确定第一文本；其中，第一文本为对应目标人物语音的文字内容，目标人物为待处理视频中说话次数最多的人物；第二模块用于根据待处理视频，确定若干第一人脸区域；第三模块用于根据若干第一人脸区域，确定若干第二文本；其中，第二文本为对第一人脸区域进行唇语识别后确定的文本；第四模块用于根据第一文本、第二文本和第一人脸区域，确定若干第二人脸区域，其中，第二人脸区域为目标人物对应的人脸区域；第五模块用于对待处理视频中的每一帧进行特征提取，获取每一帧图像对应的特征矩阵；第六模块用于根据每一帧的特征矩阵，确定待处理视频中任意相邻两帧之间的相似度；第七模块用于根据第二人脸区域和每一帧的相似度，确定待处理视频中的目标人物框；其中，目标人物框为目标人物对应的位置框；第八模块用于对目标人物框进行人像分割处理，确定目标视频。
[0071]
参考图5，图5为本技术实施例提供的一种装置的示意图，该装置500包括至少一个处理器510，还包括至少一个存储器520，用于存储至少一个程序；图5中以一个处理器及一个存储器为例。
[0072]
处理器和存储器可以通过总线或者其他方式连接，图5中以通过总线连接为例。
[0073]
存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0074]
本技术的另一个实施例还提供了一种装置，该装置可用于执行如上任意实施例中的控制方法，例如，执行以上描述的图1中的方法步骤。
[0075]
以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0076]
本技术实施例还公开了一种计算机存储介质，其中存储有处理器可执行的程序，其特征在于，处理器可执行的程序在由处理器执行时用于实现本技术提出的视频处理方法。
[0077]
本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领
域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。
[0078]
以上是对本技术的较佳实施进行了具体说明，但本技术并不局限于上述实施方式，熟悉本领域的技术人员在不违背本技术精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本技术权利要求所限定的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郝德禄肖冠正甘心
技术所有人：天翼爱音乐文化科技有限公司
我是此专利的发明人

上一篇：一种室外门吊辅助自动固定装置的制作方法
上一篇：药物组合物及其在制备抗骨质疏松药物中的应用的制作方法