转置视频识别方法、装置、设备及存储介质与流程

文档序号：22554883发布日期：2020-10-17 02:36阅读：154来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本申请涉及多媒体技术领域，尤其涉及图像处理技术，具体涉及一种转置视频识别方法、装置、设备及存储介质。

背景技术：

随着短视频新流量的暴增，短视频已经成为网民信息获取的重要载体。由于视频展示场景不同，视频播放平台中存在着大量的转置视频，也即，由横版视频转置后得到的竖版视频，或由竖版视频转置后得到的横版视频。

受限于用户终端的播放界面的影响，上述转置视频中的视频画面无法完全填充播放界面，因此在播放界面的非视频区域会存在内容填充的情况，影响用户观看体验，也不利于视频物料在其他场景的二次使用。

技术实现要素：

本申请提供了一种效率更高的转置视频识别方法、装置、设备及存储介质，以实现转置视频的自动化识别。

根据本申请的一方面，提供了一种转置视频识别方法，包括：

识别待处理视频中视频帧的内容属性特征；其中，所述内容属性特征包括直线特征、文字特征和区域特征中的至少一种；

根据所述内容属性特征，确定所述待处理视频是否为转置视频。

根据本申请的另一方面，提供了一种转置视频识别装置，包括：

内容属性特征识别模块，用于识别待处理视频中视频帧的内容属性特征；其中，所述内容属性特征包括直线特征、文字特征和区域特征中的至少一种；

转置视频确定模块，用于根据所述内容属性特征，确定所述待处理视频是否为转置视频。

根据本申请的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请实施例提供的任意一种转置视频识别方法。

根据本申请的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本申请实施例提供的任意一种转置视频识别方法。

根据本申请的技术，实现了转置视频的自动识别，提高了转置视频的识别效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1a是本申请实施例提供的一种转置视频识别方法的流程图；

图1b是本申请实施例提供的一种横转竖的转置视频的示意图；

图1c是本申请实施例提供的一种竖转横的转置视频的示意图；

图2是本申请实施例提供的另一种转置视频识别方法的流程图；

图3a是本申请实施例提供的另一种转置视频识别方法的流程图；

图3b是本申请实施例提供的一种目标图像示意图；

图4是本申请实施例提供的一种转置视频识别装置的结构图；

图5是用来实现本申请实施例的转置视频识别方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本申请实施例提供的各转置视频识别方法和各转置视频识别装置，适用于对视频中的转置视频，也即由横版视频转置得到的竖版视频，或由竖版视频转置得到的横版视频，进行自动化识别的情况。转置视频识别方法可以由转置视频识别装置执行，该装置采用软件和/或硬件实现，并具体配置于电子设备中。

图1a是本申请实施例提供的一种转置视频识别方法的流程图，该方法包括：

s101、识别待处理视频中视频帧的内容属性特征；其中，内容属性特征包括直线特征、文字特征和区域特征中的至少一种。

示例性地，可以依照设定频率对待处理视频进行抽帧处理，得到至少一个视频帧。其中，设定频率可以由技术人员根据需要或经验值进行设定。

其中，视频帧中包括视频区域，用于进行视频自身所包含画面信息的展示；视频帧中还可以包括非视频区域，用于对展示界面中视频所包含画面信息以外的区域进行背景填充。其中，非视频区域可以通过高斯模糊、重复视频画面、静态图片或纯色背景等方式进行填充。

需要说明的是，通常由横版视频转置的竖版视频中，或者由竖版视频转置的横版视频中，为了满足不同展示场景的长宽比需求，可能会存在非视频区域的填充情况。

其中，内容属性特征用于表征视频帧中所包含的视频画面和/或非视频画面中所包含内容的基本特征。例如，用于表征视频帧中的视频区域和/或非视频区域所包含的直线段信息的直线特征；用于表征视频帧中的视频区域和/或非视频区域所包含的文字信息的文字特征；用于表征视频中的视频区域和/或非视频区域的区域平滑情况的区域特征。

s102、根据内容属性特征，确定待处理视频是否为转置视频。

在本申请实施例的一个可选实施方式中，若内容属性特征包括直线特征，则可以根据直线特征与视频帧中视频画面长度、或视频画面宽度之间的匹配情况，确定待处理视频是否为转置视频。

示例性地，若直线特征与视频帧中视频画面长度相匹配，则表明该视频帧是横版图像转置成的竖版图像的可能性较大，也即该待处理视频可能是横版视频转置后得到的竖版视频。若待处理视频中与视频画面长度相匹配的视频帧的数量大于第一设定数量阈值，或待处理视频中与视频画面长度相匹配的视频帧的占比大于第一设定占比阈值，则确定该待处理视频为横转竖的转置视频。图1b示出了一种横转竖的转置视频的示意图，该转置视频10包括视频区域11和非视频区域12。其中，视频区域11的视频边界线13为与视频画面长度相匹配的直线特征。其中，第一设定数量阈值或第一设定占比阈值可以由技术人员根据需要或经验值进行确定，或通过大量试验反复确定。

示例性地，若直线特征与视频帧中视频画面宽度相匹配，则表明该视频帧是竖版图像转置成的横版图像的可能性较大，也即该待处理视频可能是竖版视频转置后得到的横版视频。若待处理视频中与视频画面宽度相匹配的视频帧的数量大于第二设定数量阈值，或待处理视频中与视频画面宽度相匹配的视频帧的占比大于第二设定占比阈值，则确定该待处理视频为竖转横的转置视频。图1c示出了一种竖转横的转置视频的示意图，该转置视频20包括视频区域21和非视频区域22。其中，视频区域21的视频边界线23为与视频画面宽度相匹配的直线特征。其中，第二设定数量阈值或第二设定占比阈值可以由技术人员根据需要或经验值进行确定，或通过大量试验反复确定。其中，第一设定数量阈值与第二设定数量阈值的数值大小，可以相同或不同；第一设定占比阈值与第二设定占比阈值的数值大小，可以相同或不同。

在本申请实施例的另一可选实施例中，若内容属性特征包括文字特征，则可以根据文字特征与视频帧中视频画面内容的匹配情况，确定待处理视频是否为转置视频。

示例性地，若文字特征位于视频帧中的非视频区域，则确定文字特征与视频帧中的画面内容相匹配，可以认定该视频帧为非转置图像；若该待处理视频中非转置图像的数量大于第三设定数量阈值，或非转置图像在所抽取的视频帧中的占比大于第三设定占比阈值，则确定该待处理视频为非转置视频。

为了提高文字特征与视频内容的匹配度，进而增强用户的视频观看体验，还可以对位于视频帧中的非视频区域的文字特征，与视频标题或与视频区域中的文字信息或图片信息进行匹配；若匹配成功，则确定非视频区域中的文字特征与视频内容相关，则可以认定该视频帧为非转置图像；若该待处理视频中非转置图像的数量大于第三设定数量阈值，或非转置图像在所抽取的视频帧中的占比大于第三设定占比阈值，则确定该待处理视频为非转置视频。其中，第三设定数量阈值或第三设定占比阈值的数值大小，可以由技术人员根据需要或经验值进行确定，或者通过大量试验反复确定。

在本申请实施例的又一可选实施方式中，若内容属性特征包括区域特征，则可以根据视频帧中不同区域的区域特征与相应区域标准的比对情况，确定待处理视频是否为转置视频。

示例性地，识别待处理视频中视频帧的画面中间区域的中间平滑度，以及识别待处理视频中视频帧的画面边缘区域的边缘平滑度；将中间平滑度和边缘平滑度作为区域特征；若中间平滑度小于中间平滑度阈值，且便于平滑度大于边缘平滑度阈值，则确定待处理视频为转置视频。其中，中间平滑度阈值或边缘平滑度阈值的数值大小，可以由技术人员根据需要或经验值进行确定，或者通过大量试验反复确定。

其中，平滑度用于量化表征识别区域的模糊程度或平滑程度。可选的，可以采用图像平滑算法，对所识别区域的平滑度进行确定。例如，可以采用拉普拉斯算子对不同画面区域的平滑度进行计算。

需要说明的是，当进行横转竖转置视频的识别时，画面中间区域可以理解为将视频帧的画面上下划分为至少三个区域，将位于中间部分的区域作为中间区域，也即将位于视频帧画面与视频水平中轴线附近的区域作为中间区域；将靠近视频帧画面的上边界和下边界的至少一个区域作为边缘区域。或者，可选的，在识别到视频区域的视频边界线时，将视频边界线关联的非视频区域作为画面边缘区域，将视频区域作为画面中间区域。

当进行竖转横转置视频的识别时，画面中间区域可以理解为将视频帧的画面左右划分为至少三个区域，将位于中间部分的区域作为中间区域，也即将位于视频帧画面与视频竖直中轴线附近的区域作为中间区域；将靠近视频帧画面的左边界和右边界的至少一个区域作为边缘区域。或者，可选的，在识别到视频区域的视频边界线时，将视频边界线关联的非视频区域作为画面边缘区域，将视频区域作为画面中间区域。

或者可选的，在确定区域特征之后，还可以根据视频帧中不同区域之间的区域特征比对情况，确定待处理视频是否为转置视频。

示例性地，若中间平滑度与边缘平滑度的平滑度比值，大于设定平滑度占比阈值，则确定待处理视频为转置视频。其中，平滑度占比阈值可以由技术人员根据均需要或经验值进行确定，或通过大量试验反复确定。

可以理解的是，通过引入区域特征，能够对包含有纯色背景填充或高斯模糊等的非视频区域的转置视频进行有效识别，使得在无法识别到直线特征，或所识别的直线特征准确度较低的情况下，仍然能够进行转置视频的有效识别，提高了转置视频识别结果的准确度。

在上述各技术方案的基础上，在识别到待处理视频为转置视频之后，还可以根据视频边界线位置，对待处理视频进行裁剪和/或二次加工，得到不通过比例的视频物料，从而根据投放场景需求和视频平台要求，将相应比例的视频物料进行平台投放。

本申请实施例通过识别待处理视频中视频帧的内容属性特征；其中内容属性特征包括直线特征、文字特征和区域特征中的至少一种；根据内容属性特征，确定待处理视频是否为转置视频。上述技术方案通过引入视频帧的内容属性特征，实现了对视频帧所属的待处理视频的转置视频自动化识别，提高了转置视频识别效率，能够实现转置视频识别的批量化和实时化处理，为后续对转置视频二次加工的自动化、规模化、实时化及定制化处理，奠定了基础。另外，由于转置视频的视频质量普遍较低，通过转置视频的自动识别，还能够实现对视频质量的有效把控。

图2是本申请实施例提供的另一种转置视频识别方法的流程图，该方法在上述各技术方案的基础上，进行了优化改进。

进一步地，若内容属性特征包括直线特征，则将操作“识别待处理视频中视频帧的内容属性特征”，细化为“识别待处理视频中视频帧的视频边界线，并将视频边界线作为直线特征”；相应的，将操作“根据内容属性特征，确定待处理视频是否为转置视频”，细化为“若未识别到视频边界线，则确定待处理视频为非转置视频”，以完善基于直线特征进行转置视频识别的识别机制。

如图2所示的一种转置视频识别方法，包括：

s201、识别待处理视频中视频帧的视频边界线，并将视频边界线作为直线特征。

其中，视频边界线可以理解为在视频帧画面中视频区域和非视频区域的相交线。

示例性地，识别待处理视频中视频帧的视频边界线，可以是：识别待处理视频中视频帧的视频参考线；根据视频参考线，确定视频边界线。

可选的，将待处理视频中的视频帧，输入至预先训练好的直线识别模型中，将模型输出的直线段作为视频参考线。其中，直线识别模型通过将预先标注好直线段的样本视频帧作为训练样本，对预先构建的机器学习模型进行训练得到。

可选的，还可以根据直线提取算法，对视频帧进行处理，以提取视频帧中的直线段，并将所提取的直线段作为视频参考线。

可选的，根据视频参考线，确定视频边界线，可以是：直接根据边界线属性，从视频参考线中筛选视频边界线。其中，对所筛选的视频边界线的数量不做限定。一般的，视频边界线可以是两个。

其中，边界线属性包括边界线长度、边界线所关联非视频区域的面积大小、和边界线所关联非视频区域的对称性中的至少一种。

一般的，在横转竖的转置视频中，边界线长度与视频画面长度相同；在竖转横的转置视频中，边界线长度与视频画面宽度相同。因此，可以通过边界线长度对视频边界线进行限定，能够剔除视频参考线中线段长度不符合相应要求的干扰线。

无论是横转竖的转置视频还是竖转横的转置视频，为了保证用户观看时的体验度，视频区域通常位于视频帧的视频画面的中间部分，相应的，非视频区域对称分布在视频区域两侧。因此，可以通过边界线所关联非视频区域的对称性对视频边界线进行限定，能够剔除视频参考线中对称情况不符合相应要求的干扰线。

为了保证用户观看的体验度，在转置视频中，通常会保证视频区域最大化，非视频区域最小化。因此，可以通过边界线所关联非视频区域的面积大小，或者边界线所关联视频区域的面积大小，对视频边界线的位置进行限定，能够剔除视频参考线中直线位置不符合相应要求的干扰线。

由于在进行视频参考线识别时，可能由于识别精度或视频自身边界线模糊，导致将一条较长直线段识别成多个子线段的情况，进而影响视频边界线的识别精度，给后续转置视频识别结果准确度带来影响。为了避免上述情况的发生，可选的，根据视频参考线，确定视频边界线，还可以是：对满足线段合并条件的各视频参考线进行合并，得到候选边界线；其中，线段合并条件为视频参考线所在直线之间距离小于设定距离阈值；根据边界线属性，从候选边界线中筛选视频边界线。其中，设定距离阈值可以由技术人员根据需要或经验值进行确定。

示例性地，在进行横转竖的转置视频识别时，将宽度坐标位于设定宽度范围的水平直线段合并，得到候选边界线；在进行竖转横的转置视频识别时，将长度坐标位于设定长度范围的竖直直线段合并，得到候选边界线。

为了避免合并过程引入视频画面中原本不存在的直线段，在进行直线段合并过程中，还可以引入相邻两线段之间的距离间隔加以限定。也即，在进行横转竖的转置视频识别时，将宽度坐标位于设定宽度范围的水平直线段作为候选水平直线段；若候选水平线段中位置相邻的两线段之间的水平间隔小于设定水平距离间隔，则将该相邻的两条候选水平直线段进行合并。其中，设定水平距离间隔由技术人员根据需要或经验值进行确定，或通过大量试验反复确定。在进行竖转横的转置视频识别时，将长度坐标位移像黑洞长度范围的数值直线段作为候选数值直线段；若候选数值直线段中位置相邻的两条线段之间的竖直间隔小于设定竖直距离间隔，则将该相邻的两条候选竖直直线段进行合并。其中，设定竖直距离间隔由技术人员根据需要或经验值进行确定，或通过大量试验反复确定。

可以理解的是，上述通过先识别再确定的方式进行视频边界线的确定，完善了视频边界线的确定机制，并提高了视频边界线的确定结果的准确度。

s202、若未识别到视频边界线，则确定待处理视频为非转置视频。

示例性地，若未识别到视频边界线，则确定待处理视频为非转置视频；若识别到与视频画面长度相匹配的视频边界线，则确定待处理视频为横转竖的转置视频；若识别到与视频画面宽度相匹配的视频边界线，则确定待处理视频为竖转横的转置视频。

由于部分转置视频可能经过了视频制作者的精心设计，例如为了提高用户的观看体验，在视频帧的视频画面的非视频区域添加了与视频相关联的静态文字信息，从而达到信息推广和视频内容提醒的目的。因此，为了兼顾视频制作者的上述使用需求，还可以在进行转置视频识别时，引入文字特征这一内容属性特征，从而在识别待处理视频中视频帧的内容属性特征时，识别视频边界线所关联的非视频区域的文字区域，并将文字区域作为文字特征；若文字区域与视频区域之间的面积占比，满足第一设定比例阈值，则确定待处理视频为非转置视频。

示例性地，通过文字识别技术，识别非视频区域的文字信息，并确定文字信息所属的文字区域；将该文字区域作为该视频帧的文字特征；若文字区域与视频区域之间的面积大于第一设定比例阈值，则表明视频制作者在该非视频区域有意添加了文字信息，因此，可以将该转置视频认定为符合要求的转置视频，故将文字区域与视频区域之间的面积占比满足第一设定比例阈值的待处理视频，确定为非转置视频。其中，第一设定比例阈值由技术人员根据需要或经验值进行确定，或通过大量试验反复确定。

可以理解的是，为了避免视频制作者所添加的文字信息与视频内容无关，从而给视频观看者带来较差的观看体验，还可以对文字信息进行识别，若文字信息与视频标题无关，且与待处理视频中所包含的文字或视频画面也无关，则确定该文字信息为无效文字信息，因此，可以将此类在非视频区域添加有无效文字信息的待处理视频，确定为转置视频。若文字信息与视频标题相关，或者文字信息与待处理视频中所包含的文字或视频画面相关，则确定该文字信息为有效文字信息，因此，可以将此类在非视频区域添加有有效文字信息的待处理视频，从转置视频确定结果中剔除，也即将该类待处理视频确定为非转置视频。

由于部分转置视频可能经过了视频制作者的精心设计，例如为了提高用户的观看体验，对视频排版和视频区域占比进行了调整。因此，直接通过直线特征进行转置视频和非转置视频的识别，将会给此类视频制作者带来较差的使用体验。为了兼顾视频制作者的使用需求，还可以根据视频边界线所关联的视频区域和非视频区域之间的面积占比，进行非转置视频的识别，从而将面积占比精心调整的转置视频，从转置视频识别结果中加以剔除。

示例性地，若视频边界线所关联的非视频区域与视频区域之间的面积占比，满足第二设定比例阈值，则确定待处理视频为非转置视频。其中，第二设定比例阈值可以由技术人员根据需要或经验值进行确定，还可以通过大量试验反复确定。

本申请实施例通过在内容属性特征包括直线特征的情况下，识别待处理视频中视频帧的视频边界线，并将视频边界线作为直线特征；若未识别到视频边界线，则确定待处理视频为非转置视频。上述技术方案通过视频边界线识别的方式，进行非转置视频的确定，实现了转置视频的自动化识别，提高了转置视频识别效率，并实现了对视频质量的有效把控。同时数据运算量小，能够实现对大量待处理视频并行处理的情况，为后续进行转置视频的批量处理，奠定了基础。

图3a是本申请实施例提供的另一种转置视频识别方法的流程图，该方法在上述各技术方案的基础上，提供了一种优选实施方式，并以对横转竖类型的转置视频的识别为例，进行详细说明。

如图3a所示的一种转置视频识别方法，包括：

s310、直线特征提取阶段；

s320、文字特征提取阶段；

s330、区域特征提取阶段；以及，

s340、转置视频识别阶段。

示例性地，直线特征提取阶段，包括：

s311、对待处理视频进行抽帧处理，得到目标图像。

s312、识别目标图像中的候选线段。

s313、筛选出候选线段中的水平线段，作为候选水平线段。

示例性地，可以采用以下公式筛选出候选线段中的水平线段：

l1＝{(xi0,yi0,xi1,yi1)||(yi1-yi0)/(xi1-xi0)|≤θ1，i＝1,2,…,n1}；

其中，l1为筛选出的候选水平线段的集合；(xi0,yi0)和(xi1,yi1)为第i条候选线段中的两个点；θ1为阈值常数，可根据需要自行调节；n1为候选线段的总条数。其中，坐标原点为目标图像的左上角的顶点。

s314、根据候选水平线段在目标图像中的高度值，对各候选水平线段进行排序。

s315、将位于相同高度的候选水平线段进行合并，得到候选边界线。

s316、根据边界线属性，从候选边界线中筛选两条视频边界线，并将视频边界线作为直线特征。

其中，边界线属性包括边界线长度、和边界线关联的非视频区域的对称性和面积大小。

示例性地，可以采用以下公式，根据边界线长度，对候选边界线进行筛选：

l2＝{(xj0,yj0,xj1,yi1)||(xj1-xj0)/w|≤θ2，j＝1,2,…,n2}；

其中，l2为筛选出的候选边界线的集合；(xj0,yj0)和(xj1,yj1)为第j条候选边界线中的两个点；w为目标图像中视频画面的长度；θ2为阈值常数，可根据需要自行调节；n2为候选边界线的总条数。其中，坐标原点为目标图像的左上角的顶点。

示例性地，可以采用以下公式，根据边界线关联的非视频区域的对称性和面积大小，对候选边界线进行筛选，使得得到的候选边界线关于水平中轴线对称，并且保证视频区域面积尽可能大，也即非视频区域面积尽可能小：

其中，lt为位于目标图像中视频画面的水平中轴线以上区域的候选边界线集合；lb为位于目标图像中视频画面的水平中轴线以下区域的候选边界线集合；(x00,y00,x01,y01)为筛选出的一条视频边界线上的点；(x10,y10,x11,y11)为筛选出的另一条视频边界线上的点；n3为lt集合中候选边界线的总条数；n4为lb集合中候选边界线的总条数；h为目标图像的视频画面的高度；θ3为阈值常数，可根据需要自行调节。其中，坐标原点为视频帧的左上角的顶点。

s317、根据直线特征，确定目标图像是否为转置图像，得到直线识别结果。

示例性地，若识别到直线特征，则得到直线识别结果为转置图像；否则，得到直线识别结果为非转置图像。

为了便于后续计算，可设置转置图像的标识符为1，非转置图像的标识符为0。也即，直线识别结果为转置图像时，fline＝1；直线识别结果为非转置图像时，fline＝0。

示例性地，文字特征提取阶段，包括：

s321、识别目标图像中视频边界线关联的非视频区域中的文字信息。

示例性地，可以通过ocr(opticalcharacterrecognition，光学字符识别)技术，识别目标图像中的非视频区域中的文字信息。

s322、确定所识别的文字信息所属文字区域与视频区域的文字面积占比。

s323、根据文字面积占比或视频边界线关联的视频区域的视频面积占比，确定目标图像是否为转置图像，得到文字识别结果。

示例性地，若文字面积占比大于第一设定比例阈值，或视频区域与目标图像的视频面积占比大于第二设定比例阈值，则得到文字识别结果为非转置图像；否则，得到文字识别结果为转置图像。其中，第一设定比例阈值和第二设定比例阈值由技术人员根据需要或经验值进行设定，或通过大量试验进行确定，两者数值相同或不同。

为了便于后续计算，可设置转置图像的标识符为1，非转置图像的标识符为0。也即，文字识别结果为转置图像时，ftext＝1；文字识别结果为非转置图像时，ftext＝0。

参见图3b所示的一种目标图像示意图，目标图像30中的视频边界线33，将目标图像30划分为视频区域31和非视频区域32。在非视频区域中，识别到的文字信息所属文字区域34。

具体的，若满足以下条件，则确定文字识别结果为转置视频：

其中，(x00,y00,x01,y01)为为筛选出的一条视频边界线上的点；(x10,y10,x11,y11)为筛选出的另一条视频边界线上的点；w目标图像的视频画面的长度；h为目标图像的视频画面的高度；atext为文字识别区域的文字面积；θ4、θ5为阈值常数，可根据需要自行调节；其中，||为或运算。

示例性地，区域特征提取阶段，包括：

s331、分别识别视频边界线所关联的视频区域、顶部非视频区域和底部非视频区域中的平滑度，得到中间平滑度、顶部平滑度和底部平滑度。

示例性地，通过拉普拉斯算子分别计算视频区域、顶部非视频区域和底部非视频区域中的平滑度。

s332、若各区域的平滑度分别满足相应的平滑度阈值，或者，中间平滑度与顶部平滑度和/或底部平滑度之间的比对情况，确定目标图像是否为转置图像，得到区域识别结果。

示例性地，若满足以下条件，则确定文字识别结果为转置视频：

[(stop＜sthr1)&(sbot＜sthr2)&(smid＜sthr3)]||[smid/(stop+sbot+ε)＞θ6]；

其中，stop为顶部非视频区域的顶部平滑度；sbot为底部非视频区域的底部平滑度；smid为视频区域的中间平滑度；sthr1为顶部非视频区域的平滑度阈值；sthr2为底部非视频区域的平滑度阈值；sthr3为视频区域的平滑度阈值；ε为非负数值，防止出现除零错误；；θ6为阈值常数，可根据需要自行调节；&为与运算；||为或运算。

其中，不同区域的平滑度阈值可以由技术人员根据需要或经验值进行确定，或通过大量试验反复确定。

为了便于后续计算，可设置转置图像的标识符为1，非转置图像的标识符为0。也即，区域识别结果为转置图像时，fregion＝1；区域识别结果为非转置图像时，fregion＝0。

示例性地，转置视频识别阶段，包括：

s341、根据直线识别结果、文字识别结果和区域识别结果，确定目标图像的转置识别结果。

示例性地，可以采用以下公式进行转置识别结果的确定：

fimg＝(fline&(1-ftext))|fregion；

其中，fimg为转置识别结果，若fimg＝1则表明转置识别结果为转置图像；若fimg＝0，则表明转置识别结果为非转置图像。&为与运算；|为或运算。

s342、若待处理视频帧中转置图像的数量超过设定数量阈值，则确定待处理视频为转置视频。

其中，设定数量阈值可以由技术人员根据需要或经验值进行确定，或通过大量试验反复确定。

本申请实施例能够实现转置视频的自动化、规模化、实时化识别，提供了转置视频识别效率，为视频质量的有效把控提供了可能。进一步地，通过转置视频的自动化处理，为后续对转置视频的裁剪和二次加工提供了丰富的物料资源，为转置视频裁剪的二次加工的自动化、规模化、实时化以及定制化奠定了基础。

图4是本申请实施例提供的一种转置视频识别装置的结构图，该转置视频识别装置400，包括：内容属性特征识别模块401和转置视频确定模块402。其中，

内容属性特征识别模块401，用于识别待处理视频中视频帧的内容属性特征；其中，内容属性特征包括直线特征、文字特征和区域特征中的至少一种；

转置视频确定模块402，用于根据内容属性特征，确定待处理视频是否为转置视频。

本申请实施例通过内容属性特征识别模块识别待处理视频中视频帧的内容属性特征；其中内容属性特征包括直线特征、文字特征和区域特征中的至少一种；用户转置视频确定模块根据内容属性特征，确定待处理视频是否为转置视频。上述技术方案通过引入视频帧的内容属性特征，实现了对视频帧所属的待处理视频的转置视频自动化识别，提高了转置视频识别效率，能够实现转置视频识别的批量化和实时化处理，为后续对转置视频二次加工的自动化、规模化、实时化及定制化处理，奠定了基础。另外，由于转置视频的视频质量普遍较低，通过转置视频的自动识别，还能够实现对视频质量的有效把控。

进一步地，若内容属性特征包括直线特征，则内容属性特征识别模块401，包括：

直线特征识别单元，用于识别待处理视频中视频帧的视频边界线，并将视频边界线作为直线特征；

转置视频确定模块402，包括：

第一转置视频确定单元，用于若未识别到视频边界线，则确定待处理视频为非转置视频。

进一步地，直线特征识别单元，包括：

视频参考线识别子单元，用于识别待处理视频中视频帧的视频参考线；

视频边界线确定子单元，用于根据视频参考线，确定视频边界线。

进一步地，视频边界线确定子单元，包括：

候选边界线得到从单元，用于对满足线段合并条件的各视频参考线进行合并，得到候选边界线；其中，线段合并条件为视频参考线所在直线之间距离小于设定距离阈值；

视频边界线筛选从单元，用于根据边界线属性，从候选边界线中筛选视频边界线。

进一步地，边界线属性包括边界线长度、边界线所关联非视频区域的面积大小、和边界线所关联非视频区域的对称性中的至少一种。

进一步地，内容属性特征还包括文字特征，则内容属性特征识别模块401，包括：

文字特征识别单元，用于若识别到视频边界线，则识别视频边界线所关联的非视频区域的文字区域，并将文字区域作为文字特征；

转置视频确定模块402，包括：

第二转置视频确定单元，用于若文字区域与视频区域之间的面积占比，满足第一设定比例阈值，则确定待处理视频为非转置视频。

进一步地，转置视频确定模块402，还包括：

第三转置视频确定单元，用于若视频边界线所关联的非视频区域与视频区域之间的面积占比，满足第二设定比例阈值，则确定待处理视频为非转置视频。

进一步地，若内容属性特征包括区域特征，则内容属性特征识别模块401，包括：

平滑度识别单元，用于识别待处理视频中视频帧的画面中间区域的中间平滑度，以及识别待处理视频中视频帧的画面边缘区域的边缘平滑度；

区域特征确定单元，用于将中间平滑度和边缘平滑度作为区域特征；

转置视频确定模块402，包括：

第四转置视频确定单元，用于若中间平滑度小于中间平滑度阈值，且边缘平滑度大于边缘平滑度阈值，则确定待处理视频为转置视频；

第五转置视频确定单元，用于若中间平滑度与边缘平滑度的平滑度比值，大于设定平滑度占比阈值，则确定待处理视频为转置视频。

上述转置视频识别装置可执行本发明任意实施例所提供的转置视频识别方法，具备执行转置视频识别方法相应的功能模块和有益效果。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是实现本申请实施例的转置视频识别方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的转置视频识别方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的转置视频识别方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的转置视频识别方法对应的程序指令/模块(例如，附图4所示的内容属性特征识别模块401和转置视频确定模块402)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的转置视频识别方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储实现转置视频识别方法的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至实现转置视频识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现转置视频识别方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与实现转置视频识别方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如，led)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务中，存在的管理难度大，业务扩展性弱的缺陷。

根据本申请实施例的技术方案，通过引入视频帧的内容属性特征，实现了对视频帧所属的待处理视频的转置视频自动化识别，提高了转置视频识别效率，能够实现转置视频识别的批量化和实时化处理，为后续对转置视频二次加工的自动化、规模化、实时化及定制化处理，奠定了基础。另外，由于转置视频的视频质量普遍较低，通过转置视频的自动识别，还能够实现对视频质量的有效把控。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄晨;王璐;陶文;杨羿;李一;陈晓冬;刘林;朱延峰
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种智能化道路检测装置的制作方法
上一篇：一种环保且高效的路板连续铺设装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。