视频图像处理方法及装置与流程

文档序号：12133946阅读：323来源：国知局

导航： X技术> 最新专利>电子通信装置的制造及其应用技术

本发明涉及通信技术领域，尤其涉及一种视频图像处理方法及装置。

背景技术：

随着互联网的不断发展，越来越多的用户会通过互联网观看音视频资源。商家在发现互联网音视频资源的受众巨大后，也想法设法在这些音视频资源中插入广告进行宣传。

目前在观看音视频资源时，会向用户弹出广告标识，容易影响用户观看以至于带来反感。

技术实现要素：

为克服相关技术中存在的问题，本公开提供一种视频图像处理方法及装置。

根据本公开实施例的第一方面，提供一种视频图像处理方法，包括：

获取视频资源的待处理图像；

识别所述待处理图像中的字幕；

确定所述字幕所对应的预设位置；

播放所述待处理图像时，在所述字幕所对应的预设位置处呈现推送信息。

本公开实施例提供的技术方案，可以包括以下有益效果：获取视频资源的待处理图像，识别待处理图像中的字幕，确定该字幕对应的预设位置，进而播放该待处理图像时，在该字幕对应的预设位置呈现推送信息，实现了将推送信息呈现在字幕附近，用户在看字幕的时候就会看到推送信息，从而可以引起用户注意，而且设置在字幕附近不影响视频的观看，提高用户体验。

进一步地，所述字幕包括：至少一个字符；

所述识别所述待处理图像中的字幕，包括：

按照字幕的阅读顺序，确定所述字幕中的第一个字符的位置和最后一个字符的位置。

可选地，所述播放所述待处理图像时，在所述字幕所对应的预设位置处呈现推送信息，包括：

播放所述待处理图像时，按照所述字幕的阅读顺序，在所述第一个字符的位置之前的第一预设位置处呈现所述推送信息，和/或，在所述最后一个字符的位置之后的第二预设位置呈现所述推送信息。

本公开实施例提供的技术方案中，在所述第一个字符的位置之前的第一预设位置处呈现所述推送信息，和/或，在所述最后一个字符的位置之后的第二预设位置呈现所述推送信息，实现推送信息与字幕更好地融合，提高了用户体验。

可选地，所述字幕包括：至少一个字符；

所述识别所述待处理图像中的字幕之后，还包括：

确定所述字幕中字符的高度。

可选地，所述在所述字幕所对应的预设位置处呈现推送信息，包括：

将所述推送信息的高度设为与所述字幕中字符的高度相同，得到处理后的推送信息；

在所述字幕所对应的预设位置处呈现所述处理后的推送信息。

本公开实施例提供的技术方案中，推送信息的高度设为与所述字幕中字符的高度相同，实现推送信息与字幕更好地融合，提高了用户体验。

可选地，所述字幕为内嵌字幕；

所述按照字幕的阅读顺序，确定所述字幕中的第一个字符的位置和最后一个字符的位置，包括：

采用字符识别，按照字幕的阅读顺序，在所述待处理图像的预设识别范围内识别所述字幕中的第一个字符和最后一个字符；

确定所述第一个字符的位置和所述最后一个字符的位置。

可选地，所述字幕为外挂字幕；

所述按照字幕的阅读顺序，确定所述字幕中的第一个字符的位置和最后一个字符的位置，包括：

根据外挂字幕文件中字幕的时间信息，确定所述待处理图像中的字幕；

根据所述待处理图像中的字幕，在所述待处理图像的预设识别范围内计算所述第一个字符的位置和所述最后一个字符的位置。

根据本公开实施例的第二方面，提供一种视频图像处理装置，包括：

获取模块，被配置为获取视频资源的待处理图像；

识别模块，被配置为识别所述待处理图像中的字幕；

添加模块，被配置为确定所述字幕所对应的预设位置；

处理模块，被配置为播放所述待处理图像时，在所述字幕所对应的预设位置处呈现推送信息。

可选地，所述字幕包括：至少一个字符；

所述识别模块，具体被配置为按照字幕的阅读顺序，确定所述字幕中的第一个字符的位置和最后一个字符的位置。

可选地，所述处理模块，具体被配置为播放所述待处理图像时，按照所述字幕的阅读顺序，在所述第一个字符的位置之前的第一预设位置处呈现所述推送信息，和/或，在所述最后一个字符的位置之后的第二预设位置呈现所述推送信息。

可选地，所述字幕包括：至少一个字符；

所述装置还包括：确定模块；

所述确定模块，被配置为在所述识别模块识别所述待处理图像中的字幕之后，确定所述字幕中字符的高度。

可选地，所述处理模块，包括：

预处理子模块，被配置为将所述推送信息的高度设为与所述字幕中字符的高度相同，得到处理后的推送信息；

添加子模块，被配置为在所述字幕所对应的预设位置处呈现所述处理后的推送信息。

可选地，所述字幕为内嵌字幕；

所述识别模块，包括：

第一识别子模块，被配置为采用字符识别，按照字幕的阅读顺序，在所述待处理图像的预设识别范围内识别所述字幕中的第一个字符和最后一个字符；

第一确定子模块，被配置为确定所述第一个字符的位置和所述最后一个字符的位置。

可选地，所述字幕为外挂字幕；

所述识别模块，包括：

第二确定子模块，被配置为根据外挂字幕文件中字幕的时间信息，确定所述待处理图像中的字幕；

第二识别子模块，被配置为根据所述待处理图像中的字幕，在所述待处理图像的预设识别范围内计算所述第一个字符的位置和所述最后一个字符的位置。

根据本公开实施例的第三方面，提供一种视频图像处理装置，包括：被配置为控制可执行指令执行的处理器、被配置为存储处理器可执行指令的存储器；

所述处理器被配置为：

获取视频资源的待处理图像；

识别所述待处理图像中的字幕；

确定所述字幕所对应的预设位置；

播放所述待处理图像时，在所述字幕所对应的预设位置处呈现推送信息。

本公开的实施例提供的技术方案可以包括以下有益效果：提供一种视频图像处理方法及装置，通过获取视频资源的待处理图像，识别待处理图像中的字幕，确定该字幕对应的预设位置，进而播放该待处理图像时，在该字幕对应的预设位置呈现推送信息，实现了将推送信息呈现在字幕附近，用户在看字幕的时候就会看到推送信息，从而可以引起用户注意，而且设置在字幕附近不影响视频的观看，提高用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种视频图像处理方法的流程图；

图2是根据一示例性实施例示出的一种视频图像处理方法中字幕结构示意图；

图3是根据一示例性实施例示出的一种视频图像处理装置实施例一的框图；

图4是根据一示例性实施例示出的一种视频图像处理装置实施例二的框图；

图5是根据一示例性实施例示出的一种视频图像处理装置实施例三的框图；

图6是根据一示例性实施例示出的一种视频图像处理装置实施例四的框图；

图7是根据一示例性实施例示出的一种视频图像处理装置实施例五的框图；

图8是根据一示例性实施例示出的一种服务器的框图；

图9是根据一示例性实施例示出的一种视频图像处理装置900的框图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

现在用户观看的视频资源一般都会插入或多或少的推送信息，例如：推送信息、收费通知信息等，有的推送信息会在用户观看过程中明显的弹出，影响用户观看视频，容易引起用户的反感；也有些推送信息会嵌入在视频资源中，这种推送信息一般在视频图像边角的区域，用户一般不会去关注，很难达到推荐效果。本发明提供一种方法，实现在不影响用户观看的情况下提高推荐效果。

图1是根据一示例性实施例示出的一种视频图像处理方法的流程图。本实施例的执行主体可以为网络侧的服务器，也可以为具有视频播放功能的终端设备，在此不作限制。

该装置可以通过软件和/或硬件实现。如图1所示，本实施例的方案可以包括以下步骤：

在步骤S101中，获取视频资源的待处理图像。

一般地，一个视频资源包括很多图像帧，可以一帧一帧进行处理，也可以按照预设间隔抽取多个图像帧进行处理。上述待处理图像为其中任一帧图像，每一帧图像都可以采用相同的方法进行处理。

在步骤S102中，识别待处理图像中的字幕。

目前播放的视频资源一般都会配有字幕，与视频资源中的台词、旁白等同步。

需要说明的是，目前的视频资源可以是外挂字幕，也可以是内嵌字幕，在此不做限制。如果是内嵌字幕，可以直接通过字符识别技术识别；如果是外挂字幕，就根据外挂字幕文件的字幕时间信息，识别待处理图像上匹配的字幕。

在步骤S103中，确定上述字幕所对应的预设位置。

在步骤S104中，播放上述待处理图像时，在上述字幕所对应的预设位置呈现推送信息。

识别到字幕后，可以按照预设的规则，确定字幕对应的预设位置，这个预设位置用来呈现推送信息。服务器或终端播放视频资源时，播放到该待处理图像时，直接将推送信息呈现在预设位置。

根据字幕位置确定的预设位置一般在字幕附近，即字幕周边预设范围内，这样不影响视频的观看，而且用户在看字幕的时候就会看到推送信息，从而可以引起用户注意。

还可以设置该推送信息与字幕同步出现、同步淡出，即没有识别到字幕的待处理图像就不呈现推送信息。

本实施例中，获取视频资源的待处理图像，识别待处理图像中的字幕，确定该字幕对应的预设位置，进而播放该待处理图像时，在该字幕对应的预设位置呈现推送信息，实现了将推送信息呈现在字幕附近，用户在看字幕的时候就会看到推送信息，从而可以引起用户注意，而且设置在字幕附近不影响视频的观看，提高用户体验。

进一步地，上述字幕包括：至少一个字符。一般地，字幕都是成句出现，包括中文、英文或其他语言的字符。

上述识别待处理图像中的字幕就是识别出这至少一个字符。

可选地，识别待处理图像中的字幕可以是：按照字幕的阅读顺序，确定该字幕中第一个字符的位置和最后一个字符的位置。

一般正常的字幕阅读顺序都是从左到右，将最左边的字符作为第一个字符，将最右边的字符作为最后一个字符。

具体实现时，为了提高效率可以在一定预设范围内识别字幕。

例如字幕一般都在图像的下方，那么可以预设在待处理图像的下部四分之一范围内识别该待处理图像的字幕，在此不做限制。

识别出字幕后，还可以按照字幕的阅读顺序，确定字幕中的第一个字符和最后一个字符。

上述字幕可以是内嵌字幕，也可以是外挂字幕。

对于内嵌字幕，上述按照字幕的阅读顺序，确定该字幕中第一个字符的位置和最后一个字符的位置，可以是：采用字符识别，按照字幕的阅读顺序，在待处理图像的预设识别范围内识别字幕的第一个字符和最后一个字符。进而确定第一个字符的位置和最后一个字符的位置。

内嵌字幕比较直观，直接嵌入在待处理图像上，识别到某个字符，就可以直接得到该字符在待处理图像中的位置。

对于外挂字幕，上述按照字幕的阅读顺序，确定该字幕中第一个字符的位置和最后一个字符的位置，可以是：可以根据外挂字幕文件中的时间信息，确定该待处理图像中的字幕；并根据该待处理图像中的字幕，在待处理图像的预设识别范围内计算该字幕中第一个字符的位置和最后一个字符的位置。

外挂字幕，具体指字幕文件和视频文件分离，播放时按照时间点同步呈现，字幕文件中会标识各字幕的呈现时间，那么根据待处理图像的呈现时间就可以匹配到相同时间要呈现的字幕，在根据字幕的长度、字符个数等相关信息，就可以计算出字幕中第一个字符的位置和最后一个字符的位置。

图2是根据一示例性实施例示出的一种视频图像处理方法中字幕结构示意图。

确定所述字幕中的第一个字符的位置和最后一个字符的位置之后，可以将第一个字符之前预设距离处的位置作为第一个字符所对应的第一预设位置，和/或，将最后一个字符之后预设距离处的位置作为最后一个字符所对应的第二预设位置。

上述播放上述待处理图像时，在上述字幕所对应的预设位置呈现推送信息，可以是：播放待处理图像时，按照字幕的阅读顺序，在第一个字符的位置之前的第一预设位置处呈现该推送信息，和/或，在最后一个字符的位置之后的第二预设位置呈现该推送信息。

如图2所示，在字幕中第一个字符的前方添加推送信息，和/或，在最后一个字符的后侧添加推送信息。

可选地，该预设距离可以与字幕中字符间距相同，以便于推送信息更好地融入字幕。

可选地，推送信息可以包括：字符，和/或，图片。

具体地，推送信息可以包括：产品的品牌名称、商标(logo)等信息。

进一步地，识别待处理图像中的字幕之后，还可以确定字幕中字符的高度。

在上述字幕所对应的预设位置呈现推送信息，可以是：将推送信息的高度设为与字幕中字符的高度相同，得到处理后的推送信息；进而在字幕所对应的预设位置处呈现该处理后的推送信息。

实现推送信息和字幕中字符大小相近，不影响用户观看视频资源，同时，在用户看字幕时，又可以扫到推送信息，留下印象，起到更好地广告作用。

图3是根据一示例性实施例示出的一种视频图像处理装置实施例一的框图，该装置可以被配置在网络侧的服务器中，也可以配置在具有视频播放功能的终端设备中，如图3所示，视频图像处理装置，包括：

获取模块301，被配置为获取视频资源的待处理图像；

识别模块302，被配置为识别所述待处理图像中的字幕；

添加模块303，被配置为确定所述字幕所对应的预设位置；

处理模块304，被配置为播放所述待处理图像时，在所述字幕所对应的预设位置处呈现推送信息。

本公开实施例提供的视频图像处理装置，获取视频资源的待处理图像，识别待处理图像中的字幕，确定该字幕对应的预设位置，进而播放该待处理图像时，在该字幕对应的预设位置呈现推送信息，实现了将推送信息呈现在字幕附近，用户在看字幕的时候就会看到推送信息，从而可以引起用户注意，而且设置在字幕附近不影响视频的观看，提高用户体验。

可选地，识别模块302，具体被配置为按照字幕的阅读顺序，确定所述字幕中的第一个字符的位置和最后一个字符的位置。

处理模块304，具体被配置为播放所述待处理图像时，按照所述字幕的阅读顺序，在所述第一个字符的位置之前的第一预设位置处呈现所述推送信息，和/或，在所述最后一个字符的位置之后的第二预设位置呈现所述推送信息。

在上述图3所示的实施例的基础上，图4是根据一示例性实施例示出的一种视频图像处理装置实施例二的框图。

参照图4，该装置还可以包括：确定模块401，被配置为在识别模块302识别所述待处理图像中的字幕之后，确定所述字幕中字符的高度。

在上述图3所示的实施例的基础上，图5是根据一示例性实施例示出的一种视频图像处理装置实施例三的框图；

参照图5，处理模块304，可以包括：预处理子模块501和推送子模块502。

其中，

预处理子模块501，被配置为将所述推送信息的高度设为与所述字幕中字符的高度相同，得到处理后的推送信息。

推送子模块502，被配置为在所述字幕所对应的预设位置处呈现所述处理后的推送信息。

在上述图3所示的实施例的基础上，图6是根据一示例性实施例示出的一种视频图像处理装置实施例四的框图，参照图6，识别模块302，可以包括：第一识别子模块601和第一确定子模块602。

第一识别子模块601，被配置为采用字符识别，按照字幕的阅读顺序，在所述待处理图像的预设识别范围内识别所述字幕中的第一个字符和最后一个字符。

第一确定子模块602，被配置为确定所述第一个字符的位置和所述最后一个字符的位置。

在上述图3所示的实施例的基础上，图7是根据一示例性实施例示出的一种视频图像处理装置实施例五的框图，参照图7，识别模块302，可以包括：第二确定子模块701和第二识别子模块702。

第二确定子模块701，被配置为根据外挂字幕文件中字幕的时间信息，确定所述待处理图像中的字幕。

第二识别子模块702，被配置为根据所述待处理图像中的字幕，在所述待处理图像的预设识别范围内计算所述第一个字符的位置和所述最后一个字符的位置。

可选地，上述推送信息包括：字符，和/或，图片。

上述任一个实施例提供的视频图像处理装置，用于本申请上述任意视频图像处理方法实施的技术方案，其实现原理和技术效果类似，通过。

以上描述了视频图像处理装置的内部功能模块和结构示意，其实质上的执行主体应该为服务器，图8是根据一示例性实施例示出的一种服务器的框图，参照图8，该服务器可具体实现为：处理器801、以及用于存储处理器可执行指令的存储器802；

该处理器802被配置为：

获取视频资源的待处理图像；

识别所述待处理图像中的字幕；

确定所述字幕所对应的预设位置；

播放所述待处理图像时，在所述字幕所对应的预设位置处呈现推送信息。

在上述信息的服务器的实施例中，应理解，该处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，而前述的存储器可以是只读存储器(英文：read-only memory，缩写：ROM)、随机存取存储器(英文：random access memory，简称：RAM)、快闪存储器、硬盘或者固态硬盘。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

图9是根据一示例性实施例示出的一种视频图像处理装置900的框图，视频图像处理装置900可以是视频播放软件的后台服务器，也可以是终端设备。

参照图9，该路况信息处理装置900包括处理组件922，其进一步可以包括一个或多个处理器，以及由存储器932所代表的存储器资源，用于存储可由处理组件922的执行的指令，例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件922被配置为执行指令，以执行上述视频图像处理方法，该方法包括：

获取视频资源的待处理图像；

识别所述待处理图像中的字幕；

确定所述字幕所对应的预设位置；

播放所述待处理图像时，在所述字幕所对应的预设位置处呈现推送信息。

可选地，所述字幕包括：至少一个字符；

所述识别所述待处理图像中的字幕，包括：

按照字幕的阅读顺序，确定所述字幕中的第一个字符的位置和最后一个字符的位置。

可选地，所述播放所述待处理图像时，在所述字幕所对应的预设位置处呈现推送信息，包括：

可选地，所述字幕包括：至少一个字符；

所述识别所述待处理图像中的字幕之后，还包括：

确定所述字幕中字符的高度。

可选地，所述在所述字幕所对应的预设位置处呈现推送信息，包括：

将所述推送信息的高度设为与所述字幕中字符的高度相同，得到处理后的推送信息；

在所述字幕所对应的预设位置处呈现所述处理后的推送信息。

可选地，所述字幕为内嵌字幕；

所述按照字幕的阅读顺序，确定所述字幕中的第一个字符的位置和最后一个字符的位置，包括：

采用字符识别，按照字幕的阅读顺序，在所述待处理图像的预设识别范围内识别所述字幕中的第一个字符和最后一个字符；

确定所述第一个字符的位置和所述最后一个字符的位置。

可选地，所述字幕为外挂字幕；

所述按照字幕的阅读顺序，确定所述字幕中的第一个字符的位置和最后一个字符的位置，包括：

根据外挂字幕文件中字幕的时间信息，确定所述待处理图像中的字幕；

根据所述待处理图像中的字幕，在所述待处理图像的预设识别范围内计算所述第一个字符的位置和所述最后一个字符的位置。

进一步地，装置900还可以包括一个电源组件926被配置为执行装置900的电源管理，一个有线或无线网络接口950被配置为将装置900连接到网络，和一个输入输出(I/O)接口958。装置900可以操作基于存储在存储器932的操作系统，例如Windows ServerTM，M ac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求书指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求书来限制。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：季虹;邹园园;宋明星;
技术所有人：北京小米移动软件有限公司;
我是此专利的发明人

上一篇：大型畜牧养殖圈舍用限位饮水器的制作方法与工艺
上一篇：环保型防结冰牲口饮水槽的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。