一种多媒体数据的处理方法及装置与流程

文档序号:13142537阅读:185来源:国知局
一种多媒体数据的处理方法及装置与流程

本发明涉及多媒体技术领域,特别涉及一种多媒体数据的处理方法及装置。



背景技术:

目前,用户在观看视频等多媒体数据时,常常出现由于视频编码或解码等原因而导致音视频不同步的问题,从而给用户带来很大困扰,严重影响用户体验,因而,这就需要对及早检测音视频是否同步。



技术实现要素:

本发明提供一种多媒体数据的处理方法及装置,用以获取多媒体数据中的视频关键帧,根据视频关键帧确定字幕属性,进而根据字幕属性对多媒体数据中各视频帧进行字幕识别,获得各视频帧的字幕识别结果,从而根据各视频帧的字幕识别结果和各视频帧对应的音频帧,准确判断多媒体数据中音视频是否同步,以及时发现多媒体播放过程中音画不同步的问题以便进行调整。

本发明提供一种多媒体数据的处理方法,包括:

获取所述多媒体数据中的视频关键帧;

根据所述视频关键帧确定字幕属性,其中,所述字幕属性包括所述多媒体数据中字幕的垂直位置和所述字幕中单个字符的宽度;

根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,其中,所述各视频帧包括所述视频关键帧;

根据所述各视频帧的字幕识别结果和所述各视频帧对应的音频帧,判断所述多媒体数据中音视频是否同步。

在一个实施例中,根据所述视频关键帧确定字幕属性,包括:

对所述视频关键帧中预设区域进行检测,确定所述视频关键帧的水平边缘图和垂直边缘图;

根据所述水平边缘图和垂直边缘图,确定所述视频关键帧的二值化图像;

根据所述二值化图像确定所述字幕属性。

在一个实施例中,所述根据所述二值化图像确定所述字幕属性,包括:

将所述二值化图像进行水平方向投影,确定像素值峰值的出现位置在所述二值化图像上的垂直坐标;

根据所述像素值峰值的出现位置在所述二值化图像上的垂直坐标,确定所述字幕的垂直位置。

在一个实施例中,所述根据所述二值化图像确定所述字幕属性,包括:

将所述二值化图像进行垂直方向投影,将像素值低于预设像素值的相邻区域确定为字符所在区域;

根据所述字符所在区域的宽度确定所述单个字符的宽度。

在一个实施例中,根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,包括:

根据所述单个字符的宽度确定字符滑动窗口的预设宽度;

基于所述字幕的垂直位置,将预设宽度的所述字符滑动窗口在所述各视频帧上逐渐进行滑动,确定所述各视频帧上的各字符;

将所述各字符进行识别,获得所述各视频帧的字幕识别结果。

本发明还提供一种多媒体数据的处理装置,包括:

获取模块,用于获取所述多媒体数据中的视频关键帧;

确定模块,用于根据所述视频关键帧确定字幕属性,其中,所述字幕属性包括所述多媒体数据中字幕的垂直位置和所述字幕中单个字符的宽度;

识别模块,用于根据所述字幕属性对所述多媒体数据中各视频帧进行字幕识别,获得所述各视频帧的字幕识别结果,其中,所述各视频帧包括所述视频关键帧;

判断模块,用于根据所述各视频帧的字幕识别结果和所述各视频帧对应的音频帧,判断所述多媒体数据中音视频是否同步。

在一个实施例中,所述确定模块包括:

第一确定子模块,用于对所述视频关键帧中预设区域进行检测,确定所述视频关键帧的水平边缘图和垂直边缘图;

第二确定子模块,用于根据所述水平边缘图和垂直边缘图,确定所述视频关键帧的二值化图像;

第三确定子模块,用于根据所述二值化图像确定所述字幕属性。

在一个实施例中,所述确定模块包括:

第四确定子模块,用于将所述二值化图像进行水平方向投影,确定像素值峰值的出现位置在所述二值化图像上的垂直坐标;

第五确定子模块,用于根据所述像素值峰值的出现位置在所述二值化图像上的垂直坐标,确定所述字幕的垂直位置。

在一个实施例中,所述第三确定子模块包括:

第一确定单元,用于将所述二值化图像进行垂直方向投影,将像素值低于预设像素值的相邻区域确定为字符所在区域;

第二确定单元,用于根据所述字符所在区域的宽度确定所述单个字符的宽度。

在一个实施例中,所述识别模块包括:

第六确定子模块,用于根据所述单个字符的宽度确定字符滑动窗口的预设宽度;

滑动子模块,用于基于所述字幕的垂直位置,将预设宽度的所述字符滑动窗口在所述各视频帧上逐渐进行滑动,确定所述各视频帧上的各字符;

识别子模块,用于将所述各字符进行识别,获得所述各视频帧的字幕识别结果。

本公开的实施例提供的技术方案可以包括以下有益效果:

通过获取多媒体数据中的视频关键帧,可根据视频关键帧确定字幕属性,进而根据字幕属性对多媒体数据中各视频帧进行字幕识别,获得各视频帧的字幕识别结果,从而根据各视频帧的字幕识别结果和各视频帧对应的音频帧,准确判断多媒体数据中音视频是否同步,以及时发现多媒体播放过程中音画不同步的问题以便进行调整。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1是根据一示例性实施例示出的一种多媒体数据的处理方法的流程图。

图2是根据一示例性实施例示出的另一种多媒体数据的处理方法的流程图。

图3是根据一示例性实施例示出的一种多媒体数据的处理装置的框图。

图4是根据一示例性实施例示出的另一种多媒体数据的处理装置的框图。

图5是根据一示例性实施例示出的又一种多媒体数据的处理装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

为了解决上述技术问题,本公开实施例提供了一种多媒体数据的处理方法,该方法适用于多媒体数据的处理程序、系统或装置中,其执行主体可以是服务器,如图1所示,步骤s101至步骤s104,

在步骤s101中,获取多媒体数据中的视频关键帧;

在步骤s102中,根据视频关键帧确定字幕属性,其中,字幕属性包括多媒体数据中字幕的垂直位置和字幕中单个字符的宽度;

垂直位置即字幕在垂直方向上相对于视频帧的位置。

在步骤s103中,根据字幕属性对多媒体数据中各视频帧进行字幕识别,获得各视频帧的字幕识别结果,其中,各视频帧包括视频关键帧;

在步骤s104中,根据各视频帧的字幕识别结果和各视频帧对应的音频帧,判断多媒体数据中音视频是否同步,例如,如果各视频帧对应的音频帧的语音识别结果和各视频帧的字幕识别结果中含有相同信息的比例较高,则音视频同步,否则音视频不同步。

通过获取多媒体数据中的视频关键帧,可根据视频关键帧确定字幕属性,进而根据字幕属性对多媒体数据中各视频帧进行字幕识别,获得各视频帧的字幕识别结果,从而根据各视频帧的字幕识别结果和各视频帧对应的音频帧,准确判断多媒体数据中音视频是否同步,以及时发现多媒体播放过程中音画不同步的问题以便进行调整。

另外,由于同一多媒体文件中字幕的大小、字体和垂直位置是固定的,因而,为了避免重复进行位置检测,提高速度和准确度,在执行步骤s101和步骤s102时,可以仅选取该多媒体数据中的前几分钟(如前5分钟)的视频关键帧确定字幕属性即可。

如图2所示,在一个实施例中,根据视频关键帧确定字幕属性,包括:

在步骤s201中,对视频关键帧中预设区域进行检测,确定视频关键帧的水平边缘图和垂直边缘图;

在步骤s202中,根据水平边缘图和垂直边缘图,确定视频关键帧的二值化图像;

在步骤s203中,根据二值化图像确定字幕属性。

通过对视频关键帧中预设区域进行检测,可确定视频关键帧的水平边缘图和垂直边缘图,进而根据水平边缘图和垂直边缘图,确定视频关键帧的二值化图像,最后根据二值化图像准确确定字幕属性,以便于之后根据字幕属性对视频帧上的字幕进行检测。

例如:由于字幕通常出现在视频帧的下半部分的中间区域,因而,可在视频关键帧下半部分1/3区域内进行检测,具体地,可利用sobel(索贝尔算子)边缘检测视频关键帧的水平和垂直边缘,然后将水平边缘图和垂直边缘图做或运算后通过otsu算法生成二值化图像,其中,边缘处像素值为255,其他部分像素值为0。

在一个实施例中,根据二值化图像确定字幕属性,包括:

将二值化图像进行水平方向投影,确定像素值峰值的出现位置在二值化图像上的垂直坐标;

根据像素值峰值的出现位置在二值化图像上的垂直坐标,确定字幕的垂直位置。

通过将二值化图像进行水平方向投影,可以确定像素值峰值的出现位置在二值化图像上的垂直坐标,进而根据像素值峰值的出现位置在二值化图像上的垂直坐标,确定字幕的垂直位置,即字幕的垂直位置即该垂直坐标。

例如,可将二值化图像进行水平方向投影,由于字幕区域边缘特征丰富,因此字幕区域会有一个峰值,将峰值所在的行记(即出现峰值的像素点相对于该二值化图像在垂直方向上的垂直坐标)为字幕候选区域,且由于影视字幕一般会在水平中间部分出现,因此峰值确认可以只选择屏幕的中间1/3部分计算。另外,一帧视频可能得到多个峰值,而影视播放过程字幕上下位置是固定的,因而,字幕的垂直位置可以利用5分钟视频所有关键帧的综合信息得到确认。

在一个实施例中,根据二值化图像确定字幕属性,包括:

将二值化图像进行垂直方向投影,将像素值低于预设像素值的相邻区域确定为字符所在区域;

根据字符所在区域的宽度确定单个字符的宽度。

由于多媒体数据播放过程中字幕具有相同的字体和大小、字与字之间间隔基本相同、同时二值化图像投影后字与字之间的间隔处是白色像素值较少的低谷,因而通过将二值化图像进行垂直方向投影,可将像素值低于预设像素值的相邻区域确定为字符所在区域,并根据字符所在区域的宽度确定单个字符的宽度。

具体地:将二值化图像进行垂直方向投影,由于影视字幕播放过程中字幕具有相同的字体和大小,字与字之间间隔基本相同,同时二值化图像投影后字与字之间的间隔处是白色像素值较少的低谷,因而,将低谷区域认为是字与字间隔的候选区域,并计算不同低谷之间的距离的值,将所有关键帧的距离值进行统计,忽略距离太大或太小的距离值,将得到的最多距离值确定为字幕单个字符宽度w。

在一个实施例中,根据字幕属性对多媒体数据中各视频帧进行字幕识别,获得各视频帧的字幕识别结果,包括:

根据单个字符的宽度确定字符滑动窗口的预设宽度;

基于字幕的垂直位置,将预设宽度的字符滑动窗口在各视频帧上逐渐进行滑动,确定各视频帧上的各字符;

将各字符进行识别,获得各视频帧的字幕识别结果。

在根据单个字符的宽度确定字符滑动窗口的预设宽度后,可基于字幕的垂直位置,将预设宽度的字符滑动窗口在各视频帧上逐渐进行滑动,以依次确定各视频帧上的各字符,进而将各字符进行识别,即可准确获得各视频帧的字幕识别结果。具体过程可以如下:

在视频帧的字幕垂直区域内,将宽度为w的字符滑动窗口从左向右以1个像素点为步长逐步进行滑动,同时将滑动窗口内的部分的图像送入svm((supportvectormachine,支持向量机)分类器以判断是否为字幕字符,如果是字幕字符,再送入神经网络进行识别,且由于滑动过程中步长较小,同一个字符可能得到多次结果,因而在最后删除多余字符即可得到最终的字幕识别结果。

如图3所示,本发明还提供一种多媒体数据的处理装置,包括:

获取模块301,用于获取多媒体数据中的视频关键帧;

确定模块302,用于根据视频关键帧确定字幕属性,其中,字幕属性包括多媒体数据中字幕的垂直位置和字幕中单个字符的宽度;

识别模块303,用于根据字幕属性对多媒体数据中各视频帧进行字幕识别,获得各视频帧的字幕识别结果,其中,各视频帧包括视频关键帧;

判断模块304,用于根据各视频帧的字幕识别结果和各视频帧对应的音频帧,判断多媒体数据中音视频是否同步。

如图4所示,在一个实施例中,确定模块302可以包括:

第一确定子模块3021,用于对视频关键帧中预设区域进行检测,确定视频关键帧的水平边缘图和垂直边缘图;

第二确定子模块3022,用于根据水平边缘图和垂直边缘图,确定视频关键帧的二值化图像;

第三确定子模块3023,用于根据二值化图像确定字幕属性。

如图5所示,在一个实施例中,确定模块302还可以包括:

第四确定子模块3024,用于将二值化图像进行水平方向投影,确定像素值峰值的出现位置在二值化图像上的垂直坐标;

第五确定子模块3025,用于根据像素值峰值的出现位置在二值化图像上的垂直坐标,确定字幕的垂直位置。

在一个实施例中,第三确定子模块包括:

第一确定单元,用于将二值化图像进行垂直方向投影,将像素值低于预设像素值的相邻区域确定为字符所在区域;

第二确定单元,用于根据字符所在区域的宽度确定单个字符的宽度。

在一个实施例中,识别模块包括:

第六确定子模块,用于根据单个字符的宽度确定字符滑动窗口的预设宽度;

滑动子模块,用于基于字幕的垂直位置,将预设宽度的字符滑动窗口在各视频帧上逐渐进行滑动,确定各视频帧上的各字符;

识别子模块,用于将各字符进行识别,获得各视频帧的字幕识别结果。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

最后,本发明中的多媒体数据的处理装置适用于终端设备。例如,可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1