一种校正字幕的方法及终端的制作方法

文档序号:9380818阅读:377来源:国知局
一种校正字幕的方法及终端的制作方法
【技术领域】
[0001]本发明涉及电子技术领域,尤其涉及一种校正字幕的方法及终端。
【背景技术】
[0002]随着终端的使用日益广泛,用户可以利用终端实现各种功能,例如利用终端观看视频,为了让用户更加确切地知道视频中人物的说话内容,通常会在视频中配备字幕,但是字幕的时间与用户说话的时间往往不一致,例如,视频画面已经显示到下一条字幕了,但是用户还在说上一条字幕的内容,这样造成说话内容与字幕内容错乱,用户体验差。

【发明内容】

[0003]本发明实施例提供一种校正字幕的方法,可自动调整目标字幕的时间,提高字幕和视频时间的一致性。
[0004]本发明实施例提供了一种校正字幕的方法,其可包括:
[0005]获取目标视频所包含的视频画面,其中所述视频画面中包含人脸图像;
[0006]对所述人脸图像进行嘴唇特征识别,确定所述嘴唇特征对应的说话内容;
[0007]查找所述说话内容对应的目标字幕;
[0008]确定所述说话内容在所述目标视频中的目标时间;
[0009]根据所述目标时间,调整所述目标字幕的时间。
[0010]本发明实施例提供了一种终端,其可包括:
[0011]获取单元,用于获取目标视频所包含的视频画面,其中所述视频画面中包含人脸图像;
[0012]识别单元,用于对所述人脸图像进行嘴唇特征识别,确定所述嘴唇特征对应的说话内容;
[0013]查找单元,用于查找所述说话内容对应的目标字幕;
[0014]第一确定单元,用于确定所述说话内容在所述目标视频中的目标时间;
[0015]第一调整单元,用于根据所述目标时间,调整所述目标字幕的时间。
[0016]本发明实施例,获取目标视频所包含的视频画面,该视频画面中包含人脸图像,对人脸图像进行嘴唇特征识别,并确定嘴唇特征对应的说话内容,查找与说话内容对应的目标字幕,确定说话内容在目标视频中的目标时间,根据目标时间,调整目标字幕的时间,可自动调整目标字幕的时间,提高字幕和视频时间的一致性。
【附图说明】
[0017]为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本发明实施例提供的校正字幕方法的第一实施例流程示意图;
[0019]图2是本发明实施例提供的校正字幕方法的第二实施例流程示意图;
[0020]图3是本发明实施例提供的终端的第一实施例结构示意图;
[0021]图4是本发明实施例提供的第一调整单元的结构示意图;
[0022]图5是本发明实施例提供的识别单元的结构示意图;
[0023]图6是本发明实施例提供的终端的第二实施例结构示意图。
【具体实施方式】
[0024]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0025]具体实现中,本发明实施例中描述的终端可包括:手机、平板电脑或者MP4等,上述终端仅是举例,而非穷举,包含但不限于上述终端。
[0026]下面将结合图1至图6对本发明实施例提供的校正字幕的方法及终端进行具体描述。
[0027]请参照图1,是本发明实施例提供的校正字幕的方法的第一实施例流程示意图。本实施例中所描述的校正字幕的方法,包括步骤:
[0028]S100,获取目标视频所包含的视频画面,其中所述视频画面中包含人脸图像;
[0029]具体实施例中,目标视频为待播放的且具有字幕的视频文件,目标视频中包含多帧视频画面,多帧视频画面通过帧间隔进行播放形成目标视频,每一帧视频画面中包括一种视频场景,通常相邻帧的视频画面之间的视频场景相差很小,在视频画面的视频场景中可能包含人脸图像,人脸图像即是具体包含人脸识别信息的图像。
[0030]本发明实施例中通过人脸识别技术获取包含人脸图像的视频画面。人脸识别技术即是通过图片获取人脸识别信息的方法,可选的,获取人脸识别信息的方法可以包括基于人脸特征点的识别算法、基于模板的识别算法和利用神经网络进行识别的算法中的一种或多种,人脸识别信息可以包括五官特征信息、面部曲线信息等。
[0031]本发明实施例中,获取目标视频所包含的视频画面时,可以是视频解码单元实时对目标视频进行解码形成目标视频流,并根据对目标视频中的内容描述信息获取目标视频流中的视频画面,其中内容描述信息包括但不限于目标视频中视频画面的帧数以及帧间隔。
[0032]S101,对所述人脸图像进行嘴唇特征识别,确定所述嘴唇特征对应的说话内容;
[0033]具体实施例中,视频画面中包含人脸图像,通过对图像进行解析,提取图像中的人脸特征,其中人脸特征中包含嘴唇特征。将视频画面中的嘴唇特征和数据库中存储的特征进行比对,其中数据库中包含了各个发音对应的嘴型特征,通过匹配确定人脸图像中的嘴唇特征对应的说话内容,即是视频画面中该人脸对应的人物所说的说话内容。说话内容可以是一句话,也可以是几个字,具体的存在形式不作限定。
[0034]可选的,对人脸图像进行嘴唇特征识别时,定位人脸图像中的嘴唇区域,可以利用肤色模型和人脸的几何特征检测人脸并采用多级结构的算法检测嘴唇,对嘴唇轮廓进行提取,并对嘴唇进行唇动跟踪,根据嘴唇特征中的口型特征进行唇语识别,从而确定嘴唇特征对应的说话内容。
[0035]可选的,对视频画面进行嘴唇特征识别的识别方式可以是,通过预设口型库进行匹配识别,将预设口型库中与视频画面的嘴唇特征匹配嘴唇特征所对应的说话内容确定为视频画面的嘴唇特征所对应的说话内容。
[0036]S102,查找所述说话内容对应的目标字幕;
[0037]具体实施例中,目标视频中本身配备了字幕,当确定了嘴唇特征对应的说话内容后,可以生成与说话内容对应的文字或者语音,将生成的文字或者语音与目标视频中的字幕或者该字幕对应的语音进行比对,从而从目标视频中查找与说话内容对应的目标字幕,需要说明的是,在进行比对时,需要文字与文字比对,语音与语音比对。在进行比对时,若说话内容对应的文字与目标视频中某一段字幕之间相似度大于或者等于预设阈值,或者说话内容对应的语音与目标视频中某一段字幕对应的语音之间相似度大于或者等于预设阈值,则将该段字幕作为与说话内容对应的目标字幕,预设阈值可以根据经验所确定,例如,可以是 90%。
[0038]S103,确定所述说话内容在所述目标视频中的目标时间;
[0039]具体实施例中,在确定目标视频中嘴唇特征对应的说话内容后,需要进一步确定说话内容在目标视频中的目标时间,目标时间即是说话内容在目标视频整个播放时间长度中的时间点,具体的确定方式可以是根据该嘴唇特征所在视频画面的时间所确定,视频画面的时间即是该视频画面在目标视频中的播放时间,例如某一个视频画面在目标视频中的播放时间为九分四十三秒,则该视频画面中嘴唇特征对应的说话内容在目标视频中的目标时间为九分四十三秒。
[0040]S104,根据所述目标时间,调整所述目标字幕的时间。
[0041 ] 具体实施例中,根据说话内容在目标视频中的目标时间,调整目标视频中目标字幕的时间,目标字幕的时间即是目标字幕在目标视频中的显示时间,调整目标字幕的时间后,即可实现嘴唇特征与字幕之间时间上的对应,不会给观看者造成混乱的感觉。
[0042]可选的,根据目标时间调整目标字幕的时间的调整方式可以有以下两种可选的实施方式:
[0043]在第一种可选的实施方式中,调整步骤可以包括以下步骤SlO-Sll ;
[0044]S10,判断所述目标时间是否与所述目标字幕的时间一致;
[0045]具体实施例中,根据说话内容在目标视频中的目标时间调整目标字幕的时间时,首先判断目标时间是否与目标字幕的时间一致,目标字幕的时间即是目标字幕在目标视频中的时间。
[0046]S11,若不一致,则将所述目标字幕的时间与所述目标时间调整为一致。
[0047]具体实施例中,若说话内容的目标时间与目标字幕的时间不一致,则需要将目标字幕的时间与目标时间调整为一致,具体的调整方式可以是将目标字幕前移或者后移。例如
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1