图片处理方法及装置、移动终端及计算机可读存储介质与流程

文档序号:17602400发布日期:2019-05-07 20:27阅读:162来源:国知局
图片处理方法及装置、移动终端及计算机可读存储介质与流程

本发明涉及视频处理技术领域,尤其涉及一种图片处理方法及装置、移动终端及计算机可读存储介质。



背景技术:

目前智能手机和移动互联网已经成为主流配置,人们可以充分利用碎片化时间随时随地享受影音娱乐。而基于移动应用程序的产品特性,市面上几乎所有视频类应用程序均包含了好友分享业务,其中一个典型场景即为:在观看影片的过程中,利用应用程序已有的截图功能或利用智能手机的截图功能将影片的某个精彩瞬间截图并保存为图片,在社交网络上将这些截图的图片分享给好友。

由于人物对白,画外音旁白等作为现代影片不可或缺的组成元素,往往包含了重要的剧情信息,或者其表达出的情感或意境能够引发观影用户的强烈精神共鸣。对于上述信息,现代影片在数字化制作的时候,一般会在影片图像边缘处(例如:最常见的是矩形图像下方)以文字形式来展示,即字幕。这样一方面能不受影片自身音效或者观影用户身处环境噪声的影响,另一方面也能解决如外语影片这种用户仅凭声音无法理解语义的场景需要。自然地,包含字幕的影片截图因其不可比拟的信息载体作用成为截图分享中最常见的类型。

然而,用户在对当前在对影片进行截图分享时,用户需要一张张进行手动操作截图,繁杂多次的截图严重降低了用户使用体验,降低用户分享意愿。



技术实现要素:

本发明的主要目的在于提供图片处理方法及装置、移动终端及计算机可读存储介质,旨在解决现有技术中用户在需要分享影片的图片时,需要进行繁杂多次的手动操作进行截图,严重降低用户的使用体验,降低用户的分享意愿的技术问题。

为实现上述目的,本发明第一方面提供一种图片处理方法,该方法包括:

响应于图片处理指令,根据所述图片处理指令及目标影片的多媒体文件,获取指定时间范围内的多帧视频图像帧及目标字幕信息;

根据指定时间范围内的多帧视频图像帧及目标字幕信息从所述多帧视频图像帧中提取至少一帧目标视频图像帧;

根据所述目标字幕信息及所述至少一帧目标视频图像帧生成包含字幕的图片。

为实现上述目的,本发明第二方面提供一种图片处理装置,包括:

响应获取模块,用于响应于图片处理指令,根据所述图片处理指令及目标影片的多媒体文件,获取指定时间范围内的多帧视频图像帧及目标字幕信息;

帧提取模块,用于根据指定时间范围内的多帧视频图像帧及目标字幕信息从所述多帧视频图像帧中提取至少一帧目标视频图像帧;

生成模块,用于根据所述目标字幕信息及所述至少一帧目标视频图像帧生成包含字幕的图片。

为实现上述目的,本发明第三方面提供一种移动终端,包括:存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如本发明实施例第一方面提供的图片处理方法中的各个步骤。

为实现上述目的,本发明第四方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如本发明第一方面图片处理方法中的各个步骤。

本发明提供一种图片处理方法,该方法包括:响应于图片处理指令,根据该图片处理指令及目标影片的多媒体文件,获取指定时间范围内的多帧视频图像帧及目标字幕信息,根据该指定时间范围内的目标字幕信息及多帧视频帧图像从该多帧视频图像帧中提取至少一帧目标视频图像帧,根据该目标字幕信息及至少一帧目标视频图像帧生成包含字幕的图片。相对于现有技术,在用户的图片处理指令下,通过获取目标字幕信息及至少一帧目标视频图像帧,并利用该目标字幕信息及该至少一帧目标视频图像帧生成包含字幕的图片,使得不需要用户手动一张张截图,而是基于指定时间范围内的多帧视频图像帧及目标字幕信息得到包含字幕的图片,操作简单,用户体验好,有效提升用户的分享意愿。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为一种移动终端的结构框图;

图2为本发明实施例中图片处理方法的一流程示意图;

图3为本发明实施例中图片处理方法的另一流程示意图;

图4a为本发明图3所示实施例中步骤302的细化步骤的一流程示意图;

图4b为本发明图3所示实施例中步骤302的细化步骤的另一流程示意图;

图4c为本发明图4b所示实施例中基于ocr技术的硬字幕模式下的提取示意图;

图4d为本发明图3所示实施例中步骤302的细化步骤的另一流程示意图;

图5为本发明实施例中图片处理方法的另一流程示意图;

图6为本发明实施例中图片处理方法的另一流程示意图;

图7为本发明实施例中图片处理方法的另一流程示意图;

图8为本发明实施例中图片处理方法的另一流程示意图;

图9a为本发明实施例中指定时间范围的设置界面的示意图;

图9b为本发明实施例中生成的包含字幕的图片的示意图;

图9c为本发明实施例中生成的包含字幕的图片的示意图;

图10为本发明实施例中图片处理装置的程序模块的示意图;

图11为本发明实施例中图片处理装置的程序模块的示意图;

图12a为图11所示实施例中数据处理模块的细化功能模块的示意图;

图12b为图11所示实施例中数据处理模块的细化功能模块的另一示意图;

图12c为图11所示实施例中数据处理模块的细化功能模块的另一示意图;

图13为本发明实施例中图片处理装置的程序模块的示意图;

图14为本发明实施例中图片处理装置的程序模块的示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,图1为一种移动终端100的结构示意图。本发明实施例提供的图片处理方法可应用于如图1所示的移动终端100中,移动终端100可以但不限于包括:需依靠电池维持正常运行且支持网络及下载功能的智能手机、笔记本电脑、平板电脑等等。

如图1所示,移动终端100包括存储器102、存储控制器104,一个或多个(图中仅示出一个)处理器106、外设接口108、射频单元110、按键单元112、音频单元114以及显示单元116。这些组件通过一条或多条通讯总线/信号线122相互通讯。

可以理解,图1所示的结构仅为示意,其并不对移动终端100的结构造成限定。例如,移动终端100还可包括比图1所示更多或者更少的组件,或者具有与图1所示不同的配置。图1所示的各组件可以采用硬件、软件或其组合实现。

存储器102可用于存储计算机程序,如本发明实施例中的图片处理方法及装置对应的程序指令或模块,处理器106在执行存储在存储器102内的计算机程序时,实现下述图2至图8任一实施例中的图片处理方法中的各个步骤。

存储器102,即计算机可读存储介质,可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器102可进一步包括相对于处理器106远程设置的存储器,这些远程存储器可以通过网络连接至移动终端100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。

外设接口108将各种输入/输入装置耦合至处理器106以及存储器102。处理器106运行存储器102内的各种软件、指令以执行移动终端100的各种功能以及进行数据处理。

在一些实例中,外设接口108,处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。

射频单元110用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯。射频单元110可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(sim)卡、存储器等等。射频单元110可与各种网络如互联网、企业内部网、预置类型的无线网络进行通讯或者通过预置类型的无线网络与其他设备进行通讯。上述的预置类型的无线网络可包括蜂窝式电话网、无线局域网或者城域网。

按键单元112提供用户向移动终端100进行输入的接口,用户可以通过按下不同的按键以使移动终端100执行不同的功能,或者该按键单元112可以是触控屏,以便用户可以通过触控操作控制移动终端执行不同功能。

音频单元114向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。音频电路从外设接口108处接收声音数据,将声音数据转换为电信息,将电信息传输至扬声器。扬声器将电信息转换为人耳能听到的声波。音频电路还从麦克风处接收电信息,将电信号转换为声音数据,并将声音数据传输至外设接口108中以进行进一步的处理。音频数据可以从存储器102处或者通过射频单元110获取。此外,音频数据也可以存储至存储器102中或者通过射频单元110进行发送。在一些实例中,音频单元114还可包括一个耳机播孔,用于向耳机或者其他设备提供音频接口。

显示单元116在移动终端100与用户之间提供一个输出界面。具体地,显示单元116向用户显示视频输出,这些视频输出的内容可包括文字、图形、视频、及其任意组合。一些输出结果是对应于一些用户界面对象。进一步地,还在移动终端100与用户之间提供一个输入界面,用于接收用户的输入,例如用户的点击、滑动等手势操作,以便用户界面对象对这些用户的输入做出响应。检测用户输入的技术可以是基于电阻式、电容式或者其他任意可能的触控检测技术。

由于现有技术中,用户在需要分享影片的图片时,需要进行繁杂多次的截图操作,存在严重降低用户的使用体验,降低用户的分享意愿的技术问题。

为了解决上述问题,本发明提出一种图片处理方法,在用户的图片处理指令下,通过获取目标字幕信息及至少一帧目标视频图像帧,并利用该目标字幕信息及该至少一帧目标视频图像帧生成包含字幕的图片,使得不需要用户手动一张张截图,而是基于指定时间范围内的多帧视频图像帧及目标字幕信息得到包含字幕的图片,操作简单,用户体验好,有效提升用户的分享意愿。

请参阅图2,为本发明实施例中图片处理方法的流程示意图,该方法包括:

步骤201、响应于图片处理指令,根据所述图片处理指令及目标影片的多媒体文件,获取指定时间范围内的多帧视频图像帧及目标字幕信息;

在本发明实施例中,上述的图片处理方法由图片处理装置实现,且该图片处理装置由程序模块构成,可存储于移动终端的计算机可读存储介质中。

其中,用户在观看目标影片的过程中,若需要生成图片,则可以执行预置的操作以便触发图片处理指令的生成,移动终端将响应于该图片处理指令,并根据该图片处理指令及目标影片的多媒体文件,获取指定时间范围内的多帧视频图像帧及目标字幕信息。其中,该预置的操作可以是点击显示界面上显示的图片处理功能的图标,可以理解的是,用户还可以通过将目标影片导入具有该图片处理方法的应用程序的方式,触发执行本发明实施例中的图片处理方法。

其中,该图片处理指令可以包含指定时间范围,使得能够利用该指定时间范围内的目标字幕信息和该指定时间范围内的多帧视频图像帧生成包含字幕的图片,例如,该指定时间范围可以是目标影片的第5分钟至第5分30秒,用户在执行预置的操作之后,移动终端将显示时间选择窗口,用户可以在该时间选择窗口内输入该指定时间段,或者,移动终端将暂停目标影片的播放,且用户可以将光标放置在目标影片的时间轴上,且同时将显示光标所在的时间点对应的视频图像图像帧,用户可以通过单击的方式选择起始的视频图像帧及结束的视频图像帧,其中,该起始的视频图像帧所对应的时间点与结束的视频图像帧所对应的时间点构成指定时间范围,用户确认之后,则将生成包含指定时间范围的图片处理指令。

或者,该图片处理指令可以包含字幕选择标记,该字幕选择标记表明可以由用户选择用于生成图片的字幕,且将基于选择的字幕的字幕时间戳确定指定时间范围,并进一步得到该指定时间范围内的多帧视频图像帧,以生成包含字幕的图片。可以理解的是,在图片处理指令包含不同内容的情况下,生成包含字幕的图片的方式也将存在差异,具体将在后续的实施例中详细描述,此处不做赘述。

其中,目标字幕信息是指用于生成图片的字幕信息,且该目标字幕信息中包含文本字符串及各文本字符串的字幕时间戳,该字幕时间戳用于表明相应的文本字符串出现在影片中的时间,通常有一个开始时间点和一个结束时间点。

其中,该指定时间范围内的多帧视频图像帧是用于提取用于生成图片的目标视频图像帧的,且该该指定时间范围内的多帧视频图像帧均包含其对应的视频时间戳,该视频时间戳用于表示视频图像帧在影片中展示时的时间点。

步骤202、根据指定时间范围内的多帧视频图像帧及目标字幕信息从所述多帧视频图像帧中提取至少一帧目标视频图像帧;

步骤203、根据所述目标字幕信息及所述至少一帧目标视频图像帧生成包含字幕的图片。

在本发明实施例中,图片处理装置将根据获取的指定时间范围内的目标字幕信息及该指定时间范围内的多帧视频图像帧从该该多帧视频图像帧中提取至少一帧目标视频图像帧,且根据该目标字幕信息及至少一帧目标视频图像帧生成包含字幕的图片。其中,一帧视频图像帧可以生成一张图片,多帧视频图像帧也可以生成一张图片,因此,若提取了一帧目标视频图像帧,则可以生成一张图片,若提取了多帧目标视频图像帧,则可以将多帧目标视频图像帧生成一张图片。

在本发明实施例中,在用户的图片处理指令下,通过获取目标字幕信息及至少一帧目标视频图像帧,并利用该目标字幕信息及该至少一帧目标视频图像帧生成包含字幕的图片,使得不需要用户手动一张张截图,而是基于指定时间范围内的多帧视频图像帧及目标字幕信息得到包含字幕的图片,操作简单,用户体验好,有效提升用户的分享意愿。

请参阅图3,为本发明实施例中图片处理方法的另一流程示意图,相对于图2所示实施例,本实施例将着重描述不同字幕模式下,获取原始视频图像数据及原始字幕信息的方式,具体的,该方法包括:

步骤301、响应于图片处理指令,确定所述目标影片的字幕模式;

其中,目标影片可以是指用户当前正在观看的影片,或者可以是已导入具有图片处理功能的应用程序中的影片。

其中,目标影片的字幕模式分为软字幕模式、硬字幕模式、无字幕模式等三种,下面将分别进行介绍:

(1)软字幕模式

软字幕模式是指影片的字幕信息是独立存在的,在软字幕模式下,字幕信息的载体常见的有:外部字幕文件和视频文件内字幕流两种形式。

其中,外部字幕文件是指字幕信息存储在独立于视频文件之外的一种数字化文本文件中,比如srt、ass、sub为文本字幕格式的文件,在播放时,需要获取到影片的多媒体文件及外部字幕文件。

其中,视频文件内字幕流是字幕信息以数据轨道的方式与音频轨道、视频轨道一起组织在多媒体文件内部,其在容器格式层面与视频流、音频流单独组织,其典型的组织形式如mkv文件标准定义。

可以理解的是,对于上述两种形式,字幕信息中均包含文本字符串及各文本字符串的字幕时间戳。

(2)硬字幕模式

字幕信息在影片制作时被叠加到视频文件相应的视频图像帧上,作为视频图像帧的一部分,且经过压缩、音视频合流后生成多媒体文件,此即为硬字幕模式,显然,在硬字幕模式下,字幕信息中的文本字符串与视频文件中的视频图像帧之间的对应关系在制作影片的多媒体文件时已经完全确定,且在播放该影片的多媒体文件时,随着多媒体文件的解码,字幕作为视频图像帧中的内容被自然展示。

(3)无字幕模式

影片在播放时,显示的图像中无任何字幕,此即为无字幕模式,无字幕模式与软字幕模式及硬字幕模式是互相独立的三种字幕模式。

可以理解的是,在本发明实施例中,目标影片的多媒体文件中可以包含模式标记,该模式标记用于识别该目标影片具体的字幕模式,以便在播放该目标影片时,可以通过该模式标记识别该目标影片的字幕模式是软字幕模式、硬字幕模式还是无字幕模式。或者,还可以通过以下方式确定目标影片的字幕模式,具体的:

对上述目标影片的多媒体文件进行容器格式的解封装,确定是否能得到字幕流,若解封装后得到字幕流,则确定该目标影片的字幕模式为软字幕模式,若解封装后未得到字幕流,则确定是否存在该多媒体文件的外部字幕文件,若存在该多媒体文件的外部字幕文件,则确定该目标影片的字幕模式为软字幕模式。

若不存在该多媒体文件的外部字幕文件,则对多媒体文件解封装后的视频压缩码流进行解码,得到原始视频图像数据,并利用字幕识别技术从所述原始视频图像数据中识别字幕,若识别到字幕,则确定所述目标影片的字幕模式为硬字幕模式,若未识别到字幕,则确定所述目标影片的字幕模式为无字幕模式。其中,该字幕识别技术可以是光学字符识别(opticalcharacterrecognition,ocr)技术,关于ocr技术,后续将进行描述,此处不做赘述。

步骤302、根据所述目标影片的字幕模式,对所述目标影片的多媒体文件进行数据处理,得到所述目标影片的原始视频图像数据及原始字幕信息;

在本发明实施例中,在目标影片的字幕模式不同的情况,存在不同的方式去获取该目标影片的原始视频图像数据及原始字幕信息。

在一实施例中,若字幕模式为软字幕模式,则请参阅图4a,为本发明图3所示实施例中步骤302的细化步骤的流程示意图,包括:

步骤4011、若所述目标影片的字幕模式为软字幕模式,则对所述目标影片的多媒体文件进行容器格式的解封装,得到视频压缩码流及字幕流,或者对所述目标影片的多媒体文件进行容器格式的解封装,得到视频压缩码流,并基于获取到的所述目标影片的外部字幕文件进行容器格式的解封装,得到字幕流;

步骤4012、对所述视频压缩码流进行解码,得到所述原始视频图像数据,对所述字幕流进行解码,得到所述原始字幕信息。

其中,在目标影片的字幕模式为软字幕模式时,若具体为视频文件内字幕流,则对该目标影片的多媒体文件进行容器格式的解封装,得到视频压缩码流及字幕流。若具体为外部字幕文件,则对该目标影片的多媒体文件进行容器格式的解封装,得到视频压缩码流,对该外部字幕文件进行容器格式的解封装,得到字幕流。可以理解的是,该外部字幕文件与该多媒体文件之间具有映射关系,且该外部字幕文件可以是由用户手动导入至移动终端,也可以是由移动终端从网络中搜索得到。

其中,多媒体文件的封装格式可以是mp4、mkv、avi等等,此外,在进行解封装时,还可以得到音频压缩码流。可以理解的是,如何对多媒体文件进行解封装属于现有技术,此处不做赘述。

在本发明实施例中,在完成解封装之后,将对解封装得到的视频压缩码流进行解码,得到原始视频图像数据,及对字幕流进行解码,得到原始字幕信息。

其中,原始视频图像数据中包含视频图像帧,及各视频图像帧的视频时间戳,原始字幕信息中包含文本字符串及各行文本字符串的字幕时间戳。

在一实施例中,若目标影片的字幕模式为硬字幕模式,则请参阅图4b,为本发明图3所示实施例中步骤302的细化步骤的流程示意图,包括:

步骤4021、若所述目标影片的字幕模式为硬字幕模式,则对所述目标影片的多媒体文件进行容器格式的解封装,得到视频压缩码流;

步骤4022、对所述视频压缩码流进行解码,得到所述原始视频图像数据;

步骤4023、利用ocr技术对所述原始视频图像数据进行字幕提取,得到所述原始字幕信息。

其中,在字幕模式为硬字幕模式时,将对目标影片的多媒体文件进行容器格式的解封装,得到视频压缩码流,且还可以得到音频压缩码流,可以理解的是,硬字幕模式下对多媒体文件进行解封装,将不会得到字幕流。

其中,可对解封装得到的视频压缩码流进行解码,得到原始视频图像数据,并利用ocr技术对原始视频图像数据进行字幕提取,得到原始字幕信息。

可以理解的是,在本发明实施例中,ocr技术主要是用于硬字幕模式下,从每一视频图像帧中提取出文本字符串。考虑到一方面ocr技术是对文本字符串的提取,且不涉及语义理解范畴,另一方面,目标影片作为真实生活的写照必然会包含大量的文本信息,例如,商店的铭牌、人物服饰上的品牌文字等等,因此,作为本发明实施例中的一部分,ocr技术对硬字幕模式下的文本提取与其他场景下的ocr技术运用相比,需要特别区分出属于字幕的文本字符串在视频图像帧中的区域和位置,即需要先定位属于字幕的文本字符串在视频图像帧中的区域,具体可以结合影片中的字幕的特征进行定位,其中,影片中字幕的特征包括:字幕的颜色、字体较为规整,且与背景有较为明显的颜色差异;字幕区域的笔画丰富,角点和边缘特征比较明显;字幕中字符间距固定,排版多沿水平方向或竖直方向;同一视频中字幕出现的位置较为固定,且同一行文本字符串一般会停留若干秒的时间。基于上述特征,可以利用ocr技术进行文本字符串的提取,且在实际应用中,利用ocr技术提取文本字符串具有多种不同的方式,以下介绍其中的一种方式:根据行区域内灰度直方图投影切分单字区域,然后针对单字区域进行灰度图像归一化、提取梯度特征、多模板匹配和最小分类误差分类等,以得到一帧视频图像帧中的文本字符串。请参阅图4c,为本发明图4b所示实施例中基于ocr技术的硬字幕模式下的提取示意图。可以理解的是,如何利用ocr技术从原始视频图像数据中提取原始字幕信息更加详细的描述属于现有技术,此处不再赘述。

在一实施例中,若目标影片的字幕模式为无字幕模式,则请参阅图4d,为本发明实施例中步骤302的细化步骤的流程示意图,包括:

步骤4031、若所述目标影片的字幕模式为无字幕模式,则对所述目标影片的多媒体文件进行容器格式的解封装,得到视频压缩码流及音频压缩码流;

步骤4032、对所述视频压缩码流进行解码,得到所述原始视频图像数据,对所述音频压缩码流进行解码,得到音频数据;

步骤4033、利用asr技术对所述音频数据进行字幕提取,得到原始字幕信息。

在本发明实施例中,在目标影片的字幕模式为无字幕模式的情况下,将对该目标影片的多媒体文件进行容器格式的解封装,得到视频压缩码流及音频压缩码流,可以理解的是,在无字幕模式下,将无法得到字幕流。

进一步的,对视频压缩码流进行解码,得到原始视频图像数据,及对音频压缩码流进行解码,得到音频数据,并利用自动语音识别(automaticspeechrecognition,asr)技术对音频数据进行字幕提取,得到原始字幕信息。

其中,asr技术主要用于将语音数据视为包含可以理解语义的文本字符串,通过将asr技术应用在无字幕模式的影片的图片处理的场景下,使得即使影片中不包含任何字幕信息,也可以实现包含字幕的图片的生成,为用户提供更好的体验。

需要说明的是,如何利用asr技术从语音数据中提取文本字符串,属于现有技术,此处不做赘述。

步骤303、根据所述图片处理指令、所述原始视频图像数据及原始字幕信息,得到指定时间范围内的多帧视频图像帧及目标字幕信息;

步骤304、根据所述指定时间范围内的多帧视频图像帧及目标字幕信息从所述多帧视频图像帧中提取至少一帧目标视频图像帧;

步骤305、根据所述目标字幕信息及所述至少一帧目标视频图像帧生成包含字幕的图片。

在本发明实施例中,在得到原始图像数据及原始字幕信息之后,将根据图片处理指令,原始图像数据及原始字幕信息得到目标字幕信息及该指定时间范围内的多帧视频图像帧。

其中,步骤304和步骤305分别与图2所示实施例中的步骤202及步骤203描述的内容相似,此处不做赘述。

在本发明实施例中,响应图片处理指令时,将确定目标影片的字幕模式,并根据目标影片的字幕模式,对目标影片的多媒体文件进行数据处理,得到目标影片的原始视频图像数据及原始字幕信息,例如在软字幕模式下,可直接对目标影片的多媒体文件进行解封装及解码,得到原始视频图像数据及原始字幕信息;在硬字幕模式下,可以利用ocr技术对原始视频图像数据进行字幕提取,得到原始字幕信息;在无字幕模式下,则可利用asr技术对音频数据进行字幕提取,得到原始字幕信息。通过上述方式,能够有效的获得原始视频图像数据及原始字幕信息,以便进一步得到目标视频图像帧及目标字幕信息,并生成包含字幕的图片,使得不需要用户手动一张张截图,而是基于指定时间范围内的多帧视频图像帧及目标字幕信息得到包含字幕的图片,操作简单,用户体验好,有效提升用户的分享意愿。

请参阅图5,为本发明实施例中图片处理方法的另一流程示意图,相对于图3所示实施例,本实施例将着重描述在图片处理指令包含指定时间范围的情况下的图片处理方法,具体的,该方法包括:

步骤501、响应于图片处理指令,确定所述目标影片的字幕模式;

步骤502、根据所述目标影片的字幕模式,对所述目标影片的多媒体文件进行数据处理,得到所述目标影片的原始视频图像数据及原始字幕信息;

可以理解的是,步骤501及步骤502分别与图3所示实施例中的步骤301及步骤302描述的内容相似,具体请参阅图3所示实施例,此处不做赘述。

步骤503、若所述图片处理指令中包含指定时间范围,则从所述原始视频图像数据中提取所述指定时间范围内的多帧视频图像帧,从所述原始字幕信息中提取所述指定时间范围内的字幕信息,作为所述目标字幕信息;

在本发明实施例中,图片处理指令中可以包含指定时间范围,该指定时间范围可以由用户自行设置,具体的:用户在观看目标影片的过程中,若需要生成该影片的包含字幕的图片,则可以点击显示界面上的图片处理功能按钮,且移动终端将响应于该点击操作,并显示设置界面,该设置界面可以是时间输入界面,用户可以在该时间输入界面中输入开始时间点及结束时间点,并点击确定操作,以生成图片处理指令,且该图片处理指令中包含由用户输入的开始时间点及结束时间点构成的指定时间范围,例如,用户若输入的开始时间点为50分0秒,结束时间点为50分30秒,则该指定时间范围为50分0秒至50分30秒。或者,用户可以仅仅输入开始后时间点,或者仅仅输入结束时间点,若用户仅输入开始时间点,则将基于该开始时间点加上预置的时长之后的时间点作为结束时间点,若用户仅输入结束时间点,则将基于该结束时间点减去预置的时长之后的时间点作为开始时间点,以便得到指定时间范围,或者,该指定时间范围可以是多个小的时间范围构成的。或者,在进入设置界面之后,还可以显示时间选择界面,该时间选择界面类似于影片播放界面,包含进度条,用户可以在该进度条上选择开始时间点及结束时间点,且用户每次再将位置标识(如鼠标在显示界面上的箭头)移动到进度条上的某一个时间点时,将显示该时间点对应的视频图像帧,以便用户进行选择,用户可以通过点击的方式确定时间开始点及时间结束点,也可以在选择之后通过点击的方式取消已选择的时间开始点或时间结束点,以便得到符合用户需求的指定时间范围,并进一步得到指定时间范围。具体请参阅9a,为本发明实施例中,指定时间范围的设置界面的示意图。

在本发明实施例中,若图片处理指令中包含指定时间范围,则将从原始视频图像数据中提取该指定时间范围内的数据,作为该指定时间范围内的多帧视频图像帧,并从原始字幕信息中提取该指定时间范围内的字幕信息,作为该目标字幕信息。其中,由于原始视频图像数据中包含视频图像帧,且每个视频图像帧中均包含其视频时间戳,因此,可以利用该指定时间范围内的开始时间及结束时间确定提取的视频图像帧的区域,即在该原始视频图像数据中,查找视频时间戳与开始时间相同或者相差小于预设时长(如40ms)的视频图像帧,将查找到的视频图像帧作为开始视频图像帧,及查找视频时间戳与结束时间相同或者相差小于预设时长的视频图像帧,将查找到的视频图像帧作为结束视频图像帧,并从原始视频图像数据中提取从开始视频图像帧到结束视频图像帧之间的所有视频图像帧,以得到上述指定时间范围内的多帧视频图像帧,例如,若指定时间范围为1分0秒至1分30秒,则将从原始视频图像数据中提取视频时间戳在1分0秒至1分30秒之间的所有的视频图像帧。

由于原始字幕信息中包含文本字符串及每一行文本字符串的字幕时间戳,因此,可以利用与从原始视频图像数据中提取目标视频图像帧的相似的方式,从原始字幕信息中提取目标字幕信息,且该目标字幕信息中包含文本字符串及各行文本字符串的字幕时间戳。

可以理解的是,该指定时间范围可以是一个时间范围,也可以是多个时间范围。

步骤504、根据指定时间范围内的多帧视频图像帧及目标字幕信息从所述多帧视频图像帧中提取至少一帧目标视频图像帧;

步骤505、根据所述目标字幕信息及所述至少一帧目标视频图像帧生成包含字幕的图片。

可以理解的是,步骤504及步骤505分别与图2所示实施例中的步骤202及步骤203描述的内容相似,此处不做赘述。

在本发明实施例中,通过在图片处理指令中包含指定时间范围,使得能够利用该指定时间范围获取到目标视频图像帧及目标字幕信息,以便利用该目标视频图像帧及目标字幕信息生成包含字幕的图片。基于该实施例,用户通过简单的指定时间范围的设置就能够得到包含字幕的图片,使得不需要用户手动一张张截图,而是基于指定时间范围内的多帧视频图像帧及目标字幕信息得到包含字幕的图片,操作简单,用户体验好,有效提升用户的分享意愿。

请参阅图6,为本发明实施例中图片处理方法的流程示意图,相对于图3所示实施例,本实施例着重描述在图片处理指令中包含字幕选择标记的情况下的图片处理方法,具体的,该方法包括:

步骤601、响应于图片处理指令,确定所述目标影片的字幕模式;

步骤602、根据所述目标影片的字幕模式,对所述目标影片的多媒体文件进行数据处理,得到所述目标影片的原始视频图像数据及原始字幕信息;

可以理解的是,步骤601及步骤602分别与图3所示实施例中的步骤301及步骤302描述的内容相似,具体请参阅图3所示实施例,此处不做赘述。

步骤603、响应于图片处理指令,若所述图片处理指令中包含字幕选择标记,则显示所述原始字幕信息包含的文本字符串;

步骤604、若检测到文本选择操作,则确定已选择的文本字符串,基于已选择的文本字符串的字幕时间戳所构成的所述指定时间范围,从所述原始视频图像数据中获取所述指定时间范围内的多帧视频图像帧;

在本发明实施例中,图片处理指令中可以包含字幕选择标记,该字幕选择标记用于标识用户可以通过选择字幕的方式生成图片。

其中,若检测到图片处理指令中包含字幕选择标记,则将显示原始字幕信息中包含的所有文本字符串,且在显示的时候,是以字幕时间戳为单位显示一行一行的文本字符串。

在显示文本字符串之后,用户可以在显示界面上执行操作,以确定选择哪些文本字符串,例如,用户可以通过对需要选择的文本字符串执行点击操作的方式,使得选择的文本字符串在颜色上区别于未选择的文本字符串,可以理解的是,用户可以选择连续的多个文本字符串,也可以选择不连续的文本字符串,例如,用户可以选择第5至第10行的文本字符串,及第20行至25行的文本字符串。其中,用户在完成文本字符串的选择之后,可以执行确认操作,例如,点击显示界面上的确认按钮。可以理解的是,在本发明实施例中,通常将具有相同字幕时间戳的文本字符串作为一行文本字符串。

用户在点击确认按钮之后,表示已经完成了文本字符串的选择,且将已选择的文本字符串作为目标字幕信息,且将进一步的基于选择的文本字符串的字幕时间戳所构成的指定时间范围,从原始视频图像数据中获取该指定时间范围内的多帧视频图像帧。例如,在确定已选择第5至第10行的文本字符串,及第20行至25行的文本字符串之后,将确定第5行的文本字符串的字幕时间戳的开始时间为1分0秒,第10行的文本字符串的字幕时间戳的结束时间为1分8秒,第20行的文本字符串的字幕时间戳的开始时间为1分30秒,及第25行的文本字符串的字幕时间戳的结束时间为1分40秒,则可以确定字幕时间戳所构成的时间范围为:1分0秒至1分8秒,及1分30秒至1分40秒。并从原始视频图像数据中获取视频时间戳在1分0秒至1分8秒之内的视频图像帧,及获取视频时间戳在1分30秒至1分40秒之内的视频图像帧,以便得到指定时间范围内的多帧视频图像帧。

步骤605、根据指定时间范围内的多帧视频图像帧及目标字幕信息从所述多帧视频图像帧中提取至少一帧目标视频图像帧;

步骤606、根据所述目标字幕信息及所述至少一帧目标视频图像帧生成包含字幕的图片。

可以理解的是,步骤605及步骤606分别与图2所示实施例中的步骤202及步骤203描述的内容相似,此处不做赘述。

在本发明实施例中,通过在图片处理指令中包含字幕选择标记,使得能够由用户选择文本字符串,并基于用户选择的文本字符串获取指定时间范围内的多帧视频图像帧,从该多帧视频图像帧中提取至少一帧目标视频图像帧,并基于该至少一帧目标视频图像帧及选择的文本字符串生成包含字幕的图片。基于该实施例,用户通过简单的文本字符串的选择就能够得到包含字幕的图片,使得不需要用户手动一张张截图,而是基于指定时间范围内的多帧视频图像帧及目标字幕信息得到包含字幕的图片,操作简单,用户体验好,有效提升用户的分享意愿。

请参阅图7,为本发明实施例中图片处理方法的另一流程示意图,相对于图2所示实施例,本实施例着重描述在提取一帧视频图像帧的情况下的图片处理方法,包括:

步骤701、响应于图片处理指令,根据所述图片处理指令及目标影片的多媒体文件,获取指定时间范围内的多帧视频图像帧及目标字幕信息;

可以理解的是,步骤701与图2所示实施例中的步骤201描述的内容相似,且图3所示实施例中的步骤301至步骤303为该步骤701的细化步骤的流程示意图,因此,具体可参考步骤201,及步骤301至步骤303,此处不做赘述。

步骤702、利用所述多帧视频图像帧的视频时间戳与所述目标字幕信息的字幕时间戳进行比较,从所述多帧视频图像帧中提取一帧目标视频图像帧;

步骤703、将所述目标字幕信息中包含的文本字符串嵌入所述目标视频图像帧中,生成包含字幕的图片。

本发明实施例中,目标字幕信息中包含文本字符串及各行文本字符串的字幕时间戳,该指定时间范围内的多帧视频图像帧中包含各视频图像帧的视频时间戳,因此,可以利用视频时间戳及字幕时间戳进行比较,从该指定时间范围内的多帧视频图像帧中提取一帧目标视频图像帧。具体的,可以提取符合预设的第一提取规则的一帧目标视频图像帧。

其中,在目标影片的字幕模式为软字幕模式或无字幕模式时,该预设的第一提取规则可以为提取任意一帧视频时间帧,或者提取第一帧视频图像帧,或者提取中间的一帧视频图像帧。在目标影片的字幕模式为硬字幕模式时,该预设的第一提取规则可以为不包含字幕的任意一帧视频图像帧。在实际应用中,可以根据具体的需要设置该预设的第一提取规则,此处不做限定。

其中,在只提取一帧目标视频图像帧的情况下,目标字幕信息将均显示在该目标视频图像帧的图像上,将目标字幕信息中包含的文本字符串嵌入目标视频图像帧中,生成包含字幕的图片,且仅仅生成一张图片。

在本发明实施例中,通过从指定时间范围内的多帧视频图像帧中提取一帧目标视频图像帧,并将目标字幕信息嵌入至该目标视频帧中以生成包含字幕的图片,使得能够有效的降低图片的大小,减小该图片分享及上传时消耗的流量及时间,且此种方式不需要用户手动截图就能够得到包含字幕的图片,操作简单,用户体验好,有效提升用户的分享意愿。

请参阅图8,为本发明实施例中图片处理方法的流程示意图,相对于图2所示实施例,本实施例着重描述在提取多帧视频图像帧的情况下的图片处理方法,该方法包括:

步骤801、响应于图片处理指令,根据所述图片处理指令及目标影片的多媒体文件,获取指定时间范围内的多帧视频图像帧及目标字幕信息;

可以理解的是,步骤701与图2所示实施例中的步骤201描述的内容相似,且图3所示实施例中的步骤301至步骤303为该步骤701的细化步骤的流程示意图,因此,具体可参考步骤201,及步骤301至步骤303,此处不做赘述。

步骤802、依次利用所述目标字幕信息中每一行文本字符串的字幕时间戳与所述多帧视频图像帧的视频时间戳进行比较,确定各行文本字符串对应的视频图像帧的集合;

步骤803、依次从所述各行文本字符串对应的视频图像帧的集合中,分别提取与所述各行文本字符串对应的一帧目标视频图像帧,得到多帧目标视频图像帧,执行步骤804、或者执行步骤805、或者执行步骤806;

步骤804、若所述目标影片的字幕模式为硬字幕模式,则将所述多帧目标视频图像帧按照视频时间戳的先后顺序进行拼接,生成所述包含字幕的图片;或者,截取除第一帧目标视频图像帧以外的其他目标视频图像帧的字幕区域,按照视频时间戳的先后顺序将所述第一帧目标视频图像帧及所述其他目标视频图像帧的字幕区域进行拼接,生成所述包含字幕的图片;

步骤805、若所述目标影片的字幕模式为软字幕模式或者无字幕模式,则将所述目标字幕信息中的各行文本字符串嵌入对应的目标视频图像帧中,将所述多帧目标视频图像帧按照视频时间戳的先后顺序进行拼接,生成包含字幕的图片;

步骤806、若所述目标影片的字幕模式为软字幕模式或者无字幕模式,则将所述目标字幕信息中的各行文本字符串嵌入对应的目标视频图像帧中,截取除第一帧目标视频图像帧以外的其他的目标视频图像帧已嵌入字幕所在的字幕区域,按照视频时间戳的先后顺序将已嵌入字幕的第一帧目标视频图像帧及所述其他的目标视频图像的字幕区域进行拼接,生成所述包含字幕的图片。

在本发明实施例中,在得到指定时间范围内的目标字幕信息和多帧视频图像帧之后,若需要得到多帧目标视频图像帧,则可以利用目标字幕信息中的每一行文本字符串的字幕时间戳,与该多帧视频图像帧的视频时间戳进行比较,确定各行文本字符串对应的视频图像帧的集合,例如,对于第一行文本字符串,其字幕时间戳的时间为1分0秒至1分3秒,若在视频图像帧的时间戳在1分0秒至1分3秒内的视频图像帧包含视频图像帧a、b、c及d,则该第一行文本字符串对应的视频图像帧的集合中包含视频图像帧a至d。通过该种方式,能够得到目标字幕信息中每一行文本字符串对应的视频图像帧的集合。

依次从各行文本字符串对应的视频图像帧的集合中,分别提取与各行文本字符串对应的一帧目标视频图像帧,其中,具体可以基于预设的第二提取规则进行目标视频图像帧的提取,该预设的第二提取规则可以是提取集合中的首帧,或者中间帧或者最后一帧等等,在实际应用中,可以根据具体的需要设置该第二预设规则,此处不做限定。其中,以提取首帧为例,若第一行的文本字符串对应的集合中包含视频图像帧a至d,则将该视频图像帧a作为该第一行文本字符串对应的一帧目标视频图像帧。可以理解的是,通过提取目标视频图像帧的方式,能够避免不同的视频图像帧对应相同的文本字符串,避免生成的图片中,有重复出现的文本字符串的情况。

其中,若目标影片的字幕模式为硬字幕模式,则表明选择的目标视频帧中就已经包含了字幕,在这种情况下,将多帧目标视频帧按照视频时间戳的先后顺序进行拼接,生成包含字幕的图片,或者先截取除第一帧目标视频图像帧以外的其他目标视频图像帧的字幕区域,以便将该其他目标视频图像帧的字幕及字幕背景截取出来,并按照视频时间戳的先后将第一帧目标视频图像帧及其他目标视频图像帧的字幕区域进行拼接,生成包含字幕的图片。即将一帧一帧目标视频图像帧在竖直方向进行拼接,也可以是仅保留第一帧目标视频图像帧的完整,其他目标视频图像帧均拼接文本字符串显示的部分。可以理解的是,通常情况下,字幕区域位于视频图像帧的下侧。

其中,若目标影片的字幕模式为软字幕模式或者无字幕模式,表明得到的目标视频图像帧本身是不包含字幕的,则可以将各行文本字符串嵌入对应的目标视频图像帧中,并将已嵌入文本字符串的多帧目标视频图像帧按照视频时间戳的先后顺序进行拼接,生成包含字幕的图片,例如,若有n行文本字符串,则可以得到n帧目标视频图像帧,分别将该n行文本字符串嵌入对应的目标视频图像帧,得到n帧已嵌入字幕的目标视频图像帧。并将该n帧已嵌入字幕的目标视频图像帧进行拼接,生成包含字幕的图片。其中,该拼接可以是完整拼接,即在竖直方向上一帧目标视频图像帧拼一帧目标视频图像帧的方式。例如,请参阅图9b,为本发明实施例中生成的包含字幕的图片的示意图,该图9b中是将两帧目标视频帧完整拼接在一起生成的图片,其中,“昨天是历史,明天是谜团,只有今天是天赐的礼物”为目标字幕信息。

或者,在目标影片的字幕模式为软字幕模式或者无字幕模式的情况下,可以将目标字幕信息中的各行文本字符串嵌入对应的目标视频图像帧中,截取除第一针目标视频图像帧以外的其他的目标视频帧已嵌入字幕所在的字幕区域,按照视频时间戳的先后顺序将已嵌入字幕的第一帧目标视频图像帧及上述其他的目标视频图像帧的字幕区域进行拼接,生成包含字幕的图片。该拼接可以是部分拼接,即在竖直方向第一帧目标视频帧拼接第二帧图片的已嵌入的文本字符串所在的字幕区域,并依次拼接第三帧、第四帧等目标视频帧已嵌入的文本字符串所在的字幕区域。请参阅图9c,为本发明实施例中生成的包含字幕的图片的示意图,该图9c是将两帧目标视频帧部分拼接在一起生成的图片,其中,“昨天是历史,明天是谜团”是第一帧目标视频帧对应的文本字符串,“只有今天是天赐的礼物”是第二帧目标视频帧对应的文本字符串,且在部分拼接时,只拼接了第二帧目标视频帧的字幕区域。

可以理解的是,若是目标视频图像帧的数量大于预置数目,则可以进一步减小目标视频图像帧的数目,并将文本字符串均匀的嵌入各目标视频图像帧中,通过减小目标视频图像帧的数目的方式,能够进一步的避免生成的图片所需要的存储空间大的问题,且避免生成的图片分享及上传需要消耗大量流量及时间的问题。

(1)关于文本字符串的嵌入

在软字幕模式或无字幕模式下,需要将文本字符串嵌入目标视频图像帧中,且该文本字符串的嵌入可以通过应用程序编程接口(applicationprogramminginterface,api)实现,例如在ios系统及在android系统上通过代码实现文本字符串嵌入,在实际应用中,还可以对上述代码进行变形或者开发其他的文本字符串嵌入的代码,因此,以上代码并不造成对本发明技术方案的限定。

(2)关于目标视频图像帧的拼接

以两帧目标视频图像帧完整拼接为一张图片的处理为例,由于图片为数字图像,数字图像在计算机程序内部一般是通过矩阵来表达的,则可分别定义两帧待拼接的目标视频图像帧a和目标视频图像帧b分别为:

由上可知,目标视频图像帧a和目标视频图像帧b具有相同的图像宽度,不同的图像高度,因此,图像a和图像b拼接后生成的新的图片为:

可以理解的是,在本发明实施例中,上述仅为拼接的一种可行的实现方式,在实际应用中,还可以基于目标视频图像帧的分辨率,和/或,对待生成的包含字幕的图片的分辨率的需求对上述的拼接的方式进行改进,因此,上述的拼接方式并不造成对本发明技术方案的限定。

在本发明实施例中,通过利用视频时间戳与字幕时间戳进行比较,使得能够基于目标字幕信息中包含的文本字符串提取目标视频图像帧,并生成包含字幕的图片,能够有效的减少生成的包含字幕的图片的大小,减小上传或分享该图片所消耗的流量及时间,改善用户的使用体验,提升用户分享的意愿。

需要说明的是,本发明实施例中,字幕外观如字体、字号、颜色、边框等具体形式,并不会影响本发明实施例中的技术方案的实施。

请参阅图10,为本发明实施例中图片处理装置的程序模块的示意图,该装置包括:

响应获取模块1001,用于响应于图片处理指令,根据所述图片处理指令及目标影片的多媒体文件,获取指定时间范围内的多帧视频图像帧及目标字幕信息;

帧提取模块1002,用于根据所述目标字幕信息及所述多帧视频图像帧从所述多帧视频图像帧中提取至少一帧目标视频图像帧;

生成模块1003,用于根据所述目标字幕信息及所述至少一帧目标视频图像帧生成包含字幕的图片。

其中,该图片处理指令可以包含指定时间范围,使得能够利用该指定时间范围内的目标字幕信息和该指定时间范围内的多帧视频图像帧生成包含字幕的图片,例如,该指定时间范围可以是目标影片的第5分钟至第5分30秒;又或者,该图片处理指令可以包含字幕选择标记,该字幕选择标记表明可以由用户选择用于生成图片的字幕,且将基于选择的字幕确定指定时间范围,并进一步确定该指定时间范围内的多帧视频图像帧,生成包含字幕的图片。可以理解的是,在图片处理指令包含不同内容的情况下,生成包含字幕的图片的方式也将存在差异,具体将在后续的实施例中详细描述,此处不做赘述。

其中,目标字幕信息是指用于生成图片的字幕信息,且该目标字幕信息中包含文本字符串及各文本字符串的字幕时间戳,该字幕时间戳用于表明相应的文本字符串出现在影片中的时间,通常有一个开始时间点和一个结束时间点。

其中,该指定时间范围内的多帧视频图像帧是用于提取用于生成图片的目标视频图像帧的,且该该指定时间范围内的多帧视频图像帧包含视频时间戳,该视频时间戳用于表示视频图像帧在影片中展示时的时间点。

在本发明实施例中,在用户的图片处理指令下,通过获取目标字幕信息及至少一帧目标视频图像帧,并利用该目标字幕信息及该至少一帧目标视频图像帧生成包含字幕的图片,使得不需要用户手动一张张截图,而是基于指定时间范围内的多帧视频图像帧及目标字幕信息得到包含字幕的图片,操作简单,用户体验好,有效提升用户的分享意愿。

请参阅图11,为本发明实施例中图片处理装置的程序模块的示意图,包括如图10所示实施例中的响应获取模块1001、帧提取模块1002及生成模块1003,且与图10所示实施例描述的内容相似,此处不做赘述。

在本发明实施例中,响应获取模块1001包括:

响应确定模块1101,用于响应于图片处理指令,确定所述目标影片的字幕模式;

数据处理模块1102,用于根据所述目标影片的字幕模式,对所述目标影片的多媒体文件进行数据处理,得到所述目标影片的原始视频图像数据及原始字幕信息;

第一确定模块1103,用于根据所述图片处理指令、所述原始视频图像数据及原始字幕信息,得到指定时间范围内的多帧视频图像帧及目标字幕信息。

其中,目标影片可以是指用户当前正在观看的影片,或者可以是已导入具有图片处理功能的应用程序中的影片。

其中,目标影片的字幕模式分为软字幕模式、硬字幕模式、无字幕模式等三种,下面将分别进行介绍:

(1)软字幕模式

软字幕模式是指影片的字幕信息是独立存在的,在软字幕模式下,字幕信息的载体常见的有:外部字幕文件和视频文件内字幕流两种形式。

其中,外部字幕文件是指字幕信息存储在独立的于视频文件之外的一种数字化文本文件中,比如srt、ass、sub为文本字幕格式的文件,在播放时,需要获取到影片的多媒体文件及外部字幕文件。

其中,视频文件内字幕流是字幕信息以数据轨道的方式与音频轨道、视频轨道一起组织在多媒体文件内部,其在容器格式层面与视频流、音频流单独组织,其典型的组织形式如mkv文件标准定义。

可以理解的是,对于上述两种形式,字幕信息中均包含文本字符串及各文本字符串的字幕时间戳。

(2)硬字幕模式

字幕信息在影片制作时被叠加到视频文件相应的视频图像帧上,作为视频图像帧的一部分,且经过压缩、音视频合流后生成多媒体文件,此即为硬字幕模式,显然,在硬字幕模式下,字幕信息中的文本字符串与视频文件中的视频图像帧之间的对应关系在制作影片的多媒体文件时已经完全确定,且在播放该影片的多媒体文件时,随着多媒体文件的解码,字幕作为视频图像帧中的内容被自然展示。

(3)无字幕模式

影片在播放时,显示的图像中无任何字幕,此即为无字幕模式,无字幕模式与软字幕模式及硬字幕模式是互相独立的三种字幕模式。

可以理解的是,在本发明实施例中,目标影片的多媒体文件中可以包含模式标记,该模式标记用于识别该目标影片具体的字幕模式,以便在播放该目标影片时,可以通过该模式标记识别该目标影片的字幕模式是软字幕模式、硬字幕模式还是无字幕模式。或者,还可以通过以下方式确定目标影片的字幕模式,具体的:

对所述目标影片的多媒体文件进行容器格式的解封装,确定是否能得到字幕流,若解封装后得到字幕流,则确定该目标影片的字幕模式为软字幕模式,若解封装后未得到字幕流,则确定是否存在该多媒体文件的外部字幕文件,若存在该多媒体文件的外部字幕文件,则确定该目标影片的字幕模式为软字幕模式。

若不存在该多媒体文件的外部字幕文件,则对多媒体文件解封装后的视频压缩码流进行解码,得到原始视频图像数据,并利用字幕识别技术从所述原始视频图像数据中识别字幕,若识别到字幕,则确定所述目标影片的字幕模式为硬字幕模式,若未识别到字幕,则确定所述目标影片的字幕模式为无字幕模式。其中,该字幕识别技术可以是光学字符识别(opticalcharacterrecognition,ocr)技术,关于ocr技术,后续将进行描述,此处不做赘述。。

对于上述数据处理模块1102,在一实施例中,请参阅图12a,为图11所示实施例中数据处理模块1102的细化程序模块的示意图,包括:

第一解封装模块1201,用于若所述目标影片的字幕模式为软字幕模式,则对所述目标影片的多媒体文件进行容器格式的解封装,得到视频压缩码流及字幕流,或者对所述目标影片的多媒体文件进行容器格式的解封装,得到视频压缩码流,并基于获取到的所述目标影片的外部字幕文件进行容器格式的解封装,得到字幕流;

第一解码模块1202,用于对所述视频压缩码流进行解码,得到所述原始视频图像数据,对所述字幕流进行解码,得到所述原始字幕信息。

其中,多媒体文件的封装格式可以是mp4、mkv、avi等等,此外,在进行解封装时,还可以得到音频压缩码流。可以理解的是,如何对多媒体文件进行解封装属于现有技术,此处不做赘述。

在一实施例中,请参阅图12b,为图11所示实施例中数据处理模块1102的细化程序模块的示意图,包括:

第二解封装模块1203,用于若所述目标影片的字幕模式为硬字幕模式,则对所述目标影片的多媒体文件进行容器格式的解封装,得到视频压缩码流;

第二解码模块1204,用于对所述视频压缩码流进行解码,得到所述原始视频图像数据;

第一提取模块1205,用于利用光学字符识别ocr技术对所述原始视频图像数据进行字幕提取,得到所述原始字幕信息。

可以理解的是,在本发明实施例中,ocr技术主要是用于硬字幕模式下,从每一视频图像帧中提取出文本字符串。考虑到一方面ocr技术是对文本字符串的提取,且不涉及语义理解范畴,另一方面,目标影片作为真实生活的写照必然会包含大量的文本信息,例如,商店的铭牌、人物服饰上的品牌文字等等,因此,作为本发明实施例中的一部分,ocr技术对硬字幕模式下的文本提取与其他场景下的ocr技术运用相比,需要特别区分出属于字幕的文本字符串在视频图像帧中的区域和位置,即需要先定位属于字幕的文本字符串在视频图像帧中的区域,具体可以结合影片中的字幕的特征进行定位,其中,影片中字幕的特征包括:字幕的颜色、字体较为规整,且与背景有较为明显的颜色差异;字幕区域的笔画丰富,角点和边缘特征比较明显;字幕中字符间距固定,排版多沿水平方向或竖直方向;同一视频中字幕出现的位置较为固定,且同一行文本字符串一般会停留若干秒的时间。基于上述特征,可以利用ocr技术进行文本字符串的提取,且在实际应用中,利用ocr技术提取文本字符串具有多种不同的方式,以下介绍其中的一种方式:根据行区域内灰度直方图投影切分单字区域,然后针对单字区域进行灰度图像归一化、提取梯度特征、多模板匹配和最小分类误差分类等,以得到一帧视频图像帧中的文本字符串。请参阅图4c,为本发明图4b所示实施例中基于ocr技术的硬字幕模式下的提取示意图。可以理解的是,如何利用ocr技术从原始视频图像数据中提取原始字幕信息更加详细的描述属于现有技术,此处不再赘述。

在一实施例中,请参阅图12c,为图11所示实施例中数据处理模块1102的细化程序模块的示意图,包括:

第三解封装模块1206,用于若所述目标影片的字幕模式为无字幕模式,则对所述目标影片的多媒体文件进行容器格式的解封装,得到视频压缩码流及音频压缩码流;

第三解码模块1207,用于对所述视频压缩码流进行解码,得到所述原始视频图像数据,对所述音频压缩码流进行解码,得到音频数据;

第二提取模块1208,用于利用自动语音识别asr技术对所述音频数据进行字幕提取,得到原始字幕信息。

其中,asr技术主要用于将语音数据视为包含可以理解语义的文本字符串,通过将asr技术应用在无字幕模式的影片的图片处理的场景下,使得即使影片中不包含任何字幕信息,也可以实现包含字幕的图片的生成,为用户提供更好的体验。

在本发明实施例中,响应图片处理指令时,将确定目标影片的字幕模式,并根据目标影片的字幕模式,对目标影片的多媒体文件进行数据处理,得到目标影片的原始视频图像数据及原始字幕信息,例如在软字幕模式下,可直接对目标影片的多媒体文件进行解封装及解码,得到原始视频图像数据及原始字幕信息;在硬字幕模式下,可以利用ocr技术对原始视频图像数据进行字幕提取,得到原始字幕信息;在无字幕模式下,则可利用asr技术对音频数据进行字幕提取,得到原始字幕信息。通过上述方式,能够有效的获得原始视频图像数据及原始字幕信息,以便进一步得到目标视频图像帧及目标字幕信息,并生成包含字幕的图片,使得不需要用户手动一张张截图,而是基于指定时间范围内的多帧视频图像帧及目标字幕信息得到包含字幕的图片,操作简单,用户体验好,有效提升用户的分享意愿。

请参阅图13,为本发明实施例中图片处理装置的程序模块的示意图,包括:如图11所示实施例中的响应获取模块1001、帧提取模块1002及生成模块1003,且响应获取模块1001如图12所示包含响应确定模块1101、数据处理模块1102及第一确定模块1103,且分别与图11及图12所示实施例中描述的内容相似,此处不做赘述。

在本发明实施例中,第一确定模块1103包括:

第三提取模块1301,用于若所述图片处理指令中包含指定时间范围,则从所述原始视频图像数据中提取所述指定时间范围内的多帧视频图像帧,从所述原始字幕信息中提取所述指定时间范围内的字幕信息,作为所述目标字幕信息。

且第一确定模块1103还包括:

显示模块1302,用于若所述图片处理指令中包含字幕选择标记,则显示所述原始字幕信息包含的文本字符串;

数据获取模块1303,用于若检测到文本选择操作,则确定已选择的文本字符串,基于已选择的文本字符串的字幕时间戳所构成的所述指定时间范围,从所述原始视频图像数据中获取所述指定时间范围内的多帧视频图像帧,其中,已选择的文本字符串为所述目标字幕信息。

在本发明实施例中,图片处理指令中可以包含指定时间范围,该指定时间范围可以由用户自行设置,具体的:用户在观看目标影片的过程中,若需要生成该影片的包含字幕的图片,则可以点击显示界面上的图片处理功能按钮,且移动终端将响应于该点击操作,并显示设置界面,该设置界面可以是时间输入界面,用户可以在该时间输入界面中输入开始时间点及结束时间点,并点击确定操作,以生成图片处理指令,且该图片处理指令中包含由用户输入的开始时间点及结束时间点构成的指定时间范围,例如,用户若输入的开始时间点为50分0秒,结束时间点为50分30秒,则该指定时间范围为50分0秒至50分30秒。或者,用户可以仅仅输入开始后时间点,或者仅仅输入结束时间点,若用户仅输入开始时间点,则将基于该开始时间点加上预置的时长之后的时间点作为结束时间点,若用户仅输入结束时间点,则将基于该结束时间点减去预置的时长之后的时间点作为开始时间点,以便得到指定时间范围,或者,该指定时间范围可以是多个小的时间范围构成的。或者,在进入设置界面之后,还可以显示时间选择界面,该时间选择界面类似于影片播放界面,包含进度条,用户可以在该进度条上选择开始时间点及结束时间点,且用户每次再将位置标识(如鼠标在显示界面上的箭头)移动到进度条上的某一个时间点时,将显示该时间点对应的视频图像帧,以便用户进行选择,用户可以通过点击的方式确定时间开始点及时间结束点,也可以在选择之后通过点击的方式取消已选择的时间开始点或时间结束点,以便得到符合用户需求的指定时间范围,并进一步得到指定时间范围。

在本发明实施例中,通过在图片处理指令中包含指定时间范围,使得能够利用该指定时间范围获取到目标视频图像帧及目标字幕信息,以便利用该目标视频图像帧及目标字幕信息生成包含字幕的图片。基于该实施例,用户通过简单的指定时间范围的设置就能够得到包含字幕的图片,使得不需要用户手动一张张截图,而是基于指定时间范围内的多帧视频图像帧及目标字幕信息得到包含字幕的图片,操作简单,用户体验好,有效提升用户的分享意愿。或者,通过在图片处理指令中包含字幕选择标记,使得能够由用户选择文本字符串,并基于用户选择的文本字符串获取目标视频图像帧,并基于该目标视频图像帧及选择的文本字符串生成包含字幕的图片。基于该实施例,用户通过简单的文本字符串的选择就能够得到包含字幕的图片,使得不需要用户手动一张张截图,而是基于指定时间范围内的多帧视频图像帧及目标字幕信息得到包含字幕的图片,操作简单,用户体验好,有效提升用户的分享意愿。

请参阅图14,为本发明实施例中图片处理装置的程序模块的示意图,包括:如图11所示实施例中的响应获取模块1001、帧提取模块1002及生成模块1003,分别与图11及图12所示实施例中描述的内容相似,此处不做赘述。

在本发明实施例中,帧提取模块1002包括:

比较提取模块1401,用于利用所述多帧视频图像帧的视频时间戳与所述目标字幕信息的字幕时间戳进行比较,从所述多帧视频图像帧中提取一帧目标视频图像帧;

且生成模块1003包括:

嵌入生成模块1402,用于将所述目标字幕信息中包含的文本字符串嵌入已提取的一帧目标视频图像帧中,生成包含字幕的图片。

在本发明实施例中,帧提取模块1003还包括:

比较确定模块1403,用于依次利用所述目标字幕信息中每一行文本字符串的字幕时间戳与所述多帧视频图像帧的视频时间戳进行比较,确定各行文本字符串对应的视频图像帧的集合;

第四提取模块1404,用于依次从所述各行文本字符串对应的视频图像帧的集合中,分别提取与所述各行文本字符串对应的一帧目标视频图像帧,得到多帧目标视频图像帧。

在本发明实施例中,生成模块1003还包括:

第一生成模块1405,用于若所述目标影片的字幕模式为硬字幕模式,则将所述多帧目标视频图像帧按照视频时间戳的先后顺序进行拼接,生成所述包含字幕的图片;或者,截取除第一帧目标视频图像帧以外的其他目标视频图像帧的字幕区域,按照视频时间戳的先后顺序将所述第一帧目标视频图像帧及所述其他目标视频图像帧的字幕区域进行拼接,生成所述包含字幕的图片;

第二生成模块1406,用于若所述目标影片的字幕模式为软字幕模式或者无字幕模式,则将所述目标字幕信息中的各行文本字符串嵌入对应的目标视频图像帧中,将所述多帧目标视频图像帧按照视频时间戳的先后顺序进行拼接,生成包含字幕的图片;或者,将所述目标字幕信息中的各行文本字符串嵌入对应的目标视频图像帧中,截取除第一帧目标视频图像帧以外的其他的目标视频图像帧已嵌入字幕所在的字幕区域,按照视频时间戳的先后顺序将已嵌入字幕的第一帧目标视频图像帧及所述其他的目标视频图像的字幕区域进行拼接,生成所述包含字幕的图片。

在本发明实施例中,通过从该指定时间范围内的多帧视频图像帧中提取一帧目标视频图像帧,并将目标字幕信息嵌入至该目标视频帧中以生成包含字幕的图片,使得能够有效的降低生成的图片的大小,减小该图片分享及上传时消耗的流量及时间,且此种方式不需要用户手动截图就能够得到包含字幕的图片,操作简单,用户体验好,有效提升用户的分享意愿。或者,通过利用视频时间戳与字幕时间戳进行比较,使得能够基于目标字幕信息中包含的文本字符串提取目标视频图像帧,并将多帧目标视频图像帧合成为一张图片,能够有效的减少生成的包含字幕的图片的大小,减小上传或分享该图片所消耗的流量及时间,改善用户的使用体验,提升用户分享的意愿。

可以理解的是,在本发明实施例中,上述图片处理装置的实施例可以基于具体的需要进行结合,以得到更多可行的实施例,此处不做赘述。

本发明还提供一种移动终端,包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现图2至图8任意一实施例中的图片处理方法中的各个步骤。

本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如图2至图8任意一实施例中的图片处理方法的各个步骤。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。

以上为对本发明所提供的一种图片处理方法、装置、终端及计算机可读存储介质的描述,对于本领域的技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1