媒体播放中实时自动翻译字幕的方法和系统的制作方法_2

文档序号:9924160阅读:来源:国知局
解封装”。通过解封装能够获得独立的字幕流,从而为字幕实时翻译提供基础。而获得的音视频流则交送缓冲模块,等待字幕翻译完成后再同步播放。
[0069]具体地,字幕解码模块202用于在字幕流中解析出原始字幕内容及显示时间。优选地,字幕解码模块202具体包括:翻译请求发送模块2021和字幕语种转换模块2022 ;翻译请求发送模块2021用于将原始字幕翻译请求发送至翻译库;字幕语种转换模块2022用于在接受翻译库返回结果后将目标语种字幕内容统一转为UTF-8编码,以显示与语种无关的字幕。字幕解码模块202还用于根据字幕流的编码格式选择对应地解码方法获取原始字幕内容及显示时间。通常的字幕流都按照预先定义的格式描述字幕内容和呈现时间,部分还包括显示位置及字体等。获得独立的字幕流之后,要根据字幕流编码类型对字幕进行解码,获得上述信息,本实施例中采用字幕姐解码模块202实现字幕内容及展现时间,为翻译及同音视频再同步提供数据来源。
[0070]具体地,数据缓冲模块203用于调整媒体的播放时间,在播放之前取出原始字幕并进行翻译。缓冲数据并调整(延后)音视频的pts (presentat1n time stamp显示时间戳)。为保持经过字幕实时翻译后仍然与音视频保持同步,需要对字幕翻译时长做出估计,再取比翻译耗时更长的时间来延后音视频播放。数据缓冲模块既用于延后媒体的播放时间,并将原始字幕在其需要播放的时间点之前读取出来并进行翻译,保证缓冲长度大于等于翻译字幕需要的时长,则可以实现在字幕需要播放的正确时间点提供翻译后的字幕。[0071 ] 具体地,翻译模块204用于将源语种字幕翻译成目标语种字幕。在实际应用中,可以在词库或网络中查询从源字幕到目标语种字幕的翻译;字幕显示模块205用于将目标语种字幕叠加显示与媒体视频内容之前。通过将字符通过FreeType转化为单色位图,准备叠加显示于视频内容前;
[0072]具体地,播放控制模块206用于同步播放音频、视频和字幕内容。优选地,播放控制模块206具体包括:第一判断单元2061、第二判断单元2062和字幕同步单元2063 ;第一判断单元2061用于在音频和视频缓冲区头部判断当前数据显示时间戳是否到达,到达则播放音频和视频的内容;第二判断单元2062用于在目标语种字幕缓冲区判断当前数据显示时间戳是否到达,到达则将目标语种字幕内容进行显示;字幕同步单元2063用于保持目标语种字幕与音频和视频原来的同步关系。通过读取调整后的音视频及字幕的Pts(显示时间戳),将翻译后的字幕与音视频恢复同步关系,在到达Pts(显示时间戳)指定的时间点后,播放首视频及字眷。
[0073]为使本领域技术人员更好的理解本发明,下面结合附图3_4g对本发明的实施方式做进一步详细的说明。
[0074]图3是本发明的媒体文件中的音频流、视频流和字幕流的示意图,如图3所示,本实施实例的翻译模块实测平均翻译时间为650毫秒,最大不超过1000毫秒,因此数据缓冲模块的缓冲长度取2秒钟。图4a是本发明的解析后的音频流、视频流和字幕流的时间轴示意图,如图4a所示,由解封装模块将媒体文件解析为三条独立的媒体流,包括音频流、视频流和英文字幕流。图4b是本发明的音频流、视频流和字幕流初始状态的时间轴示意图,如图4b所示,视频流和音频流都是长为3分钟的连续流,在第5秒至第8秒需要显示“Hello”的字幕,在I分10秒至I分40秒显示“World”的字幕;图4c是本发明的音频流、视频流和字幕流在第2秒的时间轴示意图,如图4c所示,由于有2秒缓冲模块的存在,系统不会立即播放音视频,而是会在第2秒时间点开始播放O秒处的音视频;图4d是本发明的音频流、视频流和字幕流在第3秒的时间轴示意图,如图4d的所示,实际时间到3秒时,音视频流播放到I秒处;图4e是本发明的音频流、视频流和字幕流在第5秒的时间轴示意图,如图4e所示,当实际时间点到达第一字幕开始点5秒处时,音视频播放到3秒位置;图4f是本发明的音频流、视频流和字幕流在第6秒的时间轴示意图,如图4f所示,此时解码模块解析出字幕内容及时间,并由翻译模块将“Hello”翻译成“你好”,此过程历时I秒,在实际时间6秒处,翻译后的“你好”被送至播放控制模块;图4g是本发明的音频流、视频流和字幕流在第7秒的时间轴示意图,如图4g所示,播放控制模块会将字幕与音视频进行同步,在实际时间第7秒时(音视频及字幕时间均为5秒)将音视频与翻译后的字幕同步展示。对第二条字幕“world”的处理过程于此类似。
[0075]本发明的提供的媒体播放中实时自动翻译字幕的方法和系统中,通过将从播放文件或网络源读取的原始文件流,由解封装模块从原始文件流中分离出音视频流和字幕流,对于音视频流,送入缓冲模块等待;对于字幕流,则交由字幕解码模块提取出字幕内容及显示时间,再由翻译模块将原始字幕翻译到目标语种字幕,最后通过播放控制模块与原音视频流同步时间后进行播放,字幕显示模块负责将翻译后的字幕叠加显示与媒体视频内容上,从而可以实现在播放缺少指定语种字幕的媒体时,实时的将原始字幕翻译成指定语种,并与媒体中原音视频保持一致的同步关系。
[0076]可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。
【主权项】
1.一种媒体播放中实时自动翻译字幕的方法,其特征在于,所述方法包括如下步骤: 51、从媒体源中读取媒体文件; 52、从媒体文件分离出音频流、视频流和字幕流,缓冲音频流和视频流,并在原始字幕翻译完成后获得目标语种字幕后与所述目标语种字幕进行同步; 53、解析字幕流中的原始字幕内容及显示时间并建立时间轴; 54、将原始字幕翻译到目标语种字幕; 55、将目标语种字幕与缓冲的音频流和视频流进行同步; 56、将目标语种字幕叠加显示与媒体视频内容上。2.根据权利要求1所述的媒体播放中实时自动翻译字幕的方法,其特征在于,所述步骤S2具体包括: 根据文件封装格式解析媒体文件获得音频流、视频流和字幕流; 调整音频和视频的播放时间,在播放之前读取原始字幕并进行翻译,调整的播放时间不小于翻译时间。3.根据权利要求1或2所述的媒体播放中实时自动翻译字幕的方法,其特征在于,所述步骤S3具体包括: 根据字幕流的编码格式选择对应地解码方法获取原始字幕内容及显示时间。4.根据权利要求3所述的媒体播放中实时自动翻译字幕的方法,其特征在于,所述步骤S4具体包括: 将原始字幕翻译请求发送至翻译库; 接受翻译库返回结果后将目标语种字幕内容统一转为UTF-8编码,以显示与语种无关的子眷。5.根据权利要求4所述的媒体播放中实时自动翻译字幕的方法,其特征在于,所述步骤S6具体包括: 在音视和视频缓冲区头部判断当前数据显示时间戳是否到达,到达则播放音频和视频的内容; 在目标语种字幕缓冲区判断当前数据显示时间戳是否到达,到达则将目标语种字幕内容进行显示; 保持目标语种字幕与音频和视频原来的同步关系。6.一种媒体播放中实时自动翻译字幕的系统,其特征在于,包括:解封装模块、字幕解码模块、数据缓冲模块、翻译模块、字幕显示模块及播放控制模块; 所述解封装模块用于分离媒体文件中的音频流、视频流和字幕流,将音频流和视频流发送至数据缓冲模块,并将字幕流发送至字幕解码模块; 所述字幕解码模块用于在字幕流中解析出原始字幕内容及显示时间并建立时间轴; 所述数据缓冲模块用于调整媒体的播放时间,在播放之前取出原始字幕并进行翻译; 所述翻译模块用于将源语种字幕翻译成目标语种字幕; 所述字幕显示模块用于将目标语种字幕叠加显示与媒体视频内容之前; 所述播放控制模块用于同步播放音频、视频和字幕内容。7.根据权利要求6所述的媒体播放中实时自动翻译字幕的系统,其特征在于,所述解封装模块具体包括: 媒体流获取模块,用于根据文件封装格式解析媒体文件获得音频流、视频流和字幕流; 延时调整模块,用于调整音频和视频的播放时间,在播放之前读取原始字幕并进行翻译,调整的播放时间不小于翻译时间。8.根据权利要求7所述的媒体播放中实时自动翻译字幕的系统,其特征在于,所述字幕解码模块具体包括: 翻译请求发送模块,用于将原始字幕翻译请求发送至翻译库; 字幕语种转换模块,用于在接受翻译库返回结果后将目标语种字幕内容统一转为UTF-8编码,以显示与语种无关的字幕。9.根据权利要求8所述的媒体播放中实时自动翻译字幕的系统,其特征在于,所述字幕解码模块还用于: 根据字幕流的编码格式选择对应地解码方法获取原始字幕内容及显示时间。10.根据权利要求9所述的媒体播放中实时自动翻译字幕的系统,其特征在于,所述播放控制模块具体包括: 第一判断单元,用于在音频和视频缓冲区头部判断当前数据显示时间戳是否到达,到达则播放音频和视频的内容; 第二判断单元,用于在目标语种字幕缓冲区判断当前数据显示时间戳是否到达,到达则将目标语种字幕内容进行显示; 字幕同步单元,用于保持目标语种字幕与音频和视频原来的同步关系。
【专利摘要】本发明提供一种媒体播放中实时自动翻译字幕的方法和系统,属于多媒体播放技术领域。该方法包括步骤:S1、从媒体源中读取媒体文件;S2、从媒体文件分离出音频流、视频流和字幕流,缓冲音频流和视频流,并在原始字幕翻译完成后获得目标语种字幕后与所述目标语种字幕进行同步;S3、解析字幕流中的原始字幕内容及显示时间并建立时间轴;S4、将原始字幕翻译到目标语种字幕;S5、将目标语种字幕与缓冲的音频流和视频流进行同步;S6、将目标语种字幕叠加显示与媒体视频内容上。本发明的技术方案可以在播放缺少指定语种字幕的媒体时,实时的将原始字幕翻译成指定语种,并与媒体中原音视频保持一致的同步关系。
【IPC分类】H04N21/488, H04N21/8547, H04N21/434, H04N21/43
【公开号】CN105704579
【申请号】CN201410699508
【发明人】金龙, 李晨
【申请人】南京苏宁软件技术有限公司
【公开日】2016年6月22日
【申请日】2014年11月27日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1