一种直播视频字幕合成系统及方法

文档序号:10474291阅读:330来源:国知局
一种直播视频字幕合成系统及方法
【专利摘要】本发明公开了一种直播视频字幕合成系统及方法,用于高效准确地合成直播视频字幕,该系统包括:视频生成模块,至少一个字幕编辑客户端模块以及字幕服务模块;视频生成模块,用于将接收到的直播视频同时转换为视频原始流和视频预览流,视频原始流的时间戳和视频预览流的时间戳同步;字幕编辑客户端模块,用于接收视频预览流,在用户根据视频预览流制作字幕条目后,将字幕条目上传至字幕服务模块,每一字幕条目包括时间区间以及对应的字幕文本;字幕服务模块,保存字幕条目;视频生成模块,还用于从字幕服务模块获取字幕条目,根据视频原始流的时间戳以及字幕条目中的时间区间将字幕条目中的字幕文本压制到视频原始流中。
【专利说明】
一种直播视频字幕合成系统及方法
技术领域
[0001]本发明涉及多媒体技术领域,具体涉及一种直播视频字幕合成系统及方法。
【背景技术】
[0002]目前用户在终端设备上使用视频网站观看直播视频的需求日益增加。在现有技术中,制作直播视频时一般采用在接收到电视节目信号或者现场直播信号后经过编码推送到远程服务器,由远程服务器上传到⑶N(Content Delivery Network,内容分发网络)分发给终端设备。但是,外语节目或者现场采集的视频源往往缺少字幕,现有的视频字幕通常采用外挂字幕的方式实现或者后期制作工具添加。
[0003]而外挂字幕方式为了在终端设备的客户端显示字幕则必须在客户端添加必要的字幕解码模块,这样会增加各平台客户端开发的重复工作;同时,外挂字幕方式还可能存在由于后期视频转码过程中时间戳改变,外挂字幕的时间戳和视频的时间戳不同步导致字幕显示不准;而使用后期制作工具在视频中压入字幕不能多人协作,导致视频制作耗时较长,实时性较差,无法满足视频直播的需求。因此,在现有技术中无法实现直播视频字幕的高效准确合成。

【发明内容】

[0004]有鉴于此,本发明提供一种直播视频字幕合成系统及方法,以解决现有技术中无法实现直播视频字幕的高效准确合成。
[0005]为解决上述问题,本发明提供的技术方案如下:
[0006]—种直播视频字幕合成系统,所述系统包括:
[0007]视频生成模块,至少一个字幕编辑客户端模块以及字幕服务模块;
[0008]所述视频生成模块,用于将接收到的直播视频同时转换为视频原始流和视频预览流,所述视频原始流的时间戳和所述视频预览流的时间戳同步;
[0009]所述字幕编辑客户端模块,用于接收所述视频预览流,在用户根据所述视频预览流制作字幕条目后,将所述字幕条目上传至所述字幕服务模块,每一所述字幕条目包括时间区间以及对应的字幕文本;
[0010]所述字幕服务模块,用于保存所述字幕条目;
[0011]所述视频生成模块,还用于从所述字幕服务模块获取所述字幕条目,根据所述视频原始流的时间戳以及所述字幕条目中的时间区间将所述字幕条目中的字幕文本压制到所述视频原始流中。
[0012]可选的,所述字幕服务模块还用于:
[0013]当不同字幕条目的时间区间存在重叠时,生成错误提示信息,并将所述错误提示信息发送给上传该字幕条目的字幕编辑客户端模块。
[0014]可选的,所述字幕编辑客户端模块还用于:
[0015]从所述字幕服务模块下载所述字幕条目和/或对所述字幕条目进行修改后重新上传至所述字幕服务模块。
[0016]可选的,所述系统还包括:
[0017]设置模块,用于设置所述视频生成模块的接收频道、转换格式、转换分辨率、码率以及延迟时间。
[0018]可选的,所述视频生成模块具体用于:
[0019]在所述延迟时间到达后根据所述视频原始流的时间戳以及所述字幕条目中的时间区间将所述字幕条目中的字幕文本压制到所述视频原始流中。
[0020]—种直播视频字幕合成方法,所述方法包括:
[0021]将接收到的直播视频同时转换为视频原始流和视频预览流,所述视频原始流的时间戳和所述视频预览流的时间戳同步;
[0022]将所述视频预览流发送给至少一个字幕编辑客户端模块,在用户根据所述视频预览流制作字幕条目后,获取所述字幕编辑客户端模块上传的字幕条目,每一所述字幕条目包括时间区间以及对应的字幕文本;
[0023]根据所述视频原始流的时间戳以及所述字幕条目中的时间区间将所述字幕条目中的字幕文本压制到所述视频原始流中。
[0024]可选的,所述方法还包括:
[0025]当不同字幕条目的时间区间存在重叠时,生成错误提示信息,并将所述错误提示信息发送给上传该字幕条目的字幕编辑客户端。
[0026]可选的,所述方法还包括:
[0027]向所述字幕编辑客户端模块发送所述字幕条目和/或接收重新上传的修改后的字幕条目。
[0028]可选的,所述方法还包括:
[0029 ]设置接收频道、转换格式、转换分辨率、码率以及延迟时长。
[0030]可选的,所述根据所述视频原始流的时间戳以及所述字幕条目中的时间区间将所述字幕条目中的字幕文本压制到所述视频原始流中,包括:
[0031]在所述延迟时间到达后根据所述视频原始流的时间戳以及所述字幕条目中的时间区间将所述字幕条目中的字幕文本压制到所述视频原始流中。
[0032]由此可见,本发明实施例具有如下有益效果:
[0033]将视频原始流和视频预览流相分离适应不同用户的网络环境,且视频原始流和视频预览流的时间戳保证同步,可以由多个用户利用字幕编辑客户端根据视频预览流同时制作字幕条目,最后将字幕条目中的字幕文本压制到视频原始流中,由于可以多人同时协作,缩短了直播视频字幕合成时间,时效性更好,字幕直接压入视频中简化了各平台终端设备播放客户端对字幕支持的差异,同时可解决外挂字幕在视频转码后显示不准的问题。
【附图说明】
[0034]图1为本发明实施例中提供的直播视频字幕合成系统实施例的示意图;
[0035]图2为本发明实施例中提供的直播视频字幕合成系统实施例的工作原理示意图;
[0036]图3为本发明实施例中提供的直播视频字幕合成方法实施例的流程图。
【具体实施方式】
[0037]为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和【具体实施方式】对本发明实施例作进一步详细的说明。
[0038]本发明实施例中提供的直播视频字幕合成系统及方法,是针对现有技术中无法实现直播视频字幕高效准确合成这一技术问题,提出将直播视频转换为视频预览流和视频原始流,将视频预览流发送给至少一个字幕编辑客户端模块,视频预览流具有较低的分辨率以适应不同用户的网络环境,这样可以由多个用户协同共同根据视频预览流制作字幕条目,缩短了直播视频字幕合成时间,最后将字幕条目中的字幕文本压制到视频原始流中,字幕直接压入视频中简化了各平台终端设备播放客户端对字幕支持的差异,同时由于视频预览流和视频原始流的时间戳同步,也保证了压入视频的字幕不会存在显示不准的情况。
[0039]基于上述思想,参见图1所示,是本发明实施例中提供的直播视频字幕合成系统实施例,可以包括:
[0040]视频生成模块101,至少一个字幕编辑客户端模块102以及字幕服务模块103。
[0041]视频生成模块101,可以用于将接收到的直播视频同时转换为视频原始流和视频预览流,视频原始流的时间戳和视频预览流的时间戳同步。
[0042]在本发明的一些实施方式中,本发明实施例中提供的直播视频字幕合成系统还可以包括设置模块,用于设置视频生成模块的接收频道、转换格式、转换分辨率、码率以及延迟时间。
[0043]视频生成模块则可以根据这些设置信息,对直播视频信号进行转换。视频原始流的分辨率大于视频预览流的分辨率,视频原始流是需要与字幕合成分发给用户观看的视频流,需要有较高的分辨率,而视频预览流是需要发送给一个或多个字幕编辑客户端模块以使用户根据视频预览流完成字幕条目的制作,为了适应不同字幕编辑客户端模块所处网络环境,视频预览流可以具有较低的分辨率。视频原始流的时间戳和视频预览流的时间戳同步,可以保证在字幕条目的制作过程中,均依据相同的时间戳,在字幕压制到视频原始流后也不会存在因为时间戳改变而导致的字幕显示不准的问题。
[0044]字幕编辑客户端模块102,可以用于接收视频预览流,在用户根据视频预览流制作字幕条目后,将字幕条目上传至字幕服务模块,每一字幕条目包括时间区间以及对应的字幕文本。
[0045]用户可以使用字幕编辑客户端模块制作字幕条目,字幕编辑客户端模块的数量可以根据实际情况灵活设置,可以理解的是,字幕编辑客户端模块越多,即参与字幕条目制作的用户越多,字幕制作的效率越高,直播视频的时效性越好。字幕条目可以包括时间区间以及对应的字幕文本,时间区间例如00:00:42,308—>00:00:44,674,即为视频原始流和视频预览流中相应的时间段,加上该时间段内的字幕文本,构成一个字幕条目。字幕编辑客户端模块在用户编辑字幕时可以即时显示来确保编辑字幕后的最终输出与编辑界面上内容一致。
[0046]字幕服务模块103,可以用于保存字幕条目。
[0047]字幕服务模块可以接收字幕编辑客户端模块上传的字幕条目,并可以按时间顺序或者其他排序方式对各个字幕条目进行保存。
[0048]在本发明的一些实施方式中,字幕服务模块还可以用于:
[0049]当不同字幕条目的时间区间存在重叠时,生成错误提示信息,并将错误提示信息发送给上传该字幕条目的字幕编辑客户端模块。
[0050]在视频中同一时刻不应有两个不同的字幕,若不同字幕条目的时间区间存在重叠,在将字幕文本压制到视频原始流中时会发生错误。因此,当接收到不同字幕条目的时间区间存在重叠,需要提示上传该字幕条目的字幕编辑客户端模块重新对字幕条目进行编辑。
[0051 ] 例如,若检测到有两个字幕条目中的时间区间分别为00:00:40—>00:00:44和00:
00:42—>00:00:47,则42-44秒存在重叠,则可以向上传这两个字幕条目字幕编辑客户端模块发送错误提示信息,错误提示信息具体可以包括时间重叠的区间。
[0052]同时,在本发明的一些实施方式中,字幕编辑客户端模块还可以用于:
[0053]从字幕服务模块下载字幕条目和/或对字幕条目进行修改后重新上传至字幕服务丰旲块。
[0054]字幕编辑客户端模块也可以主动从字幕服务模块下载本地上传或其他字幕编辑客户端模块上传的字幕条目进行查看,和/或,对字幕条目进行修改后重新上传。
[0055]视频生成模块101,还可以用于从字幕服务模块获取字幕条目,根据视频原始流的时间戳以及字幕条目中的时间区间将字幕条目中的字幕文本压制到视频原始流中。
[0056]另外,在本发明的一些实施方式中,具体的,可以在延迟时间到达后根据视频原始流的时间戳以及字幕条目中的时间区间将字幕条目中的字幕文本压制到视频原始流中。
[0057]例如,设置的延迟时间为5分钟,则各用户需要在5分钟之内完成字幕条目的制作上传,在5分钟到达后,视频生成模块开始进行字幕压制,从字幕服务模块获取各用户上传的字幕条目,按照视频原始流的时间戳读取相对应的字幕条目,将字幕条目中的字幕文本压制到视频原始流中以完成直播视频的字幕合成。
[0058]本发明主要是用于直播节目快速字幕添加上线,相比传统视频后期制作添加字幕的方式,由于可以多人同时协作,时效性更好,缩短了直播节目字幕制作时间;字幕直接压入视频内容中的方式简化了各平台播放客户端对字幕支持的差异,减少了各平台客户端字幕解码模块开发,保证各端视频内容字幕显示一致性;同时也可以解决外挂字幕在视频转码后显示不准的问题。
[0059]参见图2所示,是本发明实施例中提供的直播视频字幕合成系统实施例的工作原理示意图。
[0060]用户可以在设置模块的页面上设置接收频道、直播频道名称、转换格式、转换分辨率、码率以及延迟时间等相关信息;视频生成模块启动视频文件生产,将接收到的直播视频同时转换为视频原始流和视频预览流。
[0061]字幕编辑客户端模块从视频生成模块获取预览流视频,在用户根据视频预览流制作字幕条目后,将字幕条目上传至字幕服务模块,也可以从字幕服务模块获取其它字幕编辑客户端模块已提交的字幕条目。这里以两个字幕编辑客户端模块为例,对字幕编辑客户端模块的数量并不限制。
[0062]节目延迟时间段内的视频流可以由多个用户使用字幕编辑客户端模块同时编辑字幕,视频生成模块在设定的延迟时间点根据视频原始流中时间戳获取对应的字幕信息编码压入视频原始流中,然后推送到视频服务器,以完成直播视频的字幕合成。
[0063]在实际应用中,视频生成模块和设置模块可以设置于一台服务器中,字幕服务模块可以为一数据库服务器,视频生成模块、设置模块和字幕服务模块也可以设置于一台服务器中,本发明实施例对各模块的设置方式不进行限定。视频生成模块可以采用VS210工具,C++语言实现,设置模块可以采用VIM文本编辑器工具,Python2.7语言环境、开源框架web.py实现,字幕服务模块可以采用VIM文本编辑器工具,python2.7语言环境,数据库MySql实现。
[0064]这样,本发明实施例将视频原始流和视频预览流相分离适应不同用户的网络环境,且视频原始流和视频预览流的时间戳保证同步,可以由多个用户利用字幕编辑客户端根据视频预览流同时制作字幕条目,最后将字幕条目中的字幕文本压制到视频原始流中,由于可以多人同时协作,缩短了直播视频字幕合成时间,时效性更好,字幕直接压入视频中简化了各平台终端设备播放客户端对字幕支持的差异,同时可解决外挂字幕在视频转码后显示不准的问题。
[0065]参见图3所示,是本发明实施例中提供的直播视频字幕合成方法实施例,可以包括以下步骤:
[0066]步骤301:将接收到的直播视频同时转换为视频原始流和视频预览流,视频原始流的时间戳和视频预览流的时间戳同步。
[0067]在本发明的一些实施方式中,本发明实施例中提供的直播视频字幕合成方法实施例还可以包括:设置接收频道、转换格式、转换分辨率、码率以及延迟时长。
[0068]步骤302:将视频预览流发送给至少一个字幕编辑客户端模块。
[0069]步骤303:在用户根据视频预览流制作字幕条目后,获取字幕编辑客户端模块上传的字幕条目,每一字幕条目包括时间区间以及对应的字幕文本。
[0070]在本发明的一些实施方式中,本发明实施例中提供的直播视频字幕合成方法实施例还可以包括:
[0071]当不同字幕条目的时间区间存在重叠时,生成错误提示信息,并将错误提示信息发送给上传该字幕条目的字幕编辑客户端。
[0072]在本发明的一些实施方式中,本发明实施例中提供的直播视频字幕合成方法实施例还可以包括:
[0073]向字幕编辑客户端模块发送字幕条目和/或接收重新上传的修改后的字幕条目。
[0074]步骤304:根据视频原始流的时间戳以及字幕条目中的时间区间将字幕条目中的字幕文本压制到视频原始流中。
[0075]在本发明的一些实施方式中,步骤304根据视频原始流的时间戳以及字幕条目中的时间区间将字幕条目中的字幕文本压制到视频原始流中,可以具体包括:在延迟时间到达后根据视频原始流的时间戳以及字幕条目中的时间区间将字幕条目中的字幕文本压制到视频原始流中。
[0076]本实施例方法步骤可以由服务器执行,该服务器中可以包括视频生成模块、设置模块和字幕服务模块,相关说明可以参见本发明实施例中提供的直播视频字幕合成系统实施例,在此不再赘述。
[0077]这样,本发明实施例将视频原始流和视频预览流相分离适应不同用户的网络环境,且视频原始流和视频预览流的时间戳保证同步,可以由多个用户利用字幕编辑客户端根据视频预览流同时制作字幕条目,最后将字幕条目中的字幕文本压制到视频原始流中,由于可以多人同时协作,缩短了直播视频字幕合成时间,时效性更好,字幕直接压入视频中简化了各平台终端设备播放客户端对字幕支持的差异,同时可解决外挂字幕在视频转码后显示不准的问题。
[0078]需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0079]还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0080]结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(R0M)、电可编程R0M、电可擦除可编程R0M、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
[0081]对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
【主权项】
1.一种直播视频字幕合成系统,其特征在于,所述系统包括: 视频生成模块,至少一个字幕编辑客户端模块以及字幕服务模块; 所述视频生成模块,用于将接收到的直播视频同时转换为视频原始流和视频预览流,所述视频原始流的时间戳和所述视频预览流的时间戳同步; 所述字幕编辑客户端模块,用于接收所述视频预览流,在用户根据所述视频预览流制作字幕条目后,将所述字幕条目上传至所述字幕服务模块,每一所述字幕条目包括时间区间以及对应的字幕文本; 所述字幕服务模块,用于保存所述字幕条目; 所述视频生成模块,还用于从所述字幕服务模块获取所述字幕条目,根据所述视频原始流的时间戳以及所述字幕条目中的时间区间将所述字幕条目中的字幕文本压制到所述视频原始流中。2.根据权利要求1所述的系统,其特征在于,所述字幕服务模块还用于: 当不同字幕条目的时间区间存在重叠时,生成错误提示信息,并将所述错误提示信息发送给上传该字幕条目的字幕编辑客户端模块。3.根据权利要求1或2所述的系统,其特征在于,所述字幕编辑客户端模块还用于: 从所述字幕服务模块下载所述字幕条目和/或对所述字幕条目进行修改后重新上传至所述字幕服务模块。4.根据权利要求1所述的系统,其特征在于,所述系统还包括: 设置模块,用于设置所述视频生成模块的接收频道、转换格式、转换分辨率、码率以及延迟时间。5.根据权利要求4所述的系统,其特征在于,所述视频生成模块具体用于: 在所述延迟时间到达后根据所述视频原始流的时间戳以及所述字幕条目中的时间区间将所述字幕条目中的字幕文本压制到所述视频原始流中。6.一种直播视频字幕合成方法,其特征在于,所述方法包括: 将接收到的直播视频同时转换为视频原始流和视频预览流,所述视频原始流的时间戳和所述视频预览流的时间戳同步; 将所述视频预览流发送给至少一个字幕编辑客户端模块,在用户根据所述视频预览流制作字幕条目后,获取所述字幕编辑客户端模块上传的字幕条目,每一所述字幕条目包括时间区间以及对应的字幕文本; 根据所述视频原始流的时间戳以及所述字幕条目中的时间区间将所述字幕条目中的字幕文本压制到所述视频原始流中。7.根据权利要求6所述的方法,其特征在于,所述方法还包括: 当不同字幕条目的时间区间存在重叠时,生成错误提示信息,并将所述错误提示信息发送给上传该字幕条目的字幕编辑客户端。8.根据权利要求6或7所述的方法,其特征在于,所述方法还包括: 向所述字幕编辑客户端模块发送所述字幕条目和/或接收重新上传的修改后的字幕条目。9.根据权利要求6所述的方法,其特征在于,所述方法还包括: 设置接收频道、转换格式、转换分辨率、码率以及延迟时长。10.根据权利要求9所述的方法,其特征在于,所述根据所述视频原始流的时间戳以及所述字幕条目中的时间区间将所述字幕条目中的字幕文本压制到所述视频原始流中,包括: 在所述延迟时间到达后根据所述视频原始流的时间戳以及所述字幕条目中的时间区间将所述字幕条目中的字幕文本压制到所述视频原始流中。
【文档编号】H04N21/8547GK105828216SQ201610201086
【公开日】2016年8月3日
【申请日】2016年3月31日
【发明人】朱洪波
【申请人】北京奇艺世纪科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1