一种字幕转换的方法和设备的制作方法

文档序号：7781103阅读：314来源：国知局

一种字幕转换的方法和设备的制作方法
【专利摘要】本发明的实施例提供一种字幕转换的方法和设备，涉及视频处理领域，能够在后台自动将视频中的字幕格式统一转换为文本格式的字幕，方便对字幕进行管理。具体方案为：首先获取当前播放视频的字幕的格式，字幕的格式包括图片格式和文本格式；然后根据字幕的格式判断字幕是否需要进行格式转换；若字幕的格式为图片格式，则获取图片格式字幕的图片文件并根据转换算法将图片文件转换为文本格式字幕。本发明用于字幕格式的转换。
【专利说明】一种字幕转换的方法和设备
【技术领域】
[0001]本发明涉及视频处理领域，尤其涉及一种字幕转换的方法和设备。
【背景技术】
[0002]目前，比较流行的字幕格式，分为图片格式和文本格式两类。图片格式字幕中最常见的字幕格式是由字幕图片文件(比如.sub文档)和字幕索引文件(比如.1dx文档)组成。一个.sub文档可同时包含多个语言的字幕，由.1dx文档进行调用。.1dx文档相当于索引文件，里面包括了字幕出现的时间码和字幕显示的属性，.sub文档就是字幕数据本身，由于是图片格式，所以体积比较大，动辄IOM以上。文本格式字幕的扩展名通常是ass (AdvancedSubstation Alpha)、srt (Sub Rip Text)等等。因为是文本格式，通常不过百十来KB。其中srt文本字幕是最流行的，因为其制作和修改非常简单:一句时间代码加一句字幕就可以实现。
[0003]由于文本格式的字幕体积小，制作和修改简单，逐渐成为主流的字幕格式，有时需要将图片格式的字幕进行处理转为文本格式的字幕，现有技术一般是由用户自行对字幕格式进行处理转换，但是，不能在后台自动将字幕格式统一为文本格式的字幕。

【发明内容】

[0004]本发明的实施例提供一种字幕转换的方法和设备，能够在后台自动将视频中的字幕格式统一转换为文本格式的字幕，方便对字幕进行管理。
[0005]为达到上述目的，本发明的实施例采用如下技术方案:
[0006]第一方面，本发明的实施例提供一种字幕转换的方法，所述方法包括:
[0007]获取当前播放视频的字幕的格式，所述字幕的格式包括图片格式和文本格式；
[0008]根据所述字幕的格式判断所述字幕是否需要进行格式转换；
[0009]若所述字幕的格式为图片格式，则获取图片格式字幕的图片文件并根据转换算法将所述图片文件转换为文本格式字幕。
[0010]结合第一方面，在第一种可能的实现方式中，所述获取图片格式字幕的图片文件并根据转换算法将所述图片文件转换为文本格式字幕包括:
[0011]获取图片格式字幕的图片文件；
[0012]根据文本识别算法识别出所述图片文件中的文字；
[0013]根据所述识别出的文字以及所述图片文件对应的时间信息生成文本格式的字幕。
[0014]结合第一方面，在第二种可能的实现方式中，在所述获取当前播放视频的字幕的格式之前，所述方法还包括:
[0015]判断视频文件的字幕的挂载形式；
[0016]若所述字幕的挂载形式为外挂形式或内挂形式，则执行所述获取当前播放视频的字眷的格式；
[0017]若所述字幕的挂载形式为内嵌形式，则提取所述视频文件的视频帧的图片文件。[0018]结合第一方面的第一种可能的实现方式，在第三种可能的实现方式中，所述根据文本识别算法识别出所述图片文件中的文字包括:
[0019]对所述图片文件进行二值化以及边缘处理得到处理后的图像文件；
[0020]将所述处理文件作为光学文字识别OCR算法的输入数据获取所述图片文件中的文字。
[0021]结合第一方面的第一种可能的实现方式，在第四种可能的实现方式中，所述根据所述识别出的文字以及所述图片文件对应的时间信息生成文本格式的字幕包括:
[0022]获取所述图片文件对应的时间信息；
[0023]根据文本编辑算法对所述图片文件的文字和所述对应的时间信息进行编辑后得到文本格式的字幕。
[0024]第二方面，本发明的实施例提供一种字幕转换的设备，所述设备包括:
[0025]格式识别单元，用于获取当前播放视频的字幕的格式，所述字幕的格式包括图片格式和文本格式；
[0026]第一判断单元，用于根据所述字幕的格式判断所述字幕是否需要进行格式转换；
[0027]格式转换单元，用于若所述字幕的格式为图片格式，则获取图片格式字幕的图片文件并根据转换算法将所述图片文件转换为文本格式字幕。
[0028]结合第二方面，在第一种可能的实现方式中，所述格式转换单元包括:
[0029]图片提取单元，用于获取图片格式字幕的图片文件；
[0030]文字识别单元，用于根据文本识别算法识别出所述图片文件中的文字；
[0031]字幕生成单元，用于根据所述识别出的文字以及所述图片文件对应的时间信息生成文本格式的字幕。
[0032]结合第二方面，在第二种可能的实现方式中，所述设备还包括:
[0033]第二判断单元，用于在所述获取当前播放视频的字幕的格式之前，判断视频文件的字幕的挂载形式；
[0034]若所述字幕的挂载形式为外挂形式或内挂形式，则所述格式识别单元执行所述获取当前播放视频的字幕的格式；
[0035]若所述字幕的挂载形式为内嵌形式，所述图片提取单元还用于提取所述视频文件的视频帧的图片文件。
[0036]结合第二方面的第一种可能的实现方式，在第三种可能的实现方式中，
[0037]所述文字识别单元具体用于:
[0038]对所述图片文件进行二值化以及边缘处理得到处理后的图像文件；
[0039]将所述处理文件作为光学文字识别OCR算法的输入数据获取所述图片文件中的文字。
[0040]结合第二方面的第一种可能的实现方式，在第四种可能的实现方式中，
[0041 ] 所述字幕生成单元具体用于:
[0042]获取所述图片文件对应的时间信息；
[0043]根据文本编辑算法对所述图片文件的文字和所述对应的时间信息进行编辑后得到文本格式的字幕。
[0044]本发明的实施例提供一种字幕转换的方法和设备，首先获取当前播放视频的字幕的格式，所述字幕的格式包括图片格式和文本格式；然后根据所述字幕的格式判断所述字幕是否需要进行格式转换；若所述字幕的格式为图片格式，则获取图片格式字幕的图片文件并根据转换算法将所述图片文件转换为文本格式字幕。这样，能够在后台自动将视频中的字幕格式统一转换为文本格式的字幕，方便对字幕进行管理。
【专利附图】

【附图说明】
[0045]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0046]图1为本发明的实施例提供的一种字幕转换的方法的流程示意图一；
[0047]图2为本发明的实施例提供的一种字幕转换的方法的流程示意图二；
[0048]图3为本发明的实施例提供的一种字幕转换的设备的结构示意图一；
[0049]图4为本发明的实施例提供的一种字幕转换的设备的结构示意图二；
[0050]图5为本发明的实施例提供的一种字幕转换的设备的结构示意图三。
【具体实施方式】
[0051]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0052]本发明的实施例提供一种字幕转换的方法，如图1所示，该方法包括:
[0053]101、获取当前播放视频的字幕的格式。
[0054]其中，字幕的格式包括图片格式和文本格式。
[0055]102、根据字幕的格式判断字幕是否需要进行格式转换。
[0056]103、若字幕的格式为图片格式，则获取图片格式字幕的图片文件并根据转换算法将图片文件转换为文本格式字幕。
[0057]104、若字幕的格式为图片格式，则字幕不需要转换。
[0058]本发明的实施例提供一种字幕转换的方法，首先获取当前播放视频的字幕的格式，字幕的格式包括图片格式和文本格式；然后根据字幕的格式判断字幕是否需要进行格式转换；若字幕的格式为图片格式，则获取图片格式字幕的图片文件并根据转换算法将图片文件转换为文本格式字幕。这样，能够在后台自动将视频中的字幕格式统一转换为文本格式的字幕，方便对字幕进行管理。
[0059]为了使本领域技术人员能够更清楚地理解本发明实施例提供的技术方案，下面通过具体的实施例，对本发明的实施例提供的字幕转换的方法进行详细说明，如图2所示，该方法包括:
[0060]201、判断视频文件的字幕的挂载形式。
[0061]具体的，字幕的挂载方式可以分为内嵌形式、内挂形式以及外挂形式。
[0062]其中，示例性的，字幕内嵌形式是指制作视频文件时将字幕、视频流、音频流一起压制生成视频文件，这种形式中字幕文件被集成在视频文件的编码流中。字幕内挂形式是指制作视频文件时将视频流与音频流已经压制在一起的文件以及字幕封包得到视频文件，这种形式中字幕文件是单独存在的。字幕外挂形式是指字幕文件、视频流与音频流已经压制在一起的文件存储在同一个文件夹中，字幕文件按照规定的规则来命名以确保播放视频时字幕文件可以正常加载，这种形式中，字幕文件是独立的。
[0063]若字幕的挂载形式为外挂形式或内挂形式，则执行步骤202至208 ；
[0064]若字幕的挂载形式为内嵌形式，则执行步骤209至212。
[0065]202、获取当前播放视频的字幕的格式。
[0066]具体的，字幕的格式包括图片格式和文本格式。
[0067]示例性的，图片格式的字幕数据以图片方式呈现，文件体积较大，不易于修改，图片格式字幕中最常见的字幕格式是由字幕图片文件.sub文档和.1dx文档组成。文本格式的字幕数据以文本格式呈现，文件体积较小，可直接用Windows自带的记事本功能进行修改。文本格式字幕中最常见的字幕格式是.srt，其组成为:一行字幕序号，一行时间代码，一行字幕文本。
[0068]203、根据字幕的格式判断字幕是否需要进行格式转换。
[0069]204、若字幕的格式为文本格式，则字幕不需要转换。
[0070]若字幕的格式为图片格式，则字幕需要转换，执行步骤205至208。
[0071]205、获取图片格式字幕的图片文件。
[0072]具体的，字幕是图片格式的，以图片形式呈现，提取字幕的图片文件。
[0073]示例性的，可以将.sub文档中的图片提取后保存为.bmp格式的图片。
[0074]206、根据文本识别算法识别出图片文件中的文字。
[0075]具体的，对图片文件进行二值化以及边缘处理得到处理后的图像文件；
[0076]将处理文件作为光学文字识别OCR算法的输入数据获取图片文件中的文字。
[0077]其中，图像二值化就是将图像上的像素点的灰度值设置为O或255，也就是将整个图像呈现出明显的黑白效果。图像边缘处理是指标识数字图像中亮度变化明显的点。
[0078]示例性的，通过对图片文件进行二值化处理以及边缘处理得到处理后的图像，将该图像作为光学文字识别OCR算法的输入数据，通过检测图像中亮、暗的模式确定其形状，然后用字符识别方法将形状翻译成文本。
[0079]207、获取图片文件对应的时间信息。
[0080]示例性的，从图片格式的字幕中提取的图片文件包含有对应的时间信息，该时间信息与字幕在视频中的显示时间是一一对应的。
[0081]208、根据文本编辑算法对图片文件的文字和对应的时间信息进行编辑后得到文本格式的子眷。
[0082]示例性的，根据每张图片对应的时间信息以及从中识别出的文本，利用文本编辑算法使两者一一对应从而生成文本格式的字幕。
[0083]209、提取视频文件的视频帧的图片文件。
[0084]示例性的，视频文件是由一帧一帧的图片组成的，分割视频文件得到视频帧的图片文件。
[0085]210、根据文本识别算法识别出图片文件中的文字。[0086]具体的，对图片文件进行二值化以及边缘处理得到处理后的图像文件；
[0087]将处理文件作为光学文字识别OCR算法的输入数据获取图片文件中的文字。
[0088]其中，图像二值化就是将图像上的像素点的灰度值设置为O或255，也就是将整个图像呈现出明显的黑白效果。图像边缘护理是指标识数字图像中亮度变化明显的点。
[0089]示例性的，通过对图片文件进行二值化处理以及边缘处理得到处理后的图像，将该图像作为光学文字识别OCR (Optical Character Recognition)算法的输入数据,通过检测图像中亮、暗的模式确定其形状，然后用字符识别方法将形状翻译成文本。
[0090]211、获取图片文件对应的时间信息。
[0091]示例性的，从图片格式的字幕中提取的图片文件包含有对应的时间信息，该时间信息与字幕在视频中的显示时间是一一对应的。
[0092]212、根据文本编辑算法对图片文件的文字和对应的时间信息进行编辑后得到文本格式的子眷。
[0093]示例性的，根据每张图片对应的时间信息以及从中识别出的文本，利用文本编辑算法使两者一一对应从而生成文本格式的字幕。
[0094]本发明的实施例提供一种字幕转换的方法，判断视频文件的字幕的挂载形式，若字幕的挂载形式为外挂形式或内挂形式，则获取当前播放视频的字幕的格式，然后根据字幕的格式判断字幕是否需要进行格式转换，若字幕的格式为图片格式，则获取图片格式字幕的图片文件并根据转换算法将图片文件转换为文本格式字幕；若字幕的挂载形式为内嵌形式，则提取视频文件的视频帧的图片文件并根据转换算法将图片文件转换为文本格式字幕。这样，能够在后台自动将视频中的字幕格式统一转换为文本格式的字幕，方便对字幕进行管理。
[0095]本发明的实施例提供一种字幕转换的设备00，如图3所示，该设备00包括:
[0096]格式识别单元10，用于获取当前播放视频的字幕的格式，字幕的格式包括图片格式和文本格式。
[0097]第一判断单元20，用于根据字幕的格式判断字幕是否需要进行格式转换。
[0098]格式转换单元30，用于若字幕的格式为图片格式，则获取图片格式字幕的图片文件并根据转换算法将图片文件转换为文本格式字幕。
[0099]可选的，如图4所示，格式转换单元30包括:
[0100]图片提取单元31，用于获取图片格式字幕的图片文件。
[0101]文字识别单元32，用于根据文本识别算法识别出图片文件中的文字。
[0102]字幕生成单元33，用于根据识别出的文字以及图片文件对应的时间信息生成文本格式的字幕。
[0103]可选的，如图5所示，该设备00还包括:
[0104]第二判断单元40，用于在获取当前播放视频的字幕的格式之前，判断视频文件的字幕的挂载形式。
[0105]若字幕的挂载形式为外挂形式或内挂形式，则格式识别单元10执行获取当前播放视频的字幕的格式。
[0106]若字幕的挂载形式为内嵌形式，图片提取单元31还用于提取视频文件的视频帧的图片文件。[0107]可选的，文字识别单元32具体用于:
[0108]对图片文件进行二值化以及边缘处理得到处理后的图像文件；
[0109]将处理文件作为光学文字识别OCR算法的输入数据获取图片文件中的文字。
[0110]可选的，字幕生成单元33具体用于:
[0111]获取图片文件对应的时间信息；
[0112]根据文本编辑算法对图片文件的文字和对应的时间信息进行编辑后得到文本格
式的子眷。
[0113]本发明的实施例提供一种字幕转换的设备，判断视频文件的字幕的挂载形式，若字幕的挂载形式为外挂形式或内挂形式，则获取当前播放视频的字幕的格式，然后根据字幕的格式判断字幕是否需要进行格式转换，若字幕的格式为图片格式，则获取图片格式字幕的图片文件并根据转换算法将图片文件转换为文本格式字幕；若字幕的挂载形式为内嵌形式，则提取视频文件的视频帧的图片文件并根据转换算法将图片文件转换为文本格式字幕。这样，能够在后台自动将视频中的字幕格式统一转换为文本格式的字幕，方便对字幕进行管理。
[0114]需要说明的是，本发明实施例提供的字幕转换的方法步骤的先后顺序可以进行适当调整，步骤也可以根据情况进行相应增减，任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内，可轻易想到变化的方法，都应涵盖在本发明的保护范围之内，因此不再赘述。
[0115]通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0116]在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0117]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0118]另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。
[0119]所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM, Read-Only Memory)、随机存取存储器(RAM, Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0120]以上所述，仅为本发明的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。
【权利要求】
1.一种字幕转换的方法，其特征在于，包括: 获取当前播放视频的字幕的格式，所述字幕的格式包括图片格式和文本格式；根据所述字幕的格式判断所述字幕是否需要进行格式转换；若所述字幕的格式为图片格式，则获取图片格式字幕的图片文件并根据转换算法将所述图片文件转换为文本格式字幕。
2.根据权利要求1所述的方法，其特征在于，所述获取图片格式字幕的图片文件并根据转换算法将所述图片文件转换为文本格式字幕包括: 获取图片格式字幕的图片文件；根据文本识别算法识别出所述图片文件中的文字；根据所述识别出的文字以及所述图片文件对应的时间信息生成文本格式的字幕。
3.根据权利要求1所述的方法，其特征在于，在所述获取当前播放视频的字幕的格式之前，所述方法还包括: 判断视频文件的字幕的挂载形式；若所述字幕的挂载形式为外挂形式或内挂形式，则执行所述获取当前播放视频的字幕的格式；若所述字幕的挂载形式为内嵌形式，则提取所述视频文件的视频帧的图片文件。
4.根据权利要求2所述的方法，其特征在于，所述根据文本识别算法识别出所述图片文件中的文字包括:` 对所述图片文件进行二值化以及边缘处理得到处理后的图像文件；将所述处理文件作为光学文字识别OCR算法的输入数据获取所述图片文件中的文字。
5.根据权利要求2所述的方法，所述根据所述识别出的文字以及所述图片文件对应的时间信息生成文本格式的字幕包括: 获取所述图片文件对应的时间信息；根据文本编辑算法对所述图片文件的文字和所述对应的时间信息进行编辑后得到文本格式的字幕。
6.一种字幕转换的设备，其特征在于，包括: 格式识别单元，用于获取当前播放视频的字幕的格式，所述字幕的格式包括图片格式和文本格式；第一判断单元，用于根据所述字幕的格式判断所述字幕是否需要进行格式转换；格式转换单元，用于若所述字幕的格式为图片格式，则获取图片格式字幕的图片文件并根据转换算法将所述图片文件转换为文本格式字幕。
7.根据权利要求6所述的设备，其特征在于，所述格式转换单元包括: 图片提取单元，用于获取图片格式字幕的图片文件；文字识别单元，用于根据文本识别算法识别出所述图片文件中的文字；字幕生成单元，用于根据所述识别出的文字以及所述图片文件对应的时间信息生成文本格式的子眷。
8.根据权利要求6所述的设备，其特征在于，所述设备还包括: 第二判断单元，用于在所述获取当前播放视频的字幕的格式之前，判断视频文件的字幕的挂载形式；若所述字幕的挂载形式为外挂形式或内挂形式，则所述格式识别单元执行所述获取当前播放视频的字幕的格式；若所述字幕的挂载形式为内嵌形式，所述图片提取单元还用于提取所述视频文件的视频帧的图片文件。
9.根据权利要求7所述的设备，其特征在于，所述文字识别单元具体用于: 对所述图片文件进行二值化以及边缘处理得到处理后的图像文件；将所述处理文件作为光学文字识别OCR算法的输入数据获取所述图片文件中的文字。
10.根据权利要求7所述的设备，其特征在于，所述字幕生成单元具体用于: 获取所述图片文件对应的时间信息；根据文本编辑算法对所述图片文件的文字和所述对应的时间信息进行编辑后得到文本格式的字幕。
【文档编号】H04N21/435GK103716655SQ201310700679
【公开日】2014年4月9日申请日期:2013年12月16日优先权日:2013年12月16日
【发明者】肖希哲申请人:乐视致新电子科技（天津）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖希哲
技术所有人：乐视致新电子科技（天津）有限公司
我是此专利的发明人

上一篇：一种音视频解码方法及安卓移动终端的制作方法
上一篇：信息展示方法和装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。