一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统的制作方法

文档序号：10490224阅读：568来源：国知局

一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统的制作方法
【专利摘要】本发明实施例公开了一种在音频中切分句子的方法和系统，及视频文件的字幕自动生成方法和系统，包括：识别第一停顿；识别第一句子；识别第二停顿；判断音频是否结束，如未结束则重复上述识别句子/停顿的步骤，结束则结束；其中，所述停顿具有最小长度限制，所述句子具有最小长度限制，所述句子还具有最大长度限制。由此提高了语音识别率，使得全自动的字幕制作成为可能。
【专利说明】
一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统
技术领域
[0001]本发明涉及电子技术领域，具体涉及一种在音频中切分句子的方法和系统，以及视频文件的字幕自动生成方法和系统。
【背景技术】
[0002]字幕指以文字形式显示影视作品里面的对话等非影像内容，也泛指影视作品后期加工的文字，对于影视作品来说是不可缺少的。现有的字幕制作主要是由字幕制作人员人工完成，包括听写、翻译、润色、时间轴和后期等流程，效率低下，工序复杂，且需要大量的人力物力。

【发明内容】

[0003]因此，本发明要解决的技术问题在于现有的字幕制作效率低下，工序复杂，且需要大量的人力物力。
[0004]为此，本发明实施例提供了一种在音频中切分句子的方法，包括:
[0005]S1、识别第一停顿，所述停顿包括静音段和/或非语音段，并记录所述第一停顿的开始时间和结束时间；
[0006]S2、识别第一句子，所述句子包括语音段，并设置所述第一句子的开始时间为所述第一停顿的结束时间；
[0007]S3、识别第二停顿，并记录所述第二停顿的开始时间和结束时间，设置第一句子的结束时间为所述第二停顿的开始时间，完成所述第一句子的切分；
[0008]S4、判断音频是否结束，如未结束则重复所述步骤S2-S3，结束则执行步骤S5;
[0009]S5、结束；
[0010]其中，所述停顿具有最小长度限制，用于忽略短伴音信息;所述句子具有最小长度限制，用于滤除掉音频中的短时无效信息;所述句子还具有最大长度限制，用于限制句子的长度，提高该句的识别准确率。
[0011]优选地，所述停顿的最小长度限制为2个音频段。
[0012]优选地，所述句子的最小长度限制为3个音频段。
[0013]优选地，所述句子的最大长度限制是50个音频段。
[0014]本发明实施例还提供了一种视频文件的字幕自动生成方法，包括以下步骤:
[0015]S1、提取待处理的视频文件中的音频；
[0016]S2、对所述音频中的音频段进行分类，类别包括静音、语音和非语音；
[0017]S3、用前述任一种在音频中切分句子的方法，在所述音频中切分句子；
[0018]S4、对所述句子进行语音识别，并记录每个句子的对应文本和起止时间信息；
[0019]S5、根据所述文本和起止时间信息生成字幕。
[0020]优选地，在所述步骤SI中，利用ffmpeg提取音频，并通过相应的解码器讲所述音频解码为PCM数据。
[0021]优选地，在所述步骤S2中，利用Marsyas对所述音频段分类。
[0022]优选地，在所述步骤S4中，利用HTK作为识别工具对所述句子进行语音识别。
[0023]本发明实施例还提供了一种在视频中切分句子的系统，包括:
[0024]停顿识别模块，用于识别包括静音段和/或非语音段的停顿，并记录停顿的开始时间和结束时间；
[0025]句子识别模块，用于识别包括语音段的句子，并设置句子的开始时间为相邻的前一个停顿的结束时间，句子的结束时间为相邻的后一个停顿的开始时间；
[0026]音频结束判断模块，用于判断音频是否结束。
[0027]其中，所述停顿具有最小长度限制，用于忽略短伴音信息;所述句子具有最小长度限制，用于滤除掉音频中的短时无效信息;所述句子还具有最大长度限制，用于限制句子的长度，提高该句的识别准确率。
[0028]本发明实施例还提供了一种视频文件的字幕自动生成系统，包括:
[0029]音频提取模块，用于提取所述视频文件中的音频；
[0030]音频段分类模块，用于对所述音频中的音频段进行分类，类别包括静音、语音和非语音；
[0031]句子切分模块，用于利用权利要求9所述的在视频中切分句子的系统，在所述音频中切分句子；
[0032]语音识别模块，用于对所述句子进行语音识别，并记录每个句子的对应文本和起止时间信息；
[0033]字幕生成模块，用于根据所述句子对应的文本和起止时间信息生成字幕。
[0034]本发明实施例在音频中切分句子的方法和系统，以及视频文件的字幕自动生成方法和系统，通过增加停顿最小长度限制、停顿最小长度限制和句子最大长度限制等三个变量，提高了语音识别率，使得全自动的字幕制作成为可能。
【附图说明】
[0035]为了更清楚地说明本发明【具体实施方式】或现有技术中的技术方案，下面将对【具体实施方式】或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0036]图1为本发明实施例的在音频中切分句子的方法的流程图；
[0037]图2为本发明实施例的视频文件的字幕自动生成方法的流程图；
[0038]图3为本发明实施例的在视频中切分句子的系统的结构框图；
[0039]图4为本发明实施例的视频文件的字幕自动生成系统的结构框图。
【具体实施方式】
[0040]下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0041]下面结合附图和具体实施例对本发明的技术方案进行详细描述。
[0042]如图1所示，本发明实施例提供了一种在音频中切分句子的方法，包括:
[0043]S1、识别第一停顿，该停顿包括静音段和/或非语音段，并记录该第一停顿的开始时间和结束时间。
[0044]具体的，该第一停顿的开始时间可以是该音频的开始时间，结束时间可以是第一个语音段开始的时间。
[0045]S2、识别第一句子，句子包括语音段，并设置该第一句子的开始时间为该第一停顿的结束时间。
[0046]S3、识别第二停顿，并记录该第二停顿的开始时间和结束时间，设置该第一句子的结束时间为该第二停顿的开始时间，完成第一句子的切分。
[0047]S4、判断音频是否结束，如未结束则重复步骤S2-S3，结束则执行步骤S5。
[0048]S5、结束。
[0049]其中，该停顿具有最小长度限制，用于忽略短伴音信息；该句子具有最小长度限制，用于滤除掉音频中的短时无效信息；该句子还具有最大长度限制，用于限制句子的长度，提高该句的识别准确率。
[0050]切分句子的目的是为了得到易于进行语音识别的短句，精确检测句子的开始时间与结束时间是关键，因为只有达到较高的端点检测精度，才可以做到有的放矢，实现对句子长短和数目的控制。然而，检测句子的断点容易造成两种极端情况:一是有很多极短的句子，某些长度仅为一到两个音频段。这些句子通常只包含一两个词语，甚至不包含任何有效的语音信息；二是出现若干长句，某些长达数十秒甚至几十秒，包含有若干语义完整的单元。这两种情况都会严重影响识别率。
[0051]本发明实施例的切分句子的方法通过增加上述的三个变量，停顿的最小长度限制、句子的最小长度限制和句子的最大长度限制，就可以有效的避免上述两种极端情况的发生，从而提高了语音识别率。
[0052]优选地，该停顿的最小长度限制为2个音频段。
[0053]如上所述，设置最小长度限制是为了忽略较短的伴音信息，比如说话人的瞬时换气等，以保护一句话的完整性。经过
【申请人】的反复研究和实验，认为通过设置停顿的最小长度限制为2个音频段，使得连续语音单元中的单个非语音单元不会被视作为一个停顿，从而保护了句子的完整性。
[0054]优选地，该句子的最小长度限制为3个音频段。
[0055]具体的，句子的最小长度即句子至少要包含的语音段的个数。增加句子的最小长度限制的作用是滤除掉音频中的短时无效信息，比如说话人的轻咳等。
【申请人】发现，通过设定最小句子为3个音频段，即忽略总长小于0.48秒的语音单元，可以有效地滤除如轻咳、叹息、换气等短时无效信息。
[0056]优选地，该句子的最大长度限制是50个音频段。
[0057]句子的长度过长，将增加语音识别的难度，降低识别率。因此，一个句子所包含的语音段的个数达到一定限度时，应采取方法使句子尽快地结束。本发明通过设置句子的最大长度为50个音频段，达到这个限度以后即使是单个非语音单元也会被视作为一个停顿，有效地限制句子的长度，提高句子的识别准确率。
[0058]如图2所示，本发明实施例还提供了一种视频文件的字幕自动生成方法，包括以下步骤:
[0059]S1、提取待处理的视频文件中的音频。
[0060]S2、对该音频中的音频段进行分类，类别包括静音、语音和非语音。
[0061 ] S3、用上述任一种在音频中切分句子的方法，在该音频中切分句子。
[0062]S4、对该句子进行语音识别，并记录每个句子的对应文本和起止时间信息。
[0063]S5、根据所述文本和起止时间信息生成字幕。
[0064]具体的，字幕为srt文本字幕。字幕的种类有很多种，现在比较流行的字幕格式有图形格式和文本格式两类。相对于图形格式字幕而言，文本格式字幕有尺寸小、格式简单、便于制作和修改等特点。其中srt格式的文本字幕使用最为广泛，能兼容各种常用的媒体播放器。
[0065]优选地，为了优化显示效果，方便观众观看字幕，将识别结果中较长的句子切分为多行显示。
[0066]优选地，在步骤SI中，利用ffmpeg提取音频，并通过相应的解码器讲所述音频解码为PCM数据。
[0067]优选地，在所述步骤S2中，利用Marsyas对所述音频段分类。
[0068]具体的，通过Marsyas提供的接口设定帧长为32ms，段长为0.16s，即一个音频段包含5个音频帧。
[0069]优选地，在步骤S4中，利用HTK作为识别工具对所述句子进行语音识别。
[0070]具体地，利用HTK作为大词汇量连续语音识别工具进行句子识别，最终生成若干文本文件，存储着每一个句子的识别文本结果以及对应的起止时间信息。
[0071]如图3所示，本发明实施例还提供了一种在视频中切分句子的系统I，包括:
[0072]停顿识别模块2，用于识别包括静音段和/或非语音段的停顿，并记录停顿的开始时间和结束时间；
[0073]句子识别模块3，用于识别包括语音段的句子，并设置句子的开始时间为相邻的前一个停顿的结束时间，句子的结束时间为相邻的后一个停顿的开始时间；
[0074]音频结束判断模块4，用于判断音频是否结束；
[0075]其中，所述停顿具有最小长度限制，用于忽略短伴音信息;所述句子具有最小长度限制，用于滤除掉音频中的短时无效信息;所述句子还具有最大长度限制，用于限制句子的长度，提高该句的识别准确率。
[0076]如图4所示，本发明实施例还提供了一种视频文件的字幕自动生成系统11，包括:
[0077]音频提取模块12，用于提取所述视频文件中的音频；
[0078]音频段分类模块13，用于对所述音频中的音频段进行分类，类别包括静音、语音和非语音；
[0079]句子切分模块14，用于利用权利要求9所述的在视频中切分句子的系统，在所述音频中切分句子；
[0080]语音识别模块15，用于对所述句子进行语音识别，并记录每个句子的对应文本和起止时间信息；
[0081]字幕生成模块16，用于根据所述句子对应的文本和起止时间信息生成字幕。
[0082]显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
【主权项】
1.一种在音频中切分句子的方法，其特征在于，包括以下步骤: 51、识别第一停顿，所述停顿包括静音段和/或非语音段，并记录所述第一停顿的开始时间和结束时间； 52、识别第一句子，所述句子包括语音段，并设置所述第一句子的开始时间为所述第一停顿的结束时间； 53、识别第二停顿，并记录所述第二停顿的开始时间和结束时间，设置第一句子的结束时间为所述第二停顿的开始时间，完成所述第一句子的切分； 54、判断音频是否结束，如未结束则重复所述步骤S2-S3，结束则执行步骤S5; 55、结束；其中，所述停顿具有最小长度限制，用于忽略短伴音信息；所述句子具有最小长度限制，用于滤除掉音频中的短时无效信息;所述句子还具有最大长度限制，用于限制句子的长度，提高该句的识别准确率。2.根据权利要求1所述的方法，其特征在于，所述停顿的最小长度限制为2个音频段。3.根据权利要求1-2所述的方法，其特征在于，所述句子的最小长度限制为3个音频段。4.根据权利要求1-3任一项所述的方法，其特征在于，所述句子的最大长度限制是50个音频段。5.一种视频文件的字幕自动生成方法，其特征在于，包括以下步骤: 51、提取待处理的视频文件中的音频； 52、对所述音频中的音频段进行分类，类别包括静音、语音和非语音； 53、用权利要求1-4中任一项所述的在音频中切分句子的方法，在所述音频中切分句子； 54、对所述句子进行语音识别，并记录每个句子的对应文本和起止时间信息； 55、根据所述文本和起止时间信息生成字幕。6.根据权利要求5所述的方法，其特征在于，在所述步骤SI中，利用ffmpeg提取音频，并通过相应的解码器讲所述音频解码为PCM数据。7.根据权利要求5-6所述的方法，其特征在于，在所述步骤S2中，利用Marsyas对所述音频段分类。8.根据权利要求5-7所述的方法，其特征在于，在所述步骤S4中，利用HTK作为识别工具对所述句子进行语音识别。9.一种在视频中切分句子的系统，其特征在于，包括: 停顿识别模块，用于识别包括静音段和/或非语音段的停顿，并记录停顿的开始时间和结束时间；句子识别模块，用于识别包括语音段的句子，并设置句子的开始时间为相邻的前一个停顿的结束时间，句子的结束时间为相邻的后一个停顿的开始时间；音频结束判断模块，用于判断音频是否结束；其中，所述停顿具有最小长度限制，用于忽略短伴音信息；所述句子具有最小长度限制，用于滤除掉音频中的短时无效信息;所述句子还具有最大长度限制，用于限制句子的长度，提高该句的识别准确率。10.一种视频文件的字幕自动生成系统，其特征在于，包括: 音频提取模块，用于提取所述视频文件中的音频；音频段分类模块，用于对所述音频中的音频段进行分类，类别包括静音、语音和非语■~>V.曰；句子切分模块，用于利用权利要求9所述的在视频中切分句子的系统，在所述音频中切分句子；语音识别模块，用于对所述句子进行语音识别，并记录每个句子的对应文本和起止时间信息；字幕生成模块，用于根据所述句子对应的文本和起止时间信息生成字幕。
【文档编号】H04N21/488GK105845129SQ201610178500
【公开日】2016年8月10日
【申请日】2016年3月25日
【发明人】蔡炜
【申请人】乐视控股（北京）有限公司, 乐视致新电子科技（天津）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：蔡炜;
技术所有人：乐视控股（北京）有限公司;乐视致新电子科技（天津）有限公司;
我是此专利的发明人

上一篇：用于语音识别的声学模型训练方法及装置的制造方法
上一篇：基于动态剪枝束宽预测的语音识别效率优化方法