一种字幕对准方法及装置与流程

文档序号：12598532阅读：361来源：国知局

本发明属于计算机技术领域，尤其涉及一种字幕对准方法及装置。

背景技术：

多媒体中使用的媒体包括文字、图片、音频(包含音乐、语音旁白、特殊音效)、视频(动画和影片等)，在多媒体制作过程中，可在如图片、音频、视频等播放界面添加字幕，使得在多媒体播放时显示字幕。传统方式使用手拍字幕，通过手动方式确定字幕在时间轴上的起止位置，时间轴上标识句的起止位置，如100句则需要手动输入200次，效率低下，无法适应高精度要求的字幕显示。现有技术中使用软件确定字幕在时间轴上起止位置，但是以句切分，且在出现有多人语音时，无法进一步精确对准字幕，出现将多人语音按噪音处理的现象，字幕校准的精准度低。

技术实现要素：

本发明的目的在于提供一种字幕校准方法及装置，旨在解决由于现有技术中使用软件校准以句切分，无法进一步精确对准字幕，导致字幕校准精度低的问题。

一方面，本发明提供了一种字幕校准方法，所述方法包括下述步骤：

获取音视频数据和初始字幕数据；

对所述音视频数据进行语音识别，确定音色对应的语音区间，根据所述语音区间生成带时间轴的第一字幕，并对所述音视频数据进行语音转换得到转换文本信息；

依据所述初始字幕数据和/或所述转换文本信息对所述带时间轴的第一字幕进行校准，依据所述校准结果生成带时间轴的第二字幕。

另一方面，本发明提供了一种字幕校准装置，所述装置包括：

获取模块，用于获取音视频数据和初始字幕数据；

识别模块，用于对所述获取模块获取的音视频数据进行语音识别，确定音色对应的语音区间，根据所述语音区间生成带时间轴的第一字幕，并对所述音视频数据进行语音转换得到转换文本信息；

校准模块，用于依据所述获取模块获取的初始字幕数据和/或所述识别模块得到的转换文本信息对所述带时间轴的第一字幕进行校准，依据所述校准结果生成带时间轴的第二字幕。

在本发明实施例中，可获取音视频数据和初始字幕数据，对音视频数据进行语音识别，确定音色对应的语音区间，根据语音区间生成带时间轴的第一字幕，并对音视频数据进行语音转换得到转换文本信息，依据初始字幕数据和/或转换文本信息对带时间轴的第一字幕进行校准，依据校准结果生成带时间轴的第二字幕。通过本发明实施例，对音视频数据，可字幕自动对位生成时间轴，并根据语音识别进行再次校准，可对不同音色的语音进行校准，大大提高了字幕校准的精准度。

附图说明

图1是本发明实施例一提供的字幕对准方法的实现流程图；

图2是本发明实施例二提供的字幕对准方法的实现流程图；

图3是本发明实施例三提供的字幕对准方法的实现流程图；

图4是本发明实施例四提供的字幕对准方法的示意图；

图5是本发明实施例五提供的字幕对准装置的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例中的字幕校准方法可应用于计算机领域中的多媒体字幕制作，在多媒体制作过程中，如可在图片、音频、视频的播放界面添加字幕，使得在多媒体播放时显示字幕。本发明实施例实现对音视频数据，字幕自动对位生成时间轴，并根据语音识别进行再次校准，可对不同音色的语音进行校准，大大提高了字幕校准的精准度。本发明实施例中的装置可运行于计算机终端设备中，如用于制作字幕的电脑、服务器等，本发明实施例中的字幕校准例如电子书制作中的字幕校准、视频制作中的字幕校准、电子教辅制作中的字幕校准等，还可以包括语音制作中的字幕校准等，具体不受本发明实施例的限制。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的字幕校准方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

S101，获取音视频数据和初始字幕数据。

作为一种可选的实施方式，获取音视频数据和该音视频数据对应的初始字幕数据，其中，音视频数据可以包括音频数据，视频数据，初始字幕数据可以为原始的字幕底稿，包含字幕文字，进一步的，可包含文字和标点等。

S102，对音视频数据进行语音识别，确定音色对应的语音区间，根据语音区间生成带时间轴的第一字幕，并对音视频数据进行语音转换得到转换文本信息。

作为一种可选的实施方式，对音视频数据进行语音识别，确定音色对应的语音区间。具体实现中可计算音视频数据的能量和过零率，由计算结果确定所述语音区间；其中，语音区间包括有声区间和无声区间。进一步的，短时过零率为单位时间内过零发生的次数，设为Z_n，为避免虚假的过零，提高过零率计算的鲁棒性，引入门限|T|，则Z_n为：

短时能量：

获取到预设的能量阈值和过零率阈值，其中，能量阈值包括最低能量阈值和最高能量阈值，计算音视频数据的短时能量和短时过零率，并判断计算结果是否大于最低能量阈值或大于过零率阈值，若是，则确认是语音信号的起始点，若计算结果大于最高能量阈值，则确认为正常的语音信号，若该语音信号持续一段时间，则确认落入有声区间。

进一步的，还可识别音色，进而确定不同音色的语音区间。具体实现中，识别音视频数据中包含的音色标识以及音色标识对应的语音区间，生成音色标识对应的字幕，带时间轴的第一字幕包括音色标识对应的字幕。

进一步可选的，对包含多重字幕的情况，通过本发明实施例中对音色进行识别，可将不同音色对应不同字幕，生成多个带时间轴的字幕。

进一步实现中，可根据语音区间生成带时间轴的第一字幕，并对音视频数据进行语音转换得到转换文本信息。确定不同音色对应的语音区间后，由语音区间生成带时间轴的第一字幕。进一步的，对音视频数据进行语音转换，与语音库中的文本进行匹配，将音视频数据中的语音转换为文本信息。

S103，依据初始字幕数据和/或转换文本信息对带时间轴的第一字幕进行校准，依据校准结果生成带时间轴的第二字幕。

作为一种可选的实施方式，依据初始字幕数据和/或转换文本信息对带时间轴的第一字幕进行校准，依据校准结果生成带时间轴的第二字幕。具体实现中，包括：

将初始字幕数据与带时间轴的第一字幕进行语音区间的校准；和/或

将初始字幕数据与转换文本信息比对，依据比对结果与带时间轴的第一字幕进行字与字的校准。

具体实现中，可实现对音色的语音区间的校准，还可实现对语音区间的字与字的校准，还可实现音色的语音区间以及语音区间的字与字的校准，具体不受本发明实施例的限制。

进一步的，将初始字幕数据与步骤S102中得到的带时间轴的第一字幕进行比较，主要是语音区间的校准。具体实现中，播放带时间轴的第一字幕，对第一字幕进行复读，依据复读的语音波形进行第一字幕与初始字幕数据的校对。

更进一步的，还可以将初始字幕数据与转换文本信息进行比对，依据比对结果对带时间轴的第一字幕进行字与字的校准，具体实现中，可先模糊匹配语音区间的字数、关键字、相近字、相似词等，在匹配出现不一致时再次对该语音区间的进行语音识别，然后再一次进行字与字的匹配和校准。进一步，可预设模糊搜索范围，设为局部搜索，如可设为在当前一句话的前后某个停顿或时间值。

在匹配准确率低于预设准确率时，则对再次进行语音识别和校准，直到满足预设准确率时，输出带时间轴的第二字幕，最为该音视频数据的最终匹配字幕。其中，预设准确率如可设为90％、95％等。

进一步可选的，在步骤S103之后，本发明实施例提供的字幕校准方法还可以包括步骤：

在接收到对带时间轴的第二字幕的修改反馈信息时，标识修改反馈对应的语音区间，并进行自修正。

具体实现中，生成的带时间轴的第二字幕在使用过程中，在检测到不准确的字幕校准时，可点击该不准确之处，并触发修改反馈，系统接收到对带时间轴的第二字幕的修改反馈信息后，标识该修改反馈对应的语音区间，并进行自修正，具体的，再次对该区间的语音进行语音识别，进行字与字的校准，修正后更新带时间轴的第二字幕。使得本发明实施例的字幕校准方法具备自学习功能。

本发明实施例提供一种字幕校准方法，可获取音视频数据和初始字幕数据，对音视频数据进行语音识别，确定音色对应的语音区间，根据语音区间生成带时间轴的第一字幕，并对音视频数据进行语音转换得到转换文本信息，依据初始字幕数据和/或转换文本信息对带时间轴的第一字幕进行校准，依据校准结果生成带时间轴的第二字幕。通过本发明实施例，对音视频数据，字幕自动对位生成时间轴，并根据语音识别进行再次校准，可对不同音色的语音进行校准，适用于至少一种音色的语音的字幕校准，适用于至少一重字幕的校准，还可对字幕校准进行自修正，大大提高了字幕校准的精准度和适用范围。

实施例二：

图2示出了本发明实施例二提供的字幕校准方法的实现流程图，为根据音色进行语音区间的校准的流程示意图，包括步骤S201～S205，详述如下：

S201，输入音视频数据和初始字幕数据。

作为一种可选的实施方式，输入音视频数据和该音视频数据对应的初始字幕数据，其中，音视频数据可以包括音频数据，视频数据，初始字幕数据可以为原始的字幕底稿，包含字幕文字，进一步的，可包含文字和标点等。

S202，计算音视频数据的能量和过零率，由计算结果确定语音区间。

作为一种可选的实施方式，可计算音视频数据的能量和过零率，由计算结果确定所述语音区间；其中，语音区间包括有声区间和无声区间。获取到预设的能量阈值和过零率阈值，其中，能量阈值包括最低能量阈值和最高能量阈值，计算音视频数据的短时能量和短时过零率，并判断计算结果是否大于最低能量阈值或大于过零率阈值，若是，则确认是语音信号的起始点，若计算结果大于最高能量阈值，则确认为正常的语音信号，若该语音信号持续一段时间，则确认落入有声区间。

S203，识别音视频数据中包含的音色标识以及音色标识对应的语音区间，生成音色标识对应的字幕。

作为一种可选的实施方式，对音视频数据进行语音识别，识别不同的音色，并对不同音色进行标识，进而识别音视频数据中包含的音色标识，并识别该音色标识对应的语音区间，生成该音色标识对应的字幕，生成的字幕带时间轴。

S204，将初始字幕数据与音色标识对应的字幕进行语音区间的校准，依据校准结果生成带时间轴的第二字幕。

作为一种可选的实施方式，将初始字幕数据与步骤S203中生成的音色标识对应的字幕进行比较，主要是语音区间的校准。具体实现中，播放带时间轴的音色标识对应的字幕，对字幕进行复读，依据复读的语音波形进行字幕与初始字幕数据的校对。进一步的，对应包含多个音色标识的字幕，则初始字幕数据中对应多个字幕，在进行校准时，依据语音区间每个音色出现的先后顺序匹配音色标识对应初始字幕数据中具体的字幕。进一步的，依据校准结果生成带时间轴的第二字幕，第二字幕为已进行音色标识和语音区间校准的带时间轴的字幕。

S205，对音视频数据进行语音转换得到转换文本信息，依据转换文本信息对带时间轴的第二字幕校准，依据校准结果更新第二字幕的时间轴。

作为一种可选的实施方式，在步骤S204中已生成完成音色标识对应的语音区间的校准的第二字幕，本步骤中，继续对第二字幕进行校准，具体的，对音视频数据进行语音转换得到转换文本信息，可先模糊匹配语音区间的字数、关键字、相近字、相似词等，在匹配出现不一致时再次对该语音区间的进行语音识别，然后再一次进行字与字的匹配和校准。进一步，可预设模糊搜索范围，设为局部搜索，如可设为在当前一句话的前后某个停顿或时间值。

在匹配准确率低于预设准确率时，则对再次进行语音识别和校准，直到满足预设准确率时，依据校准结果更新带时间轴的第二字幕，得到该音视频数据的最终匹配字幕。其中，预设准确率如可设为90％、95％等。

本发明实施例提供一种字幕校准方法，输入音视频数据和初始字幕数据，计算音视频数据的能量和过零率，由计算结果确定语音区间，识别音视频数据中包含的音色标识以及音色标识对应的语音区间，生成音色标识对应的字幕，将初始字幕数据与音色标识对应的字幕进行语音区间的校准，依据校准结果生成带时间轴的第二字幕，对音视频数据进行语音转换得到转换文本信息，依据转换文本信息对带时间轴的第二字幕校准，依据校准结果更新第二字幕的时间轴。通过本发明实施例，对音视频数据，可字幕自动对位生成时间轴，并根据语音识别进行再次校准，可对不同音色的语音进行校准，适用于至少一种音色的语音的字幕校准，适用于至少一重字幕的校准，还可对字幕校准结果再次进行语音识别模糊匹配，进一步进行自修正，大大提高了字幕校准的精准度和适用范围。

实施例三：

图3示出了本发明实施例三提供的字幕校准方法的实现流程图，为根据语音识别对音视频的字幕进行字与字的校准的流程示意图，包括步骤S301～S304，详述如下：

S301，输入音视频数据和初始字幕数据。

S302，计算音视频数据的能量和过零率，由计算结果确定语音区间。

作为一种可选的实施方式，可计算音视频数据的能量和过零率，由计算结果确定语音区间；其中，语音区间包括有声区间和无声区间。获取到预设的能量阈值和过零率阈值，其中，能量阈值包括最低能量阈值和最高能量阈值，计算音视频数据的短时能量和短时过零率，并判断计算结果是否大于最低能量阈值或大于过零率阈值，若是，则确认是语音信号的起始点，若计算结果大于最高能量阈值，则确认为正常的语音信号，若该语音信号持续一段时间，则确认落入有声区间。

S303，确定音色对应的语音区间，根据语音区间生成带时间轴的第一字幕，并对音视频数据进行语音转换得到转换文本信息。

作为一种可选的实施方式，对音视频数据进行语音识别，识别不同的音色，并对不同音色进行标识，进而识别音视频数据中包含的音色标识，并识别该音色标识对应的语音区间，生成该音色标识对应的字幕，确定音色对应的语音区间，根据语音区间生成带时间轴的第一字幕。

进一步实现中，可对音视频数据进行语音转换得到转换文本信息。对音视频数据进行语音转换，与语音库中的文本进行匹配，将音视频数据中的语音转换为文本信息，得到该音视频数据对应的转换文本信息。

S304，将初始字幕数据与转换文本信息比对，依据比对结果与带时间轴的第一字幕进行字与字的校准，依据校准结果生成带时间轴的第二字幕。

作为一种可选的实施方式，可将初始字幕数据与转换文本信息进行比对，依据比对结果对带时间轴的第一字幕进行字与字的校准，具体实现中，可先模糊匹配语音区间的字数、关键字、相近字、相似词等，再匹配出现不一致时再次对该语音区间的进行语音识别，然后再一次进行字与字的匹配和校准。进一步，可预设模糊搜索范围，设为局部搜索，如可设为在当前一句话的前后某个停顿或时间值。

本发明实施例提供一种字幕校准方法，输入音视频数据和初始字幕数据，计算音视频数据的能量和过零率，由计算结果确定语音区间，确定音色对应的语音区间，根据语音区间生成带时间轴的第一字幕，并对音视频数据进行语音转换得到转换文本信息，将初始字幕数据与转换文本信息比对，依据比对结果与带时间轴的第一字幕进行字与字的校准，依据校准结果生成带时间轴的第二字幕。通过本发明实施例，对音视频数据，可字幕自动对位生成时间轴，可对不同音色的语音进行校准，并根据语音识别进行再次校准，实现字与字的校准，大大提高了字幕校准的精准度和适用范围。

实施例四：

图4示出了本发明实施例四提供的字幕校准方法的示意流程图，包括步骤S401～S410，如下：

S401，导入音视频文件。

S402，导入字幕文稿。

S403，对音视频文件进行语音识别。

S404，判断是否使用字幕文稿断句模式。

S405，解析语音间隔长度。

S406，生成带时间轴的字幕文件。

S407，根据文档断句生成带时间轴的字幕文件。

S408，将字幕文件与字幕文稿进行内容比对合并。

S409，再次校准。

S410，生成最终字幕。

具体实现中，可导入音视频文件和字幕文稿，并对音视频文件进行语音识别。判断是否使用文稿断句模式，若判断结果为是，则根据文档断句生成带时间轴的字幕文件，具体的，即依据语音识别解析到语音区间以及根据文稿断句生成带时间轴的字幕文件，具体语音识别实现方式参见实施例一，在此不重复。若判断结果为否，则解析语音间隔长度，生成带时间轴的字幕文件，即识别音色对应的语音区间，并生成音色对应的带时间轴的第一字幕。进一步的，将两种方式得到的字幕文稿进行比对合并，再进行校准，此时校准可人工进行，或再次语音识别进行自修正，或根据意见反馈进行自修正，进而生成最终字幕，最终字幕带时间轴。具体实施细节可参见实施例一，在此不重复。

本发明实施例提供一种字幕校准方法，可根据是否使用字幕文稿断句模式进行字幕校准，同时可结合使用字幕文稿和不使用字幕文稿两种情况生成的字幕文件进行比对合并，并再次进行校准，最后输出带时间轴的最终字幕，可大大提高字幕校准的准确率。

实施例五：

图5示出了本发明实施例五提供的字幕校准装置的结构图，为了便于说明，仅示出了与本发明实施例相关的部分，其中，本发明实施例提供的装置可包括：获取模块51，识别模块52以及校准模块53。

获取模块51，用于获取音视频数据和初始字幕数据。

作为一种可选的实施方式，获取模块51获取音视频数据和该音视频数据对应的初始字幕数据，其中，音视频数据可以包括音频数据，视频数据，初始字幕数据可以为原始的字幕底稿，包含字幕文字，进一步的，可包含文字和标点等。

识别模块52，用于对获取模块51获取的音视频数据进行语音识别，确定音色对应的语音区间，根据语音区间生成带时间轴的第一字幕，并对音视频数据进行语音转换得到转换文本信息。

作为一种可选的实施方式，对音视频数据进行语音识别，确定音色对应的语音区间。进一步可选的，识别模块52还可以包括：区间计算单元521。

区间计算单元521，用于计算音视频数据的能量和过零率，由计算结果确定语音区间；其中，语音区间包括有声区间和无声区间。

进一步的，短时过零率为单位时间内过零发生的次数，为避免虚假的过零，提高过零率计算的鲁棒性，引入门限。区间计算单元521获取到预设的能量阈值和过零率阈值，其中，能量阈值包括最低能量阈值和最高能量阈值，区间计算单元521计算音视频数据的短时能量和短时过零率，并判断计算结果是否大于最低能量阈值或大于过零率阈值，若是，则确认是语音信号的起始点，若计算结果大于最高能量阈值，则确认为正常的语音信号，若该语音信号持续一段时间，则确认落入有声区间。

进一步可选的，识别模块52还可以包括：音色识别单元522。

音色识别单元522，用于识别音视频数据中包含的音色标识以及音色标识对应的语音区间，生成音色标识对应的字幕，带时间轴的第一字幕包括音色标识对应的字幕。

具体实现中，音色识别单元522可识别音色，进而确定不同音色的语音区间。具体的，识别音视频数据中包含的音色标识以及音色标识对应的语音区间，生成音色标识对应的字幕，带时间轴的第一字幕包括音色标识对应的字幕。

对包含多重字幕的情况，通过本发明实施例中对音色进行识别，可将不同音色对应不同字幕，生成多个带时间轴的字幕。

进一步实现中，识别模块52可根据语音区间生成带时间轴的第一字幕，并对音视频数据进行语音转换得到转换文本信息。确定不同音色对应的语音区间后，由语音区间生成带时间轴的第一字幕。进一步的，对音视频数据进行语音转换，与语音库中的文本进行匹配，将音视频数据中的语音转换为文本信息。

校准模块53，用于依据获取模块51获取的初始字幕数据和/或识别模块52得到的转换文本信息对带时间轴的第一字幕进行校准，依据校准结果生成带时间轴的第二字幕。

作为一种可选的实施方式，校准模块53可以包括：区间校准单元531和/或字字校准单元532；

区间校准单元531，用于将初始字幕数据与带时间轴的第一字幕进行语音区间的校准；

字字校准单元532，用于将初始字幕数据与转换文本信息比对，比对结果与带时间轴的第一字幕进行字与字的校准。

具体实现中，校准模块53可实现对音色的语音区间的校准，还可实现对语音区间的字与字的校准，还可实现音色的语音区间以及语音区间的字与字的校准，具体不受本发明实施例的限制。

进一步的，区间校准单元531将初始字幕数据与带时间轴的第一字幕进行比较，主要是语音区间的校准。具体实现中，播放带时间轴的第一字幕，对第一字幕进行复读，依据复读的语音波形进行第一字幕与初始字幕数据的校对。

更进一步的，字字校准单元532将初始字幕数据与转换文本信息进行比对，依据比对结果对带时间轴的第一字幕进行字与字的校准，具体实现中，可先模糊匹配语音区间的字数、关键字、相近字、相似词等，在匹配出现不一致时再次对该语音区间的进行语音识别，然后再一次进行字与字的匹配和校准。进一步，可预设模糊搜索范围，设为局部搜索，如可设为在当前一句话的前后某个停顿或时间值。

在匹配准确率低于预设准确率时，则对再次进行语音识别和校准，直到满足预设准确率时，输出带时间轴的第二字幕，得到该音视频数据的最终匹配字幕。其中，预设准确率如可设为90％、95％等。

进一步可选的，本发明实施例提供的字幕校准装置还可以包括：自修正模块54。

自修正模块54，用于在接收到对带时间轴的第二字幕的修改反馈信息时，标识修改反馈对应的语音区间，并进行自修正。

具体实现中，生成的带时间轴的第二字幕在使用过程中，在检测到不准确的字幕校准时，可选中字幕中的不准确之处，并触发修改反馈，系统接收到对带时间轴的第二字幕的修改反馈信息后，标识该修改反馈对应的语音区间，并进行自修正，具体的，再次对该区间的语音进行语音识别，进行字与字的校准，修正后更新带时间轴的第二字幕。使得本发明实施例的字幕校准方法具备自学习功能。

本发明实施例提供一种字幕校准装置，获取模块可获取音视频数据和初始字幕数据，识别模块可对音视频数据进行语音识别，确定音色对应的语音区间，根据语音区间生成带时间轴的第一字幕，并对音视频数据进行语音转换得到转换文本信息，校准模块可依据初始字幕数据和/或转换文本信息对带时间轴的第一字幕进行校准，依据校准结果生成带时间轴的第二字幕。通过本发明实施例，对音视频数据，字幕自动对位生成时间轴，并根据语音识别进行再次校准，可对不同音色的语音进行校准，适用于至少一种音色的语音的字幕校准，适用于至少一重字幕的校准，还可对字幕校准进行自修正，大大提高了字幕校准的精准度和适用范围。

本发明实施例还公开了一种终端设备，用于运行图5所示的装置，该装置的结构和功能可参见图5所示实施例的相关描述，在此不再赘述。在终端设备本端进行初始字幕数据、音视频数据的输入、音视频数据的处理和存储、字幕校准的处理。需要说明的是，本实施例提供的终端设备与图1～图4所示的字幕校准方法相对应，为基于图1～图4所示的字幕校准方法的执行主体。本发明实施例中终端设备具体如用于制作字幕的电脑、服务器等。

在本发明实施例中，字幕校准装置的各模块、单元可由相应的硬件或软件单元实现，可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹建中
技术所有人：广东小天才科技有限公司
我是此专利的发明人

上一篇：一种GIS信息采集方法和系统与流程
上一篇：一种基于环境的婴语解读方法与系统与流程