一种字幕对准方法及装置与流程

文档序号：12598532阅读：来源：国知局

技术特征：

1.一种字幕校准方法，其特征在于，所述方法包括下述步骤：

获取音视频数据和初始字幕数据；

对所述音视频数据进行语音识别，确定音色对应的语音区间，根据所述语音区间生成带时间轴的第一字幕，并对所述音视频数据进行语音转换得到转换文本信息；

依据所述初始字幕数据和/或所述转换文本信息对所述带时间轴的第一字幕进行校准，依据所述校准结果生成带时间轴的第二字幕。

2.如权利要求1所述的方法，其特征在于，所述依据所述初始字幕数据和/或转换文本信息对所述带时间轴的第一字幕进行校准，依据所述校准结果生成带时间轴的第二字幕，包括：

将所述初始字幕数据与所述带时间轴的第一字幕进行语音区间的校准；和/或

将所述初始字幕数据与所述转换文本信息比对，依据所述比对结果与所述带时间轴的第一字幕进行字与字的校准。

3.如权利要求1所述的方法，其特征在于，所述对所述音视频数据进行语音识别，确定音色对应的语音区间，生成带时间轴的第一字幕，并对所述音视频数据进行语音转换，得到转换文本信息，包括：

识别所述音视频数据中包含的音色标识以及所述音色标识对应的语音区间，生成所述音色标识对应的字幕，所述带时间轴的第一字幕包括所述音色标识对应的字幕。

4.如权利要求1所述的方法，其特征在于，所述对所述音视频数据进行语音识别，确定音色对应的语音区间，生成带时间轴的第一字幕，并对所述音视频数据进行语音转换得到转换文本信息，包括：

计算所述音视频数据的能量和过零率，由所述计算结果确定所述语音区间；所述语音区间包括有声区间和无声区间。

5.如权利要求1所述的方法，其特征在于，所述依据所述初始字幕数据和/或所述转换文本信息对所述带时间轴的第一字幕进行校准，依据所述校准结果生成带时间轴的第二字幕之后，所述方法还包括：

在接收到对所述带时间轴的第二字幕的修改反馈信息时，标识修改反馈对应的语音区间，并进行自修正。

6.一种字幕校准装置，其特征在于，所述装置包括：

获取模块，用于获取音视频数据和初始字幕数据；

识别模块，用于对所述获取模块获取的音视频数据进行语音识别，确定音色对应的语音区间，根据所述语音区间生成带时间轴的第一字幕，并对所述音视频数据进行语音转换得到转换文本信息；

校准模块，用于依据所述获取模块获取的初始字幕数据和/或所述识别模块得到的转换文本信息对所述带时间轴的第一字幕进行校准，依据所述校准结果生成带时间轴的第二字幕。

7.如权利要求6所述的装置，其特征在于，所述校准模块包括：区间校准单元和/或字字校准单元；

所述区间校准单元，用于将所述初始字幕数据与所述带时间轴的第一字幕进行语音区间的校准；

所述字字校准单元，用于将所述初始字幕数据与所述转换文本信息比对，依据所述比对结果与所述带时间轴的第一字幕进行字与字的校准。

8.如权利要求6所述的装置，其特征在于，所述识别模块包括：

音色识别单元，用于识别所述音视频数据中包含的音色标识以及所述音色标识对应的语音区间，生成所述音色标识对应的字幕，所述带时间轴的第一字幕包括所述音色标识对应的字幕。

9.如权利要求6所述的装置，其特征在于，所述识别模块包括：

区间计算单元，用于计算所述音视频数据的能量和过零率，由所述计算结果确定所述语音区间；所述语音区间包括有声区间和无声区间。

10.如权利要求6所述的装置，其特征在于，所述装置还包括：

自修正模块，用于在接收到对所述带时间轴的第二字幕的修改反馈信息时，标识修改反馈对应的语音区间，并进行自修正。

完整全部详细技术资料下载

当前第2页1 2 3