音视频字幕生成方法及装置的制造方法

文档序号：9490323阅读：1026来源：国知局

音视频字幕生成方法及装置的制造方法
【技术领域】
[0001] 本发明涉及语音处理技术领域，具体涉及一种音视频字幕生成方法及装置。
【背景技术】
[0002] 随着移动互联网的发展和智能终端的普及，人们对物质文化的需求越来越多样性，如人们的阅读习惯正从纸质书籍向数字化媒体转移，出现了与书籍相关的音视频，人们可以通过听有声读物的音频或看相关视频来达到阅读的目的。字幕的出现，使音视频以一种更加直观可靠的方式帮助人们了解音视频的内容，越来越多的用户习惯了添加字幕的音视频文件，然而由于字幕的制作较复杂，尤其是使用大段的语音数据与大段的文本数据来生成字幕，甚至无法生成，从而造成如有声小说类音视频经常没有字幕，用户只能依靠听到的内容进行理解，用户体验效果较差。
[0003] 现有的音视频字幕的生成方法一般直接将大段的语音数据与大段的文本数据通过动态规划的方法进行同步后，根据同步结果将文本数据显示给用户。这种方法直接使用大段的语音数据及大段文本数据进行动态规划，由于动态规划方法需要根据文本和语音长度构建搜索空间，查找最优路径，根据最优路径对语音数据和文本数据进行同步；如果文本数据与语音数据的长度较长时，很难查找到最优路径，查找效率越低，并且查找过程对硬件的要求也较高，很难达到实用效果。

【发明内容】

[0004] 本发明提供一种音视频字幕生成方法及装置，以简单高效地实现文本数据的显示与语音数据的同步，使生成的字幕更完整。
[0005] 为此，本发明提供如下技术方案：
[0006] 一种音视频字幕生成方法，包括：
[0007] 接收待生成字幕的语音数据及文本数据；
[0008] 根据发音人韵律对所述语音数据进行切分，得到符合说话人习惯的各语音数据段；
[0009] 根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段；
[0010] 根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。
[0011] 优选地，所述根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段包括：
[0012] 对各语音数据段进行语音识别，得到与各语音数据段对应的识别文本段，并依序形成识别文本段序列；
[0013] 滤除所述文本数据中的特殊字符及标点，得到过滤后文本数据，并在所述过滤后文本数据中对应标点的位置设置标记点；
[0014] 采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据，以确定所述过滤后文本数据中的锚点位置；
[0015] 根据确定的锚点位置对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段。
[0016] 优选地，所述采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据包括：
[0017] 从所述过滤后文本数据的起始位置开始设置锚点，并获取当前识别文本段；
[0018] 匹配过程：依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配文本段，如果当前标记点不是过滤后文本数据的结束位置，则计算待匹配文本段与当前识别文本段的匹配度，直至所述匹配度大于设定阈值后，将所述待匹配文本段对应的标记点作为新的锚点，并获取下一个识别文本段作为当前识别文本段，继续执行所述匹配过程。
[0019] 优选地，所述方法还包括：
[0020] 对各文本数据段与其对应的语音数据段进行精确同步；
[0021] 根据精确同步结果，得到各文本数据段中的各字和/或词的时间信息。
[0022] 优选地，所述对各文本数据段与其对应的语音数据段进行精确同步包括：
[0023] 对各文本数据段进行分词及字音转换，得到所述文本数据段的发音符号序列；
[0024] 将所述文本数据段的发音符号序列转换为语法单元序列；
[0025] 将所述语法单元序列转换为上下文标注序列；
[0026] 提取各文本数据段对应的语音数据段的频谱特征；
[0027] 利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。
[0028] 优选地，所述利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步包括：
[0029] 获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径；
[0030] 根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐。
[0031] 一种音视频字幕生成装置，包括：
[0032] 接收模块，用于接收待生成字幕的语音数据及文本数据；
[0033] 语音数据切分模块，用于根据发音人韵律对所述语音数据进行切分，得到符合说话人习惯的各语音数据段；
[0034] 文本数据切分模块，用于根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段；
[0035] 第一时间信息获取模块，用于根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。
[0036] 优选地，所述文本数据切分模块包括：
[0037] 语音识别单元，用于对各语音数据段进行语音识别，得到与各语音数据段对应的识别文本段，并依序形成识别文本段序列；
[0038] 过滤单元，用于滤除所述文本数据中的特殊字符及标点，得到过滤后文本数据，并在所述过滤后文本数据中对应标点的位置设置标记点；
[0039] 匹配单元，用于采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据，以确定所述过滤后文本数据中的锚点位置；
[0040] 切分单元，用于根据确定的锚点位置对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段。
[0041] 优选地，所述匹配单元，具体用于从所述过滤后文本数据的起始位置开始设置锚点，并获取当前识别文本段，执行匹配过程：依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配文本段，如果当前标记点不是过滤后文本数据的结束位置，则计算待匹配文本段与当前识别文本段的匹配度，直至所述匹配度大于设定阈值后，将所述待匹配文本段对应的标记点作为新的锚点，并获取下一个识别文本段作为当前识别文本段，继续执行所述匹配过程。
[0042] 优选地，所述装置还包括：
[0043] 精确同步模块，用于对各文本数据段与其对应的语音数据段进行精确同步；
[0044] 第二时间信息获取模块，用于根据所述精确同步模块的精确同步结果，得到各文本数据段中的各字和/或词的时间信息。
[0045] 优选地，所述精确同步模块包括：
[0046] 分词单元，用于对各文本数据段进行分词，得到分词序列；
[0047] 字音转换单元，用于对所述分词序列进行字音转换，得到所述文本数据段的发音符号序列；
[0048] 语法单元序列生成单元，用于将所述文本数据段的发音符号序列转换为语法单元序列；
[0049] 上下文标注序列生成单元，用于将所述语法单元序列转换为上下文标注序列；
[0050] 特征提取单元，用于提取各文本数据段对应的语音数据段的频谱特征；
[0051] 精确同步单元，用于利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。
[0052] 优选地，所述精确同步单元包括：
[0053] 最优路径获取子单元，用于获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径；
[0054] 对齐子单元，用于根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐。
[0055] 本发明实施例提供的音视频字幕生成方法及装置，结合发音韵律对待生成字幕的大段语音数据进行切分，得到多个语音数据段，然后根据各语音数据段对待生成字幕的文本数据进行切分，得到与所述语音数据段对应的文本数据段。由于切分得到的语音数据段更符合发音人的断句习惯，从而可以使各文本数据段语义更完整，在字幕显示时，更容易让人理解，而且有效提高了同步效率，降低了硬件要求。
[0056] 进一步地，本发明实施例以文本数据段为单位进行文本数据段与语音数据段的精确同步，得到各文本数据段中的各字和/或词的时间信息，从而使字幕与语音的同步更精确。
【附图说明】
[0057] 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
[0058]图1是本发明实施例音视频字幕生成方法的一种流程图；
[0059] 图2是本发明实施例中采用锚点匹配方法对识别文本段与

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周明;江源;王影;胡国平;胡郁;刘庆峰;
技术所有人：科大讯飞股份有限公司;
我是此专利的发明人

上一篇：课堂教学中教师情绪的提醒系统及方法
上一篇：哼唱旋律到midi旋律的转换方法