一种声音与文本全自动匹配对齐的方法

文档序号：8923597阅读：1736来源：国知局

一种声音与文本全自动匹配对齐的方法
【技术领域】
[0001]本发明实例涉及一种声音与文本全自动匹配对齐的方法，特别是涉及一种音视频内的声音与讲稿、声音与字幕等文本内容全自动匹配及时间轴对齐的方法。
【背景技术】
[0002]音视频内的声音与文本匹配对齐的目的主要是用于相关字幕文件制作。
[0003]目前制作字幕文件的方法主要是经相关专业技术培训的人员通过操作相关制作软件或工具、纯手工方式、逐行逐句地完成所有文本校对与时间轴对齐的工作。
[0004]这种传统字幕文件制作的方法具有操作复杂、浪费人力、耗时巨大、输出结果编码不规范等弊端。

【发明内容】

[0005]针对上述问题，本发明实例提供了一种能全自动、标准化、无需人工干预的声音与文本匹配对齐的方法。技术方案如下:系统接收到用户提交的音文匹配对齐请求，所述请求中必须包括音视频文件和对应讲稿文本文件。
[0006]系统自动判断音视频文件格式，并自动剥离出16bit音轨信号。
[0007]系统自动根据音轨采样频率和发音停顿点逻辑切割完整音轨为多个短时音轨。
[0008]系统内语料库自动将多个逻辑短时音轨按顺序逐一识别为待匹配文本，并为每一个待匹配文本字符添加毫秒级时间轴码。
[0009]系统自动将已识别的待匹配文本逐字地和讲稿文本文件内的字符匹配，从而筛选出正确的匹配文本字符并再次确认已添加的毫秒级时间轴码，如果筛选不成功，系统自动将未筛选成功字符标红并跳过。
[0010]系统自动将已正确匹配文本字符和添加毫秒级时间轴码的所有短时音轨文本(包括未筛选成功标红的字符)重新组合成完整音轨文本。
[0011]系统自动根据完整音轨文本内标点符号断句、计算每一个断句的起止时间轴码、为每一个断句添加毫秒级时间轴码。
[0012]系统自动将已添加毫秒级时间轴码的完整音轨文本内容以xml格式输出结果给用户，并同时生成srt、ass等标准格式字幕文件供用户选择。
[0013]本发明实例采用音轨自动剥离、音轨逻辑分割和大语音识别领域等技术，在确保不破坏原始音视频内容的情况下，可高效、智能、准确地帮助用户批量实现音视频内容的实时音文匹配对齐并根据用户需求输出多种格式的时间轴码文件。
[0014]说明书附图
为了更清楚地说明本发明实例，在说明书附图页将对实施例描述中所需要使用的附图作简单的介绍，显而易见，在说明书附图页描述中的附图仅仅是本发明的一个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0015]说明书附图页内的图1为本发明实施例中一种声音与文本全自动匹配对齐的方法的实施流程图。
【主权项】
1.一种声音与文本全自动匹配对齐的方法，其特征在于，所述方法主要包括:音轨自动采样模块、音轨语音自动识别模块、文本字符批量自动匹配模块以及音轨文本自动合成丰旲块。2.音轨自动采样模块:所述音轨自动采样模块用于用户提供的音视频音轨自动识别、采样、剥离以及逻辑切割生成多个短时音轨。3.音轨语音自动识别模块:所述音轨语音识别模块用于音轨自动采样模块逻辑生成的多个短时音轨的语音转文本字符并为每个文本字符添加对应的起止时间轴码。4.文本字符批量自动匹配模块:所述文本字符批量自动匹配模块用于将音轨语音自动识别模块所识别出的多个文本字符批量自动与用户提供的标准文本字符对应匹配正确。5.音轨文本自动合成模块:所述音轨文本自动合成模块用于将所有文本字符批量自动匹配模块所匹配成功的文本字符按序合成为一个完整的音轨文本。6.根据权利要求2所述的一种声音与文本全自动匹配对齐的方法，其特征在于，音轨自动采样模块根据音轨内声音的发音停顿点全自动以逻辑的方式切割完整音轨为多个短时长音轨并记录在系统缓存。7.根据权利要求3所述的一种声音与文本全自动匹配对齐的方法，其特征在于，音轨语音自动识别模块读取系统缓存内记录的多个逻辑短时长音轨，以多并发模式通过语音识别将所有逻辑短时长音轨内语音转化为文本字符，并自动为每一个文本字符添加对应的起止时间轴码。8.根据权利要求4所述的一种声音与文本全自动匹配对齐的方法，其特征在于，文本字符批量自动匹配模块将所有语音识别转换而来的文本字符全自动与用户提交的标准文本字符批量按序--对应匹配并做一致性对比和正确性判断。9.根据权利要求5所述的一种声音与文本全自动匹配对齐的方法，其特征在于，音轨文本自动合成模块将所有已与用户提交的标准文本字符做完一致性对比和正确性判断的全部短时长音轨文本字符以全自动的方式重新按序合成为一个完整的音轨文本，并同时根据文本内的标点符号全自动断句和为每一个断句添加所对应的起止时间轴码，最后系统还将全自动将已断句并添加完对应起止时间轴码的完整音轨文本内容以XML方式输出结果给用户，同时还自动为用户生成SRT、ASS等标准字幕文件格式的文件以供备选。
【专利摘要】本发明实例涉及一种声音与文本全自动匹配对齐的方法，特别是涉及一种音视频内的声音与讲稿、声音与字幕等文本内容全自动匹配及时间轴对齐的方法。本发明实例提供了一种能全自动、标准化、无需人工干预的声音与文本匹配对齐的方法。本发明实例采用音轨自动剥离、音轨逻辑分割和大语音识别领域等技术，在确保不破坏原始音视频内容的情况下，可高效、智能、准确地帮助用户批量实现音视频内容的实时音文匹配对齐并根据用户需求输出多种格式的时间轴码文件。
【IPC分类】G10L25/48, G10L15/26
【公开号】CN104900233
【申请号】CN201510238262
【发明人】常锴, 罗振坤
【申请人】深圳市东方泰明科技有限公司, 常锴
【公开日】2015年9月9日
【申请日】2015年5月12日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：常锴;罗振坤;
技术所有人：深圳市东方泰明科技有限公司;常锴;
我是此专利的发明人

上一篇：一种高清语音识别系统的制作方法
上一篇：一种基于双层gmm结构和vts特征补偿的孤立词识别方法