音视频字幕生成方法及装置的制造方法_4

文档序号：9490323阅读：来源：国知局

r>[0150] 语法单元序列生成单元S73,用于将所述文本数据段的发音符号序列转换为语法单元序列；
[0151] 上下文标注序列生成单元S74,用于将所述语法单元序列转换为上下文标注序列；
[0152] 特征提取单元S75,用于提取各文本数据段对应的语音数据段的频谱特征；
[0153] 精确同步单元S76,用于利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。
[0154] 上述各种不同序列的转换过程可参见前面本发明方法实施例中的描述，在此不再赘述。
[0155] 精确同步单元S76可以通过获取上下文标注序列与每帧语音数据的声学特征之间的最优路径，然后根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐，从而实现文本数据段与语音数据的精确同步。相应地，精确同步单元S76的一种具体结构可以包括：
[0156] 最优路径获取子单元，用于获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径；
[0157] 对齐子单元，用于根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐。
[0158] 可见，本发明实施例提供的音视频字幕生成装置，不仅可以使各文本数据段语义更完整，在字幕显示时，更容易让人理解。而且，通过进一步以文本数据段为单位进行文本数据段与语音数据段的精确同步，得到各文本数据段中的各字和/或词的时间信息，从而使字幕与语音的同步更精确。
[0159] 本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0160] 以上对本发明实施例进行了详细介绍，本文中应用了【具体实施方式】对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及装置；同时，对于本领域的一般技术人员，依据本发明的思想，在【具体实施方式】及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
【主权项】
1. 一种音视频字幕生成方法，其特征在于，包括：接收待生成字幕的语音数据及文本数据；根据发音人韵律对所述语音数据进行切分，得到符合说话人习惯的各语音数据段；根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段；根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。2. 根据权利要求1所述的方法，其特征在于，所述根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段包括：对各语音数据段进行语音识别，得到与各语音数据段对应的识别文本段，并依序形成识别文本段序列；滤除所述文本数据中的特殊字符及标点，得到过滤后文本数据，并在所述过滤后文本数据中对应标点的位置设置标记点；采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据，以确定所述过滤后文本数据中的锚点位置；根据确定的锚点位置对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段。3. 根据权利要求2所述的方法，其特征在于，所述采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据包括：从所述过滤后文本数据的起始位置开始设置锚点，并获取当前识别文本段；匹配过程：依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配文本段，如果当前标记点不是过滤后文本数据的结束位置，则计算待匹配文本段与当前识别文本段的匹配度，直至所述匹配度大于设定阈值后，将所述待匹配文本段对应的标记点作为新的锚点，并获取下一个识别文本段作为当前识别文本段，继续执行所述匹配过程。4. 根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：对各文本数据段与其对应的语音数据段进行精确同步；根据精确同步结果，得到各文本数据段中的各字和/或词的时间信息。5. 根据权利要求4所述的方法，其特征在于，所述对各文本数据段与其对应的语音数据段进行精确同步包括：对各文本数据段进行分词及字音转换，得到所述文本数据段的发音符号序列；将所述文本数据段的发音符号序列转换为语法单元序列；将所述语法单元序列转换为上下文标注序列；提取各文本数据段对应的语音数据段的频谱特征；利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。6. 根据权利要求5所述的方法，其特征在于，所述利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步包括：获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径；根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐。7. -种音视频字幕生成装置，其特征在于，包括：接收模块，用于接收待生成字幕的语音数据及文本数据；语音数据切分模块，用于根据发音人韵律对所述语音数据进行切分，得到符合说话人习惯的各语音数据段；文本数据切分模块，用于根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段；第一时间信息获取模块，用于根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。8. 根据权利要求7所述的装置，其特征在于，所述文本数据切分模块包括：语音识别单元，用于对各语音数据段进行语音识别，得到与各语音数据段对应的识别文本段，并依序形成识别文本段序列；过滤单元，用于滤除所述文本数据中的特殊字符及标点，得到过滤后文本数据，并在所述过滤后文本数据中对应标点的位置设置标记点；匹配单元，用于采用锚点匹配方法依次匹配所述识别文本段序列中各识别文本段与所述过滤后文本数据，以确定所述过滤后文本数据中的锚点位置；切分单元，用于根据确定的锚点位置对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段。9. 根据权利要求8所述的装置，其特征在于，所述匹配单元，具体用于从所述过滤后文本数据的起始位置开始设置锚点，并获取当前识别文本段，执行匹配过程：依次截取锚点位置至锚点位置后的标记点之间的文本作为待匹配文本段，如果当前标记点不是过滤后文本数据的结束位置，则计算待匹配文本段与当前识别文本段的匹配度，直至所述匹配度大于设定阈值后，将所述待匹配文本段对应的标记点作为新的锚点，并获取下一个识别文本段作为当前识别文本段，继续执行所述匹配过程。10. 根据权利要求7至9任一项所述的装置，其特征在于，所述装置还包括：精确同步模块，用于对各文本数据段与其对应的语音数据段进行精确同步；第二时间信息获取模块，用于根据所述精确同步模块的精确同步结果，得到各文本数据段中的各字和/或词的时间信息。11. 根据权利要求10所述的装置，其特征在于，所述精确同步模块包括：分词单元，用于对各文本数据段进行分词，得到分词序列；字音转换单元，用于对所述分词序列进行字音转换，得到所述文本数据段的发音符号序列；语法单元序列生成单元，用于将所述文本数据段的发音符号序列转换为语法单元序列；上下文标注序列生成单元，用于将所述语法单元序列转换为上下文标注序列；特征提取单元，用于提取各文本数据段对应的语音数据段的频谱特征；精确同步单元，用于利用所述上下文标注序列及所述频谱特征对所述文本数据段与对应的语音数据段进行精确同步。12. 根据权利要求11所述的装置，其特征在于，所述精确同步单元包括：最优路径获取子单元，用于获取所述上下文标注序列与每帧语音数据的声学特征之间的最优路径；对齐子单元，用于根据所述最优路径将所述上下文标注序列与每帧语音数据进行对齐。
【专利摘要】本发明公开了一种音视频字幕生成方法及装置，该方法包括：接收待生成字幕的语音数据及文本数据；根据发音人韵律对所述语音数据进行切分，得到符合说话人习惯的各语音数据段；根据所述语音数据段对所述文本数据进行切分，得到与所述语音数据段对应的文本数据段；根据各语音数据段的时间信息获取与所述语音数据段对应的文本数据段的开始时间和结束时间。本发明可以简单高效地实现文本数据的显示与语音数据的同步，使生成的字幕更完整。
【IPC分类】G10L15/26, G10L15/00
【公开号】CN105244022
【申请号】CN201510629172
【发明人】周明, 江源, 王影, 胡国平, 胡郁, 刘庆峰
【申请人】科大讯飞股份有限公司
【公开日】2016年1月13日
【申请日】2015年9月28日

完整全部详细技术资料下载

当前第4页1 2 3 4