基于语音识别的字幕同步装置和方法

文档序号：2825938阅读：256来源：国知局

基于语音识别的字幕同步装置和方法
【专利摘要】提供了一种基于语音识别的字幕同步装置和方法，所述字幕同步装置包括：语音识别模块，从音频流提取前景声音中的语音，并对提取的语音进行采样和识别，从而生成与对应的文字信息；动态采样调整模块，对生成的文字信息进行语义识别度的评价，并根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息；字幕语义对比模块，将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配；字幕同步模块，如果字幕语义对比模块在字幕文件中找到与识别的语音的文字信息对应的句子，则根据语音的时间信息来调整字幕文件的时间信息；字幕显示模块，根据调整后的字幕文件的时间信息来显示字幕。
【专利说明】音视频保持同步。
电视节目中存在插播广告时同步显示附加采样，合理获得有效音频信息，对附加字幕文能对数字电视节目中存在插播等现象进
语音识别的字幕同步装置，包括:语音识别5中的语音，并对提取的语音进行采样和识每采样调整模块，对语音识别模块生成的文结果来控制语音识别模块调整采样频率以代匕模块，将具有高语义识别度的文字信息义匹配；字幕同步模块，如果字幕语义对比I对应的句子，则根据语音的时间信息来调幕同步模块调整后的字幕文件的时间信息语音单词的语义意义来评价文字信息的语义识别度。
[0009]根据本发明的一方面，字幕语义对比模块采用模糊算法采用模糊算法对播放视频的附加多国语言字幕的文字进行字符评分，从而找出字幕文件中得分最高的句子作为与文字信息匹配的句子。
[0010]根据本发明的一方面，如果字幕语义匹配模块没有在字幕文件中找到与识别的语音的文字信息对应的句子，则通知动态采样调整模块提高语音识别模块的采样频率。
[0011]根据本发明的另一方面，提供了一种基于语音识别的字幕同步方法，包括:(a)从与播放视频对应的音频流提取前景声音中的语音，并对提取的语音进行采样和识别，从而生成与识别的语音对应的文字信息；(b)对生成的文字信息进行语义识别度的评价，并且根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息；(C)将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配，以在字幕文件中找到与识别的语音的文字信息对应的句子；(d)根据语音的时间信息来调整字幕文件的时间信息；(e)根据调整后的字幕文件的时间信息来显示字幕。
[0012]根据本发明的另一方面，所述字幕同步方法还包括:根据用户的选择来确定将要显示的字幕的语言。
[0013]根据本发明的另一方面，在步骤(b)，当确定步骤(a)生成的文字信息中的语音单词的个数在预定范围[m，n]内时，确定文字信息具有高语义识别度，其中m、n是自然数。
[0014]根据本发明的另一方面，在步骤(b)，如果确定步骤(a)生成的文字信息中的语音单词的数量低于最小数量m，则返回步骤(a)并提高采样频率来对语音进行采样；如果确定步骤(a)生成的文字信息中的语音单词的数量高于最大数量n，则返回步骤(a)降低采样频率来对语音进行采样。
[0015]根据本发明的另一方面，在步骤(b)，考虑步骤(a)生成的文字信息中的语音单词的语义意义来评价文字信息的语义识别度。
[0016]根据本发明的另一方面，在步骤(C)，采用模糊算法采用模糊算法对播放视频的附加多国语言字幕的文字进行字符评分，从而找出字幕文件中得分最高的句子作为与文字信息匹配的句子。
[0017]根据本发明的另一方面，如果在步骤(C)没有在字幕文件中找到与识别的语音的文字信息对应的句子，则返回步骤(a)提高语音识别的采样频率。
【专利附图】

【附图说明】
[0018]通过下面结合附图进行的描述，本发明的上述和其他目的和特点将会变得更加清楚，其中:
[0019]图1是示出根据本发明实施例的基于语音识别的字幕同步装置的框图；
[0020]图2是示出根据本发明实施例的基于语音识别的字幕同步方法的流程图。
【具体实施方式】
[0021]下面提供参照附图进行的描述以有助于全面理解如权利要求及其等同物所限定的本发明的示例性实施例。所述描述包括各种详细的细节以有助于理解，而这些描述将被认为仅为示例性的。因此，本领域的普通技术人员将意识到在不脱离本发明的范围和精神的情况下可做出在此描述的各种改变和变型。另外，为了清晰和简洁，可省略对公知功能和构造的描述。
[0022]在下面的描述和权利要求中使用的术语和词语不限于书面意思，而是仅被发明人所使用以能够清楚且一致地理解本发明。因此，本领域技术人员应该清楚的是，下面提供的对本发明的示例性实施例的描述仅出于示出的目的，而不是出于限制如由权利要求及其等同物限定的本发明的目的。
[0023]图1是示出根据本发明实施例的基于语音识别的字幕同步装置100的框图。
[0024]如图1所示，根据本发明实施例的基于语音识别的字幕同步装置100包括语言选择模块110、语音识别模块120、动态采样调整模块130、字幕语义对比模块140、字幕同步模块150和字幕显示模块160。根据本发明实施例的字幕同步装置100可集成到数字广播接收装置或视频播放装置之中。
[0025]语音选择模块110可根据用户的选择来确定将要显示的字幕语言。例如，当用户通过遥控器等控制装置向字幕同步装置100发送信号，从而选择想要使用的字幕语言。
[0026]语音识别模块120从与正在播放的电视节目或其它播放内容的视频流对应的音频流提取前景声音中的语音，并对提取的语音进行采样和识别，从而生成与识别的语音对应的文字信息。通过提取前景主声音，可以去除播放的视频中的背景声音，例如，电影或电视节目中的汽车、背景音乐等声音，这样可以提高语音识别的准确度。可采用任何现有技术中的前景主声音提取方法以及语音识别引擎来实现语音识别模块120。
[0027]动态采样调整模块130对语音识别模块120生成的文字信息进行语义可识别度评价，并根据评价的结果确定是否需要调整语音识别模块120的采样频率。根据本发明的一实施例，动态采样调整模块130可确定语音识别模块120生成的文字信息中的语音单词的个数是否在预定范围[m，n]内。如果确定文字信息中的语音单词的数量低于最小数量m或者多于最大数量n，则动态采样调整模块130确定语义识别度较低，需要调整采样频率。当动态采样调整模块130确定语音识别模块120生成的文字信息中的语音单词的数量低于最小数量m时，动态采样调整模块130确定需要提高采样频率，从而控制语音识别模块120以提高的采样频率来对语音进行采样。当动态采样调整模块130确定语音识别模块120生成的文字信息中的语音单词的数量高于最大数量η时，动态采样调整模块130确定可以降低采样频率，从而控制语音识别模块120根据降低后的采样频率对语音进行采样。也就是说，当音频中的人物说话语速很快时，在单位时间内获取的语句字符数就会增加，这导致字幕匹配的错误率增加，此时，可确定当前音频的语义识别度低。反之，当音频中人物说话语速很慢时，在单位时间内获取的语句字符数就会减少，同样也会增加字幕匹配的错误率，此时，同样可确定当前的音频语义识别度低。因此，只有控制采样频率并获得合理数量的字符数才能判定语义识别度高。
[0028]另外，根据本发明的实施例，在评价语义识别度时，动态采样调整模块130还可考虑语音识别模块120生成的文字信息中的语音单词的语义意义，从而确定是否需要调整采样频率。例如，当语音识别模块120生成的文字信息中的语音单词中包括多个低语义单词(例如，诸如连续多个“啊”的象声词)时，动态采样调整模块130可确定语音识别模块120生成的文字信息的语义识别度较低，并控制语音识别模块120提高采样频率。
[0029]接下来，在经过动态采样调整模块130的评估得到较高的语义识别度的文字信息之后，字幕语义对比模块140将文字信息与播放视频的附加多国语言字幕的文字进行语义匹配。这里，字幕语义对比模块140可采用模糊算法，来对附加多国语言字幕的文字进行字符评分，从而找出字幕文件中得分最高的句子。也就是说，字幕语义对比模块140将字幕文件中评分高于预定值的句子中的评分最高的句子确定为与识别的文字信息对应的句子。
[0030]下面将举例说明采用模糊算法对句子评分的方式。当然，本领域的技术人员可采用其它方式来查找与字幕文件中的句子的语义匹配的句子。
[0031]给出两个字符串ACAATCC和AGCATGC，则对两者进行匹配时进行修改、删除和添加等操作才可以完全匹配。为了更方便近似度的计算，将编辑距离调整为近似度得分，即若匹配则得2分，修改、删除、添加则得-1分。为了得到完全匹配时的近似度得分，可以通过以下递推公式得到一个得分矩阵，其近似度得分即该η阶矩阵S中的S(n，η)值，η为待匹配字符串长度加I。V代表Value (即得分值)，D代表Difference Value (即差值)，S代表String(即待匹配字符串)，T代表Template即模板，1、j分别代表矩阵的行和列，取值从O开始)。
[0032]初始值可直接得到:
[0033]V (O, O) = O ；
[0034]V(0, j) = V(0, j_l)+D(_，T[j]);插入 j 次
[0035]V(i，0) = V(1-l，0)+D(S[i]，_);删除 i 次
[0036]其他值可以通过下面递推式来获得:
[0037]
【权利要求】
1.一种基于语音识别的字幕同步装置，包括: 语音识别模块，从与播放视频对应的音频流提取前景声音中的语音，并对提取的语音进行采样和识别，从而生成与识别的语音对应的文字信息；动态采样调整模块，对语音识别模块生成的文字信息进行语义识别度的评价，并且根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息；字幕语义对比模块，将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配；字幕同步模块，如果字幕语义对比模块在字幕文件中找到与识别的语音的文字信息对应的句子，则根据语音的时间信息来调整字幕文件的时间信息；字幕显示模块，根据字幕同步模块调整后的字幕文件的时间信息来显示字幕。
2.如权利要求1所述的字幕同步装置，还包括: 语言选择模块，根据用户的选择来确定将要显示的字幕的语言。
3.如权利要求1所述的字幕同步装置，其中，当动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的个数在预定范围[m，η]内时，动态采样调整模块确定文字信息具有高语义识别度，其中m、η是自然数。
4.如权利要求3所述的字幕同步装置，其中: 如果动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的数量低于最小数量m，则动态采样调整模块控制语音识别模块提高采样频率来对语音进行采样；如果动态采样调整模块确定语音识别模块生成的文字信息中的语音单词的数量高于最大数量n，则动态采样调整模块控制语音识别模块降低采样频率来对语音进行采样。
5.如权利要求3或4所述的字幕同步装置，其中，动态采样调整模块考虑语音识别模块生成的文字信息中的语音单词的语义意义来评价文字信息的语义识别度。
6.如权利要求1所述的字幕同步装置，其中，字幕语义对比模块采用模糊算法采用模糊算法对播放视频的附加多国语言字幕的文字进行字符评分，从而找出字幕文件中得分最高的句子作为与文字信息匹配的句子。
7.如权利要求1所述的字幕同步装置，其中，如果字幕语义匹配模块没有在字幕文件中找到与识别的语音的文字信息对应的句子，则通知动态采样调整模块提高语音识别模块的采样频率。
8.一种基于语音识别的字幕同步方法，包括: (a)从与播放视频对应的音频流提取前景声音中的语音，并对提取的语音进行采样和识别，从而生成与识别的语音对应的文字信息； (b)对生成的文字信息进行语义识别度的评价，并且根据评价的结果来控制语音识别模块调整采样频率以获得具有高语义识别度的文字信息； (c)将具有高语义识别度的文字信息与播放视频的附加多国语言字幕的文字进行语义匹配，以在字幕文件中找到与识别的语音的文字信息对应的句子； (d)根据语音的时间信息来调整字幕文件的时间信息； (e)根据调整后的字幕文件的时间信息来显示字幕。
9.如权利要求8所述的字幕同步方法，还包括: 根据用户的选择来确定将要显示的字幕的语言。
10.如权利要求8所述的字幕同步方法，其中，在步骤(b)，当确定步骤(a)生成的文字信息中的语音单词的个数在预定范围[m，η]内时，确定文字信息具有高语义识别度，其中m、n是自然数。
11.如权利要求3所述的字幕同步方法，其中，在步骤(b)，如果确定步骤(a)生成的文字信息中的语音单词的数量低于最小数量m，则返回步骤(a)并提高采样频率来对语音进行采样；如果确定步骤(a)生成的文字信息中的语音单词的数量高于最大数量n，则返回步骤(a)降低采样频率来对语音进行采样。
12.如权利要求10或11所述的字幕同步方法，其中，在步骤(b)，考虑步骤(a)生成的文字信息中的语音单词的语义意义来评价文字信息的语义识别度。
13.如权利要求8所述的字幕同步方法，其中，在步骤(C)，采用模糊算法采用模糊算法对播放视频的附加多国语言字幕的文字进行字符评分，从而找出字幕文件中得分最高的句子作为与文字信息匹配的句子。
14.如权利要求8所述的字幕同步方法，其中，如果在步骤(c)没有在字幕文件中找到与识别的语音的文字信息对应的句子，则返回步骤(a)提高语音识别的采样频率。
【文档编号】G10L15/01GK104038804SQ201310069142
【公开日】2014年9月10日申请日期:2013年3月5日优先权日:2013年3月5日
【发明者】徐明, 范炜, 谭皓申请人:三星电子（中国）研发中心, 三星电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐明;范炜;谭皓
技术所有人：三星电子（中国）研发中心;三星电子株式会社
我是此专利的发明人