用于识别语音的预处理装置及其方法_2

文档序号：8340788阅读：来源：国知局

在所述语音信号中的末端静音区间的长度的末端静音区间调整部122。
[0044]因此，所述末端静音区间预处理部120从变换为所述数字信号的用户的语音信号中检测末端静音区间(时间)，并将包含在所述语音信号中的所述末端静音区间调整成基准末端静音区间的长度。
[0045]例如，当从所述语音信号中检测的末端静音区间的长度短于基准末端静音区间的长度时，通过延长所述语音信号中的末端静音区间的长度，以调整成基准末端静音区间的长度。相反，当从所述语音信号中检测的末端静音区间的长度长于基准末端静音区间的长度时，通过缩短所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。
[0046]这时，所述末端静音区间预处理部120可利用如微处理器或者数字信号处理器等一种控制构件实现，以软件方式处理所述末端静音区间的调整。
[0047]在此，所述末端静音区间是从输出语音识别开始音(嘟嘟(BEEP)音)后至通过所述语音输入部MIC检测到的语音信号中输入有实际的用户语音的时间的区间，考虑到便利性，本实施例中将所述末端静音区间假设为10ms进行说明。这时，所述实际用户的语音输入的点是语音信号中预先设定的临界值(Threshold Level)以上的点。
[0048]所述信号预处理部130接收所述末端静音区间经过预处理后的语音信号，以执行信号预处理。
[0049]S卩，对所述语音信号执行消除噪音及自动增益调节等识别语音所需的信号预处理作业。
[0050]所述语音识别部140识别经过所述信号预处理后的语音信号。
[0051]即，识别相应于所述语音信号的命令的含义。换言之判断相当于所述语音的命令。
[0052]另外，在本实施例中省略与本发明的技术主题无直接关联的所述信号预处理部130及所述语音识别部140的具体说明。
[0053]图3为说明本发明的一个实施例的用于语音识别的预处理方法的流程图，图4为所述图3中说明末端静音区间的调整方法的语音信号的示意图。
[0054]以下，参考图3和图4说明包含在所述语音信号中的末端静音区间的长度调整方法。
[0055]在步骤SlOl中，所述末端静音区间预处理部120接收变换为所述数字信号的语音信号。
[0056]并且在步骤S102中，检测包含在所述语音信号中的末端静音区间的长度。
[0057]这时，包含在所述语音信号的末端静音区间的长度可能如图4中的(a)所示，短于基准末端静音区间的长度(例如:100ms)，或可能如图4中的(b)所示，长于基准末端静音区间的长度。
[0058]因此当如图4中的(a)所示，从语音信号中检测的末端静音区间的长度短(例如:20ms)的情况下，在步骤S103中所述末端静音区间预处理部120按照基准末端静音区间的长度(例如:100ms)增加末端静音区间的长度(例如:80ms)，以进行调整。
[0059]同样，当如图4中的(b)所示，从语音信号检测的末端静音区间的长度长(例如:200ms)的情况下，在步骤S103中所述末端静音区间预处理部120按照基准末端静音区间的长度(例如:100ms)去除末端静音区间的部分长度(例如:100ms)。
[0060]这时，所述末端静音区间的调整部分是语音信号开始的初始部分。
[0061]如上所述，通过末端静音区间预处理部120，按照基准末端静音区间的长度调整包含在语音信号中的末端静音区间的长度，从而能够提高语音识别率。
[0062]图5为显示比较本发明的一个实施例的调整包含在语音信号中的末端静音区间的长度的情况与未调整时的情况的语音识别率比较表格。
[0063]如图5所示，当包含在语音信号中的末端静音区间的长度比基准末端静音区间的长度(例如:100ms)短(例如:20ms)或长(例如:200ms)时，语音识别率为90%，处于低水平，但是当利用本发明的方法，按照基准末端静音区间的长度(例如:100ms)调整包含在语音信号中的末端静音区间的长度时，可以确认到语音识别率提高到95%。
[0064]以上，参考附图所示的实施例对本发明做了说明，但这只是例子，本发明所属领域的普通技术人员应该理解，可以由此实现多种变更及均等的其他实施例。因此，本发明的技术保护范围应以本发明的技术方案的范围为准。
【主权项】
1.一种用于识别语音的预处理装置，其特征在于，包括: 末端静音区间检测部，其用于检测包含在语音信号中的末端静音区间的长度；基准末端静音区间存储部，其用于存储基准末端静音区间的长度；以及末端静音区间调整部，其用于按照所述基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度。
2.根据权利要求1所述的用于识别语音的预处理装置，其特征在于: 所述末端静音区间是输出语音识别开始音后，至通过语音输入构件输入的语音信号中输入有实际用户的语音的时间的无音区间。
3.根据权利要求1所述的用于识别语音的预处理装置，其特征在于: 所述末端静音区间调整部在从所述语音信号中检测到的末端静音区间的长度短于基准末端静音区间的长度时，通过延长所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。
4.根据权利要求3所述的用于识别语音的预处理装置，其特征在于: 所述末端静音区间调整部在从所述语音信号中检测到的末端静音区间的长度长于基准末端静音区间的长度时，通过缩短所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。
5.根据权利要求1所述的用于识别语音的预处理装置，其特征在于: 所述末端静音区间调整部在调整所述末端静音区间时，通过添加或删除所述语音信号开始的初始部分的区间进行调整。
6.一种用于识别语音的预处理方法，其特征在于，包括: 接收语音信号的步骤；检测包含在所述语音信号中的末端静音区间的长度的步骤；以及按照预先设定的基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度的步骤。
7.根据权利要求6所述的用于识别语音的预处理方法，其特征在于: 所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是，在从所述语音信号中检测到的末端静音区间的长度短于基准末端静音区间的长度时，通过延长所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。
8.根据权利要求7所述的用于识别语音的预处理方法，其特征在于: 所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是，在从所述语音信号检测到的末端静音区间的长度长于基准末端静音区间的长度时，通过缩短所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。
9.根据权利要求6所述的用于识别语音的预处理方法，其特征在于: 所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是在调整所述末端静音区间时，通过添加或删除所述语音信号开始的初始部分的区间进行调整。
10.根据权利要求6所述的用于识别语音的预处理方法，其特征在于: 所述末端静音区间是输出语音识别开始音后，至通过语音输入构件输入的语音信号中输入有实际用户的语音的时间的无音区间。
【专利摘要】本发明涉及一种用于识别语音的预处理装置及其方法，所述装置包括：末端静音区间检测部，其用于检测包含在语音信号中的末端静音区间的长度；基准末端静音区间存储部，其用于存储基准末端静音区间的长度；以及末端静音区间调整部，其用于按照所述基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度。根据本发明，在识别语音时考虑用户的声响预处理语音信号，使得末端静音区间保持一定，从而提高语音识别性能。
【IPC分类】G10L15-26, G10L25-78, G10L21-00
【公开号】CN104658549
【申请号】CN201410392228
【发明人】权珉湖
【申请人】现代摩比斯株式会社
【公开日】2015年5月27日
【申请日】2014年8月11日
【公告号】EP2874148A1, US20150142430

完整全部详细技术资料下载

当前第2页1 2