用于识别语音的预处理装置及其方法

文档序号：8340788阅读：323来源：国知局

用于识别语音的预处理装置及其方法
【技术领域】
[0001]本发明涉及一种用于识别语音的预处理装置及其方法，尤其涉及识别语音时考虑用户的声响预处理语音信号，使得末端静音区间(Trailing Silence)保持一定，以提高语音识别性能的用于识别语音的预处理装置及其方法。
【背景技术】
[0002]现在随着电子装置的智能化发展，越来越多地通过语音对装置进行控制。
[0003]为了控制上述利用语音的装置，需要识别语音并理解语言，因此对语音识别传感器或语音识别装置的研究增多。
[0004]例如，现在随着出台关于禁止车辆行驶过程中收看数字多媒体广播(DMB)或操作导航仪的道路交通法修正案，对导航仪的语音识别功能的关注度进一步上升。
[0005]识别语音需大量消耗装置资源(即CPU或存储器资源)。从而如导航仪等资源并不充分的便携装置，为了尽可能降低装置的资源消耗，并且为了确保正确的信号处理，需要进行处理使得能够准确地检测到可能的语音输入区间。
[0006]现有语音识别装置(或者语音识别引擎)为能够准确地检测到上述语音识别区间而采用的一种处理方法是包含末端静音(Trailing Silence)区间的方法。
[0007]在此，所述末端静音区间指输出用于告知用户开始输入用于识别的语音的开始音(例如:嘟嘟(BEEP)音)至实际输入语音信号的时间，或者音节与音节之间的无音区间。
[0008]例如，启动语音识别时，当用户为了正常的信号处理而按语音识别装置(例:导航仪)的语音识别启动键时，所述语音识别装置输出语音识别开始音(例:嘟嘟(BEEP)音)。因此，用户听到所述开始音后输入语音(或是语音命令)，所述语音识别装置处理所述开始音输出后输入的语音信号，以分析语音(或是语音命令)。
[0009]所以，利用如上述方式(即，输出开始音后输入语音的方式)执行语音识别时，若如图1中的(b)所示地在所述开始音输出之前先输入语音，或者如图1中的(C)所示地在输出所述开始音后经过特定时间时输入语音，那么所述语音识别装置不能正确执行信号处理，无法准确地识别语音。即有语音识别率降低的问题。
[0010]换言之，利用如上所述的方式(即，输出开始音后输入语音的方式)执行语音识别时，如图1中的(a)所示，需要根据所述语音识别装置输入包含适当长度的末端静音区间的语音信号。但是当所述末端静音区间因用户的声响而变长或变短时，与包括适当长度的末端静音区间的情况相比，具有语音识别率降低的问题。
[0011]本发明的【背景技术】公开在韩国授权专利10-0714721号(授权日:2007年04月27
日，语音区间检测方法及其装置)。

【发明内容】

[0012]技术问题
[0013]本发明为了解决上述问题，目的在于提供一种识别语音时考虑用户的声响预处理语音信号，使得末端静音(Trailing Silence)区间保持一定，以提高语音识别性能的用于识别语音的预处理装置及其方法。
[0014]技术方案
[0015]根据本发明的一个侧面，本发明提供一种用于识别语音的预处理装置，其包括:末端静音区间检测部，其用于检测包含在语音信号中的末端静音区间的长度；基准末端静音区间存储部，其用于存储基准末端静音区间的长度；以及末端静音区间调整部，其用于按照所述基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度。
[0016]本发明的特征在于，所述末端静音区间是输出语音识别开始音后，从通过语音输入构件输入的语音信号中输入有实际用户的语音的时间的无音区间。
[0017]本发明的另一特征在于，所述末端静音区间调整部在从所述语音信号中检测到的末端静音区间的长度短于基准末端静音区间的长度时，通过延长所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。
[0018]本发明的又一特征在于，所述末端静音区间调整部在从所述语音信号中检测到的末端静音区间的长度长于基准末端静音区间的长度时，通过缩短所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。
[0019]本发明的又一特征在于，所述末端静音区间调整部在调整所述末端静音区间时，通过添加或删除所述语音信号开始的初始部分的区间进行调整。
[0020]根据本发明的另一侧面，本发明提供一种用于识别语音的预处理方法，其特征在于，包括:接收语音信号的步骤；检测包含在所述语音信号中的末端静音区间的长度的步骤；以及按照预先设定的基准末端静音区间的长度调整包含在所述语音信号中的末端静音区间的长度的步骤。
[0021]本发明的另一特征在于，所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是，在从所述语音信号中检测到的末端静音区间的长度短于基准末端静音区间的长度时，通过延长所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。
[0022]本发明的又一特征在于，所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是，在从所述语音信号检测到的末端静音区间的长度长于基准末端静音区间的长度时，通过缩短所述语音信号的末端静音区间的长度，以调整成基准末端静音区间的长度。
[0023]本发明的又一特征在于，所述调整包含在所述语音信号中的末端静音区间的长度的步骤具体是，在调整所述末端静音区间时，通过添加或删除所述语音信号开始的初始部分的区间进行调整。
[0024]本发明的特征在于，所述末端静音区间是输出语音识别开始音后，至通过语音输入构件输入的语音信号中输入有实际用户的语音的时间的无音区间。
[0025]技术效果
[0026]根据本发明，在识别语音时考虑用户的声响预处理语音信号，使得末端静音区间保持一定，从而提高语音识别性能。
【附图说明】
[0027]图1为说明现有语音识别装置中包含在接收到的语音信号中的末端静音区间的长度所对应的语音识别率的示意图；
[0028]图2为显示本发明的一个实施例的语音识别装置的大致构成的示意图；
[0029]图3为说明本发明的一个实施例的用于识别语音的预处理方法的流程图；
[0030]图4为上述图3中说明末端静音区间的调整方法的语音信号的示意图；
[0031]图5为显示本发明的一个实施例的调整包含在语音信号中的末端静音区间长度的情况和没有调整时的情况的语音识别率比较表格。
[0032]附图标记说明
[0033]MIC:语音输入部110:模数转换部(AD转换部)
[0034]120:末端静音区间预处理部 121:末端静音区间检测部
[0035]122:末端静音区间调整部 123:基准末端静音区间存储部
[0036]130:信号预处理部140:语音识别部
【具体实施方式】
[0037]以下，参考【附图说明】本发明的用于识别语音的预处理装置及其方法的一个实施例。
[0038]此过程中，附图所示的线条的宽度或构成要素的大小等，为了说明的明确性和便利性有可能放大显示。另外，后述的用语是考虑到本发明的功能而定义的用语，根据使用者、运营者的意图和惯例可有所不同。所以对这些用语的定义应以本说明书全篇内容为准。
[0039]图2为显示本发明的一个实施例的语音识别装置的大致构成的示意图。
[0040]如图2所示，本发明的一个实施例的语音识别装置包括语音输入部MIC、模数转换部(AD转换部)110、末端静音区间预处理部120、信号预处理部130以及语音识别部140。
[0041]所述语音输入部MIC是用于接收用户的语音的构成要素，例如相当于麦克风。
[0042]所述模数转换部110将从所述语音输入部MIC输出的用户语音信号转换为易于处理的数字信号。
[0043]所述末端静音区间预处理部120包括:检测包含在所述语音信号中的末端静音区间(时间)的长度的末端静音区间检测部121，存储基准末端静音区间(时间)长度的基准末端静音区间存储部123，按照所述基准末端静音区间的长度调整包含

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：权珉湖;
技术所有人：现代摩比斯株式会社;
我是此专利的发明人

上一篇：磁盘装置及其控制方法
上一篇：用外部声音向车辆驾乘人员警告外部事件并掩蔽车内谈话的制作方法