语音识别装置、语音识别方法及语音识别程序的制作方法

文档序号：2822292阅读：355来源：国知局

专利名称：语音识别装置、语音识别方法及语音识别程序的制作方法
技术领域：
本发明涉及对说话者发出的语音进行识别的语音识别装置、语音识别方法及语音识别程序。
背景技术：
近年来，关于语音识别技术的发展非常迅速。所谓该语音识别，是指计算机或机械等自动理解人的语音。例如，通过利用该语音识别，使计算机或机械能够根据人的语音进行动作，或者能够使人的语音变换为文字。
在语音识别中主要采用的方法是，抽取发出的语音所具有的频谱等物理特征，与预先存储的母音、子音或单词的物理特征模型进行比较。但是，在对许多不确定说话者进行语音识别时，由于说话者各自的个人差是造成语音所具有的物理特征差异的主要原因，因而不能进行正确的语音识别。另外，在对确定说话者进行语音识别时，也由于昼夜等周围环境的变化而产生的噪声(干扰)或者由于说话者身体状况等而引起语音所具有的物理特征的变化，成为进行语音识别时使识别率下降的主要原因，因而不能进行正确的语音识别。
图13所示为进行语音识别时声级与识别率的关系的一个例子的示意图。图13所示的示意图中，纵轴表示识别率(％)，横轴表示声级(dB)。这里所谓声级意味着声能级，例如0dB是指负载电阻为600Ω，端电压为0.775V，功耗为1mW。
如图13所示，在以往的语音识别中，在声级低于-19dB或声级高于-2dB时，识别率有下降的趋势。
在以往的语音识别中，在预先存储有母音、子音或单调的物理特征模型的声级时，在声级附近的识别率高，即由于是将预先存储的声级与输入的声级进行比较来进行语音识别的，因此在声级从低到高的情况下，不能平均得到高的识别率。
因此在日本专利实开昭59-60700号公报中揭示了一种语音识别装置，它是在输入语音时使用的微型放大器中采用AGC电路(Auto Gain Controller自动增益控制电路)，始终保持输入的声级近似一定。另外，在日本专利实开平01-137497号公报及特开昭63-014200号公报揭示了一种语音识别装置，它是利用适当的手段使说话者知道声级，并促使其以最佳的声级进行发声。
但是，在实开昭59-60700号公报所揭示的语音识别装置中，有的情况下利用AGC电路使不应该放大语音以外的噪声(干扰)也被放大，由于放大的噪声使识别率降低。再有，输入的语音中，每个单词存在表示语言的抑扬顿挫的语调。因此，通过利用AGC电路频繁地将输入的声级放大或不放大，在放大为近似一定声级的语音波形要产生失真。由于该语音波形失真，则表示每个单词所包含的语言抑扬顿挫的声调产生失真，使识别率下降。
另一方面，在实开平01-137497号公报及特开昭63-014200号公报所揭示的语音识别装置中，有的情况下由于周围环境的变化或说话者本身的身体状况不良等影响，由说话者输入的声级达不到预定的规定值，另外也有的情况下，即使说话者的发声达到预定的规定声级，语音识别装置也不识别。例如有的情况下，由说话者发出的声级具有个人特有的物理特征，若勉强使其改变发声，则物理特征变为不同的特征。因而使语音识别率下降。
发明揭示本发明的目的是提供能够不受说话者声级影响、提高语音识别的识别率的语音识别装置、语音识别方法及语音识别程序。
本发明的一个方面的语音识别装置具有输入数字语音信号的输入手段、在利用输入手段输入的语音区间内根据一部分时间内的数字语音信号推定语音区间的声级的声级推定手段、根据利用声级推定手段推定的声级及预先设定的目标声级调整利用输入手段输入的语音区间数字语音信号声级的声级调整手段、以及根据利用声级调整手段调整的数字语音信号进行语音识别的语音识别手段。
在本发明的语音识别装置中，利用输入手段输入数字语音信号，在利用输入手段输入的语音区间内根据预定时间的数字语音信号，利用声级推定手段推定语音区间的声级。根据利用声级推定手段推定的声级及预先设定的目标声级，利用声级调整手段在利用输入手段输入的语音区间内调整数字语音信号的声级，再根据利用声级调整手段调整的数字语音信号，利用语音识别手段进行语音识别。
在这种情况下，根据语音区间内的一部分时间的数字语音信号，推定整个语音区间的声级，根据推定的声级及预先设定的目标声级，将语音区间的数字语音信号的声级调整为一致。这样，能够使说话者的语音具有的表示语言抑扬顿挫的语调不产生失真，进行语音识别。因而能够提高语音识别的识别率。
声级推定手段也可以在利用输入手段输入的语音区间内，根据最初的规定时间内的数字语音信号，推定语音区间的声级。
在这种情况下，通常能够利用语音区间内的最初的规定时间内的声级上升沿部分，判断整个语音区间的声级。因而，通过在语音区间内根据最初的规定时间内的数字语音信号进行声级推定，能够在短时间内正确推定语音区间内的声级。
声级推定手段也可以在利用输入手段输入的语音区间内将最初的规定时间内的数字语音信号平均值推定作为语音区间的声级。
在这种情况下，通过在语音区间的最初的规定时间内计算数字语音信号的平均值，能够更正确地推定语音区间的声级。
声级调整手段也可以利用预先设定的目标声级与利用声级推定手段推定的声级之比确定放大倍数，以该放大倍数使利用输入手段输入的语音区间的数字语音信号声级放大或衰减。
在这种情况下，通过以目标声级与推定的声级之比确定的放大倍数使语音区间的数字信号的声级增加或衰减，能够将语音区间的声级设定为目标声级。
语音识别装置也可以还具有使利用输入手段输入的数字语音信号延迟的延迟电路，使利用输入手段输入的数字语音信号与利用声级推定手段推定的声级同步，一起提供给声级调整手段。
在这种情况下，能够采用与数字语音信号对应的声级推定值进行声级调整。这样，能够正确调整语音区间的声级。
声级推定手段也可以包含检测利用输入手段输入的语音区间的开始点的语音检测单元、在利用输入手段输入的语音区间内根据最初的规定时间内的数字语音信号推定语音区间的声级的声级推定单元、保持利用声级推定单元推定的声级的保持电路、以及存储电路，所述存储电路对于利用语音检测单元的检测进行响应，将利用输入手段输入的语音区间的数字语音信号加以存储，同时使存储的语音区间的数字语音信号与保持电路保持的声级同步，输出给声级调整手段。
在这种情况下，利用语音检测单元检测利用输入手段输入的语音区间的数字语音信号开始点，根据利用输入手段输入的语音区间内的最初的规定时间内的数字语音信号，利用声级推定单元推定语音区间的声级。利用声级推定单元推定的声级利用保持电路加以保持，再对于利用语音检测单元的检测进行响应，将利用输入手段输入的语音区间的数字语音信号存储在存储电路中，同时使存储的语音区间的数字语音信号与保持电路保持的声级同步，利用存储电路输出给声级调整手段。
在这种情况下，从语音区间的开始点起，将数字语音信号存储在存储电路中，采用与存储的数字语音信号对应的声级推定值调整声级。这样，能够将数字语音信号调整为正确的声级，能够提高语音识别的识别率。
存储电路也可以包含将利用输入手段输入的语音区间的数字语音信号交替存储，同时将存储的语音区间的数字语音信号交替输出给声级调整手段的第1及第2缓冲器。
在这种情况下，即使输入包含许多单词的长时间的语音，也能够在第1及第2缓冲器内交替存储语音区间的数字语音信号，同时从第1或第2缓冲器输出语音区间的数字语音信号。这样，能够用小容量的第1或第2缓冲器对包含许多单词的长时间的语音进行识别。
语音识别手段也可以将语音识别结果反馈给声级调整手段，声级调整手段根据利用语音识别手段反馈的语音识别结果，改变声级的调整程度。
在这种情况下，将语音识别结果再次用于声级调整，改变声级的调整程度，这样在声级的调整程度不适当时，能够使声级的调整程度接近适当状态。
声级调整手段也可以在利用语音识别手段不能进行语音识别时，提高声级的放大倍数。
在这种情况下，在不能进行语音识别时，通过提高声级的放大倍数，能够将不能进行语音识别的声级调整为能够进行语音识别的声级。
语音识别装置还可以包含非线性处理单元，所述非线性处理单元在利用声级推定手段推定的声级处于预定的范围内时，不使声级调整手段起作用，在利用声级推定手段推定的声级不处于预定的范围内时，使声级调整手段起作用，同时将利用声级推定手段推定的声级改变为预定范围内的声级，然后提供给声级调整手段。
在这种情况下，能够仅仅在不处于预定范围内的声级的情况下，改变为预定范围内的声级，进行声级调整。这样，能够防止使说话者的语音具有的表示语言抑扬顿挫的语调产生无用的失真。
本发明的另一方面的语音识别方法具有输入数字语音信号的步骤、在语音区间内根据一部分时间内输入的数字语音信号推定语音区间的声级的步骤、根据推定的声级及预先设定的目标声级调整语音区间的数字语音信号声级的步骤、以及根据调整的数字语音信号进行语音识别的步骤。
在本发明的语音识别方法中，输入数字语音信号，根据语音区间内一部分时间的数字语音信号推定语音区间的声级。根据推定的声级及预先设定的目标声级，调整语音区间的数字语音信号的声级，再根据调整的数字语音信号，进行语音识别。
在这种情况下，根据语音区间内的一部分时间的数字语音信号，推定整个语音区间的声级，根据推定的声级及预先设定的目标声级，将语音区间的数字语音信号的声级调整为一致，这样，能够使说话者的语音具有的表示语言抑扬顿挫的语调不产生失真，进行语音识别。因而，能够提高语音识别的识别率。
推定声级的步骤也可以包含在语音区间内根据最初的规定时间内的数字语音信号推定语音区间的声级。
在这种情况下，通常能够利用语音区间内最初的规定时间内的声级上升沿部分，判断整个语音区间的声级。因而，通过在语音区间内根据最初的规定时间内的数字语音信号进行声级推定，能够在短时间内正确推定语音区间内的声级。
推定声级的步骤也可以包含在语音区间内将最初的规定时间内的数字语音信号平均值推定作为语音区间的声级。
在这种情况下，通过在语音区间的最初的规定时间内计算数字语音信号的平均值，能够更正确地推定语音区间的声级。
调整数字语音信号声级的步骤也可以包含以利用预先设定的目标声级与推定的声级之比确定的放大倍数使语音区间的数字语音信号声级增大或衰减。
在这种情况下，通过以目标声级与推定的声级之比确定的放大倍数使语音区间的数字信号的声级增大或衰减，能够将语音区间的声级设定为目标声级。
语音识别方法还具有使数字语音信号延迟的步骤，使语音区间的数字语音信号与推定的声级同步，一起提供给调整数字语音信号声级的步骤。
在这种情况下，能够采用与数字语音信号对应的声级推定值进行声级调整。这样，能够正确调整语音区间的声级。
推定声级的步骤也可以包含检测语音区间的数字语音信号开始点的步骤、在语音区间内根据最初的规定时间内的数字语音信号推定语音区间的声级的步骤、保持推定的声级的步骤、以及对于检测的数字语音信号开始点进行响应后将语音区间的数字语音信号加以存储同时使存储的语音区间的数字语音信号与保持的声级同步输出的步骤。
在这种情况下，检测语音区间的数字语音信号的开始点，在语音区间内根据最初的规定时间内的数字语音信号，推定语音区间的声级。保持推定的声级，对于检测的语音区间的数字语音信号开始点进行响应，将语音区间的数字语音信号加以存储，同时使存储的语音区间的数字语音信号与保持的声级同步输出。
在这种情况下，从语音区间的开始点起，将数字语音信号存储在存储电路中，采用与存储的数字语音信号对应的声级推定值调整声级。这样，能够将数字语音信号调整为正确的声级，能够提高语音识别的识别率。
存储的步骤也可以包含将语音区间的数字语音信号交替存储在第1及第2缓冲器中同时从第1及第2缓冲器交替输出存储的语音区间的数字语音信号的步骤。
在这种情况下，即使输入包含许多单词的长时间的语音，也能够在第1及第2缓冲器内交替存储语音区间的数字语音信号，同时从第1或第2缓冲器输出语音区间的数字语音信号，这样，能够用小容量的第1或第2缓冲器对包含许多单词的长时间的语音进行识别。
进行语音识别的步骤也可以包含将语音识别结果反馈至调整数字语音信号的声级的步骤的内容，调整数字语音信号的声级的步骤也可以包含根据反馈的语音识别结果改变声级的调整程度的内容。
在这种情况下，将语音识别结果再次用于声级调整，改变声级的调整程度，这样在声级的调整程度不适当时，能够反复进行使声级的调整程度接近适当状态。
调整数字语音信号的声级的步骤也可以包含在不能进行语音识别时提高声级的放大倍数的内容。
在这种情况下，在不能进行语音识别时，通过提高声级的放大倍数，能够将不能进行语音识别的声级调整为能够进行语音识别的声级。
语音识别方法还具有下述的步骤，所述步骤在推定的声级处于预定的范围内时，不使调整数字语音信号的声级的步骤起作用，在推定的声级不处于预定的范围内时，使调整的步骤起作用，同时将推定的声级改变为预定范围内的声级，使用变更的声级用于调整数字语音信号的声级。
在这种情况下，能够仅仅在不处于预定范围内的声级的情况下，改变为预定范围内的声级，进行声级调整。这样，能够防止使说话者的语音具有的表示抑扬顿挫的语调产生无用的失真。
本发明的其它另一方面的语音识别程序是计算机能够读取的语音识别程序，使计算机执行输入数字语音信号的处理、在输入的语音区间内根据一部分时间内的数字语音信号推定语音区间的声级的处理、根据推定的声级及预先设定的目标声级调整输入的语音区间中数字语音信号的声级的处理、以及根据调整的数字语音信号进行语音识别的处理。
在本发明的语音识别程序中，输入数字语音信号，在输入的语音区间内根据预定时间内的数字语音信号，推定语音区间的声级。根据推定的声级及预先设定的目标声级，调整输入语音区间的数字语音信号的声级，再根据调整后的数字语音信号，进行语音识别。
在这种情况下，在语音区间内根据一部分时间内的数字语音信号，推定整个语音区间的声级，根据推定的声级及预先设定的目标声级，将语音区间的数字语音信号的声级调整为一致。这样，能够使说话者的语音具有的表示语言抑扬顿挫的语调不产生失真，进行语音识别。因而能够提高语音识别的识别率。
根据本发明，在语音区间内根据一部分时间内的数字语音信号，推定整个语音区间的声级，根据推定的声级及预先设定的目标声级，将语音区间的数字语音信号的声级调整为一致。这样，能够使说话者的语音具有的表示语言抑扬顿挫的语调不产生失真，进行语音识别。因而，能够提高语音识别的识别率。
附图简要说明图1所示为本发明第1实施形态的语音识别装置一实施例的方框图。
图2所示为执行语音识别程序用的计算机构成方框图。
图3所示为说话者发出“らぐび-”(译注拉古比，即橄榄球)语音的声谱波形图。
图4所示为本发明第2实施形态的语音识别装置方框图。
图5(a)所示为图4的话筒输出波形图，(b)所示为语音信号(信号分量)与噪声分量之比。
图6所示为图4的语音检测单元的动作流程图。
图7所示为说话者发出两个单词语音时缓冲器的数字语音信号输入输出示意图。
图8所示为本发明第3实施形态的语音识别装置一个例子的方框图。
图9是说明图8所示的声级调整反馈单元中进行声级调整时的动作流程图。
图10所示为本发明第4实施形态的语音识别装置一个例子的方框图。
图11所示为输入图10的信号非线性处理单元的声级推定值与图10的语音识别单元的识别率的关系图。
图12所示为信号非线性处理单元的处理动作流程图。
图13所示为进行语音识别时的声级与识别率之关系的一个例子示意图。
实施发明的最佳形态(第1实施形态)图1所示为本发明第1实施形态的语音识别装置一实施例的方框图。
如图1所示，语音识别装置包含话筒1、A/D(模拟/数字)变换器2、信号延迟单元3、声级推定单元4、声级调整单元5及语音识别单元6。
如图1所示，由说话者发出的语音，利用话筒1采集。采集的语音通过话筒1的作用，变换为模拟语音信号SA，输出给A/D变换器2。A/D变换器2将输出的模拟语音信号SA变换为数字语音信号DS，提供给信号延迟单元3及声级推定单元4。声级推定单元4根据给出的数字语音信号DS，进行声级推定值LVL的计算。这里所谓的声级意味着声能(语音能量)的大小，关于该声级推定值LVL的计算将在后面叙述。
信号延迟单元3使信号延迟，延迟量相当于后述的预定的声级上升沿时间TL的部分，再将延迟的数字语音信号DS提供给声级调整单元5，声级调整单元5与声级推定单元4提供的声级推定值LVL同步，对利用信号延迟单元3提供的数字语音信号DS进行声级调整。声级调整单元5将声级调整后的输出CTRL_OUT提供给语音识别单元6。语音识别单元6根据由声级调整单元5提供的声级调整后的输出CTRL_OUT，进行语音识别。
在第1实施形态的语音识别装置中，话筒1及A/D(模拟/数字)变换器2相当于输入手段，信号延迟单元3相当于延迟电路，声级推定单元4相当于声级推定手段，声级调整单元5相当于声级调整手段，语音识别单元6相当于语音识别手段。
另外，信号延迟单元3、声级推定单元4、声级调整单元5及语音识别单元6能够分别由信号延迟电路、声级推定电路、声级调整电路及语音识别电路构成。另外，能够利用计算机及语音识别程序来实现信号延迟单元3、声级推定单元4、声级调整单元5及语音识别单元6。
下面说明执行语音识别程序用的计算机，图2所示为执行语音识别程序用的计算机构成方框图。
计算机包含CPU(中央处理器)500、输入输出装置501、ROM(只读存储器)502、RAM(随机存取存储器)503、存储介质504、存储介质驱动装置505及外部存储装置506。
输入输出装置501在与其它装置之间进行信息的收发。本实施形态的输入输出装置501从图1的A/D变换器2输入数字语音信号DS。在ROM502中，存储有系统程序。存储介质驱动装置505由CD-ROM驱动器及软盘驱动器等构成，对CD-ROM及软盘等存储介质进行数据的读写。在存储介质504中，存储有语音识别程序。外部存储装置506由硬盘装置等构成，存储有通过存储介质驱动装置505从存储介质504读入的语音识别程序。CPU500在RAM503上执行存储在外部存储装置506的语音识别程序。通过这样执行图1的信号延迟单元3、声级推定单元4、声级调整单元5及语音识别单元6的功能。
下面说明利用图1的声级推定单元4进行的声级推定值LVL的计算方法及利用声级调整单元5进行的声级调整方法。
首先说明利用声级推定单元4进行的声级推定值LVL的计算方法，设输入至声级推定单元4的数字语音信号DS为DS(X)(X＝1、2、…、Q)。这里，X表示在预定的声级上升沿时间TL内的Q个时间点，DS(X)表示在Q个时间点的数字语音信号DS的值，在这种情况下，声级推定值LVL用下式表示LVL＝(∑|DS(X)|)/Q (1)根据式(1)，声级推定值LVL是在预定的声级上升沿时间TL内在Q个时间点的数字语音信号DS(X)的绝对值的累计之和用Q除而得到的平均值，这样，在声级推定单元4计算出声级推定值LVL。
然后说明利用声级调整单元5进行的声级调整方法。在声级调整单元5中，将预定的声级目标值表示为TRG_LVL。在这种情况下，声级调整值LVL_CTRL用下式表示LVL_CTRL＝TRG_LVL/LVL(2)根据式(2)，声级调整值LVL_CTRL是通过将预定的声级目标值TRG_LVL利用声级推定值LVL进行除法计算得到。
另外，声级调整后的输出CTRL_OUT用声级调整值LVL_CTRL通过下式表示CTRL_OUT(X)＝DS(X)×LVL_CTRL (3)式中，X表示时间。根据式(3)，声级调整后的输出CTRL_OUT(X)是在预定的声级上升沿时间TL中将声级调整值LVL_CTRL与数字语音信号DS(X)相乘的值。这样，声级调整单元5进行声级调整，将调整后的输出CTRL_OUT(X)提供给语音识别单元6。
下面用

图1所示的信号延迟单元3的预定的声级上升沿时间TL。
图3所示为说话者发出“らぐび-”语音的声谱波形图。在图3中，纵轴表示声级，横轴表示时间。
如图3所示，“らぐび-”单词的声谱，其“ら”的部分声级高。即声级高的部分是一个单词的表示语言抑扬顿挫的语调部分。这里，如图3所示，设从说话者发声的语音开始时间TS到达声级值为峰值P为止的时间为声级上升沿时间TL。一般，声级上升沿时间TL在0sec(秒)～100msec(毫秒)以内，在本发明的实施形态中，设声级上升沿音间TL为100msec。
例如，若设定该声级上升沿时间TL较短，则导致语音识别的识别率下降。如图3所示，在谈话者发出“らぐび-”单词时，考虑将声级上升沿时间设定得较短，用TL表示的情况。在这种情况下，即使在图1所示的信号延迟单元3将输入的数字语音信号DS延迟声级上升沿时间TL，但利用声级推定单元4也不能计算出适当的声级推定值LVL，算出的声级推定值低于作为原来目标的声级推定值LVL。然后，将低于目标的声级推定值提供给声级调整单元5，对数字语音信号DS的声级值进行错误调整。这样，将错误的数字语音信号DS输入至语音识别单元6，语音识别的识别率将下降。
如上所述，通过在信号延迟单元3设定语音区间的最初的声级上升沿时间TL为100msec，就能够利用声级推定单元4计算出整个语音区间的声级。这样，由于能够将语音区间的数字语音信号DS的声级调整得一致，因此对于说话者的语音所具有的表示语言的抑扬顿挫的语调不会产生失真，能够进行语音识别，能够使语音识别的识别率提高。
(第2实施形态)下面用

本发明第2实话形态的语音识别装置。
图4所示为本发明第2实施形态的语音识别装置方框图。
如图4所示，语音识别装置包含话筒1、A/D变换器2、声级推定单元4、声级调整单元5、语音识别单元6、语音检测单元7、声级保持单元8、选择单元11及12、缓冲器21及缓冲器22。
如图4所示，由说话者发出的语音，利用话筒1采集。采集的语音通过话筒1的作用，变换为模拟语音信号SA，输出给A/D变换器2，A/D变换器2将输出的模拟语音信号SA变换为数字语音信号DS，提供给声级推定单元4、语音检测单元7及选择单元11。声级推定单元4根据给出数字语音信号DS，进行声级推定值LVL的计算。第2实施形态中利用声级推定单元4的声级推定值LVL的计算，与第1实施形态中利用声级推定单元4的声级推定值LVL的计算方法相同。
声级推定单元4根据A/D变换器2给出的数字语音信号DS，对每个单词计算声级推定值LVL，将计算的声级推定值LVL依次提供给声级保持单元8。这里，声级保持单元8在声级保持单元8内设置的保持寄存器中，保持前一次的声级推定值LVL，一直到下一次给出利用声级推定单元4计算的声级推定值LVL为止，在每一次给出利用声级推定单元4计算的声级推定值LVL时，对保持着前一次声级推定值LVL的保持寄存器，将新提供的LVL写入加以保存，改写了保持寄存器。另外，该保持寄存器具有数据容量M。
另一方面，语音检测单元7根据A/D变换器2给出的数字语音信号DS，检测图3的语音开始时间TS，对选择单元11给出控制信号CISI，使得将A/D变换器2给出的数字语音信号DS提供给缓冲器21，同时对缓冲器21给出控制信号CB1，使得将由选择单元11给出的数字语音信号DS加以存储。缓冲器21及22分别具有容量L。
选择单元11对于利用语音检测单元7给出的控制信号CIS1进行响应。将A/D变换器2给出的数字语音信号DS提供给缓冲器21。缓冲器21对于利用语音检测单元7给出的控制信号CB1进行响应，将通过选择单元11给出的数字语音信号DS加以存储，然后，缓冲器21在存储能够存储的容量L的数字语音信号DS时，对语音检测单元7给出存满信号F1。这样，语音检测单元7通过缓冲器21向声级保持单元8给出使声级推定值LVL输出的控制信号SL1。
另外，语音检测单元7对于缓冲器21给出的存满信号F1进行响应，对选择单元11给出控制信号CIS2，使得将A/D变换器2给出的数字语音信号DS提供给缓冲器22，同时对缓冲器22给出控制信号CB2，使得将由选择单元11给出的数字语音信号DS加以存储。再有，语音检测单元7对缓冲器21给出控制信号CB01，对选择单元12给出控制信号COS1。
选择单元11对于利用语音检测单元7给出的控制信号CIS2进行响应，将A/D变换器2给出的数字语音信号DS提供给缓冲器22。缓冲器22对于利用语音检测单元7给出的控制信号CB2进行响应，将通过选择单元11给出的数字语音信号DS加以存储。
另一方面，缓冲器21对于利用语音检测单元7给出的控制信号CB01进行响应，将缓冲器21存储的数字语音信号DS通过选择单元12提供给声级调整单元5。
然后，缓冲器22对于利用语音检测单元7给出的控制信号CB2进行响应，将通过选择单元11给出的数字语音信号DS加以存储。缓冲器22在存储能够存储的容量L的数字语音信号DS时，对语音检测单元7给出存满信号F2。这样，语音检测单元7通过缓冲器22向声级保持单元8给出使声级推定值LVL输出的控制信号SL2。
另外，语音检测单元7对于缓冲器22给出的存满信号F2进行响应，对选择单元11给出控制信号CIS1，使得将A/D变换器2给出的数字语音信号DS提供给缓冲器21，再有，语音检测单元7对缓冲器22给出控制信号CB02，对选择单元12给出控制信号COS2。
另一方面，缓冲器22对于利用语音检测单元7给出的控制信号CB02进行响应，将缓冲器22存储的数字语音信号DS通过选择单元12提供给声级调整单元5。
声级保持单元8对于由缓冲器21给出的控制信号SL1或由缓冲器22给出的控制信号SL2进行响应，将内部保持寄存器保持的声级推定值LVL提供给声级调整单元5。这里，由声级保持单元8内设置的保持寄存器的容量M与缓冲器21及22的容量L近似为相同的容量，因此与通过选择单元12给出的数字语音信号DS对应的声级推定值LVL从声级保持单元8输出。
声级调整单元5根据利用声级保持单元8给出的声级推定值LVL，对通过选择单元12得到的数字语音信号DS进行调整。第2实施2形态中利用声级调整单元5的数字语音信号DS的调整方法，与第1实施形态中利用声级调整单元5的数字语音信号DS的调整方法相同，声级调整单元5将声级调整后的输出CTRL_OUT提供给语音识别单元6。语音识别单元6根据利用声级调整单元5给出的声级调整后的输出CTRL_OUT，进行语音识别。
在第2实施形态的语音识别装置中，话筒1及A/D(模拟/数字)变换器2相当于输入手段，声级推定单元4相当于声级推定手段，声级调整单元5相当于声级调整手段，语音识别单元6相当于语音识别手段，语音检测单元7相当于语音检测单元，声级保持单元8相当于保持电路，缓冲器21及22相当于存储电路。
图5(a)为图4的话筒1的输出波形图，图5(b)所示为语音信号C(信号分量)(S)与噪声分量(N)之比(S/N)。
如图5(a)所示，话筒1的输出波形由噪声分量及语音分量构成。而且，在包含语音信号的语音区间，其输出波形的声级值较高。
另外，如图5(b)所示，图4的语音检测单元7在语音信号(语音分量)与噪声分量之比即S/N值较低时，判断为噪声区间，在语音信号(语音分量)与噪声分量之比即S/N值较高时，判断为语音区间。
图6所示为图4的语音检测单元7的动作流程图。
首先，如图6所示，语音检测单元7判断输入的数字语音信号DS是否是语音信号(步骤S61)。在输入的数字语音信号DS不是语音信号时，处于待机状态，一直到判断下一次输入的数字语音信号DS是语音信号为止。另外，在判断为输入的数字语音信号DS是语音信号时，语音检测单元7对选择单元11给出控制信号CIS1，使得将提供给图4的选择单元11的数字语音信号DS提供给缓冲器21(步骤S62)。然后，语音检测单元7对缓冲器21给出控制信号CB1，使其将数字语音信号DS加以存储(步骤s63)。
接着，语音检测单元7判断是否接收到利用缓冲器21存储了能够存储的容量L的数字语音信号DS时输出的存满信号F1(步骤S64)。语音检测单元7在没有从缓冲器21接收到存满信号F1时，继续重复步骤S63。另外，语音检测单元7在从缓冲器21接收到存满信号F1时，对选择单元11给出控制信号CIS2，使得将图4的选择单元11给出的数字语音信号DS提供给缓冲器22(步骤S65)。然后，语音检测单元7再对缓冲器22给出控制信号CB2，使其将数字语音信号DS加以存储(步骤S66)。另外，语音检测单元7在输出控制信号CIS2及控制信号CB2之后，对选择单元12给出控制信号COS1，使得将由缓冲器21给出的存储的数字语音信号DS提供给声级调整单元5(步骤S67)。
接着，语音检测单元7通通缓冲器21对声级保持单元8给出控制信号SL1(步骤S68)。声级保持单元8对于通过缓冲器21给出的控制信号SL1进行响应，将声级保持单元8内的保持寄存器中反复存储的声级推定值LVL，提供给声级调整单元5。
接着，语音检测单元7对缓冲器21给出控制信号CB01，将存储的数字语音信号DS输出给声级调整单元5(步骤S69)。接着，语音检测单元7判断缓冲器21存储的全部数字语音信号DS是否已经输出给声级调整单元5(步骤S70)。这里，在从缓冲器21没有将全部的的数字语音信号DS输出时，再次对缓冲器21给出控制信号CB01，将存储的数字语音信号DS输出给声级调整单元5。另外，在缓冲器21存储的数字语音信号DS已经全部输出时，语音检测单元7对缓冲器21给出控制信号CR，使其删除缓冲器内的数据(清零)(S71)。
图7所示为说话者发出两个单词语音时缓冲器21及缓冲器22的数字语音信号DS的输入输出示意图。
如图7所示，在语音区间(S)的一个单词(W1)的开始时间，利用语音检测单元7对缓冲器21给出控制信号CB1，数字信号DS开始对缓冲器21输入。这里，缓冲器21及缓冲器22由FIFO(First In First Out，先进先出)型存储器构成，另外缓冲器21及缓冲器22的存储器容量L近似相等。
数字语音信号DS输入至缓冲器21，是在一个单词(W1)的几乎全部区间中进行，当对缓冲器21存储了能够存储的容量L的数字语音信号DS，则缓冲器21对语音检测单元7输出存满信号F1。缓冲器21在输出存满信号F1后，对于利用语音检测单元7给出的控制信号CB01进行应答，将缓冲器21内存储的数字语音信号DS输出。另外，缓冲器22对于利用语音检测单元7给出的控制信号CB2进行应答，开始存储数字语音信号DS。
缓冲器22在存储了能够存储的容量L的数字语音信号DS时，对语音检测单元7输出存满信号F2。另外，在缓冲器22存储期间，缓冲器21存储的数字语音信号DS在全部输出给声级调整单元5之后，利用语音检测单元7给出控制信号CR，删除缓冲器21内的数据(清零)。这样，利用语音检测单元7对缓冲器21给出使其再次存储数字语音信号DS的控制信号CB1。
如上所述，能够从语音区间的开始点存储数字语音信号，采用与存储的数字语音信号对应的声级推定值，正确调整声级。因而，通过以正确的声级对语音识别进行调整，能够提高语音识别的识别率。
另外，即使输入包含许多单词的长时间的数字语音信号DS，也能够进行交替存储及输出。这样，即使用小容量的缓冲器，也能够进行语音识别。
另外，在本发明的实施形态中，设采用缓冲器，但不限于此，也可以采用其它的存储电路。另外，也可以在缓冲器内部设置计数器，利用语音检测单元7监视缓冲器内部的计数器，输出存满信号F1、F2或控制信号CR。
(第3实施形态)图8所示为本发明第3实施形态的语音识别装置一个例子的方框图。
如图8所示，语音识别装置包含话筒1、A/D(模拟/数字)变换器2、信号延迟单元3、声级推定单元4、声级调整反馈单元9及语音识别反馈单元10。
如图8所示，由说话者发出的语音，利用话筒1采集。采集的语音通过话筒1的作用，变换为模拟语音信号SA，输出给A/D变换器2。A/D变换器2将输出的模拟语音信号SA变换为数字语音信号DS，提供给信号延迟单元3及声级推定单元4。声级推定单元4根据给出的数字语音信号DS，进行声级推定值LVL的计算。这里，关于本发明第3实施形态中利用声级推定单元4的声级推定值LVL的计算方法，与第1实施形态中利用声级推定单元4的声级推定值LVL的计算方法相同。
声级推定单元4计算声级推定值LVL，提供给声级调整反馈单元9。声级调整反馈单元9根据利用声级推定单元4给出的声级推定值LVL，与声级推定值LVL同步，对于利用信号延迟单元3给出的数字语音信号DS的声级进行调整。声级调整反馈单元9将声级调整后的输出CTRL_OUT提供给语音识别反馈单元10。语音识别反馈单元10根据利用声级调整反馈单元9给出的调整后的输出CTRL_OUT，进行语音识别，在语音识别失败时，将声级控制信号RC提供给声级调整反馈单元9。关于该声级调整反馈单元9及语音识别反馈单元10的动作，将在后面叙述。
在第3实施形态的语音识别装置中，话筒1及A/D(模拟/数字)变换器2相当于输入手段，信号延迟单元3相当于延迟电路，声级推定单元4相当于声级推定手段，声级调整反馈单元9相当于声级调整手段，语音识别反馈单元10相当于语音识别手段。
图9是说明图8所示的声级调整反馈单元9中进行声级调整时的动作流程图。
如图9所示，首先声级调整反馈单元9判断是否有利用语音识别反馈单元10输入的声级控制信号RC(步骤S91)。接着，在没有利用语音识别反馈单元10的声级控制信号RC输入时，声级调整反馈单元9处于待机状态，一直到判断为有利用语音识别反馈单元10的声级控制信号RC输入为止。另外，在判断为从语音识别反馈单元10有声级控制信号RC输入时，声级调整反馈单元9将变量K加1(步骤S92)。
这里，预先设定多级的声级目标值，所谓变量K是表示该多级的变量，这里，在本第3实施形态中，变量K具有从1至R的值，设声级目标值TRG_LVL(K)能够取的值为TRG_LVL(1)、TRG_LVL(2)、…TRG_LVL(R)。
接着，声级调整反馈单元9判断变量K是否大于最大值R(步骤S93)。这里，声级调整反馈单元9在判断为变量K大于最大值R时，将变量K返回至最小值1(步骤S94)，将声级目标值TRG_LVL设定为TRG_LVL(1)(步骤S95)。
另外，声级调整反馈单元9在判断为变量K不大于最大值R时，将声级目标值TRG_LVL设定为TRG_LVL(K)(步骤S95)。
例如，最初设定声级目标值TRG_LVL为TRG_LVL(2)。然后，在语音识别反馈单元10的语音识别失败、不能进行语音识别时，将控制信号RC输出给声级调整反馈单元9。声级调整反馈单元9将声级目标值TRG_LVL(2)改变为声级目标值TRG_LVL(3)，等待再一次从说话者输入语音。
这样，将声级目标值TRG_LVL依次改变为TRG_LVL(2)、TRG_LVL(3)、TRG_LVL(4)，在语音识别成功时，将声级目标值TRG_LVL固定。另外，在即使将声级目标值TRG_LVL设定为最大值即TRG_LVL(R)时语音识别也失败的情况下，接着将声级目标值TRG_LVL返回至最小值即TRG_LVL(1)，等待再一次从说话者输入语音。
这样，将声级目标值TRG_LVL设定为对于语音识别是最佳的值。
如上所述，在语音识别结果失败时，能够再次在声级调整反馈单元9中依次不断提高声级调整程度。另外，在声级调整程度即使达到预定的声级最大值，也能够再次将声级返回至最小值，再依次提高调整程度。这样，在声级调整程度不适当而使语音识别失败时，由于能够反复依次改变声级调整程度，因此能够提高语音识别的识别率。
另外，在上述实施形态中，在语音识别失败时，再次根据说话者输入的语音依次改变声级目标值TRG_LVL(K)，但不限于此，也可以设置保持说话者语音输入的手段，在语音识别失败时，利用保持语音输入的手段保持的语音输入，依次改变声级目标值TRG_LVL(K)。
(第4实施形态)图10所示为本发明第4实施形态的语音识别装置一个例子的方框图。
如图10所示，语音识别装置包含话筒1、A/D(模拟/数字)变换器2、信号延迟单元3、声级推定单元4、声级调整单元5、语音识别单元6及信号非线性处理单元11。
如图10所示，由说话者发出的语音，利用话筒1采集，采集的语音通过话筒1的作用，变换为模拟语音信号SA，输出给A/D变换器2，A/D变换器2将输出的模拟语音信号SA变换为数字语音信号DS，提供给信号延迟单元3及声级推定单元4。声级推定单元4根据给出的数字语音信号DS，进行声级推定值LVL的计算。这里，关于第4实施形态中利用声级推定单元4的声级推定值LVL的计算方法，是与第1实施形态中利用声级推定单元4的声级推定值LVL的计算方法相同，声级推定单元4将给出的数字语音信号DS及声级推定值LVL提供给信号非线性处理单元11。信号非线性处理单元11根据声级推定单元4给出的声级推定值LVL，进行后述的非线性处理，将进行了非线性处理的声级推定值LVL提供给声级调整单元5。
另外，信号延迟单元3将延迟了相当于声级上升沿时间TL的延迟量部分的数字语音信号DS提供给声级调整单元5。这里，第4实施形态中相当于声级上升沿时间TL的延迟量部分设为100msec。声级调整单元5根据信号非线性处理单元11给出的声级推定值LVL，对信号延迟单元3给出的数字语音信号DS进行声级调整。声级调整单元5将声级调整后的输出CTRL_OUT提供给语言识别单元6。语言识别单元6根据声级调整单元5给出的声级调整后的输出CTRL_OUT，进行语音识别。
在第4实施形态的语音识别装置中，话筒1及A/D(模拟/数字)变换器2相当于输入手段，信号延迟单元3相当于延迟电路，声级推定单元4相当于声级推定手段，声级调整单元5相当于声级调整手段，语音识别单元6相当于语音识别手段，信号非线性处理单元11相当于非线性处理单元。
图11所示为输入图10的信号非线性处理单元11的声级推定值LVL与图10的语音识别单元6的识别率关系图。
如图11所示，图10的语音识别单元6的识别率与声级推定值LVL有关。在声级推定值LVL处于-19dB以上-2dB以下的范围内，所示的识别率为80％以上。另外，特别是当声级推定值LVL较低(-19dB以下)或声级推定值LVL较高(-2dB以上)时，语音识别的识别率急剧下降。
根据上述结果，在本发明第4实施形态的信号非线性处理单元11中，对声级推定值LVL进行调整，使输入的声级推定值LVL处于-19dB至-2dB的范围内。
图12所示为信号非线性处理单元11的处理动作流程图。
如图12所示，信号非线性处理单元11判断利用声级推定单元4输入的声级推定值LVL是否是-19dB以上-2dB以下(步骤S101)。
信号非线性处理单元11在判断为输入的声级推定值LVL是在-19dB以上-2dB以下时，不使声级调整单元5起作用。即在声级调整单元5中，式(2)所示的声级调整值LVL_CTRL为1。
另外，信号非线性处理单元11在判断为输入的声级推定值LVL不是-19dB以上-2dB以下的数值时，将声级推定值LVL设定为-10dB(步骤S102)。
如上所述，由于信号非线性处理单元11设定声级推定值LVL，使得声级推定值LVL满足识别率80％以上，因此能够提高语音识别单元6中对输入的数字语音信号DS进行语音识别的识别率。即仅仅当声级推定值LVL不在预定的范围内时，改变声级推定值为预定范围内的声级推定值，进行声级调整，当声级推定值在预定的范围内时，使声级调整单元5的放大倍数为1，不使声级调整单元5起作用，通过这样不进行声级调整。因而能够采用简单的方法防止使谈话者的语音具有的语言的抑扬顿挫语调产生无用的失真，这样来进行语音识别，所以能够提高语音识别的识别率。
另外，在上述实施形态中，将声级推定值调整为-19dB至-2dB的范围内，但不限于此，只要在进行语音识别时，调整为预定的声级推定值或语音识别率高的声级推定值即可。
权利要求
1.一种语音识别装置，其特征在于，具有输入数字语音信号的输入手段、在利用所述输入手段输入的语音区间内根据一部分时间内的数字语音信号推定所述语音区间的声级的声级推定手段、根据利用所述声级推定手段推定的声级及预先设定的目标声级调整利用所述输入手段输入的所述语音区间的数字语音信号声级的声级调整手段。以及根据利用所述声级调整手段调整的数字语音信号进行语音识别的语音识别手段。
2.如权利要还求1所述的语音识别装置，其特征在于，所述声级推定手段在利用所述输入手段输入的所述语音区间内，根据最初的规定时间内的数字语音信号，推定所述语音区间的声级。
3.如权利要求2所述的语音识别装置，其特征在于，所述声级推定手段在利用所述输入手段输入的所述语音区间内，将最初的规定时间内的数字语音信号平均值推定作为所述语音区间的声级。
4.如权利要求1所述的语音识别装置，其特征在于，所述声级调整手段利用所述预先设定的目标声级与利用所述声级推定手段推定的声级之比确定放大倍数，以所述放大倍数使利用所述输入手段输入的所述语音区间的数字语音信号声级放大或衰减。
5.如权利要求1所述的语音识别装置，其特征在于，还具有使利用所述输入手段输入的数字语音信号延迟的延迟电路，使所述语音区间的数字语音信号与利用所述声级推定手段推定的声级同步，一起提供给所述声级调整手段。
6.如权利要求1所述的语音识别装置，其特征在于，所述声级推定手段包含检测利用所述输入手段输入的所述语音区间的数字语音信号开始点的语音检测单元、在利用所述输入手段输入的所述语音区间内根据最初的规定时间内的数字语音信号推定所述语音区间的声级的声级推定单元、保持利用所述声级推定单元推定的声级的保持电路、以及存储电路，所述存储电路对于利用所述语音检测单元的检测进行响应、将利用所述输入手段输入的所述语音区间的数字语音信号加以存储，同时将存储的所述语音区间的数字语音信号与所述保持电路保持的声级同步，输出给所述声级调整手段。
7.如权利要求6所述的语音识别装置，其特征在于，所述存储电路包含将利用所述输入手段输入的所述语音区间的数字语音信号交替存储，同时将存储的所述语音区间的数字语音信号交替输出给所述声级调整手段的第1及第2缓冲器。
8.如权利要求1所述的语音识别装置，其特征在于，的述语音识别手段将语音识别结果反馈给所述声级调整手段，所述声级调整手段根据利用所述语音识别手段反馈的语音识别结果，改变所述声级的调整程度。
9.如权利要求8所述的语音识别装置，其特征在于，所述声级调整手段在利用所述语音识别手段不能进行语音识别时，提高所述声级的放大倍数。
10.如权利要求1所述的语音识别装置，其特征在于，还具有非线性处理单元，所述非线性处理单元在利用所述声级推定手段推定的声级处于预定的范围内时，不使所述声级调整手段起作用，在利用所述声级推定手段推定的声级不处于预定的范围内时，使所述声级调整手段起作用，同时将利用所述声级推定手段推定的声级改变为所述预定范围内的声级，然后提供给所述声级调整手段。
11.一种语音识别方法，其特征在于，具有输入数字语音信号的步骤在语音区间内根据一部分时间内所述输入的数字语音信号推定所述语音区间的声级的步骤、根据所述推定的声级及预先设定的目标声级调整所述语音区间的数字语音信号声级的步骤、以及根据所述调整的数字语音信号进行语音识别的步骤。
12.如权利要求11所述的语音识别方法，其特征在于，推定所述声级的步骤包含在所述语音区间内根据最初的规定时间内的数字语音信号推定所述语音区间的声级。
13.如权利要求12所述的语音识别方法，其特征在于，推定所述声级的步骤包含在所述语音区间内将最初的规定时间内的数字语音信号平均值推定作为所述语音区间的声级。
14.如权利要求11所述的语音识别方法，其特征在于，调整所述数字语音信号的声级的步骤包含以利用所述预先设定的目标声级与所述推定的声级之比确定的放在倍数使所述语音区间的数字语音信号的声级放大或衰减。
15.如权利要求11所述的语音识别方法，其特征在于，还具有使所述数字语音信号延迟的步骤，使所述语音区间的数字语音信号与所述推定的声级同步，一起提供给调整所述数字语音信号的声级的步骤。
16.如权利要求11所述的语音识别方法，其特征在于，所述推定声级的步骤包含检测所述语音区间的数字语音信号开始点的步骤、在所述语音区间内根据最初的规定时间内的数字语音信号推定所述语音区间的声级的步骤、保持所述推定的声级的步骤、以及对于检测的所述数字语音信号的开始点进行响应后将所述语音区间的数字语音信号加以存储同时将存储的所述语音区间的数字语音信号与所述保持的声级同步输出的步骤。
17.如权利要求16所述的语音识别方法，其特征在于，所述存储的步骤包含将所述语音区间的数字语音信号交替存储在第1及第2缓冲器同时将存储的所述语音区间的数字语音信号从第1及第2缓冲器交替输出的步骤。
18.如权利要求11所述的语音识别方法，其特征在于，所述进行语音识别的步骤包含将语音识别结果反馈给调整所述数字语音信号的声级的步骤，所述调整数字语音信号的声级的步骤包含根据所述反馈的语音识别结果改变所述声级的调整程度。
19.如权利要求18所述的语音识别方法，其特征在于，所述调整数字语音信号的声级的步骤包含在不能进行所述语音识别时提高所述声级的放大倍数。
20.如权利要求11所述的语音识别方法，其特征在于，还具有下述的步骤，所述步骤在所述推定的声级处于预定的范围内时，不使调整所述数字语音信号的声级的步骤起作用，在所述推定的声级不处于预定的范围内时，使所述调整的步骤起作用，同时将所述推定的声级改变为所述预定范围内的声级，使用变更的声级用于调整所述数字语音信号的声级。
21.一种语音识别程序，是计算机能够读取的语音识别程序，其特征在于，使所述计算机执行输入数字语音信号的处理、在所述输入的语音区间内根据一部分时间内的数字语音信号推定所述语音区间的声级的处理、根据所述推定的声级及预先设定的目标声级调整所述输入的所述语音区间的数字语音信号声级的处理、以及根据所述调整的数字语音信号进行语音识别的处理。
全文摘要
本发明利用话筒1采集说话者发出的语音,通过A/D变换器2提供给信号延迟单元3及声级推定单元4。声级推定单元4根据提供的数字语音信号进行声级推定值的计算。信号延迟单元3将延迟了预定的声级上升沿时间的数字语音信号提供给声级调整单元5,声级调整单元5根据声级推定值进行数字语音信号的声级调整,将声级调整后的输出提供给语音识别单元6,语音识别单元6根据提供的声级调整后的输出,进行语音识别。
文档编号G10L15/04GK1386265SQ01801963
公开日2002年12月18日申请日期2001年7月9日优先权日2000年7月10日
发明者川根友惠, 金森丈郎申请人:松下电器产业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：川根友惠;金森丈郎
技术所有人：松下电器产业株式会社
我是此专利的发明人