语音信号处理装置及语音信号处理方法与流程

文档序号：15275818发布日期：2018-08-28 22:57阅读：133来源：国知局

本发明涉及一种信号处理装置，尤其涉及一种语音信号处理装置及语音信号处理方法。

背景技术：

一般对于听障人士来说，其往往无法清楚地接收较高频的语音信号，例如子音信号，但对于低频的语音信号却可以清楚地听到。为使听障人士可清楚地听到语音信号，当判断出语音信号为子音信号时，语音信号将被进行降频处理，反之，若语音信号非子音信号，则不进行降频处理。如此虽可帮助听障人士更清楚地听到语音信号，然当环境中的其它噪声信号造成子音信号的判断错误时，将使得原本应进行降频处理的子音信号未被进行降频处理。而当未被进行降频处理的子音信号出现在前后的皆为进行降频处理的子音信号时，声音将出现断断续续的情形，而造成听者的不适，严重时还可能影响到语音信号的可辨识度。

技术实现要素：

本发明提供一种语音信号处理装置及语音信号处理方法，可有效改善因子音信号误判而造成声音断断续续的情形，而提高听者聆听声音的舒适度以及语音信号的可辨识度。

本发明的语音信号处理装置包括带通滤波单元以及处理单元。带通滤波单元对语音信号进行第一频段以及第二频段的带通滤波，以分别产生第一带通滤波信号以及第二带通滤波信号，其中第一频段以及第二频段至少其中之一为子音频段。处理单元耦接滤波单元，将语音信号、第一带通滤波信号以及第二带通滤波信号分割为多个音框，并计算此些音框中取样信号的能量，以获得对应此些音框的原始语音取样信号能量、第一频段信号能量以及第二频段信号能量，依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件，其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松，其中当目标音框的前一音框所对应的原始语音取样信号为子音信号时，依据目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值，以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值判断目标音框所对应的原始语音取样信号是否为子音信号。

在本发明的一实施例中，上述的处理单元还计算目标音框的过零率，当目标音框的前一音框所对应的原始语音取样信号为子音信号时，处理单元还依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号，其中当目标音框的过零率大于预设过零率、第一比值大于第一预设值且第二比值大于第二预设值时，目标音框所对应的原始语音取样信号为子音信号。

在本发明的一实施例中，其中当目标音框的过零率大于预设过零率且第一比值大于第三预设值时，目标音框所对应的原始语音取样信号为子音信号，其中第三预设值大于第一预设值。

在本发明的一实施例中，其中当目标音框的前两个音框所对应的原始语音取样信号皆为子音信号时，处理单元还依据目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第三比值判断目标音框所对应的原始语音取样信号是否为子音信号。

在本发明的一实施例中，上述的处理单元还计算目标音框的过零率，当目标音框的前两个音框所对应的原始语音取样信号皆为子音信号时，处理单元还依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号，当目标音框的过零率大于预设过零率、第一比值大于第一预设值、第二比值小于第二预设值且第三比值小于第三预设值时，目标音框所对应的原始语音取样信号为子音信号，其中第二预设值与第三预设值小于等于1。

在本发明的一实施例中，上述的处理单元还计算目标音框的过零率，当目标音框的前一音框所对应的原始语音取样信号不为子音信号时，处理单元依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的第三比值判断目标音框所对应的原始语音取样信号是否为子音信号，其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于第一预设能量且第三比值大于第一预设值，目标音框所对应的原始语音取样信号为子音信号。

在本发明的一实施例中，其中当目标音框的前一音框所对应的原始语音取样信号不为子音信号时，处理单元还依据第一比值判断目标音框所对应的原始语音取样信号是否为子音信号，其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量、第三比值大于第二预设值且第一比值大于第三预设值，目标音框所对应的原始语音取样信号为子音信号，其中第一预设值大于第二预设值。

在本发明的一实施例中，上述第二频段高于第一频段。

本发明的语音信号处理方法包括下列步骤。对语音信号进行第一频段以及第二频段的带通滤波，以分别产生第一带通滤波信号以及第二带通滤波信号，其中第一频段以及第二频段至少其中之一为子音频段。将语音信号、第一带通滤波信号以及第二带通滤波信号分割为多个音框。计算此些音框中取样信号的能量，以获得对应此些音框的原始语音取样信号能量、第一频段信号能量以及第二频段信号能量。依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件，其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松，其中当目标音框的前一音框所对应的原始语音取样信号为子音信号时，依据目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值，以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值判断目标音框所对应的原始语音取样信号是否为子音信号。

在本发明的一实施例中，上述的语音信号处理方法还包括下列步骤。计算目标音框的过零率。判断目标音框的前一音框所对应的原始语音取样信号是否为子音信号。若目标音框的前一音框所对应的原始语音取样信号为子音信号，还依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号，其中当目标音框的过零率大于预设过零率、第一比值大于第一预设值且第二比值大于第二预设值时，目标音框所对应的原始语音取样信号为子音信号。

在本发明的一实施例中，当目标音框的过零率大于预设过零率且第一比值大于第三预设值时，目标音框所对应的原始语音取样信号为子音信号，其中第三预设值大于第一预设值。

在本发明的一实施例中，上述的语音信号处理方法还包括，判断目标音框的前两个音框所对应的原始语音取样信号是否皆为子音信号。若目标音框的前两个音框所对应的原始语音取样信号皆为子音信号，还依据目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第三比值判断目标音框所对应的原始语音取样信号是否为子音信号。

在本发明的一实施例中，上述的语音信号处理方法，还包括下列步骤。计算目标音框的过零率。判断目标音框的前两个音框所对应的原始语音取样信号是否皆为子音信号。若目标音框的前两个音框所对应的原始语音取样信号皆为子音信号，还依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号，其中当目标音框的过零率大于预设过零率、第一比值大于第一预设值、第二比值小于第二预设值且第三比值小于第三预设值时，目标音框所对应的原始语音取样信号为子音信号，其中第二预设值与第三预设值小于等于1。

在本发明的一实施例中，上述的语音信号处理方法还包括下列步骤。计算目标音框的过零率。判断目标音框的前一音框所对应的原始语音取样信号是否为子音信号。若目标音框的前一音框所对应的原始语音取样信号不为子音信号，依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的第三比值判断目标音框所对应的原始语音取样信号是否为子音信号，其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量且第三比值大于第一预设值，目标音框所对应的原始语音取样信号为子音信号。

在本发明的一实施例中，其中若目标音框的前一音框所对应的原始语音取样信号不为子音信号，语音信号处理方法还包括，依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及第一比值判断目标音框所对应的原始语音取样信号是否为子音信号，其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量、第三比值大于第二预设值且第一比值大于第三预设值，目标音框所对应的原始语音取样信号为子音信号，其中第一预设值大于第二预设值。

在本发明的一实施例中，上述第二频段高于第一频段。

基于上述，本发明的实施例依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件，其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松。如此依据目标音框之前的音框来调整子音信号判断条件，可有效改善因子音信号误判而造成声音断断续续的情形，而提高听者聆听声音的舒适度以及语音信号的可辨识度。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。

附图说明

图1是依照本发明一实施例的语音信号处理装置的示意图。

图2是依照发明一实施例的语音信号处理方法的流程示意图。

图3是依照发明另一实施例的语音信号处理方法的流程示意图。

符号说明

102：滤波单元

104：处理单元

sf1～sfn：滤波信号

s1：语音信号

s2：第一带通滤波信号

s3：第二带通滤波信号

s4：低通滤波信号

s202～s218、s302～s304：语音辨识方法的步骤

具体实施方式

图1是依照本发明一实施例的语音信号处理装置的示意图，请参照图1。语音信号处理装置包括滤波单元102以及处理单元104，滤波单元102耦接处理单元104。滤波单元102可对语音信号s1进行低通滤波以及第一频段、第二频段的带通滤波，以分别产生低通滤波信号s4、第一带通滤波信号s2以及第二带通滤波信号s3。其中带通滤波单元102可例如包括低通滤波器与带通滤波器，而处理单元104可例如以中央处理单元来实施，然不以此为限，另外第一频段以及第二频段至少其中之一为子音频段。举例来说，在本实施例中，低通滤波的切断频率为0～2khz，而第一频段以及第二频段分别为2khz～4khz以及4khz～12khz，然不以此为限。

处理单元104可对语音信号s1、第一带通滤波信号s2以及第二带通滤波信号s3进行取样，并将语音信号s1、第一带通滤波信号s2以及第二带通滤波信号s3分割为多个音框，其中各个音框可包括n个语音信号s1的取样信号、n个第一带通滤波信号s2的取样信号以及n个第二带通滤波信号s3的取样信号，其中n为正整数。处理单元104还可计算各个音框中取样信号的能量，以获得原始语音取样信号能量、第一频段信号能量以及第二频段信号能量，其中原始语音取样信号能量、第一频段信号能量以及第二频段信号能量分别对应音框中语音信号s1的取样信号、第一带通滤波信号s2的取样信号以及第二带通滤波信号s3的取样信号的能量。

在获得原始语音取样信号能量、第一频段信号能量以及第二频段信号能量后，处理单元104便可依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件，其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松。进一步来说，当目标音框的前一音框所对应的原始语音取样信号为子音信号时，处理单元104可依据目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值，以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值，来判断目标音框所对应的原始语音取样信号是否为子音信号。在部分实施例中，处理单元104还可计算目标音框的过零率，并进一步依据目标音框的过零率判断目标音框所对应的原始语音取样信号是否为子音信号。

而当目标音框的前一音框所对应的原始语音取样信号不为子音信号时，处理单元则可依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和、目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的比值以及上述的第一比值，来判断目标音框所对应的原始语音取样信号是否为子音信号。其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于第三预设值且第一比值大于第四预设值，目标音框所对应的原始语音取样信号为子音信号，其中第二预设值大于第三预设值。

如依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件，使目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松，便可有效改善因子音信号误判而造成声音断断续续的情形，而提高听者聆听声音的舒适度以及语音信号的可辨识度。

举例来说，当目标音框的前一音框所对应的原始语音取样信号为子音信号时，处理单元104判断对应一目标音框(例如第m个音框，m为正整数)的原始语音取样信号是否为子音信号的方式，可以下列式子来判断：

其中，当代表对应第m个音框的原始语音取样信号为子音信号，而当代表对应第m个音框的原始语音取样信号不为子音信号。也就是说，只要为1，且和其中一个为1，即判断对应第m个音框的原始语音取样信号为子音信号。另外则可分别以下列式子表示：

其中为第m个音框的过零率，zth1为预设过零率，其可例如设定为20，然不以此为限。另外，eb1m为第m个音框的第一频段信号能量、eb2m为第m个音框的第二频段信号能量，eb1m-1为第m-1个音框的第一频段信号能量、eb2m-1为第m-1个音框的第二频段信号能量，而em为第m个音框的原始语音取样信号能量，γ1为第一预设值，γ2为第二预设值，γ3为第三预设值，其中γ3大于γ1，例如在本实施例中，γ3可为0.75，γ1可为0.6，然不以此为限。此外，γ2值可依设计者的需求设定，例如在本实施例中，例如在本实施例中，γ2值可为0.8，然不以此为限，例如在其他实施例中，γ2值也可为1.1、1、0.9或0.7。

此外，当目标音框的前一音框所对应的原始语音取样信号不为子音信号时，处理单元104判断对应第m个音框的原始语音取样信号是否为子音信号的方式，可以下列式子来判断：

类似地，当代表对应第m个音框的原始语音取样信号为子音信号，而当代表对应第m个音框的原始语音取样信号不为子音信号。也就是说，只要为1，且和其中一个为1，即判断对应第m个音框的原始语音取样信号为子音信号。另外则可分别以下列式子表示：

其中eth为预设能量，其可例如设定为24，然不以此为限。为第m个音框的过零率，zth为预设过零率，其可例如设定为22，然不以此为限。另外，α1为第四预设值，α2为第五预设值，α3为第六预设值，其中α1大于α2，例如在本实施例中，α1可为0.8，α2可为0.35，然不以此为限。此外，α3值可依设计者的需求设定，例如在本实施例中，例如在本实施例中，α3值可为1，然不以此为限。

值得注意的是，上述预设能量与预设值的设定值仅为示范性的实施例，本发明并不以上述所举数值为限，只要是预设能量与预设值的设定可使第m-1个音框所对应的原始语音取样信号为子音信号时所对应的子音信号判断条件较第m-1个音框所对应的原始语音取样信号不为子音信号时所对应的子音信号判断条件宽松，皆可做为本发明的预设能量与预设值。

此外，在部分实施例中，处理单元104也可依据目标音框之前的多个音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件，以进一步避免子音信号的误判。举例来说，当目标音框(第m个音框)的前两个音框(第m-1个音框以及第m-2个音框)所对应的原始语音取样信号皆为子音信号时，处理单元可依据第m-1个音框所对应的第一频段信号能量以及第二频段信号能量的和与第m-2个音框所对应的第一频段信号能量以及第二频段信号能量的和之间的比值来判断第m个音框所对应的原始语音取样信号是否为子音信号，也就是说，上述可改以下列式子表示：

其中k1为第七预设值，k2为第八预设值，k3为第九预设值，其中k1小于上述式(4)的γ1，k1可例如为0.5，然不以此为限，其可依设计者的需求设定。k2与k3则可例如设定为小于等于1的值，然也不以此为限。以此类推，也可依据目标音框之前的更多个音框所对应的原始语音取样信号来判断目标音框是否为子音信号。其判断方式类似于依据目标音框之前的2个音框所对应的原始语音取样信号进行子音信号判断的方式，因此在此不再赘述。

图2是依照本发明一实施例的语音信号处理方法的流程示意图，请参照图2。由上述实施例可知，语音辨识装置的语音辨识方法可包括下列步骤。首先，对语音信号进行第一频段以及第二频段的带通滤波，以分别产生第一带通滤波信号以及第二带通滤波信号，其中第一频段以及第二频段至少其中之一为子音频段(步骤s202)。接着，将语音信号、第一带通滤波信号以及第二带通滤波信号分割为多个音框(步骤s204)。然后，计算此些音框中取样信号的能量，以获得对应此些音框的原始语音取样信号能量、第一频段信号能量以及第二频段信号能量(步骤s206)。之后，判断目标音框的前一音框所对应的原始语音取样信号是否为子音信号(步骤s208)。若目标音框的前一音框所对应的原始语音取样信号为子音信号，依据目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值，以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值，来判断目标音框所对应的原始语音取样信号是否为子音信号(步骤s210)。

在部分实施例中，步骤s210可如图2所示包括，可先计算目标音框的过零率(步骤s212)，然后再依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框所对应的原始语音取样信号能量之间的第一比值，以及目标音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第二比值，来判断目标音框所对应的原始语音取样信号是否为子音信号(步骤s214)。其中当目标音框的过零率大于预设过零率、第一比值大于第一预设值且第二比值大于第二预设值时，目标音框所对应的原始语音取样信号为子音信号，另外，若目标音框的过零率大于预设过零率且第一比值大于第三预设值，也判断目标音框所对应的原始语音取样信号为子音信号，其中第三预设值大于第一预设值。

另外，若在步骤s208判断出目标音框的前一音框所对应的原始语音取样信号不为子音信号，则可接着计算目标音框的过零率(步骤s216)，然后再依据目标音框的过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和以及目标音框所对应的第二频段信号能量与原始语音取样信号能量之间的第三比值、目标音框所对应的第一频段信号能量与第二频段信号能量的和以及上述的第一比值，来判断目标音框所对应的原始语音取样信号是否为子音信号(步骤s218)。其中若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量且上述的第三比值大于第四预设值，可将目标音框所对应的原始语音取样信号判断为子音信号。另外，若目标音框的过零率大于预设过零率、目标音框所对应的第一频段信号能量以及第二频段信号能量的和大于预设能量、第三比值大于第五预设值且第一比值大于第六预设值，也可将目标音框所对应的原始语音取样信号判断为子音信号，其中第四预设值大于第五预设值。

图3是依照本发明另一实施例的语音信号处理方法的流程示意图，请参照图3。本实施例与图2实施例的不同之处在于，在步骤s210可包括依据目标音框的前两个音框所对应的原始语音取样信号来调整子音信号判断条件的步骤。如图3所示，在步骤s212后，还判断目标音框的前两个音框所对应的原始语音取样信号是否皆为子音信号(步骤s302)，若目标音框的前两个音框所对应的原始语音取样信号非皆为子音信号，可以图2实施例的步骤s214进行子音信号的判断。而若目标音框的前两个音框所对应的原始语音取样信号皆为子音信号，则可依据目标音框的过零率、目标音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和与目标音框的前一音框的前一音框所对应的第一频段信号能量以及第二频段信号能量的和之间的第四比值判断目标音框所对应的原始语音取样信号是否为子音信号(步骤s304)。其中若目标音框的过零率大于预设过零率、上述的第一比值大于一第七预设值、上述的第二比值小于第八预设值且第四比值小于第九预设值时，可将目标音框所对应的原始语音取样信号判断为子音信号，其中第八预设值与第九预设值小于等于1。

综上所述，本发明的实施例依据目标音框的前一音框所对应的原始语音取样信号是否为子音信号来调整目标音框的子音信号判断条件，其中目标音框的前一音框所对应的原始语音取样信号为子音信号时所对应的目标音框的子音信号判断条件较目标音框的前一音框所对应的原始语音取样信号不为子音信号时所对应的目标音框的子音信号判断条件宽松。如此依据目标音框之前的音框来调整子音信号判断条件，可有效改善因子音信号误判而造成声音断断续续的情形，而提高听者聆听声音的舒适度以及语音信号的可辨识度。

虽然本发明已以实施例揭示如上，然其并非用以限定本发明，任何所属技术领域中技术人员，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视权利要求所界定者为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杜博仁;张嘉仁;曾凯盟
技术所有人：宏碁股份有限公司
我是此专利的发明人

上一篇：一种鞋业用闩凸轮式皮革固体废弃物破碎装置的制作方法
上一篇：土壤研磨离心式筛分机的制作方法