语音处理装置和语音处理方法

文档序号：10472281阅读：278来源：国知局

语音处理装置和语音处理方法
【专利摘要】公开了语音处理装置和语音处理方法。根据一种实施例，语音处理装置包含增强器、转换器、滤波器和逆变换器。增强器被配置用于生成包含于输入声音内的谐波分量的频谱。转换器被配置用于将频谱转换成在调制频域内的第一信号。滤波器被配置用于过滤第一信号以通过人类语音。逆变换器被配置用于将已过滤的第一信号转换成在频域内的第二信号。
【专利说明】语音处理装置和语音处理方法
[0001]相关申请的交叉引用
[0002]本申请基于2015年I月22日提交的日本专利申请N0.2015-010666并要求其优先权；该专利申请全文并入本文，以作参考。
技术领域
[0003]本文所描述的实施例一般地涉及语音处理装置和语音处理方法。
【背景技术】
[0004]在应用了频率转换的语音信号的元音部分中观察到的谐波结构是用于检测语音段及估计基频的重要信息。为了找出谐波结构，用于从语音信号中提取谐波分量的各种方法已经被公开，这些谐波分量是构成谐波结构的频率分量。
[0005]所有此类在传统上公开的谐波分量提取方法提取具有比邻近频带的功率更强的功率的频率分量作为谐波分量。因此，当噪声包含具有比邻近频带的功率更高的功率的频率分量时，例如，当电话音调声或鸣响声(telephone tone or chime sound)被混合到语音中时，这样的方法将会提取噪声作为谐波分量。这样的噪声会对语音检测或基频估计造成不利(adversary)的影响。因此，具有创建能够针对这样的噪声稳健地提取语音谐波分量的机制的需求。

【发明内容】

[0006]实施例的目的是提供能够针对噪声稳健地提取语音的谐波分量的语音处理装置和语音处理方法。
[0007]根据一种实施例，语音处理装置包含增强器、转换器、滤波器和逆变换器。增强器被配置用于生成其中增强包含于输入声音内的谐波分量的频谱。转换器被配置用于将频谱转换成在调制频域内的第一信号。滤波器被配置用于过滤第一信号以通过人类语音。逆变换器被配置用于将已过滤的第一信号转换成在频域内的第二信号。
[0008]根据以上所描述的语音处理装置，可以针对噪声稳健地提取语音的谐波分量。
【附图说明】
[0009]图1是示出根据一种实施例的语音处理装置的示例性的功能配置的框图；
[0010]图2是示出由根据实施例的语音处理装置执行的示例性过程的流程图；
[0011]图3是示出示例性的频谱图的示意图；
[0012]图4是示出由连结的多个占有度谱产生的示例性频谱图的示意图；
[0013]图5是示出从图4所示的频谱图中对帧100至200的提取的示意图；
[0014]图6是示出通过在每个时间增量处从图5所示的频谱图中提取频率分量(A)来采集的一维时间信号的示意图；
[0015]图7是示出通过在每个时间增量处从图5所示的频谱图中提取频率分量(B)来采集的一维时间信号的示意图；
[0016]图8是示出通过将离散傅立叶变换应用于图6所示的时间信号而产生的调制频谱的不意图；
[0017]图9是示出通过将离散傅立叶变换应用于图7所示的时间信号而产生的调制频谱的不意图；
[0018]图10是示出示例性的调制频谱图的示意图；
[0019]图11是示出通过对图10所示的调制频谱图进行过滤并执行逆转换而获得的频谱图的不意图；以及
[0020]图12是示出语音处理装置的示例性硬件配置的框图。
【具体实施方式】
[0021]根据一种实施例的语音处理装置、语音处理方法和计算机程序现在将参照附图来详细解释。根据该实施例的语音处理装置在语音检测或基频估计之前提取在输入声音中的人类语音的谐波分量。输入声音是包含声音的信号并且被输入到根据该实施例的语音处理装置。在该实施例中，包含作为与人类语音对应的片段的语音段以及非语音段的信号被作为输入声音输入到语音处理装置。
[0022]首先，现在将参照图1来解释根据该实施例的语音处理装置的配置。图1是示出根据该实施例的语音处理装置I的示例性功能配置的框图。如图1所示，语音处理装置I包含增强器11、转换器12、滤波器13、逆变换器14、检测器15和估计器16。
[0023]增强器11在每个时间增量处生成其中增强输入声音的谐波分量的频谱，并且通过连结在各个时间增量处生成的频谱来生成其中时间和频率沿各自的轴表示的频谱图。增强器11可以被配置用于从输入声音中生成频谱并且在每个时间增量处将频谱传递给转换器12，从而促使转换器12通过连结由增强器11生成的与各个时间增量对应的频谱来生成频谱图。
[0024]增强器11可以被配置用于生成例如日本专利申请特开N0.2003-173195所公开的占有度谱，作为具有增强的谐波分量的频谱。日本专利申请特开N0.2003-173195所公开的占有度谱通过下列操作来生成:用于在每个时间增量处从输入信号中提取与各个频带对应的瞬时频率的瞬时频率提取过程；用于提取每个频带的中心频率的输入信号功率的信号功率提取过程；提取在中心频率与相邻于该中心频率的每个频带的瞬时频率之间的差的频率差提取过程；以及计算每个中心频率的频率差之和并获取占有度的占有度计算过程。作为提取中心频率与相邻于该中心频率的每个频带的瞬时频率之差的替代，频率差提取过程可以提取对应于中心频率的瞬时频率与相邻于该中心频率的每个频带的瞬时频率之差。
[0025]增强器11可以被配置用于生成不同于日本专利申请特开N0.2003-173195所公开的占有度谱的频谱，作为具有增强的谐波分量的频谱。例如，增强器11可以生成例如 Kenichi Noguchi 等人的 “Single-channel non-stat1nary noise reduct1n in ateleconference，，(IEICE Technical Report，Engineering Acoustics (EA) 105 (403)，PP.31-36(2005))所公开的LPC残差谱，作为具有增强的谐波分量的频谱。例如，增强器11同样可以生成由通过对输入声音应用倒谱分析来抑制(提升(Iiftering))低阶分量并且对结果应用逆离散余弦变换而获得的频谱，作为具有增强的谐波分量的频谱。作为另一个例子，增强器11同样可以生成下面的引用文献I所公开的瞬时频谱，作为具有增强的谐波分量的频谱。
[0026]引用文献1:Toshihiko Abe 等，“Pitch Estimat1n Based on InstantaneousFrequency in Noisy Enviroments，，，The Transact1ns of the Institute ofElectronics, Informat1n and Communicat1n Engineers, D-1I INFORMAT1N-SYSTEM,11-1NFORMAT1N J79-D-2(11)，pp.1771-1781(1996)
[0027]转换器12将由增强器11生成的频谱图转换成在调制频域内的信号。通过在每个时间增量处从由增强器11生成的频谱图中提取特定频率仓的分量，一维时间信号被获得。通过对时间信号进行频率转换，在调制频域内的频谱被获得。这个所获得的频谱称为调制频谱。在调制频谱中的频率方向轴表示调制频率。转换器12能够通过对频谱图中的每个频率仓执行以上所公开的过程，将由增强器11生成的频谱图转换成其中调制频率和频率沿各自的轴来表示的调制频谱图。
[0028]滤波器13过滤调制频谱图以通过人类语音。已知的是，对于人类语音的可理解度重要的信息分布于沿着调制频率轴的I赫兹至16赫兹周围(例如，见下面的引用文献2)。例如，利用这种特性，滤波器13可以使用令在调制频率轴内的I赫兹至16赫兹附近的分量通过的滤波器并且去除不同于此类分量的任意分量来过滤调制频谱图。
[0029]引用文献2:N.Kanedera 等，“On the properties of modulat1n spectrum forcontinuous speech recognit1n，，，Proceedings of Acoustical Society of Japan，1999(1)，pp.3-4(1999)。
[0030]逆变换器14执行用于将由滤波器13过滤的调制频谱图转换成在原始频域(与通过转换器12来转换频谱之前的频谱图的频域相同的频域)中的频谱图的频率逆变换。通过从由滤波器13过滤的调制频谱图中提取特定频率仓的分量，在一维调制频域内的信号被获得。通过对该信号执行频率逆变换，与特定频率仓对应的时间信号被获得。逆变换器14能够通过对在调制频谱图中的每个频率仓执行以上所描述的过程，将由滤波器13过滤的调制频谱图转换成在原始频域内的频谱图。
[0031]通过由逆变换器14执行的过程获得的频谱图代表其中包含于输入声音内的人类语音的谐波分量被增强的信号。换言之，根据该实施例的语音处理装置I能够通过促使增强器11到逆变换器14将它们相应的过程应用于输入声音来适当地提取包含于输入声音内的人类语音的谐波分量。
[0032]检测器15基于由逆变换器14生成的频谱图从输入声音中检测出语音段。语音段可以使用例如用于将频谱图分割成多个频谱的方法并且通过获得在与各个时间增量对应的每个频谱内的每个频率仓的平均功率来检测，但没有任何限制。在这种情况下，例如，检测器15在输入声音的片段中检测出具有超过阈值的平均功率的片段作为语音段。检测器15同样可以使用以下方法检测出语音段:将每个频谱传递到各自具有不同的梳状间隔的各种梳状滤波器内，并且使用最大响应来检测语音段。在这种情况下，例如，检测器15在输入信号的片段中检测可从其中获得最大响应的片段作为语音段。同样可以从用于输出最大响应的梳状滤波器的梳状间隔中估计基频。
[0033]估计器16基于由逆变换器14生成的频谱图来估计包含于输入声音内的人类语音的基频。由估计器16执行的基频估计可以对由检测器15检测出的语音段执行，或者可以与由检测器15执行的语音检测并行地执行。作为基频估计方法，估计器16可以使用用于使用在谐波结构中的占有度来估计基频的方法，如同例如日本专利申请特开N0.2003-173195所公开的，但没有任何限制。
[0034]由根据该实施例的语音处理装置I执行的操作现在将参照图2来解释。图2是示出由语音处理装置I执行的示例性过程的流程图。每当一段输入声音被输入语音处理装置I时，示于图2的流程图中的一系列步骤就被重复。
[0035]首先，当图2的流程图所示的过程开始时，增强器11在每个时间增量处生成其中增强了输入声音的谐波分量的频谱(步骤S101)。增强器11然后通过连结在各个时间增量处生成的频谱来生成具有由各自的轴表示的时间和频率的频谱图(步骤S102)。由增强器11生成的频谱图被供应给转换器12。
[0036]转换器12然后将由增强器11供应的频谱图转换成具有由各自的轴表示的调制频率和频率的调制频谱图(步骤S103)。通过促使转换器12转换频谱图而获得的调制频谱图被供应给滤波器13。
[0037]滤波器13然后过滤由转换器12供应的调制频谱图以通过人类语音(步骤S104)。由滤波器13过滤的调制频谱图(已经通过滤波器的)被供应给逆变换器14。
[0038]逆变换器14然后将由滤波器13供应的调制频谱图(已过滤的调制频谱图)转换成具有由各自的轴表示的时间和频率的频谱图(步骤S105)。通过促使逆变换器14转换调制频谱图而获得的频谱图被供应给检测器15。
[0039]检测器15然后基于由逆变换器14供应的频谱图从输入声音中检测出语音段(步骤S106)。由检测器15检测出的语音段的信息被供应给估计器16，并且同样被输出到例如输出装置(例如，显示器或扬声器)、文件存储器件(例如，硬盘驱动器(HDD))，或者与网络连接的通信接口(I/F)。
[0040]估计器16然后基于由逆变换器14供应的频谱图来估计出由检测器15从输入声音中检测出的语音段的基频(步骤S107)。由估计器17估计出的基频的信息被输出到例如输出装置(例如，显示器或扬声器)、文件存储器件(例如，HDD)，或者与网络连接的通信接口 I/F。
[0041]由根据该实施例的语音处理装置I执行的示例性过程现在将使用某些具体的实例来更详细地解释。在这些实例中，假定日本专利申请特开N0.2003-173195所公开的占有度谱由增强器11生成为频谱(其中增强了输入声音的谐波分量的频谱)。
[0042]图3是示出通过将输入声音转换成多个帧并且对各个帧的信号进行频率转换而产生的示例性频谱图的示意图。在图3中，横轴代表帧编号，而纵轴代表频率仓编号。从图3所示的这种频谱图中能够观察出，语音在输入声音的帧100至200附近被发现。该片段是语音段。在该语音段中，包含按相等间隔沿频率轴布置的强功率分量的结构代表在元音部分中观察到的谐波结构。在图3所示的示例性频谱图中，除了谐波分量外，具有强功率的音调声在第30频率仓附近被稳定地观察到。
[0043]图4是示出通过使用日本专利申请特开N0.2003-173195所公开的方法从与图3中所使用的输入声音相同的输入声音中提取单位为I帧的占有度谱并且通过连结占有度谱而获得的示例性频谱图的示意图。将图4所示的频谱图与图3所述的频谱图进行比较，能够观察出，因为图4表示占有度谱的提取，输入声音的谐波分量被增强，附近的背景噪声被抑制。但是，音调声没有被抑制，而是按照与语音的谐波分量相同的方式被增强。这是因为，通过占有度谱提取方法，具有比邻近频带的功率强的功率的信号分量被认为是谐波分量，并被增强。如果噪声与语音混合在一起的此类占有度谱照原样来使用，则语音检测和基频估计无法被正确地执行。
[0044]图5是示出从图4所示的频谱图中对帧100至200的提取的示意图。在下文中，在本例中，在解释图2的流程图中的步骤S103至步骤S105所执行的具体操作时，该片段被假定为待分析的片段。
[0045]在步骤S103，转换器12将频谱图转换成调制频谱图。现在于本例中解释图5所示的示例性的两个频率(A)和(B)。频率(A)代表第80频率仓，并且频率(B)代表第30频率仓。
[0046]图6是示出通过在每个时间增量处从图5所示的频谱图中提取频率分量㈧而获得的一维时间信号的示意图。从图6所示的时间信号中能够看出，在频率(A)处的信号具有波动较大的振幅(占有度)。这是因为在谐波分量与频率(A)重叠的时间增量处以及在谐波分量不与频率(A)重叠的时间增量处观察到不同的振幅，这是在谐波结构中谐波分量沿着频率轴的位置变化的结果，这样的变化由语音的间距的变化引起。
[0047]图7是示出通过在每个时间增量处从图5所示的频谱图中提取频率分量⑶而获得的一维时间信号的示意图。将图7所示的时间信号与图6所示的时间信号进行比较，能够看出，在图7中的信号具有比图6中的振幅高的振幅，并且变化比图6中的信号小。这是因为音调声的振幅在频率(B)处是主要的，并且音调声的振幅波动较小。
[0048]图8是示出通过将离散傅立叶变换应用于图6所示的时间信号而产生的调制频谱的示意图。图9是示出通过将离散傅立叶变换应用于图7所示的时间信号而产生的调制频谱的示意图。在图8中，偏移分量(在O赫兹的调制频率处的分量)具有大约15的振幅，并且其他调制频率具有最多5左右的振幅。相比之下，在图9中，偏移分量具有大约300的振幅，该振幅比其他调制频率的振幅尚得多。这是因为具有尚振幅但波动$父小的首调声分量被转换成在频域内的偏移分量。
[0049]图10是示出通过将以上所描述的过程应用于所有频率仓而获得的示例性调制频谱图的示意图。在图10所示的调制频谱图中，虽然在离包含音调声的第30频率仓很近的地方没有观察到除偏移分量外的分量，但是包含语音的其他频率仓具有除该偏移外的许多分量。
[0050]在步骤S104，滤波器13然后过滤调制频谱图以通过人类语音。在本例中使用的是用于通过在具有编号2至16的调制频率仓内的分量(由图10中的虚线包围的部分)并且将其他分量从图10所示的调制频谱图中消减到O的滤波器。通过该过程，作为在调制频域内的偏移分量的音调声被过滤掉。
[0051]在步骤S105，逆变换器14然后将由过滤频谱图而产生的调制频谱图转换成频谱图。图11是示出由过滤所示的调制频谱图并对其执行频率逆变换而产生的频谱图的示意图。将图11所示的频谱图与图5所示的频谱图比较，能够看出，在图5所示的频谱图中观察到的音调声几乎没有在图11所示的频谱图中被观察到。
[0052]基于上文，应当清楚的是，能够使用通过以设计用于通过人类语音的滤波器来过滤调制频谱图并且对已过滤的调制频谱图执行频率逆变换变换而获得的频谱图，按照受噪声(例如，音调声)影响较小的方式针对此类噪声来稳健地提取语音的谐波分量。结果，通过使用这样的频谱图来执行语音检测或基频估计，这些过程能够高度精确地执行。
[0053]如同上文使用某些特定实例来详细解释的，根据该实施例的语音处理装置I生成其中增强了输入声音的谐波分量的频谱(频谱图)，并且将频谱转换成在调制频域内的信号(转换成调制频谱图)。语音处理装置I然后通过以设计用于通过人类语音的滤波器来过滤在调制频域内的信号并且将已过滤的调制频域信号转换成在频域内的信号(频谱图)，来生成其中增强了包含于输入声音内的人类语音的谐波分量的信号。因此，以根据该实施例的语音处理装置1，即使是在语音与包含功率比邻近频带的功率强的强功率频率分量的噪声(例如，电话音调或鸣响声)混合时，语音的谐波分量能够针对噪声稳健地提取。
[0054]而且，根据该实施例的语音处理装置I能够通过基于已转换的信号来检测出语音段而从输入声音中精确地检测出语音段。而且，根据该实施例的语音处理装置I能够通过基于已转换的信号来估计基频而精确地估计出包含于输入声音内的语音的基频。
[0055]而且，根据该实施例的语音处理装置I执行使用其中增强了输入声音的谐波分量的频谱(例如，占有度谱)代替仅作为输入声音的频率变换的频谱的过程。因此，包含于例如语音频率的频谱内的任意包络分量能够被预先去除，使得谐波分量能够被有效地提取。
[0056]例如，通过将通用计算机系统用作基本硬件，并且在计算机系统上执行预定的计算机程序(软件)，根据该实施例的语音处理装置I能够实现以上所述的单元(增强器11、转换器12、滤波器13、逆变换器14、检测器15和估计器16)。
[0057]图12是示出根据该实施例的语音处理装置I的示例性硬件配置的框图。如图12所示，语音处理装置I具有通用计算机的硬件配置，包括处理器(例如，中央处理单元(CPU) 101)、存储器件(例如，随机存取存储器(RAM) 102和只读存储器(ROM) 103)、用于连接外围设备的器件I/F 104、文件存储器件(例如，HDD 105)，以及用于经由网络与外部通信的通信接口 I/F 106。
[0058]记录于记录介质内的计算机程序被提供，该计算机程序可以作为计算机程序产品来提供，例如，磁盘(例如，软盘或硬盘)、光盘(例如，压缩盘只读存储器(CD-ROM)、可记录压缩盘(⑶-R)、可重写压缩盘(⑶-RW)、数字通用压缩盘只读存储器(DVD-R0M)、可记录的数字通用压缩盘(DVD±R)、可重写的数字通用压缩盘(DVD土RW)或蓝光(Blu-ray)(注册商标)盘)，或者半导体存储器。用于记录计算机程序的记录介质可以按照任意方式来存储计算机程序，只要计算机系统能够读取这样的记录介质。计算机程序可以被配置为预先安装于计算机系统上，或者经由网络来分发并在需要时安装。
[0059]在计算机系统上执行的计算机程序具有模块结构，该模块结构包括作为根据该实施例的语音处理装置I的功能单元的单元(增强器11、转换器12、滤波器13、逆变换器14、检测器15和估计器16)。通过促使处理器读取计算机程序并在需要时执行该计算机程序，这些单元在主存储器(例如，RAM 102)上生成。
[0060]除了被实现为计算机程序(软件)之外，包含于根据该实施例的语音处理装置I内的单元(增强器11、转换器12、滤波器13、逆变换器14、检测器15和估计器16)还可以被部分地或完全地实现为专用硬件，例如，专用集成电路(ASIC)或现场可编程门阵列(FPGA) ο
[0061]而且，根据该实施例的语音处理装置I可以被配置为其中多个计算机通信地互连并且其中以上所描述的单元分布于计算机之间的网络系统。
[0062]以上描述了本发明的一种实施例。但是，本文所描述的实施例仅作为示例来给出，而并非意指以任何方式来限定本发明的范围。本文所描述的新的实施例可以按照任何其他各种方式来实施，并且各种删除、替代和修改在不脱离本发明的情况下仍然是可能的。本文所描述的实施例及其改型包含于本发明的范围和本质内，并且属于由所附权利要求以及它们的法律等效形式定义的范围。
[0063]根据本文所描述的至少一种实施例的语音处理装置，语音处理装置包含增强器、转换器、滤波器和逆变换器。增强器被配置用于生成其中增强了包含于输入声音内的谐波分量的频谱。转换器被配置用于将频谱转换成在调制频域内的第一信号。滤波器被配置用于过滤第一信号以通过人类语音。逆变换器被配置用于将已过滤的第一信号转换成在频域内的第二信号。因此，可以针对噪声稳健地提取语音的谐波分量。
[0064]虽然已经描述了某些实施例，但是这些实施例仅通过示例的方式来给出，并且并非意指限定本发明的范围。实际上，本文所描述的新的实施例可以按照多种其他形式来实施；而且，本文所描述的实施例的形式的各种删除、替代及改变可以在不脱离本发明的精神的情况下进行。所附的权利要求及它们的等效形式意指涵盖属于本发明的范围和精神内的此类形式或修改。
【主权项】
1.一种语音处理装置，包含: 被配置用于生成其中增强了包含于输入声音内的谐波分量的频谱的增强器；被配置用于将所述频谱转换成在调制频域内的第一信号的转换器；被配置用于过滤所述第一信号以通过人类语音的滤波器；以及被配置用于将已过滤的第一信号转换成在频域内的第二信号的逆变换器。2.根据权利要求1所述的装置，还包含被配置用于基于所述第二信号来检测作为包含于所述输入声音内的人类语音的片段的语音段的检测器。3.根据权利要求1所述的装置，还包含被配置用于基于所述第二信号来估计包含于所述输入声音内的人类语音的基频的估计器。4.根据权利要求1所述的语音处理装置，其中所述增强器被配置用于生成占有度谱作为所述频谱。5.一种通过语音处理装置来执行的语音处理方法，所述方法包括: 生成其中增强了包含于输入声音内的谐波分量的频谱；将所述频谱转换成在调制频域内的第一信号；过滤所述第一信号以通过人类语音；并且将已过滤的第一信号转换成在频域内的第二信号。
【文档编号】G10L21/02GK105825863SQ201510690027
【公开日】2016年8月3日
【申请日】2015年10月22日
【发明人】木田祐介
【申请人】株式会社东芝

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：木田祐介;
技术所有人：株式会社东芝;
我是此专利的发明人

上一篇：基于过零率指标的双端说话检测与回声消除方法
上一篇：一种机器人人机对话回声消除系统的制作方法