声音判别系统、声音判别方法以及声音判别用程序的制作方法

文档序号：2825197阅读：124来源：国知局

专利名称：声音判别系统、声音判别方法以及声音判别用程序的制作方法
技术领域：
本发明涉及声音判别系统、声音判别方法以及声音判别用程序，尤其涉及用于音响信号中的声音和非声音判别的声音判别系统、声音判别方法以及声音判别用程序。
背景技术：
作为这种现有的声音判别系统，例如在专利文献1中公开了如图8所示的结构。当参照图8时，该现有的声音判别系统具有声学信号输入单元810、特征量提取单元821、声学得分计算单元824、似然比计算单元822、声音判别单元823、声音模型存储单元831以及非声音模型存储单元832。对图8的现有声音判别系统的动作进行概括说明。从声学信号输入单元810所输入的声学信号中，通过特征量提取单元821来分析特征量。作为特征量采用了基于LPC(Linear Predictive Coefficient 线性预测系数)分析的对数倒频谱和其一次时间微分。倒频谱是在声学信号的频域中的性质、即表现了对数波谱包络的形状的特征量。相对于按例如32msec来区域化的帧，进行特征量的分析。声学得分计算单元824，针对利用特征量提取单元821求出的特征量来分别计算相对于在声音模型存储单元831中存储的声音模型的似然、以及相对于在非声音模型存储单元832中存储的非声音模型的似然。此外，声音模型使用声音信号预先进行学习，非声音模型使用非声音信号预先进行学习。作为这些模型例如使用HMM(Hidden Markov Model)。似然比计算单元822对利用声学得分计算单元824取得的声音模型的似然和非声音模型的似然的比进行计算。声音判别单元823在利用似然比计算单元822算出的似然比超过了规定阈值的区间持续了预订的时间时，将该区间判别为声音。在该现有的声音判别系统中，准备将表现了声学信号的频域性质的对数倒频谱作为特征量的声音和非声音模型，以帧单位来对两者的似然进行比较，所以可进行有杂音的这种程度的较强的声音判别。此外，在专利文献2中公开了作为区别具有周期性的恒定信号和白色杂音的恒定杂音信号、正确地检测恒定杂音信号区间的声音解码装置，分析在子帧内的声音信号周期，因为周期性强的信号是恒定元音等(不是杂音)的可能性高，所以判断为不是恒定杂音区间。在该专利文献2中，音调履历分析器对在从适应符号表输入的音调周期的子帧间的波动进行分析，检测信号的类似元音来判断是否是声音。即，在专利文献2中，在子帧内的声音信号的周期与元音声音波形的周期(3至10msec)对应。另外，专利文献3公开了从声音数据中提取声学参数(例如，18维的LPC对数倒频谱、零交叉数、功率等)，并基于声学参数、在元音标准图形存储部中存储的元音标准图形来进行元音的检测，根据判别结果以元音、辅音的顺序来探索词典及语法存储部，并且生成假定说法，按每一假定说法求辅音的得分(似然)，根据各得分来进行文字的选择并生成文字列数据。专利文献1 日本特开平10-254476号公报
专利文献2 日本特开2002-236495号公报专利文献3 日本特开平06-266387号公报非专利文献1 古井贞熙著，《数字声音处理》，东海大学出版会，1985年，第40页非专利文献2 贵家仁志著，《数字信号处理》，昭晃堂，1997年，第96_99页在参照图8进行了说明的上述现有的声音判别系统中具有如下的问题点，例如将在时间上的局部分析中取得接近声音的特征量这样的杂音、即表示在局部具有与声音相同的性质的杂音误判别为声音。以下说明产生这样的问题的原因。在现有的声音判别系统中，一般利用比音素或音节等声音的构成单位短的时间长度来分析作为声音模型或非声音模型的特征量使用的对数倒频谱等特征量。例如，通过按数十msec左右来区域化的短时间帧的分析来取得特征量。即，对数倒频谱等特征量可称为表示声学信号中的时间上的局部的性质。可是，在杂音中局部分析的结果是还存在多个如取得与从声音中得到的特征量非常接近的特征量的杂音。例如，当局部分离杂音进行分析时，经常有取得接近作为声音的音
素/a/或音素/s/等的特征量的情况。其结果是，在以帧单位来比较声音和非声音的似然的现有声音判别系统中，在局部分析中取得接近声音的特征量的杂音被误判别为声音。在专利文献2中公开了对元音具有的信号波形电平的周期性进行检测的结构，不过此方法也利用一个元音具有的局部特征来判别声音，所以仍存在表示局部上接近声音的特征的杂音被误判别为声音这样的问题。另外，在从声学模型导出元音类似度的专利文献 3中，未记载对将表示与声音相同的性质的杂音误判别为声音这样的课题的认识。

发明内容
因此，本发明是鉴于上述课题而作出的，其主要目的为，提供对于即使是在时间上的局部分析中取得接近声音的特征量这样的杂音，也能正确地判别为非声音的声音判别系统以及方法、和计算机程序。本申请中公开的发明，为了解决上述课题，可构成为如下概括的结构。本发明涉及的系统(装置)具有声音模型存储单元，其存储有声音的声学模型；元音得分计算单元，其通过参照所述声学模型，针对输入的声学信号的各个时刻来计算表示元音类似度的元音得分；时间规律性分析单元，其分析所述元音得分的时间规律性；以及声音判别单元，其采用所述元音得分的时间规律性来判别输入声学信号是声音还是非声
曰°本发明涉及的系统(装置)具有声音模型存储单元，其存储有声音的声学模型；子词边界得分计算单元，其通过参照所述声学模型，针对输入的声学信号的各个时刻来计算表示子词边界类似度的子词边界得分；时间规律性分析单元，其分析所述子词边界得分的时间规律性；以及声音判别单元，其采用所述子词边界得分的时间规律性来判别输入声
学信号是声音还是非声音。本发明涉及的方法含有声音判别装置参照在声音模型存储单元中存储的声学模型，针对输入的声学信号的各个时刻来计算表示元音类似度的元音得分的步骤；所述声音判别装置分析所述元音得分的时间规律性的步骤；以及
所述声音判别装置采用所述元音得分的时间规律性来判别输入声学信号是声音还是非声音的步骤。本发明涉及的方法含有声音判别装置参照在声音模型存储单元中存储的声学模型，针对输入的声学信号的各个时刻来计算表示子词边界类似度的子词边界得分的步骤；所述声音判别装置分析所述子词边界得分的时间规律性的步骤；以及所述声音判别装置采用所述子词边界得分的时间规律性来判别输入声学信号是声音还是非声音的步骤。本发明涉及的存储介质，存储使计算机执行以下的处理的程序数据处理装置通过参照在声音模型存储单元中存储的声学模型，针对输入的声学信号的各个时刻来计算表示元音类似度的元音得分的元音得分计算处理；所述数据处理装置分析所述元音得分的时间规律性的时间规律性分析处理；以及所述数据处理装置采用所述元音得分的时间规律性来判别输入声学信号是声音还是非声音的声音判别处理。本发明涉及的存储介质，存储使计算机执行以下的处理的程序数据处理装置通过参照在声音模型存储单元中存储的声学模型，针对输入的声学信号的各个时刻来计算表示子词边界类似度的子词边界得分的子词边界得分计算处理；所述数据处理装置分析所述子词边界得分的时间规律性的时间规律性分析处理；以及所述数据处理装置采用所述子词边界得分的时间规律性来判别输入声学信号是
声音还是非声音的声音判别处理。根据本发明，通过对基于声音语言特征的周期性、即音节构造的周期性进行分析，在时间上的局部分析中，对如取得接近声音的特征量这样的杂音可正确地判别为是非声
曰O

图1是表示本发明第1实施例的结构的图。图2是表示本发明第1实施例的动作的流程图。图3是示意性地表示在本发明第1实施例中针对“ 二凡仁6这”这样的声音的元音得分的时间系列曲线图的图。图4是表示本发明第2实施例的结构的图。图5是表示本发明第2实施例的动作的流程图。图6是示意性地表示在本发明第2实施例中针对“ 二凡仁6这”这样的声音的音节边界得分的时间系列曲线图的图。图7是表示本发明第3实施例的结构的图。图8是表示现有的声音判别系统的结构的图。符号说明110声学信号输入单元；120数据处理装置；121特征量提取单元；122时间规律性分析单元；123声音判别单元；124元音得分计算单元；130存储装置；131声音模型存储单元；410声学信号输入单元；420数据处理装置；421特征量提取单元；422时间规律性分析单元；423声音判别单元；424子词边界得分计算单元；430存储装置；431声音模型存储单元；710输入装置；720数据处理装置；730存储装置；731声音模型存储部；740输出装置； 750声音判别用程序；810声学信号输入单元；821特征量提取单元；822似然比计算单元； 823声音判别单元；824声学得分计算单元；831声音模型存储单元；832非声音模型存储单元；
具体实施例方式参照附图对上述本发明的详细内容进行说明。此外，显然在以下说明中括号内的参照序号仅仅是为了便于掌握本发明的结构，而并不限定本发明。本发明的第一声音判别系统具有声音模型存储单元(图1的131)，其对元音以及含有元音的音素等的声学模型进行存储；元音得分计算单元(图1的124)，其通过参照声学模型，针对输入声学信号的各个时刻来计算表示元音类似度的元音得分；时间规律性分析单元(图1的122)，其根据元音得分的时间系列数据来对时间规律性进行分析；以及声音判别单元(图1的123)，其根据是否具有声音得分的时间系列数据的时间规律性来判断输入声学信号是声音还是非声音。声音判别单元(图1的123)，在元音得分具有时间规律性时，判别输入声学信号为声音，在元音得分不具有时间规律性时，判别为非声音。通过上述结构，在时间上的局部分析中，即使是如取得接近声音的特征量这样的杂音也能够被正确地判别为非声音。另外，本发明的第二声音判别系统具有子词边界得分计算单元(图4的424)，其在上述本发明的第一声音判别系统结构内的声音模型存储单元(图1的131)中预先存储音素及音节等子词单位的声学模型，并代替所述本发明的第一声音判别系统结构中的元音得分计算单元(图1的124)，通过参照子词单位的声学模型，针对输入声学信号的各个时刻来计算表示子词边界类似度(音素边界类似度或音节边界类似度)的子词边界得分。其他结构与所述本发明的第一声音判别系统的结构相同。在子词边界得分的时间系列具有时间规律性时，输入声学信号被判别为声音，在子词边界得分的时间系列不具有时间规律性时，被判别为非声音。通过上述结构，在时间上的局部分析中，即使是如取得接近声音的特征量这样的杂音也能够被正确地判别为非声音。如上所述，在本发明中通过使用声音的声学模型来求出表示元音类似度的元音得分、或表示子词边界类似度的子词边界得分的时间系列，在求出的得分的时间系列具有时间规律性(周期性)时，输入声学信号被判别为声音，在不具有时间规律性时，输入声学信号被判别为非声音。一般，在声音信号中有音素及音节等子词伴随着时间规律性而出现这样的性质。即，在声音信号中，音素及音节等子词依次变化，其变化的时间间隔一般处于从数十msec到数百msec左右的范围内。另一方面，在杂音等非声音信号中，即使存在利用时间上的局部分析而取得接近于音素及音节等的特征量的情况，也几乎没有以数十msec到数百msec的时间间隔依次出现接近各种子词的信号这样的情况。因此，伴随着时间规律性而依次出现各种子词这样的性质可称为是声音信号中特有的性质。
本发明为了能在这样的声音信号中捕捉特有的性质，而分析基于声音的语言特征的周期性(规律性)。即，判断在表示元音类似度的元音得分、或表示子词边界类似度的子词边界得分的时间系列数据中是否存在时间规律性，当具有时间规律性时被判别为声音。在非声音信号中因为元音得分或子词边界得分具有时间规律性的情况很少，所以即使是利用时间上的局部分析而取得接近声音的特征量的杂音也能够被正确地判别为非声音。此外，为了正确地捕捉各种子词伴随时间规律性而依次出现这样的声音信号特有的性质，需要高精度地求出元音得分或子词边界得分。在本发明中，因为使用了音素或音节等声音的声学模型，所以可高精度地计算这些得分。以下，利用实施例进行说明。实施例图1是表示本发明第一实施例的框图。参数图1，本发明的第一实施例具有声学信号输入单元110、数据处理装置120以及存储信息的存储装置130。存储装置130具有声音模型存储单元131。在声音模型存储单元131中存储有元音及包含元音的音素等的声学模型。数据处理装置120具有特征量提取单元121、元音得分计算单元124、时间规律性分析单元122以及声音判别单元123。特征量提取单元121对从声学信号输入单元110输入的声学信号进行分析并提取特征量的时间系列。元音得分计算单元124通过参照在声音模型存储单元131中存储的声学模型，针对由特征量提取单元121所提取的各个时刻的特征量来计算元音得分。时间规律性分析单元122对由元音得分计算单元124取得的元音得分的时间规律性进行分析。声音判别单元123根据是否具有元音得分的时间规律性来判断输入声学信号是
声音还是非声音。此外，数据处理装置120中的各个单元(特征量提取单元121、元音得分计算单元 124、时间规律性分析单元122、声音判别单元123)显然可以通过在数据处理装置120 (计算机)上执行的程序来实现其功能及处理(参照第三实施例)。图2是用于说明本发明第一实施例的处理顺序的流程图。参照图1以及图2的流程，对本实施例的整体动作进行详细的说明。首先，利用声学信号输入单元110来向系统输入声学信号(图2的步骤Al)。声学信号输入单元110可以通过麦克风等实时地输入声音，也可以输入预先存储在硬盘或磁带等存储介质中的声学信号。特征量提取单元121分析已输入的声学信号，并提取用于表现声学信号的波谱形状的特征量的时间系列(图2的步骤A2)。特征量按被称为“帧”的时间单位来进行分析。一个帧的长度例如是数十msec左右。另外，作为特征量可以使用例如MFCC(Mel-scale Frequency Cepstral Coefficients)等。MFCC是在考虑了人类听觉特性的基础上表现出对数频率波谱的包络的特征量，可广泛地应用在声音判别等中。
声音模型存储单元131存储有元音及包含元音的音素等的声学模型。在声音模型存储单元131中存储的声学模型例如是作为可广泛应用在声音判别领域中的模型的 HMM(Hidden Markov Model)或 GMM(Gaussian Mixture Model)，可预先利用声音信号来学习元音或含有元音的音素。元音得分计算单元124参照在声音模型存储单元131中存储的声学模型，针对由特征量提取单元121提取的各个时刻的特征量(特征量的时间系列)来计算元音得分(图 2的步骤A3)。这里，所谓元音得分是表示输入声学信号的类似元音的尺度。该元音得分可通过使用元音或含有元音的音素的声学模型，以如下的方法求出。S卩，如果在声音模型存储单元131中存储的声学模型是元音模型，则能够将元音模型相对于特征量的似然直接设为元音的得分。另外，如果在声音模型存储单元131中存储的声学模型是音素模型，则也能够将与/a/、/i/、/u/、/e/、/o/这样的元音相当的满足了模型似然的值设为元音得分。当在声音模型存储单元131中存储的声学模型含有辅音等元音以外的音素时，还可以将按以下公式(1)计算的元音的后验概率设为元音的得分。
权利要求
1.一种声音判别系统，其特征在于，具有声音模型存储单元，其存储了声音的声学模型；子词边界得分计算单元，其通过参照所述声学模型，针对输入的声学信号的各个时刻来计算表示子词边界类似度的子词边界得分；时间规律性分析单元，其分析所述子词边界得分的时间规律性；以及声音判别单元，其采用所述子词边界得分的时间规律性来判别输入声学信号是声音还是非声音。
2.一种声音判别方法，其特征在于，含有以下的步骤数据处理装置参照在声音模型存储单元中存储的声学模型，针对输入的声学信号的各个时刻来计算表示子词边界类似度的子词边界得分的步骤；所述数据处理装置分析所述子词边界得分的时间规律性的步骤；以及所述数据处理装置采用所述子词边界得分的时间规律性来判别输入声学信号是声音还是非声音的步骤。
3.一种声音判别装置，其特征在于，具有存储单元，其存储有构成声音的子词单位的声学模型；声学信号输入单元，其输入声学信号；特征量提取单元，其分析来自所述声学信号输入单元的输入声学信号，并提取特征量的时间系列；子词边界得分计算单元，其参照在所述存储单元中存储的声学模型，针对所述特征量提取单元所提取的特征量的时间系列来计算在输入声学信号中作为表示子词单位的边界类似度的尺度的子词边界得分的时间系列；时间规律性分析单元，其针对由所述子词边界得分计算单元取得的子词边界得分的时间系列来分析时间规律性；以及声音判别单元，其判断在所述子词边界得分的时间系列中是否具有时间规律性，在具有时间规律性时，所述输入声学信号被判别为声音的可能性高，在没有时间规律性时输入声学信号被判别为非声音。
4.根据权利要求3所述的声音判别装置，其特征在于，所述声音判别单元，当在所述得分的时间系列中判别出有时间规律性即周期性时，判断所述周期是否处于预定的规定范围内，当所述周期处于所述规定的范围内时，输入声学信号被判别为声音，在所述周期未处于所述规定的范围内时，输入声学信号被判别为非声
全文摘要
本发明提供即使是在时间上的局部分析中取得了接近声音的特征量这样的杂音也能正确地判别为非声音的声音判别系统。该声音判别系统具有特征量提取单元(421)，其分析由声学信号输入单元(410)输入的声学信号并提取特征量的时间系列；子词边界得分计算单元(424)，其参照在声音模型存储单元(431)中存储的声音的声学模型来计算子词边界得分的时间系列；时间规律性分析单元(422)，其分析子词边界得分的时间规律性；以及声音判别单元(423)，其使用子词边界得分的时间规律性来判断输入声学信号是声音还是非声音。
文档编号G10L15/14GK102222499SQ20111015737
公开日2011年10月19日申请日期2006年10月10日优先权日2005年10月20日
发明者寺尾真申请人:日本电气株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：寺尾真
技术所有人：日本电气株式会社
我是此专利的发明人

上一篇：声音判别系统、声音判别方法以及声音判别用程序的制作方法
上一篇：音频信号处理设备及其控制方法