声音分析装置以及声音分析方法

文档序号：2823092阅读：457来源：国知局

专利名称：声音分析装置以及声音分析方法
技术领域：
本发明涉及通过分析输入声音，从而提取声道特征和声源特征的声音分析装置以及声音分析方法。
背景技术：
近几年，随着声音合成技术的发展，已经能够创作出音质非常高的合成音。然而，以往的合成音是以播音员的语调宣读新闻的语句等单一的用途为主。另一方面，在移动电话的服务等方面所提供的服务中逐渐普及的是某种特殊的声音(具有个人再现性的高合成音或，具有高中女学生的语气或关西方言等特殊韵律或声质的合成音)，融汇了一个内容之中，例如，以有名人物的声音消息来代替电铃声等。如上所述，为了增加个人间的交流中的乐趣，对于创作特殊的声音给对方听这样的需求也会增加。然而，作为合成声音的方法，大致有以下两种方法。第一个方法为波形连接型声音合成方法，该波形连接型声音合成方法为从预先准备的声音单元DB (数据库)中选择适合的声音单元，并且，将选择的声音单元进行连接，从而合成声音的方法。第二个方法为分析合成型声音合成方法，该分析合成型声音合成方法为对声音进行参数分析，并且，根据分析后的声音参数，合成声音的方法。若考虑对合成音的声质进行各种变化，则所述的波形连接型声音合成方法中，需要将声音单元DB仅准备必要的声质的种类，且需要在切换声音单元DB的同时连接声音单元。因此，为了创作各种声质的合成音，需要庞大的成本。另一方面，在分析合成型声音合成方法中，使分析后的声音参数发生变形，从而能够对合成音的声质进行转换。通常，在参数分析中使用被称作声源声道模型的模型。但是，在实际环境下，输入声音时可能掺进各种噪声。因此，需要对掺进的噪声采取对策。例如作为噪音抑制方法，存在专利文献1中所记载的技术。图11是专利文献1中记载的噪音抑制方法的构成图。专利文献1中记载的噪音抑制方法中，对于被推定为帧内的不包含声音成分(或者声音成分少)的频带设定比各个噪声帧的频带的增益值小的增益值，所述帧为被判断为声音帧的帧，并且，通过突出声音帧内的包含声音成分的频带，从而得到良好的听感效果。也就是说，在对输入信号进行噪音的抑制处理的噪音抑制方法中，包括声音帧判断步骤，判断帧为噪声帧还是声音帧；不同频带的增益决定步骤，根据所述声音帧判断步骤的结果，设定各个帧的不同频带的增益值；以及信号生成步骤，利用在不同频带的增益决定步骤中决定的不同频带的增益值对每个频带进行噪音抑制后对帧进行重组，从而生成被抑制了噪音的输出信号，所述噪音的抑制处理是将输入信号划分为预先规定的时间单位的帧，将该划分的帧划分为规定的频率频带，并且，按照每个该划分后的频带进行的处理。在所述不同频带的增益决定步骤中设定不同频带的增益值，以使在判断决定对象的帧为声音帧的情况下的不同频带的增益值能够小于在判断决定对象的帧为噪声帧的情况下的不同频带的增益值。
[专利文献1]日本国特开2002-169599号公报(第3-4页、图2)专利文献1中记载的噪音抑制方法通过调节每个频带的增益，从而能够在视听感上抑制噪声的影响。但是，由于调节每个频带的增益，会导致发生声音的频谱结构的变形，因此，出现声音的个人特征发生变形的课题。此外，也会出现在掺进噪声的突发的情况下，专利文献1中记载的方法不能完全抑制噪声的影响的课题。

发明内容
为了解决上述课题，本发明的目的在于提供一种声音分析装置，即使在如像实际环境那样存在背景噪声的情况下，也能够高精确度地分析声音。在对声道以及声源进行模型化而得到的声道声源模型中，以往是假定为稳定的声源模型。因此，结果是以声道特征的细微变动作为正确的分析结果而被处理。发明人认为声道为稳定这样的假设比声源为稳定这样的假设更具有妥当性，并且，声源比声道变动得更快。基于这种思考，以往的声道声源模型提取根据声音所持有的波动或分析窗的位置而引起的时间变化，以作为声道特征。这样出现的问题是，声道本不具有的快速变化被作为了声道特征，而声源本身具有的快速变化却被从声源特征中除去。发明人在专利文献的专利第4294724号公报上公开了解除由此细微变动而产生的影响的方法。也就是说，利用声道稳定这一特征，即使在输入声音内掺进噪声的情况下，也能够消除噪声的影响。为了实现上述目的，本发明涉及的声音分析装置为通过分析输入声音，从而提取声道特征和声源特征的声音分析装置，其中包括声道声源分离部，根据对声音的发声机构进行模型化而得到的声音生成模型，从输入声音中分离出声道特征和声源特征；基本频率稳定度计算部，根据由所述声道声源分离部分离出的声源特征，计算出所述声源特征中的所述输入声音的基本频率在时间上的稳定度；稳定分析区间提取部，根据由所述基本频率稳定度计算部计算出的所述声源特征中的所述输入声音的基本频率在时间上的稳定度，提取所述声源特征的稳定区间的时间信息；以及声道特征插值处理部，利用由所述声道声源分离部分离出的声道特征中的包含在由所述稳定分析区间提取部提取的所述声源特征的稳定区间内的声道特征，来对不包含在该声源特征的稳定区间内的声道特征进行插值。根据此构成，基于声源特征的稳定区间，对声道特征进行插值。如上所述，由于声源比声道进行快速的变动，从而声源特征比声道特征更容易受到噪声的影响。因此，利用声源特征，从而能够高精确度地分离噪声区间和非噪声区间。因此，基于声源特征的稳定区间，对声道特征进行插值，从而能够高精确度地提取声道特征。并且，优选的是，所述声音分析装置还包括基音标记赋予部，该基音标记赋予部从由所述声道声源分离部分离出的声源特征中，提取以所述输入声音的基本周期间隔而反复出现的特征点，并且，对提取的特征点赋予基音标记，所述基本频率稳定度计算部，利用由所述基音标记赋予部赋予的基音标记，计算出所述声源特征中的所述输入声音的基本频率，并且，计算出所述声源特征中的所述输入声音的基本频率在时间上的稳定度。并且，优选的是，所述基音标记赋予部，从由所述声道声源分离部分离出的声源特征中提取声门闭塞点，并且，对提取的声门闭塞点赋予所述基音标记。
6
在声门闭塞点中，声源特征的波形具有表示尖锐的波峰的特征。另一方面，噪声区间中的声源特征的波形，在多个位置中能够看到尖锐的峰值。因此，作为特征点利用声门闭塞点，从而在非噪声区间中以规定的周期赋予基音标记，与此相对应，在噪声区间中以无规则的间隔赋予基音标记。利用这样的性质，从而能够高精确度的分离声源特征的稳定区间和非稳定区间。进一步，优选的是，所述声音分析装置还包括声源特征复原部，该声源特征复原部利用由所述声道声源分离部分离出的声源特征中的包含在由所述稳定分析区间提取部提取的所述声源特征的稳定区间内的声源特征，来对该声源特征的稳定区间以外的区间的声源特征进行复原。根据此构成，基于声源特征的稳定区间，对声源特征进行复原。如上所述，由于声源比声道进行快速的变动，因此，声源特征比声道特征更容易受到噪声的影响。因此，利用声源特征，从而能够高精确度的分离噪声区间和非噪声区间。因此，基于声源特征的稳定区间，对声源特征进行复原，从而能够高精确度的提取声源特征。进一步，优选的是，所述声音分析装置还包括再现度计算部，计算出由所述声道特征插值处理部进行插值的声道特征的再现度；以及再输入指示部，在由所述再现度计算部计算出的再现度小于规定的阈值的情况下，指示用户再次输入声音。在噪声的影响大，且不能高精确度的分析声道特征的情况下，使用户再次输入声音，从而能够提取不受噪声的影响的声道特征以及声源特征。另外，本发明不仅能够作为具有这种特征的处理部的声音分析装置来实现，还能够作为将包含在声音分析装置的特征性的处理部作为步骤的声音分析方法来实现，也能够作为使计算机执行包含在声音分析方法的特征性步骤的程序来实现。并且，这样的程序也能够经由CD-ROM(CompactDisc-Read Only Memory)等记录介质或互联网等通信网络进行流通是不言而喻的。根据本发明的声音分析装置，即使在输入声音之中掺进噪声的情况下，基于声源特征的稳定区间，也能够对包含在噪声区间的声道特征以及声源特征进行插值。因此，利用包含在部分被正确分析了的区间的声道特征以及声源特征，能够对包含在其他区间的声道特征以及声源特征进行复原。因此，即使在突发性的噪声被掺进到输入声音中的情况下，也能够不受噪声的影响而高精确度的分析作为输入声音的个人特征的声道特征以及声源特征。

图1是示出本发明的实施例涉及的声音分析装置的功能性结构的框图。图2是示出声源波形的一个例子的图。图3是用于说明由稳定分析区间提取部对稳定区间进行提取处理的图。图4是用于说明由声道特征插值处理部对声道特征进行插值处理的图。图5是示出本发明的实施例涉及的声音分析装置的操作的流程图。图6是示出输入声音波形的一个例子的图。图7是示出根据偏自相关系数(PARC0R系数partial autocorrelation系数)的声道特征的一个例子的图。
7
图8A是示出没有噪声的区间的声源波形的一个例子的图。图8B是示出噪声区间的声源波形的一个例子的图。图9是用于说明由声源特征均衡化处理部对非周期成分边界频率进行均衡化处理的图。图10是示出本发明的实施例的变形例涉及的声音分析装置的功能性结构的框图。图11是示出以往的噪音抑制装置的结构的框图。
具体实施例方式(实施例1)以下，参照附图对本发明的实施例进行说明。图1是示出本发明的实施例所涉及的声音分析装置的功能性结构的框图。声音分析装置是将输入的声音分离为声道特征和声源特征的装置，该声音分析装置包括声道声源分离部101、基音标记赋予部102、基本频率稳定度计算部103、稳定分析区间提取部104、声道特征插值处理部105、以及声源特征均衡化处理部106。另外，本实施例涉及的声音分析装置能够被包含CPU和存储器的通常的计算机执行。也就是说，能够在CPU上执行用于实现上述的各个处理部的程序，并将该程序以及处理中的中间数据存储在存储器。声道声源分离部101为基于对声音的发声机构进行模型化而得到的声音生成模型，从输入声音中分离出声道特征和声源特征的处理部。基音标记赋予部102为从由声道声源分离部101分离出的声源特征中，提取以输入声音的基本周期间隔而反复出现的特征点，并对提取的特征点赋予基音标记的处理部。基本频率稳定度计算部103为利用由基音标记赋予部102赋予的基音标记，计算出声源特征中的输入声音的基本频率，并计算出声源特征中的输入声音的基本频率在时间上的稳定度的处理部。稳定分析区间提取部104为基于由基本频率稳定度计算部103计算出的声源特征中的输入声音的基本频率在时间性上的稳定度，提取声源特征的稳定区域的处理部。声道特征插值处理部105为利用由声道声源分离部101分离出的声道特征中的包含在由稳定分析区间提取部104提取的声源特征的稳定区间内的声道特征，来对不包含在该声源特征的稳定区间内的声道特征进行插值的处理部。声源特征均衡化处理部106为求出由声道声源分离部101分离出的声源特征中的包含在由稳定分析区间提取部104提取的声源特征的稳定区间内的声源特征的平均值，并将求出的所述声源特征的平均值作为所述声源特征的稳定区间以外的区间的声源特征的处理部。以下，对各个构成要素进行详细的说明。<声道声源分离部101>声道声源分离部101利用对声道以及声源进行模型化而得到的声道声源模型(对声音的发声机构进行模型化而得到的声音生成模型)，将输入声音分离为声道特征和声源特征。对用于分离的声道声源模型并没有限制，可以为任意的模型。
在例如利用线性预测模型(LPC模型linear predictive coefficient模型)以作为声道声源模型的情况下，能够预测具有声音波形的抽样值s (n)，该抽样值s (n)是从在其之前的P个抽样值中预测出的。抽样值s(n)能够用公式1表示。(算式1)
权利要求
一种声音分析装置，通过分析输入声音，从而提取声道特征和声源特征，所述声音分析装置的特征在于，包括声道声源分离部，根据对声音的发声机构进行模型化而得到的声音生成模型，从输入声音中分离出声道特征和声源特征；基本频率稳定度计算部，根据由所述声道声源分离部分离出的声源特征，计算出所述声源特征中的所述输入声音的基本频率在时间上的稳定度；稳定分析区间提取部，根据由所述基本频率稳定度计算部计算出的所述声源特征中的所述输入声音的基本频率在时间上的稳定度，提取所述声源特征的稳定区间的时间信息；以及声道特征插值处理部，利用由所述声道声源分离部分离出的声道特征中的包含在由所述稳定分析区间提取部提取的所述声源特征的稳定区间内的声道特征，来对不包含在该声源特征的稳定区间内的声道特征进行插值。
2.如权利要求1所述的声音分析装置，其特征在于，所述声音分析装置还包括基音标记赋予部，该基音标记赋予部从由所述声道声源分离部分离出的声源特征中，提取以所述输入声音的基本周期间隔而反复出现的特征点，并且，对提取的特征点赋予基音标记，所述基本频率稳定度计算部，利用由所述基音标记赋予部赋予的基音标记，计算出所述声源特征中的所述输入声音的基本频率，并且，计算出所述声源特征中的所述输入声音的基本频率在时间上的稳定度。
3.如权利要求2所述的声音分析装置，其特征在于，所述基音标记赋予部，从由所述声道声源分离部分离出的声源特征中提取声门闭塞点，并且，对提取的声门闭塞点赋予所述基音标记。
4.如权利要求1-3中的任一项所述的声音分析装置，其特征在于，所述声道特征插值处理部，通过以规定的函数对由所述声道声源分离部分离出的声道特征中的包含在由所述稳定分析区间提取部提取的所述声源特征的稳定区间内的声道特征进行近似，从而对不包含在该声源特征的稳定区间内的声道特征进行插值。
5.如权利要求1-4中的任一项所述的声音分析装置，其特征在于，所述声道特征插值处理部，按照每个规定的时间单位，对由所述声道声源分离部分离出的声道特征进行所述声道特征的插值处理。
6.如权利要求5所述的声音分析装置，其特征在于，所述规定的时间单位为音素。
7.如权利要求1-6中的任一项所述的声音分析装置，其特征在于，所述声音分析装置还包括声源特征复原部，该声源特征复原部利用由所述声道声源分离部分离出的声源特征中的包含在由所述稳定分析区间提取部提取的所述声源特征的稳定区间内的声源特征，来对该声源特征的稳定区间以外的区间的声源特征进行复原。
8.如权利要求7所述的声音分析装置，其特征在于，所述声源特征复原部包括声源特征均衡化处理部，该声源特征均衡化处理部求出由所述声道声源分离部分离出的声源特征中的包含在由所述稳定分析区间提取部提取的所述声源特征的稳定区间内的声源特征的平均值，并将求出的所述声源特征的平均值作为所述声源特征的稳定区间以外的区间的声源特征。
9.如权利要求8所述的声音分析装置，其特征在于，所述声源特征均衡化处理部还对包含在所述声源特征的稳定区间内的声源特征的平均值和从所述声源特征的稳定区间以外的区间中的声源特征的平均值的偏差进行加法运算，将加法运算的结果作为所述声源特征的稳定区间以外的区间的声源特征。
10.如权利要求1-9中的任一项所述的声音分析装置，其特征在于，所述声音分析装置还包括再现度计算部，计算出由所述声道特征插值处理部进行插值的声道特征的再现度；以及再输入指示部，在由所述再现度计算部计算出的再现度小于规定的阈值的情况下，指示用户再次输入声音。
11.如权利要求10所述的声音分析装置，其特征在于，所述再现度计算部，根据在所述声道特征插值处理部对所述声道特征进行插值时的插值前后的所述声道特征的误差，计算出所述声道特征的再现度。
12.如权利要求1-11中的任一项所述的声音分析装置，其特征在于，所述声道声源分离部，利用线性预测模型，从输入声音中分离出声道特征和声源特征。
13.如权利要求1-11中的任一项所述的声音分析装置，其特征在于，所述声道声源分离部，利用外因输入自动回归模型，从输入声音中分离出声道特征和声源特征。
14.如权利要求1所述的声音分析装置，其特征在于，所述基本频率稳定度计算部，计算出由所述声道声源分离部分离出的声源特征的自相关值，以作为所述声源特征中的所述输入声音的基本频率在时间上的稳定度。
15.一种声音分析方法，通过分析输入声音，从而提取声道特征和声源特征，所述声音分析方法的特征在于，包括以下步骤声道声源分离步骤，根据对声音的发声机构进行模型化而得到的声音生成模型，从输入声音中分离出声道特征和声源特征；基本频率稳定度计算步骤，根据在所述声道声源分离步骤中分离出的声源特征，计算出所述声源特征中的所述输入声音的基本频率在时间上的稳定度；稳定分析区间提取步骤，根据在所述基本频率稳定度计算步骤中计算出的所述声源特征中的所述输入声音的基本频率在时间上的稳定度，提取所述声源特征的稳定区间的时间信息；以及声道特征插值处理步骤，利用在所述声道声源分离步骤中分离出的声道特征中的包含在所述稳定分析区间提取步骤中提取的所述声源特征的稳定区间内的声道特征，来对不包含在该声源特征的稳定区间内的声道特征进行插值。
16.一种程序，通过分析输入声音，从而提取声道特征和声源特征，该程序用于使计算机执行以下步骤声道声源分离步骤，根据对声音的发声机构进行模型化而得到的声音生成模型，从输入声音中分离出声道特征和声源特征；基本频率稳定度计算步骤，根据在所述声道声源分离步骤中分离出的声源特征，计算出所述声源特征中的所述输入声音的基本频率在时间上的稳定度；稳定分析区间提取步骤，根据在所述基本频率稳定度计算步骤中计算出的所述声源特征中的所述输入声音的基本频率在时间上的稳定度，提取所述声源特征的稳定区间的时间信息；以及声道特征插值处理步骤，利用在所述声道声源分离步骤中分离出的声道特征中的包含在所述稳定分析区间提取步骤中提取的所述声源特征的稳定区间内的声道特征，来对不包含在该声源特征的稳定区间内的声道特征进行插值。
全文摘要
本发明为一种声音分析装置，并且，包括声道声源分离部(101)，根据声音生成模型，从输入声音中分离出声道特征和声源特征；基本频率稳定度计算部(103)，根据分离出的声源特征，计算出声源特征中的输入声音的基本频率在时间上的稳定度；稳定分析区间提取部(104)，根据稳定度，提取稳定区间的时间信息；以及声道特征插值处理部(105)，利用包含在提取的稳定区间内的声道特征，来对不包含在稳定区间内的声道特征进行插值。
文档编号G10L11/00GK101981612SQ20098011143
公开日2011年2月23日申请日期2009年9月17日优先权日2008年9月26日
发明者广濑良文, 釜井孝浩申请人:松下电器产业株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：广濑良文;釜井孝浩
技术所有人：松下电器产业株式会社
我是此专利的发明人