语音处理装置、方法和程序的制作方法

文档序号：2834951阅读：219来源：国知局

专利名称：语音处理装置、方法和程序的制作方法
技术领域：
本发明涉及语音处理装置、方法和程序，并且更具体地，涉及可以更容易得到合适水平的语音的语音处理装置、方法和程序。
背景技术：
在通过使用诸如IC (集成电路)记录器的记录装置来记录对话、音乐演奏等的情况下，重要的是正确地设置记录灵敏度，使得以合适等级的水平记录所采集语音的输入语
音信号。例如，在相对大的会议室中进行的会议中记录对话的情况下，如果记录装置的记录灵敏度被设置得低，则将存在以下情况:语音将被以低水平记录，以致于远处发言者的谈话将很难能够被听到。另一方面，在麦克风靠近某人的嘴部并且他们的口述被保留作为备忘录的情况下，如果记录装置的记录灵敏度被设置得高，则将输入超过可以被记录的上限水平的信号。在这种情况下，将在被记录的语音中出现声音的失真，并且这种失真将变成刺耳的噪声。这样，为了避免以不合适的水平记录语音，通常，记录装置中设置的记录灵敏度被粗略分成3级水平，并且使用自动地将信号水平保持在恒定水平的信号处理技术。这种信号处理技术被称为ALC (自动水平控制)和AGC (自动增益控制)。例如，如图1中所示，记录装置中的记录灵敏度被分成高、中和低三级，并且针对这各个记录灵敏度，将+30dB、+15dB和OdB的值分配作为放大器的放大因子。另外，如图2中所示，例如，总体记录装置的输入系统包括主控制装置11、放大器
12、ADC (模数转换器)12和ALC处理部分14。对于这种记录装置，当用户指定记录装置的记录灵敏度的设置时，主控制装置11将已经通过用户所指定的记录灵敏度确定的放大比例设置为放大器12中的放大因子。然后，采集的语音信号被按照放大器12中设置的放大因子放大，被ADC13数字化，此后通过ALC处理部分14控制信号水平。然后，从ALC处理部分14输出具有受控信号水平的信号作为输出语音信号，并且输出语音信号被编码并且在此后被记录。例如，图3的折线ICll示出的信号被输入到ALC处理部分14，并且对这个信号的信号水平执行控制。然后，从ALC处理部分14输出作为这个步骤结果得到的折线OCll所示的信号作为最终输出语音信号。注意的是，在图3中，水平轴表示时间并且垂直轴表示信号水平。另外，图3中的虚线示出最大输入水平，即被获取作为信号水平的值中的最大值。折线ICll表示的信号是输入到记录装置的麦克风、被放大器12放大并且此后被ADC13数字化的信号。因为所记录信号之中的大于最大输入水平(用虚线表示)的水平的一部分被记录于消波状态，所以在再现期间在信号的这个部分中将出现声音失真噪声。因此，针对输入折线ICll表示的信号，在记录装置中执行增益调节，并且作为这个步骤的结果得到的并且由折线OCll表示的信号被作为输出信号输出。由折线OCll表示的这个信号的水平变得总是小于最大的输入水平，并且理解的是，执行增益调节，使得输出语音信号将是合适水平的信号。在增益调节期间，通过ALC处理部分14实时测量信号水平，并且在信号水平接近最大输入水平的情况下，降低增益，使得信号的水平不超过最大输入水平。然后，在信号没有超过最大输入水平的情况下，增益返回到1.0。如上所述，执行设置记录灵敏度的步骤和由ALC处理部分14进行的增益调节，以避免出现声音失真并且防止所记录的语音太小，以致听不到。然而，存在以下情况:由于记录灵敏度还没被合适设置，以及由于通过ALC (增益调节)得到的声音因外部噪声等的影响是不稳定的声音，导致所记录的语音将在再现期间难以听到。另一方面，在日本专利N0.3367592中提出了一种技术，例如，该技术涉及一种自动增益调节装置，该装置用于尽可能减少外部噪声的影响并且用于以合适水平记录语音。在这种技术中，在一定时间帧内计算功率谱的自动校正和倾斜，以正确地区分语音部分，并且在功率谱的自动校正或倾斜小于阈值的情况下，这个时间帧被视为是不稳定的。通过在计算输入信号的水平时排除这种不稳定的时间帧，也就是说，假设这个时间帧不是语音部分，将语音控制在合适水平。

发明内容
然而，在上述技术中，在容易辨别语音和噪声的同时麦克风靠近声源如电话的情况下，在记录装置被置于大房间中并且相当距离处的扬声器发声的情况下，输入语音信号的SN比(信噪比)将是差的，并且不能够准确地检测到语音部分。因此，存在不能够得到合适水平的语音信号作为所记录的语音信号的情况。另外，对于每个时间帧正常计算自动校正等，并且辨别语音和不稳定噪声导致小型记录装置(如，通过电池驱动的记录装置)中的电池消耗加速。鉴于这种情形做出本发明，并且本发明可以更容易地得到合适水平的语音。根据本发明的实施方式，提供了一种语音处理装置，包括:特征量计算部分，从输入语音信号的目标帧中提取特征量；声压估计候选点更新部分，使输入语音信号的多个帧的每个成为声压估计候选点，保持每个声压估计候选点的特征量，并且基于声压估计候选点的特征量和目标帧的特征量，来更新声压估计候选点；声压估计部分，基于声压估计候选点的特征量，计算输入语音信号的估计声压；增益计算部分，基于估计声压，计算应用于输入语音信号的增益；以及增益应用部分，基于增益，执行输入语音信号的增益调节。特征量计算部分计算至少目标帧中的输入语音信号的声压水平作为特征量。当目标帧的声压水平大于作为声压估计候选点的特征量的声压水平的最小值时，声压估计候选点更新部分丢弃具有最小值的声压估计候选点并且使目标帧成为新的声压估计候选点。特征量计算部分计算表示至少目标帧中出现突发噪声的可能性的突发噪声信息作为特征量。当基于突发噪声信息目标帧是包括突发噪声的部分时，声压估计候选点更新部分不使目标帧成为声压估计候选点。当相邻声压估计候选点之间的帧间隔的最短帧间隔小于预定阈值时，声压估计候选点更新部分丢弃具有最短帧间隔的相邻声压估计候选点中的具有小声压水平的声压估计候选点，并且使目标帧成为新的声压估计候选点。以使预定阈值随着时间的过去而增大的方式，确定预定阈值。
特征量计算部分计算至少从声压估计候选点直至目标帧的过去的帧的数量作为特征量。当声压估计候选点的过去的帧的数量的最大值大于预定的帧的数量时，声压估计候选点更新部分丢弃具有最大值的声压估计候选点，并且使目标帧成为新的声压估计候选点。输入语音信号被输入到语音处理装置，输入语音信号是由放大部分进行增益调节并且从模拟信号转换成数字信号来得到的。基于计算得到的增益，增益计算部分计算增益应用部分用于进行增益调节的增益和放大部分用于进行增益调节的增益。根据本发明的实施方式，提供了一种使计算机执行以下处理的程序:从输入语音信号的目标帧中提取特征量；使输入语音信号的多个帧的每个成为声压估计候选点，保持每个声压估计候选点的特征量，并且基于声压估计候选点的特征量和目标帧的特征量，来更新声压估计候选点；基于声压估计候选点的特征量，计算输入语音信号的估计声压；基于估计声压，计算应用于输入语音信号的增益；以及基于增益，执行输入语音信号的增益调节。根据本发明的实施方式，从输入语音信号的目标帧中提取特征量。使输入语音信号的多个帧的每个成为声压估计候选点，保持每个声压估计候选点的特征量，并且基于声压估计候选点的特征量和目标帧的特征量，来更新声压估计候选点。基于声压估计候选点的特征量，计算输入语音信号的估计声压。基于估计声压，计算应用于输入语音信号的增益。基于增益，执行输入语音信号的增益调节。根据本发明的实施方式，可以更容易地得到合适水平的语音。

图1是描述记录灵敏度设置的图；图2是示出相关技术中的记录装置的输入系统的构造的
图3是用于描述ALC处理部分的操作的图；图4是示出可应用于本发明的语音处理系统的示例构造的图；图5是描述增益调节处理的流程图；图6是描述声压估计候选点更新处理的流程图；图7是示出更新声压估计候选点并且计算估计声压的例子的图；图8是示出更新声压估计候选点并且计算估计声压的例子的图；图9是用于描述突发噪声对估计声压的影响的图；图10是示出在包括突发噪声的情况下更新声压估计候选点并且计算估计声压的例子的图；图11是示出计算机的示例构造的图；图12是示出基于本发明的声压水平直方图的例子的图；图13是示出基于本发明的声压水平直方图的例子的图；图14是示出突发噪声信息和声压水平的值的例子的图；以及图15是示出突发噪声信息的加权的例子的图。
具体实施方式
下文中，将参照附图详细描述本发明的优选实施例。注意的是，在这个说明书和附图中，用相同的附图标记表示具有基本相同功能和结构的结构元件，并且省略对这些结构元件的重复说明。下文中，将参照图描述可应用于本发明的实施方式。<第一实施方式> [语音处理系统的示例构造]接着，将描述可应用于本发明的特定实施方式。图4是示出可应用于本发明的语音处理系统的实施方式的示例构造的图。这个语音处理系统例如被布置在诸如IC记录器的记录装置中，并且包括放大器41、ADC42、记录水平自动设置装置43和主控制器44。例如经过诸如麦克风的采集语音部分采集的语音的信号(下文中，称为输入语音信号)被输入到放大器41。放大器41按主控制器44指定的记录灵敏度(也就是说，放大因子)放大输入语音信号，并且将放大后的输入语音信号供应到ADC42。ADC42将放大器41供应的输入语音信号从模拟信号转换成数字信号，并且将数字信号供应到记录水平自动设置装置43。注意的是，可以假设放大器41和ADC42是单个模块。也就是说，单个模块可以包括放大器41和ADC42的功能。记录水平自动设置装置43通过对ADC42供应的输入语音信号执行增益调节，产生并输出输出语音信号。记录水平自动设置装置43包括特征量计算部分51、声压估计候选点更新部分52、声压估计部分53、增益计算部分54和增益应用部分55。特征量计算部分51从ADC42供应的输入语音信号中提取一个或多个特征量，并且将提取的特征量供应到声压估计候选点更新部分52。声压估计候选点更新部分52基于特征量计算部分51供应的特征量和多个声压估计候选点中的特征量，更新用于估计输入语音信号的声压的声压估计候选点，并且将与声压估计候选点相关的信息供应到声压估计部分53。声压估计部分53基于与声压估计候选点更新部分52供应的声压估计候选点相关的信息，估计输入语音信号的声压，并且将作为这个步骤的结果得到的估计声压供应到增益计算部分54。增益计算部分54通过将声压估计部分53供应的估计声压与作为输入语音信号目标的声压(下文中，称为目标声压)进行比较，计算目标增益，该目标增益表示放大输入语音信号的量。另外，增益计算部分54将计算得到的目标增益划分为放大器41中的放大因子和增益应用部分应用的增益(下文中，称为应用增益)，并且将放大因子和应用增益供应到主控制器44和增益应用部分55。增益应用部分55通过将增益计算部分54供应的增益应用到ADC42供应的输入语音信号，执行输入语音信号的增益调节，并且输出作为这个步骤的结果得到的输出语音信号。从增益应用部分55输出的输出语音信号被合适地编码并记录到记录介质，并且通过诸如网络的通信网络发送到另一个装置。另外，主控制器44将增益计算部分54供应的方法因子供应到放大器41，并且按所供应的放大因子放大输入语音信号。[对增益调节处理的描述]
附带地，当指定为了语音处理系统记录语音时，语音处理系统调节输入语音信号的增益，使得已经经过语音采集被输入到放大器41的输入语音信号变成合适水平的信号，并且使这个信号成为输出语音信号。在这种情况下，放大器41通过主控制器44按增益计算部分54供应的放大因子放大所供应的输入语音信号，并且将放大后的输入语音信号供应到ADC42。另外，ADC42将放大器41供应的输入语音信号数字化，并且将数字化的输入语音信号供应到记录水平自动设置装置43的特征量计算部分51和增益应用部分55。另外，记录水平自动设置装置43通过执行增益调节处理，将ADC42供应的输入语音信号转换成输出语音信号，并且将输出语音信号输出。下文中，将参照图5的流程图描述记录水平自动设置装置43进行的增益调节处理。注意的是，对输入语音信号的每个帧，执行这个增益调节处理。在步骤Sll中，特征量计算部分51基于ADC42供应的输入语音信号，计算作为输入语音信号的处理目标的时间帧(下文中，称为当前帧)中的放大率峰值Pk(η)。例如，在当前帧是输入语音信号的第η个帧(假设η > O)时，并且假设每个帧构成L个样本，特征量计算部分51通过计算以下的等式(I)来计算峰值Pk(η)。
权利要求
1.一种语音处理装置，包括: 特征量计算部分，从输入语音信号的目标帧中提取特征量；声压估计候选点更新部分，使输入语音信号的多个帧的每个成为声压估计候选点，保持每个声压估计候选点的特征量，并且基于声压估计候选点的特征量和目标帧的特征量，来更新声压估计候选点；声压估计部分，基于声压估计候选点的特征量，计算输入语音信号的估计声压；增益计算部分，基于估计声压，计算应用于输入语音信号的增益；以及增益应用部分，基于增益，执行输入语音信号的增益调节。
2.根据权利要求1所述的语音处理装置，其中，特征量计算部分计算至少目标帧中的输入语音信号的声压水平作为特征量，并且其中，当目标帧的声压水平大于作为声压估计候选点的特征量的声压水平的最小值时，声压估计候选点更新部分丢弃具有最小值的声压估计候选点并且使目标帧成为新的声压估计候选点。
3.根据权利要求2所述的语音处理装置，其中，特征量计算部分计算表示至少目标帧中出现突发噪声的可能性的突发噪声信息作为特征量，并且其中，当基于突发噪声信息目标帧是包括突发噪声的部分时，声压估计候选点更新部分不使目标帧成为声压估计候选点。
4.根据权利要求2所述的语音处理装置，其中，当相邻声压估计候选点之间的帧间隔的最短帧间隔小于预定阈值时，声压估计候选点更新部分丢弃具有最短帧间隔的相邻声压估计候选点中的具有小声压水平的声压估计候选点，并且使目标帧成为新的声压估计候选点。
5.根据权利要求4所述的语音处理装置，其中，以使预定阈值随着时间的过去而增大的方式，确定预定阈值。
6.根据权利要求2所述的语音处理装置，其中，特征量计算部分计算至少从声压估计候选点直至目标帧的过去的帧的数量作为特征量，并且其中，当声压估计候选点的过去的帧的数量的最大值大于预定的帧的数量时，声压估计候选点更新部分丢弃具有最大值的声压估计候选点，并且使目标帧成为新的声压估计候选点。
7.根据权利要求2所述的语音处理装置，其中，输入语音信号被输入到语音处理装置，输入语音信号是由放大部分进行增益调节并且从模拟信号转换成数字信号来得到的，并且其中，基于计算得到的增益，增益计算部分计算增益应用部分用于进行增益调节的增益和放大部分用于进行增益调节的增益。
8.根据权利要求1所述的语音处理装置，其中，声压估计部分通过以从最大声压水平开始的次序从声压估计候选点中排除给定比率数量的声压估计候选点，执行对声压的估计。
9.根据权利要求1所述的语音处理装置，其中，特征量计算部分计算表示至少目标帧中出现突发噪声的可能性的突发噪声信息，并且其中，基于声压估计候选点保持的突发噪声信息和声压水平，声压估计部分执行对声压的估计。
10.一种语音处理方法，包括: 从输入语音信号的目标帧中提取特征量；使输入语音信号的多个帧的每个成为声压估计候选点，保持每个声压估计候选点的特征量，并且基于声压估计候选点的特征量和目标帧的特征量，来更新声压估计候选点；基于声压估计候选点的特征量，计算输入语音信号的估计声压；基于估计声压，计算应用于输入语音信号的增益；以及基于增益，执行输入语音信号的增益调节。
11.一种使计算机执行以下处理的程序: 从输入语音信号的目标帧中提取特征量；使输入语音信号的多个帧的每个成为声压估计候选点，保持每个声压估计候选点的特征量，并且基于声压估计候选点的特征量和目标帧的特征量，来更新声压估计候选点；基于声压估计候选点的特征量，计算输入语音信号的估计声压；基于估计声压，计算应用于输入语音信号的增益；以及基于增益，执行输入语音信号的增益调节。
全文摘要
本发明提供了一种语音处理装置、方法和程序。该语音处理装置包括特征量计算部分，从输入语音信号的目标帧中提取特征量；声压估计候选点更新部分，使输入语音信号的多个帧的每个成为声压估计候选点，保持每个声压估计候选点的特征量，并且基于声压估计候选点的特征量和目标帧的特征量，来更新声压估计候选点；声压估计部分，基于声压估计候选点的特征量，计算输入语音信号的估计声压；增益计算部分，基于估计声压，计算应用于输入语音信号的增益；以及增益应用部分，基于增益，执行输入语音信号的增益调节。
文档编号G10L25/03GK103226952SQ20131001839
公开日2013年7月31日申请日期2013年1月18日优先权日2012年1月25日
发明者本间弘幸, 知念彻申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：本间弘幸;知念彻
技术所有人：索尼公司
我是此专利的发明人