信号处理装置和方法以及程序的制作方法

文档序号：2826365阅读：132来源：国知局

信号处理装置和方法以及程序的制作方法
【专利摘要】本发明涉及信号处理装置和方法以及程序。信号处理装置包括：特征量提取单元，配置成从对语音信号进行频率转换所获得的频域信号中提取所述频域信号的特征量；以及确定单元，配置成基于所提取的特征量来确定预定区间内在所述语音信号中是否存在噪声。特征量是由多个元素组成的。所述多个元素包括基于以下两者之间的相关值所定义的元素：作为与所述预定区间内所述语音信号的频域信号相关的波形的特征量波形，以及在时间上与所述预定区间相继的另一区间内的特征量波形。
【专利说明】信号处理装置和方法以及程序
[0001]相关申请的交叉引用
[0002]本申请要求在2012年10月26日提交的日本优先权专利申请JP2012-236313的权益，该日本优先权专利申请的全部内容通过引用结合于此。
【技术领域】
[0003]本技术涉及信号处理装置和方法以及程序，并且具体地涉及使得能够以高准确度去除在记录语音时出现的噪声的信号处理装置和方法以及程序。
【背景技术】
[0004]在用于记录语音(包括运动图像)的设备之中，已知视频摄像机、具有拍摄运动图像功能的数码相机、智能电话和数码录音笔等。在操作这些设备时，从设备主体中出现的声音有时污染所记录的语音。
[0005]在拍摄运动图像时出现例如变焦驱动声音、自动对焦驱动声音和孔径光阑驱动声音等。这些声音由于对设备内部的部件的驱动而出现，并且根据驱动方式和控制方式而具有各种声学特性。
[0006]此外，近年来，压电元件响应于所施加的电压的变形通常用于根据自动对焦和变焦来驱动镜头。由于压电元件而产生的驱动声音有时与现有的那些具有不同的特性。
[0007]这种驱动声音所引起的噪声有时称为突发性噪声。污染所记录的语音的突发性噪声对于耳朵极其刺耳，因而期望用于降低该声音的措施或去除噪声的措施等。
[0008]已经提出了一些针对突发性噪声的措施。
[0009]例如，提出了一种技术，该技术用于响应于已经被发送的驱动信号，根据驱动信号被发送的时刻之前的时间段的语音信号来生成合成的语音信号，并且将合成的语音信号与驱动信号被发送的时刻之后的时间段中的语音信号合成(例如，日本专利特开N0.2011-002723，在下文中将其称为专利文献I)。
[0010]此外，还提出了一种技术，该技术用于根据驱动命令从在某个时间段内来自麦克风的输出语音中提取光学元件的驱动的频率分量特性，检测具有某个水平以上的区间，并且基于在该区间之前和之后的语音来执行预测和插值(例如，日本专利特开N0.2012-114842，在下文中将其称为专利文献2)。从而，能够以高准确度来去除伴随着成像光学系统的驱动的驱动噪声。

【发明内容】

[0011]然而，专利文献I的技术不考虑从驱动信号的发送到设备操作的延迟以及声音从驱动声音源到达麦克风的时间等。由于这个原因，即使在没有驱动噪声的区间中也执行噪声降低处理，这有时导致原始声音的保真度的劣化。
[0012]此外，专利文献2的技术旨在在关注主要不小于IOkHz的高频带中的功率的情况下确定噪声去除区间。然而，在实际的图像拍摄环境中，在IOkHz频带内，除了驱动声音之外的各种类型的声音不计其数，这可能导致错误确定。
[0013]此外，近年来在诸如智能电话的电子设备中内置的、节能并且低高度的相机功能单元中，压电元件用于根据自动对焦和变焦来驱动镜头。
[0014]虽然由于这样的压电元件而产生的驱动声音所引起的噪声是突发性噪声，但在驱动时该噪声通常能够接连发生数次。当这样接连发生的突发性噪声中的一部分未被去除时，有时更给人不舒服的感觉。
[0015]期望能够以高准确度来去除在记录语音时出现的噪声。
[0016]根据本技术的实施例，提供了一种信号处理装置，包括:特征量提取单元，配置成从对语音信号进行频率转换而获得的频域信号中提取频域信号的特征量；以及确定单元，配置成基于所提取的特征量来确定预定区间内语音信号中是否存在噪声，其中，特征量是由多个元素组成的，并且其中，多个元素包括基于以下两者之间的相关值所定义的元素:作为与预定区间内语音信号的频域信号相关的波形的特征量波形，以及在时间上与预定区间相继的另一区间内的特征量波形。
[0017]特征量的多个元素中的每一个元素均可基于预定区间内的特征量波形而计算。
[0018]预定区间内的特征量波形可以是通过从频域信号中提取预设频带的信号强度而获得的一维信号的波形。
[0019]特征量的多个元素还可以包括特征量波形的幅度的最大值、或表示特征量波形的突发性的值。
[0020]信号处理装置还可以包括从频率转换之前的语音信号中提取特征量的另一特征量提取单元。
[0021]确定单元可以将基于电子控制而驱动的部件的驱动声音确定为噪声，该信号处理装置还可以包括控制信号提供单元，控制信号提供单元配置成将表示是否存在部件的驱动的控制信号提供给特征量提取单元。
[0022]信号处理装置还可以包括因数保持单元，因数保持单元配置成保持用于确定单元进行的确定、并且预先通过学习来获得的因数。
[0023]确定单元可以将基于电子控制而驱动的部件的驱动声音确定为噪声，该信号处理装置还包括:驱动信息提供单元，配置成将表示部件的驱动方式的信息提供给因数保持单元，并且该因数保持单元基于从驱动信息提供单元提供的信息来将因数提供给确定单元。
[0024]确定单元可以基于将特征量的多个元素的各个元素乘以在因数保持单元中保持的因数的乘积和运算的运算结果来确定是否存在噪声。
[0025]确定单元可以基于在因数保持单元中保持的因数来针对特征量的多个元素中的各个元素进行阈值确定，并基于通过阈值确定所获得的确定结果来确定是否存在噪声。
[0026]信号处理装置还可以包括噪声去除单元，当确定单元确定预定区间内在语音信号中存在噪声时，该噪声去除单元去除该预定区间内的噪声。
[0027]噪声去除单元可以从频域信号中提取预设频带，并且仅对所提取的频带执行去除噪声的处理。
[0028]由麦克风所采集的语音信号可以被输入。
[0029]预先记录的语音信号可以被输入。
[0030]根据本技术的实施例，提供了一种信息处理方法，包括:通过特征量提取单元，从对语音信号进行频率转换而获得的频域信号中提取该频域信号的特征量；以及通过确定单元，基于所提取的特征量来确定预定区间内在语音信号中是否存在噪声。特征量是由多个元素组成的，并且该多个元素包括基于以下两者之间的相关值而定义的元素:作为与预定区间内语音信号的频域信号相关的波形的特征量波形，以及在时间上与预定区间相继的另一区间内的特征量波形。
[0031]根据本技术的实施例，提供了一种使得计算机用作信号处理装置的程序，该信号处理装置包括:特征量提取单元，配置成从对语音信号进行频率转换而获得的频域信号中提取该频域信号的特征量，以及确定单元，配置成基于所提取的特征量来确定预定区间内在语音信号中是否存在噪声。特征量是由多个元素组成的，并且该多个元素包含基于以下两者之间的相关值而定义的元素:作为与预定区间内语音信号的频域信号相关的波形的特征量波形，以及在时间上与预定区间相继的另一区间内的特征量波形。
[0032]根据本技术的实施例，通过特征量提取单元，从对语音信号进行频率转换而获得的频域信号中提取该频域信号的特征量，并且通过确定单元，基于所提取的特征量来确定预定区间内在语音信号中是否存在噪声。特征量是由多个元素组成的，并且该多个元素包含基于以下两者之间的相关值而定义的元素:作为与预定区间内语音信号的频域信号相关的波形的特征量波形，以及在时间上与预定区间相继的另一区间内的特征量波形。
[0033]根据本技术，能够以高准确度来去除在记录语音时出现的噪声。
【专利附图】

【附图说明】
[0034]图1是示出了根据本技术的实施例的信号处理装置的例示性配置的框图；
[0035]图2A和图2B是用于阐述驱动声音的图；
[0036]图3是用于阐述表格确定的示例的图；
[0037]图4是示出了从频率转换单元输出的频域中的信号的示例的图；
[0038]图5是示出了特征量波形的示例的图；
[0039]图6是用于阐述幅度值的计算的图；
[0040]图7是用于阐述突发性值的计算的图；
[0041]图8是用于阐述周期性值的计算的图；
[0042]图9是用于阐述噪声去除单元进行的处理的细节的图；
[0043]图10是用于阐述噪声去除单元进行的处理的细节的图；
[0044]图11是用于阐述噪声去除单元进行的处理的细节的图；
[0045]图12是用于阐述噪声降低处理的示例的流程图；
[0046]图13是用于阐述特征量提取处理的示例的流程图；
[0047]图14是示出了根据本技术的实施例的信号处理装置的另一例示性配置的框图；
[0048]图15是示出了根据本技术的实施例的信号处理装置的另一例示性配置的框图；
[0049]图16是示出了根据本技术的实施例的信号处理装置的另一例示性配置的框图；
[0050]图17是示出了根据本技术的实施例的信号处理装置的另一例示性配置的框图；以及
[0051]图18是示出了个人计算机的例示性配置的框图。【具体实施方式】
[0052]在下文中，将参照附图来详细描述本公开的优选实施例。注意到，在本说明书和附图中，以相同的附图标记来表示具有基本上相同功能和结构的结构元素，并且省略了这些结构元素的重复阐述。
[0053]图1是示出了根据本技术的实施例的信号处理装置的例示性配置的框图。该图中所示的信号处理装置10例如被内置于诸如数码相机和具有相机功能单元的智能电话的电子设备中。
[0054]电子设备中的相机功能单元能够执行例如针对移动透镜位置的变焦和自动对焦，以及孔径光阑的调节。例如，镜头被配置成由设置为致动器的压电元件来移动和驱动。
[0055]信号处理装置10被配置成分析使用数码相机或智能电话等拍摄运动图像时所记录的语音信号，并且被配置成执行降低包含在语音信号中的噪声的处理。信号处理装置10被配置成降低主要作为噪声的驱动声音，诸如在拍摄运动图像时出现的变焦驱动声音、自动对焦驱动声音和孔径光阑驱动声音。
[0056]图2A和图2B是用于阐述诸如变焦驱动声音、自动对焦驱动声音和孔径光阑驱动声音的驱动声音的图。
[0057]图2A是示出了由于使用电动机等的现有致动器而产生的驱动声音的示例的图。在图中，横轴表示时间并且纵轴表示信号水平，并且线51代表噪声的波形。如该图所示，线51的幅度在该图中的中心附近突出，重复微小的振荡。
[0058]如上所述，当现有致动器被驱动时，信号水平突然变化并且信号水平的变化引起噪声。这样的噪声称为突发性噪声。
[0059]图2B是示出了由于使用压电元件的致动器而产生的驱动声音的示例的图。在该图中，横轴表示时间并且纵轴表示信号水平，并且线52表示噪声的波形。如该图所示，在线52上，幅度突出的部分重复地出现。
[0060]虽然由于压电元件而产生的驱动声音所引起的噪声是突发性噪声，但在驱动时其通常能够接连发生数次。当这样接连发生的突发性噪声的一部分未被去除时，有时更给人不舒服的感觉。
[0061]信号处理装置10被配置成能够更确定地检测并且降低如上所述在驱动时接连出现若干次的噪声，尽管该噪声是突发性噪声。
[0062]在图1中，信号输入单元21例如被配置成为麦克风并且被配置成采集附接至信号处理装置10的电子设备周围的语音。
[0063]AD (模数)转换单元22将由信号输入单元21这样采集的语音中的信号转换成为数字信号以生成数字语音信号。
[0064]频率转换单元23将时域信号转换成为频域信号。频率转换单元23对从AD转换单元22输出的数字语音信号进行例如快速傅里叶变换(FFT)处理以执行向频域信号的转换。
[0065]在这个阶段，例如，所输入的数字语音信号经过每组512个样本的帧划分，被乘以窗口函数，并经过FFT处理。此外，例如帧划分被配置为以每组256个样本逐步移动区间的方式来执行。
[0066]特征量提取单元24基于从频率转换单元23输出的频域信号来提取多个特征量。对于通过在FFT处理中进行划分而获得的帧，特征量提取单元24提取组成后面提到的特征量波形的特征量，这些特征量例如表示每批多个帧(例如，10个帧)的幅度、突发性、周期性等。此外，稍后描述特征量提取单元24的详细配置。
[0067]噪声确定单元25被配置例如具有使用神经网络的统计判别分析装置和线性判别分析装置等，并且基于从特征量提取单元24输出的多个特征量来确定相关帧是否是噪声帧。此外，基于稍后提到的特征量波形来确定其是否是噪声帧。集体确定组成特征量波形的多个帧(例如，10个帧)是否是噪声。
[0068]噪声确定单元25使用等式(1)来计算y的值，其中变量为向量XU1, X2jX3...)，向量X(Xl，x2, x3,...)由从特征量提取单元24输出的、作为该向量的元素的多个特征量中的各个特征量所组成。在等式(1)中，1表示向量X的元素的总数量。
[0069]
【权利要求】
1.一种信号处理装置，包括: 特征量提取单元，配置成从对语音信号进行频率转换而获得的频域信号中提取所述频域信号的特征量；以及确定单元，配置成基于所提取的特征量来确定预定区间内所述语音信号中是否存在噪声，其中，所述特征量是由多个元素组成的，并且其中，所述多个元素包括基于以下两者之间的相关值所定义的元素:作为与所述预定区间内所述语音信号的频域信号相关的波形的特征量波形，以及在时间上与所述预定区间相继的另一区间内的特征量波形。
2.根据权利要求1所述的信号处理装置，其中，所述特征量的多个元素中的每一个元素是基于所述预定区间内的特征量波形而计算的。
3.根据权利要求2所述的信号处理装置，其中，所述预定区间内的特征量波形是通过从所述频域信号中提取预设频带的信号强度而获得的一维信号的波形。
4.根据权利要求1所述的信号处理装置，其中，所述特征量的多个元素还包括所述特征量波形的幅度的最大值、或表示所述特征量波形的突发性的值。
5.根据权利要求1所述的信号处理装置，还包括: 另一特征量提取单元，其从所述频率转换之前的语音信号中提取特征量。
6.根据权利要求1所述的信号处理装置，其中，所述确定单元将基于电子控制而驱动的部件的驱动声音确定为噪声，所述信号处理装置还包括: 控制信号提供单元，配置成将表示是否存在所述部件的驱动的控制信号提供给所述特征量提取单元。
7.根据权利要求1所述的信号处理装置，还包括: 因数保持单元，配置成保持用于所述确定单元进行的确定、并且预先通过学习来获得的因数。
8.根据权利要求7所述的信号处理装置，其中，所述确定单元将基于电子控制而驱动的部件的驱动声音确定为噪声，所述信号处理装置还包括: 驱动信息提供单元，配置成将表示所述部件的驱动方式的信息提供给所述因数保持单元，并且其中，所述因数保持单元基于从所述驱动信息提供单元提供的信息来将所述因数提供给所述确定单元。
9.根据权利要求7所述的信号处理装置，其中，所述确定单元基于将所述特征量的多个元素中的各个元素乘以在所述因数保持单元中保持的因数的乘积和运算的运算结果来确定是否存在所述噪声。
10.根据权利要求7所述的信号处理装置，其中，所述确定单元基于在所述因数保持单元中保持的所述因数来针对所述特征量的多个元素中的各个元素进行阈值确定，并基于通过所述阈值确定所获得的确定结果来确定是否存在所述噪声。
11.根据权利要求1所述的信号处理装置，还包括: 噪声去除单元，当所述确定单元确定所述预定区间内所述语音信号中存在所述噪声时，所述噪声去除单元去除所述预定区间内的噪声。
12.根据权利要求11所述的信号处理装置，其中，所述噪声去除单元从所述频域信号中提取预设频带，并且仅对所提取的频带执行去除噪声的处理。
13.根据权利要求1所述的信号处理装置，其中，由麦克风所米集的语音信号被输入。
14.根据权利要求1所述的信号处理装置，其中，预先记录的语音信号被输入。
15.—种信号处理方法,包括: 通过特征量提取单元，从对语音信号进行频率转换而获得的频域信号中提取所述频域信号的特征量，以及通过确定单元，基于所提取的特征量来确定预定区间内所述语音信号中是否存在噪声，其中，所述特征量是由多个元素组成的，并且其中，所述多个元素包括基于以下两者之间的相关值而定义的元素:作为与所述预定区间内所述语音信号的所述频域信号相关的波形的特征量波形，以及在时间上与所述预定区间相继的另一区间内的特征量波形。
16.一种使得计算机用作信号处理装置的程序，所述信号处理装置包括: 特征量提取单元，配置成从对语音信号进行频率转换而获得的频域信号中提取所述频域信号的特征量；以及确定单元，配置成基于所提取的特征量来确定预定区间内在所述语音信号中是否存在噪声，其中，所述特征量是由多个元素组成的，并且其中，所述多个元素包括基于以下两者之间的相关值而定义的元素:作为与所述预定区间内所述语音信号的所述频域信号相关的波形的特征量波形，以及在时间上与所述预定区间相继的另一区间内的特征量波形。
【文档编号】G10L21/0232GK103794221SQ201310492196
【公开日】2014年5月14日申请日期:2013年10月18日优先权日:2012年10月26日
【发明者】大迫庆一, 安部素嗣申请人:索尼公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：大迫庆一;安部素嗣
技术所有人：索尼公司
我是此专利的发明人

上一篇：音准抖动修正方法、装置、系统及音视频设备和移动终端的制作方法
上一篇：一种架子鼓吊擦用擦架的制作方法