拍摄装置及噪音降低方法与流程

文档序号:11541857阅读:271来源:国知局
拍摄装置及噪音降低方法与流程
本发明涉及拍摄装置、程序、记录介质和噪音降低方法。

背景技术:
近年来,装载动态图像摄影功能的拍摄装置得到普及。一般地,动态图像的拍摄中发生的声音中,可能包含噪音。例如,自动聚焦透镜的驱动音等相当于噪音。特别是,没将动态图像摄影作为前提设计的透镜镜筒中,这样的驱动音很大,噪音也增大。因此,要进行噪音降低处理。例如,存在将麦克风拾取的音信号中包含的人物语音进行强调提取,并区分包含人物语音的音信号(语音区间)以及不包含人物语音的音信号(非语音区间)的技术(VAD:VoiceActivityDetection,语音活动检测)(参照专利文献1)。利用VAD,使用非语音区间的音信号计算推定噪音,从音信号去掉推定噪音,能抑制噪音(例如,专利文献1参照)。还有,在能够进行动态图像摄影的拍摄装置中进行动态图像摄影时,随着自动聚焦透镜的驱动部的操作发出的操作音(以下,称为AF噪音)等的噪音通过麦克风等的聚音装置进行聚音,混入拍摄对象发出的语音等的目的音,会损坏目的音的质量。作为降低这样的AF噪音的方法,提出取得在AF驱动部的操作前输入的语音信号的功率(POWER)值,通过基于这个语音信号的功率值控制(改变)基底(flooring)系数来降低噪音的方法(例如,参照专利文献2)。现有技术文献专利文献专利文献1:日本特开2009-294537号公报专利文献2:日本特开2008-252389号公报然而,如专利文献1那样的语音区间和非语音区间中,若一概地从音信号去掉推定噪音,则在语音区间记录的人物和/或宠物等的动物的语音劣化。还有,在专利文献2的噪音降低处理的场合,虽然能降低AF噪音,但另一面语音等的目的音劣化的可能性较高。

技术实现要素:
本发明的课题在于提供能不引起语音等的目的音的劣化并适当地降低噪音的拍摄装置、程序、记录介质及噪音降低方法。本发明根据以下的解决手段解决上述课题。根据本发明的第1方面,提供一种拍摄装置,其特征在于,包括:动态图像拍摄部,进行动态图像的拍摄;信号变换部,将上述动态图像的拍摄中发生的声音变换为音信号;拍摄对象判断部,预测或识别特定的拍摄对象;噪音检测部,检测在上述动态图像的拍摄中发生的声音包含的噪音;噪音降低部,从上述音信号降低噪音信号;语音检测部,从上述音信号检测非噪音信号;噪音降低性能变更部,在上述拍摄对象判断部预测或识别特定的上述拍摄对象的场合,使基于上述噪音降低部的上述噪音信号的降低性能减小。上述噪音降低部基于噪音降低系数,从上述音信号降低上述噪音信号;在上述拍摄对象判断部预测或识别特定的上述拍摄对象的场合,上述噪音降低性能变更部将上述噪音降低系数设定为比较小的低水平降低系数,以使上述噪音信号的上述降低性能减小。在上述拍摄对象判断部没有预测或识别特定的上述拍摄对象的场合,上述噪音降低部将上述噪音降低系数设定为比上述低水平降低系数更大的通常水平降低系数。上述拍摄对象判断部是基于上述动态图像拍摄部拍摄的影像信号识别上述拍摄对象的脸的存在的脸识别部。上述拍摄对象判断部是对于每个预先准备的多个摄影模式预测特定的上述拍摄对象的情景模式部。上述噪音检测部通过至少检测自动聚焦的驱动信号,检测上述噪音。上述语音检测部,在上述音信号的频率的下限阈值到上限阈值的范围内,从上述音信号检测非噪音信号;在上述拍摄对象判断部预测或识别特定的上述拍摄对象的场合,上述语音检测部降低上述下限阈值,从第1下限阈值设定为第2下限阈值,以拓宽上述非噪音信号的检测范围。在上述拍摄对象判断部没有预测或识别特定的上述拍摄对象的场合,上述语音检测部将上述下限阈值设定为上述第1下限阈值。根据本发明的第2方面,提供一种用于使计算机作为以下部件起作用的程序,其特征在于,所述部件包括:拍摄对象判断部,预测或识别特定的拍摄对象;噪音降低部,从动态图像的拍摄中发生的声音相对应的音信号降低噪音信号;语音检测部,从上述音信号检测人或动物的语音信号;和噪音降低性能变更部,在上述拍摄对象判断部预测或识别特定的上述拍摄对象的场合,使基于上述噪音降低部的上述噪音信号的降低性能减小。根据本发明的第3方面,提供一种记录用于使计算机作为以下部件起作用的程序的能够计算机读取的记录介质,其特征在于,所述部件包括:拍摄对象判断部,预测或识别特定的拍摄对象;噪音降低部,从动态图像的拍摄中发生的声音相对应的音信号降低噪音信号;语音检测部,从上述音信号检测人或动物的语音信号;和噪音降低性能变更部,在上述拍摄对象判断部预测或识别特定的上述拍摄对象的场合,使基于上述噪音降低部的上述噪音信号的降低性能减小。根据本发明的第4方面,提供一种噪音降低方法,其特征在于,包括以下步骤:进行动态图像的拍摄;将上述动态图像的拍摄中发生的声音变换为音信号;预测或识别特定的拍摄对象;检测在上述动态图像的拍摄中发生的声音包含的噪音;从上述音信号降低噪音信号;从上述音信号检测人或动物的语音信号;在预测或识别特定的拍摄对象的场合,使上述噪音信号的降低性能减小。根据本发明的第5方面,提供一种拍摄装置,其特征在于,包括:聚音装置;语音区间检测部,从上述聚音装置聚音的声音信息检测语音区间;噪音降低处理部,基于上述语音区间检测部的检测结果,进行不同的噪音降低处理。包括:噪音定时检测部,从该拍摄装置内的驱动部的操作信息检测操作噪音的发生定时,上述噪音降低处理部基于上述噪音定时检测部的检测结果,进行不同的噪音降低处理。上述噪音降低处理部,在由上述语音区间检测部检测语音区间的场合,进行比上述语音区间检测部检测非语音区间的场合更弱的低的第1噪音降低处理。上述噪音降低处理部从上述语音区间检测部判定为非语音区间的场合的声音信息推定噪音,进行将该推定的噪音从推定噪音减法前声音信息减去的第2噪音降低处理。上述噪音降低处理部从上述语音区间检测部判定为非语音区间的场合的声音信息求基底谱,使用该基底谱对基底处理前声音信息进行基底处理。基于上述语音区间检测部的语音区间的检测提出语音波形的一部分求自相关函数,使用其求得的自相关函数的峰值进行检测。根据本发明的第6方面,提供一种拍摄装置的噪音降低方法,其特征在于,包括以下步骤:从聚音的声音信息检测语音区间;基于语音区间的检测结果,进行不同的噪音降低处理。从上述拍摄装置内的驱动部的操作信息检测操作噪音的发生定时;基于操作噪音的发生定时的检测结果,进行不同的噪音降低处理。在检测为语音区间的场合,进行比检测为非语音区间的场合更弱的第1噪音降低处理。从判定为非语音区间的场合的声音信息推定噪音;将该推定的噪音进行第2噪音降低处理,即从推定噪音减去前的声音信息进行减法运算。从判定为非语音区间的场合的声音信息求基底谱,使用该基底谱对基底处理前声音信息进行基底处理。语音区间的检测是提出语音波形的一部分求得自相关函数,使用其求得的自相关函数的峰值来检测。发明的效果根据本发明,提供能不引起语音等的目的音的劣化并适当地降低噪音的拍摄装置、程序、记录介质及噪音降低方法。附图说明图1是本发明的第1实施方式涉及的相机的整体方块图。图2是表示由图1所示的相机进行动态图像摄影时主体CPU检测声音时的处理的流程图。图3是用时间轴表示由图1所示的相机进行动态图像摄影的场合发生的声音和主体CPU检测的音信号的概念图。图4是表示语音区间检测的一个例子的概念图。图5是表示噪音降低处理的流程图。图6是表示用本发明的第2实施方式涉及的噪音降低方法进行一般噪音的降低处理的场合的处理阶段和处理后的波形的概念图。图7是表示本发明的第3实施方式的相机的构成的方块图。图8是语音波形图。图9是说明语音波形的自相关函数的图。图10A是利用自相关函数检测语音区间的场合的一个例子,即麦克风的输出波形。图10B是利用自相关函数检测语音区间的场合的一个例子,即将阈值设定为自相关函数的峰值,作为High(高)表示阈值以上的部分的波形。图11是说明基于噪音定时检测部的操作噪音的发生定时检测的细节的图。图12是表示噪音降低处理操作的流程的流程图。图13是说明成为噪音降低处理的对象的第1处理对象声音的形态的概略图。图14是表示区间A的谱的图。图15是表示区间B的谱的图。图16是表示区间C的谱的图。图17是表示推定噪声谱的图。图18是表示从区间C的谱减去噪音的谱的图。图19是表示使用基底谱A的基底处理后的谱的图。图20是表示基底谱A的图。图21是表示基底谱B的图。图22是表示使用基底谱B的基底处理后的谱的图。图23是说明成为噪音降低处理的对象的第2处理对象声音的形态的概略图。图24是表示区间E的背景声音和噪音的谱的图。图25是表示使用区间E的谱的推定噪音的图。图26是表示区间F的谱的图。图27是表示使用区间E的推定噪音进行基底处理之后的谱的图。图28是表示使用区间F的谱的推定噪音的图。图29是表示使用区间F的推定噪音进行基底处理之后的谱的图。符号的说明3:相机,16:拍摄元件,43:麦克风,44:摄影模式切换开关,51:脸识别处理部,52:VAD处理部,t1:第1下限阈值,t2:第2下限阈值,53:噪音检测部,54:噪声抑制处理部,55:噪声抑制性能变更手段,B:音信号,100:拍摄装置,131:麦克风(聚音装置),133:噪音降低处理部,134:语音区间检测部,135:噪音定时检测部,136:第1噪音降低处理部,137:第2噪音降低处理部具体实施方式[第1实施方式]图1是本发明的第1实施方式涉及的相机3的整体方块图。相机3具有相机主体5和透镜镜筒7。透镜镜筒7相对于相机主体5拆装自由地安装。作为本实施方式涉及的相机,不限于如图1所示的透镜交换式相机,也可以是透镜镜筒7和相机主体5为一体的相机,不特别限定相机的种类。在相机主体5及透镜镜筒7的内部,沿着光轴Z,配置多个光学部件。在相机主体5中配置拍摄元件单元15,在拍摄元件单元15的光轴Z方向前方侧(沿着Z轴,将拍摄对象侧称为“Z轴前方侧”或“Z轴的正方向侧”),配置快门33。在快门33的光轴Z方向的前方侧,配置镜子70,在其前方侧,配置内嵌于透镜镜筒7的光学透镜群24。在相机主体5,内嵌有主体CPU50,经由透镜接点34连接在透镜CPU80。主体CPU50具有与透镜镜筒7的通信功能、和相机主体5的控制功能。主体CPU50具有脸识别处理部51、VAD处理部52、噪音检测部53、噪音降低处理部54、噪音降低性能变更部55。透镜接点34将主体CPU50和透镜CPU80电连接。对主体CPU50,连接有用于向相机主体5及透镜镜筒7中具备的电子元件供给电力的电源47。对主体CPU50,连接有动态图像开关41、释放开关42、麦克风43、摄影模式切换开关44、显示部45、EEPROM(非易失性存储器)46、电源47、记录介质48、图像处理控制器31、AF传感器30、电压信号输出电路28等。对图像处理控制器31,经由接口电路32,连接有拍摄元件单元15的拍摄元件16。图像处理控制器31及接口电路32,基于来自主体CPU50的信号,控制由拍摄元件16拍摄的图像的图像处理。拍摄元件16是例如CCD和CMOS等的固体拍摄元件。拍摄元件16将通过光学透镜群24的光束进行光电变换,生成图像信号。在动态图像摄影时,主体CPU50从这个拍摄元件16取得动态图像数据。脸识别处理部51采用这个动态图像数据,检测特定的拍摄对象(人或动物)的脸的存在。摄影模式切换开关44配置于相机主体5,以使摄影者能按照摄影情景选择一个恰当的摄影模式(情景模式、自动模式、P·S·A·M模式等)。作为情景模式,预先准备有例如肖像、孩子快照、宠物、风景、特写等。在EEPROM46,记录适合各个情景模式的摄影参数等。主体CPU50,按照摄影者选择的各个情景模式,从EEPROM46取得需要的摄影参数。麦克风43将动态图像的拍摄中发生的声音变换为音信号。显示部45主要由液晶显示器等构成,显示输出结果和/或菜单等。释放开关42是操作静止画摄影的定时的开关。释放开关42,对主体CPU50,输出半压信号及全压信号。主体CPU50,在从释放开关42输入半压信号时,控制AF控制、AE控制等的摄影准备操作,在从释放开关42输入全压信号时,控制镜子提升、快门驱动等的曝光操作。快返镜70用于在构图决定时在取景器中放映出像,曝光中从光路退避。快返镜70通过未图示的镜驱动部(例如DC马达)驱动。对快返镜70,连接有向AF传感器30引导光的子镜70a。这个子镜70a也在曝光中从光路退避。快门33控制曝光时间。快门33基于来自主体CPU50的控制,通过未图示的快门驱动部(例如DC马达)驱动。AF传感器30是用于进行自动聚焦(AF)的传感器。作为这个AF传感器30,通常能用CCD。如图1所示的动态图像开关41是操作动态图像摄影的定时的开关。动态图像开关41对主体CPU50,输出动态图像摄影的开始/结束信号。主体CPU50,在从动态图像开关41取得动态图像摄影的开始信号时,进行镜子提升及快门开操作的命令。由此,将通过光学透镜群24的光束引导至拍摄元件16,开始动态图像摄影(即时显示摄影)。还有,主体CPU50,在从动态图像开关41取得动态图像摄影的结束信号时,进行镜子下降及快门闭操作的命令,动态图像摄影结束。即时显示摄影中的自动聚焦,由主体CPU50基于从拍摄元件16输出的动态图像数据来进行(对比AF)。在如图1所示的透镜镜筒7中,具备包含自动聚焦(AF)透镜24的光学透镜群、焦距编码器74、距离编码器72、驱动AF透镜24的驱动马达76、透镜CPU80、透镜接点34等。透镜CPU80具有与主体CPU50的通信功能、和透镜镜筒7中装载的电子元件的控制功能。例如,透镜CPU80经由透镜接点34向主体CPU50输出焦距信息、拍摄对象距离信息等。还有,从主体CPU50向透镜CPU80,输入AF信息、动态图像开始/结束信息、释放信息等。透镜CPU80能基于这些信息,控制AF透镜24的驱动马达76等。焦距编码器74从未图示的变焦距透镜群的位置信息计算焦距,向透镜CPU80输出。距离编码器72由包含AF透镜24的对焦透镜群的位置信息计算拍摄对象距离,向透镜CPU80输出。拍摄对象距离信息用于未图示的闪光灯的调光等。如图1所示,在相机主体5中,具备电压信号输出电路28。电压信号输出电路28基于来自主体CPU50的控制信号,向拍摄元件单元15的防尘过滤器18具备的多个电极输出电压。主体CPU50的脸识别处理部51基于拍摄元件16制作的动态图像数据检测特定的拍摄对象的脸是否存在于动态图像数据中。在检测特定的拍摄对象的脸没有存在于动态图像数据中时,例如能使用模板匹配等公知的脸识别功能。如图3所示,说明在动态图像摄影时经常发出声音B的场合。再者,主体CPU50对各帧(例如1m秒)的每个从拍摄元件16取得图像数据,生成连续的动态图像数据。图3中,仅代表连续的图像帧61~69,概念地说明在帧61~69间发出的声音B。在声音B中,可能包括特定的拍摄对象发出的声音H、和噪音N。如图1所示的麦克风43拾取这样的声音B,作为如图3概念表示的语音数据M向主体CPU50输出。再者,如图1所示的VAD处理部(语音检测部)52从语音数据M提取功率信息,如图4概念地表示,从提取的频率信息将比第1下限阈值大的频带的始端至末端检测,作为人和/或动物等的语音发出语音区间。如图1所示的透镜CPU80,通过向AF驱动马达76输出AF驱动信号,驱动AF透镜24。主体CPU50的噪音检测部53,经由透镜接点34,与透镜CPU80相连,能直接检测AF驱动信号。若噪音检测部53检测AF驱动信号,则噪音降低处理部54进行以下叙述的噪音的降低处理。由噪音降低处理部54进行的噪音(本实施方式中,特定的AF驱动噪音)的降低,基于图5所示的流程图进行。在步骤S30,若噪音降低处理部54读入噪音降低开始信号,在步骤S31,噪音降低处理部54读入例如预先存储于EEPROM46的AF噪音的反相位的波形。其次,进入步骤S32,对AF噪音的反相位的波形,相乘噪音降低系数(后述的通常水平降低系数或低水平降低系数)。其次,进入步骤S33,通过对图3所示的语音数据M相加在步骤S32相乘的结果得到的波形,进行噪音的降低。噪音降低性能变更部55,在脸识别处理部51检测特定的拍摄对象的脸的存在的场合,很小地设定基于上述的噪音降低处理部54的噪音降低系数。即,将基于噪音降低处理部54的噪音降低系数设定为低水平降低系数。或,噪音降低性能变更部55,若取得基于摄影模式切换开关44的肖像、孩子快照、宠物的任一个情景模式信号,则将基于噪音降低处理部54的噪音降低系数设定为低水平降低系数。其次,基于如图2所示的流程图,关于如图1所示的主体CPU50的操作进行说明。如图2所示,在步骤S01,若主体CPU50接受动态图像的摄影开始信号,则在步骤S02,主体CPU50在某动态图像帧相对应的语音数据M的开始时判断特定的拍摄对象的脸是否存在于动态图像数据中。即,主体CPU50,在判断特定的拍摄对象的脸存在于动态图像数据的场合,进入步骤S03。在步骤S03,降低要用作在VAD处理部52检测的语音区间的边界的该频率的下限阈值,设定为第2下限阈值t2,进而,在步骤S04,主体CPU50以构成动态图像的各帧相对应的帧与帧的边界的定时,判断语音数据M是否在语音区间(如图3所示的语音区间VAD)。在主体CPU50判断语音数据M在语音区间的场合,进入步骤S05。在步骤S05,主体CPU50减小基于噪音降低性能变更部55的噪音降低系数(低水平降低系数)。再者,在步骤S04,在主体CPU50判断语音数据M在语音区间外的场合,进入步骤S08(后述)。其次,进入步骤S09,主体CPU50判断是否检测噪音。在某动态图像帧相对应的语音数据M的开始时主体CPU50检测噪音的场合,进入步骤S10,在其动态图像帧中,以上述的低水平降低系数,对图3所示的语音数据M,进行噪音降低处理。在步骤S09,在某动态图像帧相对应的语音数据M的开始时主体CPU50没检测噪音的场合,进入步骤S11,在其动态图像帧中,不进行噪音的降低处理。还有,在步骤S02,在主体CPU50判断特定的拍摄对象的脸不存在于动态图像数据中的场合,进入步骤S06。在步骤S06,主体CPU50检测来自摄影模式切换开关44的输入信号,进行是否为肖像、孩子快照、宠物的任一个摄影模式的判断。在主体CPU50判断为肖像、孩子快照、宠物的任一个摄影模式的场合,进入步骤S03。在步骤S06,在主体CPU50判断为风景或特写的摄影模式的场合,进入步骤S07,主体CPU50将VAD处理部52中要作为语音区间的边界的频率的下限阈值设定为第1下限阈值t1。再者,在步骤S07,主体CPU50不必进行语音区间VAD的检测。其次,进入步骤S08,主体CPU50使基于噪音降低性能变更部55的噪音降低系数成通常的状态(通常水平降低系数)。其次,进入步骤S09,主体CPU50判断是否检测噪音。在某动态图像帧相对应的语音数据M的开始时主体CPU50检测噪音的场合,进入步骤S10,在其动态图像帧中,以上述的通常水平降低系数,对图3所示的语音数据M,进行噪音降低处理。在步骤S09,在某动态图像帧相对应的语音数据M的开始时主体CPU50没检测噪音的场合,进入步骤S11,在其动态图像帧中,不进行噪音的降低处理。这样,例如在步骤S03,通过将要作为语音区间的边界的频率的下限阈值设定为第2下限阈值t2,能可靠地拾取人或动物的语音。还有,在某动态图像帧相对应的语音数据M的开始时,主体CPU50对其帧相对应的语音数据M进行上述的操作(以低水平降低系数进行噪音降低,以通常水平降低系数进行噪音降低,不进行的噪音降低的任一个)。即,在以低水平降低系数进行噪音降低的场合,图3中以“弱”表示,在以通常水平降低系数进行噪音降低的场合,以“中”表示,在不进行噪音降低的场合,以“没有”表示,作为对语音数据M进行噪音降低处理的结果,主体CPU50生成如图3所示的噪音降低后的语音数据M’(概念地表示语音数据M’)。具体地,如图3所示的帧61相对应的语音数据M中,帧61的开始时,主体CPU50没检测特定的拍摄对象的语音,也没检测噪音,因此不进行噪音降低处理。帧62、63相对应的语音数据M中,帧62、63开始时,主体CPU50检测特定的拍摄对象的语音,但是没检测噪音,因此不进行噪音降低处理。帧64相对应的语音数据M中,帧64的开始时,主体CPU50检测特定的拍摄对象的语音,而且,也检测噪音,因此减弱噪音降低的效果,防止特定拍摄对象的语音劣化。帧65相对应的语音数据M中,帧65的开始时,主体CPU50没检测特定的拍摄对象的语音,但是检测噪音,因此使噪音降低的效果成通常水平,进行噪音降低处理。帧66相对应的语音数据M中,帧66的开始时,主体CPU50没检测特定的拍摄对象的语音,也没检测噪音,因此不进行噪音降低处理。帧67相对应的语音数据M中,帧67的开始时,主体CPU50检测特定的拍摄对象的语音,但是没检测噪音,因此不进行噪音降低处理。帧68相对应的语音数据M中,帧68的开始时,主体CPU50检测特定的拍摄对象的语音,而且,也检测噪音,因此减弱噪音降低的效果,防止特定拍摄对象的语音劣化。帧69相对应的语音数据M中,帧69的开始时,主体CPU50没检测特定的拍摄对象的语音,也没检测噪音,因此不进行噪音降低处理。本实施方式的相机3及噪音降低方法中,拍摄元件16进行动态图像的拍摄,并且,麦克风43将动态图像的拍摄中发出的声音B变换为音信号M。这个声音B有包括噪音N的情况。噪音检测部53检测是否发出噪音N,在检测噪音N时,噪音降低处理部54从音信号M降低与噪音N相对应的噪音信号。另一方面,VAD处理部52检测非噪音信号。所谓非噪音信号是人或动物的语音、音乐等至少相当于人的语音的频域的全部语音信号。包含这个非噪音信号的音信号作为语音区间来处理,不包含非噪音信号的数据作为非语音区间来处理。VAD处理部52利用上述的公知VAD。还有,主体CPU50从摄影模式切换开关44的输出信号预测特定的拍摄对象,或主体CPU50(脸识别处理部51)识别特定的拍摄对象。本实施方式中,主体CPU50通过判断是否为肖像、孩子快照、宠物的任一个的摄影情景(步骤S06),能预测特定的拍摄对象发出语音H。或者,主体CPU50通过检测特定的拍摄对象的脸存在于动态图像数据中(步骤S02),能识别特定的拍摄对象的存在。在那个场合,噪音降低性能变更部55减小基于噪音降低处理部54的噪音信号的降低性能。即,与在非语音区间检测噪音信号的场合相比,在语音区间检测噪音信号的场合,噪音降低性能变更部55减小基于噪音降低处理部54的噪音信号的降低性能。因此,能够最小限度地抑制在语音区间记录的非噪音信号的劣化。因此,能明确地记录人和/或动物的语音,提高动态图像的欣赏质量。还有,以前,作为噪音对策,摄影者在动态图像摄影时为不使用成为噪音发生源的功能(AF等)的状态,摄影的表现的宽度可能变窄,但是,本实施方式中,摄影者能积极地使用这些功能,能拓宽动态图像摄影的表现的宽度。本实施方式的程序,对预先拍摄的动态图像数据,使电脑实现上述的部件。还有,本实施方式的记录介质,对预先拍摄的动态图像数据,使电脑记录实现上述的部件的程序。因此,在电脑上从后边开始编辑预先拍摄的动态图像数据时,能最小限度地抑制语音区间的非噪音信号的劣化。还有,例如,拍摄动态图像数据的相机即使没有脸识别功能等,本实施方式的程序通过记录介质,也能最小限度地抑制语音区间的非噪音信号的劣化,和明确地记录也人和/或动物的语音。噪音信号的降低效果的大小与噪音降低系数成比例。主体CPU50按照是否预测或识别特定的拍摄对象,使噪音降低系数在通常水平降低系数和低水平降低系数之间可变,因此不用复杂的演算处理,就能变更噪音信号的降低效果的大小。特别是,在主体CPU50预测或识别特定的拍摄对象的场合,能减小噪音信号的降低效果(低水平降低系数),能最小限度地抑制语音区间的非噪音信号的劣化,能明确地记录人和/或动物的语音。其另一方面,主体CPU50在没有预测或识别特定的拍摄对象的场合,使噪音信号的降低效果比低水平降低系数的场合大(通常水平降低系数),在非语音区间,能适宜地进行噪音信号的降低。本实施方式中,通过使用公知的脸识别功能,脸识别处理部51能有效地识别拍摄对象的脸的存在。在脸识别处理部51识别拍摄对象的脸的存在期间,拍摄对象发音的可能性高,所以噪音降低性能变更部55通过减小噪音信号的降低性能,来最小限度地抑制语音区间的非噪音信号的劣化,能明确地记录人和/或动物的语音。摄影者在将摄影模式选择为肖像、孩子快照、宠物等的任意一个进行动态图像的摄影的场合,特定的拍摄对象发音的可能性高。因此,在这些情景模式时,主体CPU50预测特定的拍摄对象发出语音H,噪音降低性能变更部55减小噪音信号的降低性能。通过这样,最小限度地抑制语音区间的非噪音信号的劣化,能明确地记录人和/或动物的语音。其另一方面,摄影者在将摄影模式选择为风景、特写等的任意一个进行动态图像的摄影的场合,拍摄对象判断部50预测摄影者没打算使特定的拍摄对象发音。因此,这些情景模式时,噪音降低性能变更部55使噪音信号的降低性成通常的状态。因此,能有效地降低检测的噪音信号。噪音检测部53,通过至少检测自动聚焦的驱动信号,可以检测噪音N。还有,噪音检测部53,通过至少检测自动聚焦、手势修正、突变的驱动信号的任一个,可以检测噪音N。噪音发生源和噪音检测部53可以直接相连。在自动聚焦、手势修正、突变等的驱动中,噪音检测部53可以检测这些驱动信号。这个场合,能可靠地检测伴随驱动的噪音N。VAD处理部(语音检测部)52,在音信号M的频率的下限阈值到上限阈值的范围内,从音信号M检测语音信号。在主体CPU50(脸识别处理部51)识别特定的拍摄对象的场合,或者,在主体CPU50判断为肖像、孩子快照、宠物的任一个摄影情景的场合,VAD处理部52降低下限阈值,可以从第1下限阈值设定为第2下限阈值,以拓宽语音信号的检测范围。还有,在主体CPU50(脸识别处理部51)没识别特定的拍摄对象的场合,或者,在主体CPU50判断摄影模式为风景、特写等的任一个摄影情景的场合,VAD处理部52可以将下限阈值设定为第1下限阈值。应用公知的VAD,拍摄对象判断部50、51在预测或识别特定的拍摄对象(人或动物)的场合,通过拓宽语音信号的检测范围,能更明确地检测人或动物的语音。还有,图3的帧67中,不进行噪音降低的处理那样地进行了说明,但是即使在帧67的过程中,也可以以主体CPU50检测AF驱动信号的定时,进行噪音降低的处理。[第2实施方式]第1实施方式中,例如图3所示的帧61那样地,关于完全不进行噪音降低处理的场合进行了说明,但是,本实施方式中,如图6所示,例如帧61中,还进行AF声音等的噪音(特定噪音)以外的一般噪音(例如,车的引擎声音、风声等)的降低处理。在图1所示的EEPROM46,与用于降低特定噪音的程序一起,预先记录用于降低特定噪音以外的一般噪音的程序。此外,与上述的第1实施方式同样,省略重复的说明。考虑在图6所示的声音B中包括一般噪音。例如,与帧61相对应的语音数据M中,帧61的开始时,主体CPU50没检测特定的拍摄对象的语音,但检测一般噪音,因此以通常水平降低系数,进行一般噪音降低处理。还有,例如,与帧64相对应的语音数据M中,帧64的开始时,主体CPU50检测特定的拍摄对象的语音,而且,也检测特定噪音,因此减弱噪音降低的效果,防止特定拍摄对象的语音劣化。还有,例如,帧65的开始时,主体CPU50没检测特定的拍摄对象的语音,但检测一般噪音。并且,主体CPU50也检测特定噪音。这个场合,以通常水平降低系数,进行特定噪音的降低。本实施方式中,不仅是特定噪音,还能进行一般噪音的降低。还有,上述的实施方式中,采用具有镜子机构的相机进行了说明,但是也能适用于省去镜子机构的系统的相机。还有,上述的噪音检测部检测的噪音的对象没有特别限定,噪音检测部能检测手势校正透镜驱动马达声音、车的经过声音(噪音)、相机的操作按钮的操作声音等。并且,用于噪音降低的程序、语音检测部不限于上述的实施方式,也能采用一般的噪音检测程序和/或用于一般的语音检测的程序。[第3实施方式]以下,参照附图等,关于本发明的第3实施方式说明。图7是表示第3实施方式的相机的构成的方块图。如图7所示,相机100具备透镜镜筒110、图像处理部120(对通过透镜镜筒110的拍摄对象进行拍摄并进行A/D变换,以及,进行图像处理并生成图像数据)、声音信息处理部130(对聚音的声音信息进行A/D变换,以及,进行噪音降低处理)、记录部140(记录图像处理部120得到的图像数据及声音信息处理部130得到的语音信号)、和CPU150。透镜镜筒110具备像移动修正部等的VR单元111、AF编码器112、和AF驱动用马达113,其中像移动修正部等的VR单元111具有调焦透镜(以下,为AF(AutoFocus:自动聚焦))透镜、手势校正透镜(以下,为VR(VibrationReduction:减振))透镜、变焦距透镜、变焦距透镜驱动部、缩放编码器。AF编码器112检测光学系统的AF透镜的位置,向CPU150输出。从CPU150向AF驱动用马达113输入用于控制AF透镜的位置的驱动控制信号,按照其驱动控制信号,控制AF透镜的位置。CPU150按照设定的拍摄条件(例如,光圈值、曝光值等)控制透镜镜筒110。CPU150生成驱动变焦距透镜驱动部及AF驱动用马达113的驱动控制信号,向变焦距透镜驱动部及AF驱动用马达113输出。声音信息处理部130具备作为聚音装置的麦克风131、处理聚音的经A/D变换的声音信息的声音信号处理部132、和噪音降低处理部133。声音信号处理部132具备从麦克风131聚音的声音信息检测语音区间的语音区间检测部134、和从AF驱动用马达113的操作信息检测操作噪音发生的定时的噪音定时检测部135。语音区间检测部134基于自相关函数的峰值从麦克风131聚音的声音信息辨别包含语音信号的区间(语音区间)及其以外的区间(非语音区间)。说明基于语音区间检测部134的语音区间检测的概要如下。图8是语音波形。若提出这个语音波形的任意的一部分求得自相关函数,则成为如图9所示的波形。这个语音波形具有语音,即,在与声带的振动频率相对应的基频及为与其谐音相对应的频带域集中峰值的性质(谐波性),可以通过利用这个谐波性根据自相关函数的峰值的大小,区别是语音还是非语音。图10A、图10B利用自相关函数表示检测语音区间的场合的一个例子。图10A是来自麦克风131的输出波形,在其前半部发生AF噪音,在后半部发生语音和AF噪音。对图10A所示的输出波形求自相关函数,对这个自相关函数的顶峰设定阈值,若将阈值以上的部分作为High(高)表示,则能得到图10B那样的波形。由此,能在输出波形的后半部检测存在与语音位置一致的语音区间。噪音定时检测部135从AF驱动用马达113的操作信息检测操作噪音发生的定时。基于这个噪音定时检测部135的操作噪音的发生定时使用来自指示的AF驱动指令及AF编码器112的输出进行检测(推定),以输出由CPU150对AF驱动用马达113的驱动控制信号。说明基于噪音定时检测部135的操作噪音的发生定时检测的细节如下。如图11所示,若通过AF驱动指令的输出使AF驱动用马达113操作,则从作为AF驱动指令的输出时刻的AF驱动用马达113的操作开始时间t1到操作结束时间t3连续发生操作噪音。在麦克风131,聚音使操作噪音与拍摄对象的语音等的记录目的音重叠的声音信息,从麦克风131输出进行那样聚音的声音信息。此时,有可能由于AF驱动系的齿轮列引起的反冲等的影响从AF编码器112从比AF驱动用马达113的操作开始时间t1晚的时刻t2输出。因此,噪音定时检测部135检测从AF驱动指令的输出时刻t1到AF编码器112的输出停止t3作为操作噪音的发生定时,检测其以外作为非噪音定时。再者,在AF操作时,从麦克风131实际输出的信号是操作噪音与目的音重叠的信号,但是为了简略说明,图11中,仅表示操作噪音。噪音降低处理部133对图11表示的操作噪音中在AF操作开始时及AF操作结束时发生的冲击音噪音进行降低处理。噪音降低处理部133取得图11表示的操作噪音发生前的窗口X的第1频谱、和操作噪音发生后的窗口Y的第2频谱。将取得的第1频谱和第2频谱相比较,在比较的结果为第2频谱比第1频谱大的场合,通过将第2频谱替换为第1频谱,来进行第1噪音的降低处理。这里,在由语音区间检测部134检测为语音区间的场合,不替换到预定的频率(例如,4000Hz)为止的频谱并保存,还有,在检测为非语音区间的场合,不替换比其小的预定的频率(例如,500Hz)为止的频谱并保存。即,例如,在检测为语音区间的场合保存的频率的上限为4000Hz,例如,在检测为非语音区间的场合保存的频率的上限为500Hz,由此,在检测为语音区间的场合,进行比检测为非语音区间的场合更弱的第1冲击音噪音降低处理。还有,噪音降低处理部133从语音区间检测部134检测为非语音区间进行强的冲击音噪音降低处理的场合的频谱推定噪音,更新推定噪音,并且,使用其推定噪音,从进行第1冲击音噪音降低处理的频谱减去并进行生成频谱的谱减法处理(第2噪音降低处理)。除了上述构成之外,在声音信息处理部130中,还具有以下的处理部:针对每个预先决定从麦克风131输出的声音信息的区间进行分割以窗口数加权,并且,将每个这样的区间的声音数据进行傅立叶变换(FFT:FastFourierTransform)并变换为频域。还有,具有以下的处理部:通过FFT处理区分频域的振幅信息和相位信息,利用频域的振幅信息进行噪音降低处理(谱减法处理),对于进行如此处理的谱,通过进行傅立叶逆变换(IFFT:InverseFastFourierTransform),将噪音降低处理后的谱(声音信息)变换为时域。关于这些处理部,省略图示。并且,噪音降低处理部133,通过第2噪音降低处理(谱减法处理),在谱显著减少的场合和/或谱消失的场合具有修正谱的基底(flooring)功能。这个基底,将基于通过噪音定时检测部135检测为非噪音定时,并且,通过语音区间检测部134检测为非语音区间的场合的声音信息生成的基底谱和第2噪音降低处理减法之后的谱相比较,在减法后的谱低于基底谱(谱强度小)的场合,生成采用基底谱的声音信息(谱),对其进行IFFT处理。但是,在减法后的谱高于基底谱(谱强度大)的场合,可以进行基底处理,还有,也可以不必进行基底处理。还有,用于基底功能的基底谱,采用由噪音定时检测部135检测为非噪音定时,并且,由语音区间检测部134检测为非语音区间的场合的声音信息来更新。由此,在基底谱,不包含操作噪声谱、语音谱的任一个,仅包含背景声音,在基底处理时附加语音谱,不会生成音降低处理后的声音信息中本来没有的语音。其次,基于附图说明本实施方式的相机100的噪音降低处理操作(噪音降低方法)。图12是表示噪音降低处理操作的流程的流程图。图13是说明成为噪音降低处理的对象的第1处理对象声音的形态的概略图。(第1处理对象声音)如图13所示,第1处理对象声音是发生区间A仅为背景声音,区间B为背景声音和语音(目的音),区间C为背景声音和AF噪音的形态。说明在图13所示的第1处理对象声音的区间C,从麦克风131聚音输出的声音信息对AF噪音进行降低处理的操作及基底更新。(步骤ST1)首先,由噪音定时检测部135,基于从麦克风131输出的声音信息,开始噪音定时的检测。将由此时的麦克风43聚音的声音信息(谱),在图14表示区间A,在图15表示区间B。(步骤ST2)继续,由语音区间检测部134,基于从麦克风131输出的声音信息,开始语音区间的检测。(步骤ST3)对从麦克风131输出的声音信息进行FFT处理,分为频域的振幅信息和相位信息。(步骤ST4)其次,由噪音定时检测部135,检测(判定)是操作噪音的发生定时还是非噪音定时(即是否为AF区间)。(步骤ST4,是)在步骤ST4,判定区间C是操作噪音的发生定时(AF区间,是),进入步骤ST5。(步骤ST4,否)判定区间A及B是非噪音定时,进入步骤ST11。(步骤ST5)在步骤ST5,由语音区间检测部134检测(判定)是语音区间还是非语音区间。因为区间C是非语音区间(否),进入步骤ST7。(步骤ST7)在这里,在包含AF操作开始时及AF操作结束时的场合,进行不替换上限到预定的频率(例如,500Hz)为止的谱并保存的所谓强冲击音噪音降低处理,关于区间C得到图16的谱。在不包含AF操作开始时及AF操作结束时的场合,判断不包含冲击音噪音,不进行冲击音噪音降低处理。(步骤ST8)接着,推定由步骤ST7的噪音降低处理得到的谱(图16)的噪音,向步骤ST9输出如图17所示的推定噪声谱。(步骤ST9)继续,进行从由步骤ST7的冲击音噪音降低处理得到的谱(图16)减去由步骤ST8的推定得到的推定噪声谱(图17)的谱减法处理(第2噪音降低处理),能得到如图18所示的谱。(步骤ST10)通过第2噪音降低处理(谱减法处理),存在图18的谱显著减少,或者消失的场合,为了与此对应,进行修正图18的谱的基底处理。这个基底处理,将图18的谱和成为基准的基底谱的大小相比较。并且,比较的结果,采用强度大的谱,生成如图19所示的谱。在这里使用的基底谱,如后述,为从区间A求得的基底谱。(步骤ST11)返回步骤ST11,在这里,由语音区间检测部134检测(判定)是语音区间还是非语音区间(仅背景声音的区间)。其结果,判定区间B是语音区间(是),不进行噪音降低处理、谱减法、基底处理,进入步骤ST13。判定区间A是非语音区间(否),进入步骤ST12。(步骤ST12)在步骤ST12,使图14所示的仅背景声音发生的区间A的谱的各频率的振幅减半,得到如图20所示的基底谱。在前述用于步骤ST10的基底处理的同时,将这个基底谱(图20)更新为这个基底谱。假如,在使用将区间B的图15表示的谱的各频率的振幅减半而求得的图21的基底谱进行基底处理的场合,成为如图22表示的谱。若图22的谱为区间C的谱,则也包含区间B(图15)中包括的语音的谱的成分(特别是f2,f4),不能得到正确的目的音。可是,根据本实施方式,在用于基底处理的基底谱(图20)中,不包含语音及操作的噪音的谱。因此,在步骤ST10的基底处理中,附加AF噪音和/或语音的谱能防止产生噪音降低处理后的声音信息中本来没有的操作噪音和/或语音。(步骤ST13)在最后的步骤ST13,通过使用在步骤ST3区分的相位进行IFFT处理,将噪音降低处理后的谱变换为时域,向记录部140输出。(第2处理对象声音)其次,说明使用第2处理对象声音(具有与上述的第1处理对象声音不同的形态)的场合的噪音降低处理操作(噪音降低方法)。再者,噪音降低处理操作流程的各步骤中,由于与第1处理对象声音的场合大致上相同,因此主要以在各步骤的处理内容的不同点为中心来说明。图23是说明成为噪音降低处理的对象的第2处理对象声音的形态的概略图。如图23所示,处理对象声音是发生区间D仅为背景声音,区间E为背景声音和AF噪音,区间F为背景声音和语音和AF噪音的形态。说明在图23所示的处理对象声音的区间E及区间F,从麦克风131聚音输出的声音信息对AF噪音进行降低处理的操作及基底更新。步骤ST1到ST4与上述的第1处理对象声音的区间C相同,所以省略。(步骤ST5)在步骤ST5,判定区间F是语音区间(是),进入步骤ST6。(步骤ST6)在步骤ST6,在包含AF操作开始时及AF操作结束时的场合,进行不替换上限到预定的频率(例如,4000Hz)为止的谱并保存的所谓弱第1冲击音噪音降低处理。在不包含AF操作开始时及AF操作结束时的场合,判断不包含冲击音噪音,不进行冲击音噪音降低处理。进行这个第1冲击音噪音降低处理的谱包含语音的谱成分f2,f4。这个谱不用于推定噪音更新,进入用于进行作为第2噪音降低处理的谱减法处理的步骤ST9。在第2处理对象声音的场合,在以操作噪音的发生定时且作为非语音区间的区间E,能得到图24所示的谱,在区间F,能得到图26所示的谱。在那里,在步骤ST8,从在区间E得到的谱推定噪音更新。更新后的推定噪音成为图25所示的谱。由此,通过在步骤ST9,从区间F的谱(图26)减去推定噪音谱(图25),并且,在步骤ST10进行基底处理,生成图27所示的谱。再者,第2处理对象声音的场合的基底谱,从仅背景声音发生的区间D得到。这个基底谱,采用与第1处理对象声音的场合相同地将图14减半处理的图20的谱。在这里,假设,在以区间F的谱(图26)乘以0.9的推定噪音即图28为前提进行谱减法的场合,成为图29表示的谱。在这个场合,对以f2,f4表示的语音的谱也进行减法,不能得到正确的声音信息。可是根据本实施方式,如图27所示能存在语音谱。以上,根据本实施方式,具有以下的效果。(1)从麦克风131聚音的声音信息检测语音区间,在检测为语音区间的场合,进行比检测为非语音区间的场合更弱的第1噪音降低处理。为此,相比于没有语音区间、非语音区间的区分就进行强噪音降低处理的场合,不会引起特别是由语音及背景声音构成的目的音的语音部分的劣化,能恰当地降低噪音。(2)第1噪音降低处理后,从判定为非语音区间的场合的声音信息推定噪音,进行对这个推定的噪音进行减法的第2噪音降低处理(谱的减法处理)。为此,从非语音区间的声音信息求得噪音不除去语音本身,能得到与目的音非常接近的处理声音。(3)从相机100内的驱动部的操作信息检测操作噪音的发生定时,在检测噪音发生定时的场合向噪音降低处理转移。为此,不进行徒劳的噪音降低处理,只在需要时适当且能合理地进行噪音降低处理。(4)由于对第2噪音降低处理(谱减法处理)后的声音信息进行基底处理,通过谱减法来减少,或者,能修正有消失可能的谱。由此,防止过多降低噪音的情况,能确保(记录)聚音的声音信息中接近目的音的声音。以上,不限于说明的实施方式,能够进行以下所示的各种变形和/或变更,那些也在本发明的范围内。例如,本实施方式中,说明了对于麦克风131聚音的声音信息,实时地进行噪音降低处理的构成。可是,不限于此,也可以是将麦克风131聚音的声音信息临时地存储于缓冲存储器等,按照需要从缓冲存储器等读出声音信息来进行噪音降低处理的构成。这个场合,能减轻实时处理时候装置涉及的负荷。再者,实施方式及变形方式也能适宜地组合来采用,但是,详细的说明省略。还有,本发明不通过以上说明的实施方式来限定。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1