声音强调装置及声音强调方法

文档序号:2831732阅读:648来源:国知局
专利名称:声音强调装置及声音强调方法
技术领域
本发明涉及生成与普通的发音具有不同特点的声音的"用力"声音的 技术,所谓"用力"声音是指,人的歌声或在为了强调讲话内容而用力加
强语气时出现的嘶哑的声音、粗鲁的声音、或者刺耳的声音(harshvoice), 例如在唱演歌等时出现的"花腔(C A L )"或"哼声(念")之类的表现, 或者,在演唱布鲁斯歌曲或摇滚乐等时出现的"喊叫声"之类的表现。本 发明尤其涉及声音强调装置,该声音强调装置能够生成能够表现如上所述 的声音所包含的愤怒、重音、强有力以及精力充沛的感情或声音的表现力、 说话风格或讲话者的态度、状况、或发音器官的紧张状态的声音。
背景技术
以往,开发了以声音来表现感情、表现力、态度及状况等的、尤其不 是以语言的声音来表现,而是以通过所谓口气、说话的方式及声调之类的 副语言的表现来表达感情等为目的声音转换或者声音合成的技术。这些技 术对于从机器人或者电子秘书到电子设备的声音对话接口都是必不可少 的。而且,作为应用于卡拉OK或者用于音乐的效应器的技术,开发了对 声音波形进行加工以附加颤音等音乐性表现的技术,或强调声音的表现的 技术。
在声音的副语言性表现或音乐性表现之中,作为实现根据音质的表现 的方法,存在对输入的声音进行分析从而求出合成参数,并通过改变此参 数来改变音质的声音转换方法的提案(例如,参考专利文献1)。但是,在 上述以往的方法中,是按照以每种感情来预先规定的同样的转换规则进行 参数转换。因此,不能够再现如在自然说话中所能见到的、 一部分成为用 了力的声音的音质的变化。而且,对于全体输入声音适用同样的转换规则。 因此,不能适应如只对讲话者想要强调的部分进行转换,以及如对输入声 音的原有的表现力或表现的强弱进行强调的转换。并且,还提出了在卡拉OK中,将用户的歌唱改变成模仿了原唱歌手 的唱法的歌唱的方法的提案(例如,专利文献2)。也就是,根据歌唱数据, 对用户的歌声进行改变振幅或基频,以及附加噪声等的变形处理,该歌唱 数据中记述了所谓原唱歌手的唱法、即在乐曲之中的哪个区间使用了哪种 程度的颤音,是否包含"用力声音"或"哼声"之类的音乐性表现。
进而,还提出了针对歌唱数据与原唱歌手的歌唱定时的偏差,进行歌 唱数据和乐曲数据的比较的方法的提案(例如,专利文献3)。若将这些技 术组合在一起,则即使在歌唱数据与原唱歌手的歌唱定时相比具有偏差的 情况下,只要大致的定时相符,就有可能将输入声音转换成模仿了原唱歌 手的唱法的歌唱。
关于声音的一部分的音质的变化,进行了作为"用力声音"的,也称 为"紧喉嗓音"(creaky)或者"声带微颤而发出的弱声"(vocal fry)的 声音的研究,该"用力声音"不同于作为本申请所设定的对象的、在兴奋 之际的发音中歌唱声音的表现的"用力"声音或"哼声"的声音。作为"紧 喉嗓音"的声特征,非专利文献1举出了以下特征局部的能量的变化剧 烈;基频比普通发音时的基频低,且不稳定;比普通发音的区间的强度小。 并且,揭示出存在由于通过喉头用力而使声带震动的周期性紊乱,从而产 生这些特征的情况。进而,揭示出与音节单位的平均持续时间相比,经过 长区间产生"用力声音"的情况较多。"紧喉嗓音"被作为在关心或厌恶的 感情的表现中,或者在踌躇或谦逊的态度的表现中,具有提高讲话者的诚 实感的效果的音质。在非专利文献1中论述的"用力声音"在一般的文章 结尾部分或句尾等声音逐渐消失的过程中;在边选词边说话、边考虑边说 话之时,拖拉词尾式的拉长词尾发音的情况下的被拉长了的词尾;以及在 不知如何回答之时发出的"A — , t (这个……)"",一/u (嗯)"之类的
感叹词里经常可见。进而,非专利文献l揭示了 "声带微颤而发出的弱声" 及"紧喉嗓音"里包含有以双拍节或者以基本周期的倍数而发生的新的周 期的双音(diplophonia)。作为生成在"声带微颤而发出的弱声"里可见 的被称为双音(diplophonia)的声音的方式,将错开了基频的二分之一周 期的相位的声音重叠的方法被提案。
专利文献1:(日本)特许第3703394号公报专利文献2 :(日本)特开2004-177984号公报 专利文献3:(日本)特许第3760833号公报
非专利文献1:石井力A 口》寿憲、石黑浩扭J:"萩田紀博、「 Q §办 o自動検出o &灼o音響分析」、電子情報通信学会技術研究報告、SP2006 —07巻、pp.l — 6、 2006 (石井Carlos寿宪、石黑浩及萩田纪博、"用于 自动检测用力声音的声学分析"、电子信息通信学会技术研究报告、SP2006 —07巻、pp.l-6、 2006)
但是,通过上述以往的方法或者这些方法的组合无法生成如在兴奋、 紧张、愤怒或者为了强调而用力加强语气讲话时出现的嘶哑的声音、粗鲁 的声音或者刺耳的声音(harsh voice),还有如唱歌时出现的"花腔"、"哼 声"或"喊叫声"那样的声音的一部分中出现的"用力"声音。在此,"用 力"声音是在用力说话时,由于发音器官比在一般情况下用力或者由于发 音器官极度紧张而引起的。具体而言,因为"用力"声音是用了力的发音, 所以声音的振幅算是比较大的。而且,"用力"声音不仅限于感叹词,还能 在无论独立词或者辅助词的各种各样的词类中见到。即,"用力声音"是与 上述以往的方法所实现的"用力声音"不同的声音现象。因此,通过以往 的方法无法生成本申请所设定的对象的"用力"声音。即,存在通过生成 能感觉到发音器官的用力方式及紧张方式的"用力"声音,难以将如愤怒 或兴奋、满怀信心的说话方式或者精力充沛的说话方式那样的声音的表现 力以音质的变化来丰富地表现的问题。进而,在歌声的转换中,歌唱数据 被固定为原唱歌手的歌唱定时。因此,不能附加在用户以与原唱歌手的定 时大不相同的定时演唱的情况下的音乐表现。并且,在与原唱歌手不同的, 用户在想要的定时附加"用力声音"或"哼声"来演唱的情况下,或者在 原本没有歌唱数据的情况下,不能反映出想要附加"用力声音"来演唱的 欲望或想法。
艮口,在上述以往的方法中,存在很难以自由的定时来附加一部分的音 质的变化,从而不能够在声音中自由地附加逼真的表现力或丰富的音乐性 表现的问题
发明内容
本发明就是为了解决上述以往的问题,其目的在于,提供一种声音强 调装置,在讲话者或用户试图附加强调或者音乐表现的位置上,使所述"用 力"声音发生。以此,在用户的声音中附加由愤怒、兴奋、紧张、精力充 沛的说话方式表现的强调,或者附加演歌、布鲁斯歌曲或者摇滚乐等的音 乐表现,从而实现丰富的声音表现。
并且,本发明的目的还在于,根据此声音的特征来推断讲话者或用户 的强调或者音乐表现的意图,针对所推断的讲话者或用户试图附加强调或 者音乐表现的声音区间,进行使其产生"用力"声音的处理。以此,提供 一种声音强调装置,在用户的声音中附加由愤怒、兴奋、紧张、精力充沛 的说话方式表现的强调,或者附加演歌、布鲁斯歌曲或者摇滚乐等的音乐 表现,从而实现丰富的声音表现。
为了达到上述目的,本发明所涉及的声音强调装置包括强调发音区 间检测部,检测输入声音波形之中的强调区间,所述强调区间是指发出该 输入声音波形的发声者想要使声音波形发生变化的时间区间;以及声音强 调部,使所述输入声音波形之中的、由所述强调发音区间检测部检测出的 所述强调区间所包含的声音波形的振幅包络的波动增加,所述强调发音区 间检测部,将所述输入声音波形的所述振幅波动的频率存在于10Hz以上 且不足170Hz的预先规定了的范围内的状态,作为在声带上用了力的状态
间来检测。
根据这样的构成,在被输入的声音波形中,检测讲话者或用户发出"用 力声音"以试图进行强调或音乐表现的声音区间,从而能够将检测出的声 音区间的声音转换成"用力声音"并输出。即,按照讲话者或用户为了进 行强调或音乐表现而想要发出"用力声音"的意图,来附加表达强调或者 紧张的表现、或音乐性表现,从而能够实现丰富的音乐表现。
最好是具有以下特征所述声音强调部对所述输入声音波形之中的、 由所述强调发音区间检测部检测出的所述强调区间所包含的声音波形施行 调制,以使所述声音波形伴随周期性振幅波动。
根据这样的构成,不需要保持为了进行更换声音波形等的处理的、能 够与任意的输入声音对应的大量的特征性声音波形,就能够生成表现力丰富的声音。并且,由于仅对输入声音附加伴随振幅波动的调制处理就能够 进行声音表现,所以能够照旧维持输入声音的特征,而仅以简单的处理来 附加表达强调或紧张的表现的声音波形或者音乐性表现。
最好是具有以下特征所述声音强调部利用40Hz以上且120Hz以下 的频率的信号,对在所述输入声音波形之中的、由所述强调发音区间检测 部检测出的所述强调区间所包含的声音波形施行调制,以使所述声音波形 伴随周期性振幅波动。
根据这样的构成,能够针对强调发音区间检测部所检测出的讲话者或 用户发出"用力声音"以试图进行强调或音乐表现的声音区间,使其产生 听得见"用力声音"的频率范围的振幅波动。因此,能够生成使表达强调 或紧张的表现、或者音乐性表现更加确实地传达给听众的声音波形。
最好是具有以下特征所述声音强调部还使信号的频率在40Hz — 120Hz的范围内波动,所述信号是在为了使所述声音波形伴随周期性振幅 波动,而对所述声音波形施行调制时被使用的信号。
根据这样的构成,能够针对强调发音区间检测部所检测出的讲话者或 用户发出"用力声音"以试图进行强调或音乐表现的声音区间,在使其产 生听得见"用力声音"的频率范围的振幅波动之时,不是给予固定的频率, 而是对在听得见"用力声音"的范围内振幅波动的频率给予起伏。因此, 能够生成更加自然的"用力声音"。
最好是具有以下特征所述声音强调部通过使所述输入声音波形之中 的、由所述强调发音区间检测部检测出的所述强调区间所包含的声音波形 乘以周期信号,从而对声音波形给予伴随周期性振幅波动的调制。
根据这样的构成,能够通过更加简单的处理,对输入声音附加听得见 "用力声音"的振幅波动,从而能够确实地附加表达强调或紧张的表现、 或者音乐性表现,实现丰富的声音表现。
最好是具有以下特征,所述声音强调部具有全通滤波器,移动所述 输入声音波形之中的、由所述强调发音区间检测部检测出的所述强调区间 所包含的声音波形的相位;以及加法运算单元,使被输入到所述全通滤波 器的所述强调区间所包含的所述声音波形,与由所述全通滤波器移动了相 位后的声音波形相加。根据这样的构成,能够按每个频率分量引起不同的振幅的波动,与所 有的频率分量都进行相同的振幅变化的调制相比,能够引起复杂的振幅波 动。因此,能够生成具备表达强调或紧张的表现、或者音乐性表现,且听 起来感觉自然的声音。
最好是具有以下特征所述声音强调部扩大所述输入声音波形之中的、 由所述强调发音区间检测部检测出的所述强调区间所包含的声音波形的振 幅的动态范围。
根据这样的构成,针对强调发音区间检测部所检测出的讲话者或用户 发出"用力声音"以试图进行强调或音乐表现的声音区间,通过扩大输入 声音中所包含的振幅的动态范围,能够变成将此声音原本具有的振幅波动 的特征作为强调或音乐表现而能够听见的大小的振幅波动,并输出。艮P, 按照讲话者或用户为了进行强调或音乐表现而想要发出"用力声音"的意 图,来附加表达强调或者紧张的表现、或音乐性表现,从而能够将丰富的 音乐表现,通过利用原来的声音的特征作为更加自然的表现来实现。
最好是具有以下特征在所述输入声音波形之中的、由所述强调发音 区间检测部检测出的所述强调区间所包含的声音波形中,在所述声音波形 的振幅包络的值在规定的值以下的情况下,所述声音强调部对所述声音波 形的振幅进行压缩;且在所述声音波形的振幅包络的值比所述规定的值大 的情况下,所述声音强调部对所述声音波形的振幅进行放大。
根据这样的构成,能够通过更加简单的处理,来扩大输入声音中所包 含的振幅的动态范围。按照讲话者或用户为了进行强调或音乐表现而想要 发出"用力声音"的意图,通过更加简单的处理,来附加表达强调或者紧 张的表现、或音乐性表现,从而能够将丰富的音乐表现,通过利用原来的 声音的特征作为更加自然的表现来实现。
最好是具有以下特征所述强调发音区间检测部将所述输入声音波形 的所述振幅波动的频率存在于10Hz以上且不足170Hz的预先规定了的范 围内的、且振幅调制度不足0.04的时间区间作为所述强调区间来检测,所 述振幅调制度表示所述输入声音波形的振幅包络的振幅波动的程度。
根据这样的构成,强调发音区间检测部将讲话者或用户发出"用力声 音"以试图进行强调或音乐表现的声音区间之中的、输入声音为未处理的状态下的听得见"用力声音"的部分以外的部分,作为强调区间来检测。 并且,对讲话者或用户发出"用力声音"以试图进行强调或音乐表现的声 音区间之中的、依据讲话者或用户的自然的嗓音的声音表现充分的部分, 不施行强调处理;只对依据自然的嗓音的声音表现不充分的部分施行强调 处理。即,在尽量保持自然的嗓音的声音表现的前提下,只对于尽管讲话 者或用户试图附加"用力声音",但未能附加表现的部分,附加"用力声音"。 因此,在保持更加自然的自然的嗓音的声音表现的情况下,能够附加表达 强调或紧张的表现或者音乐性表现,实现丰富的声音表现。
最好是具有以下特征所述强调发音区间检测部根据所述发声者的声 门关闭着的时间区间,来决定所述强调区间。
根据这样的构成,能够更加准确地检测出喉头用力的状态,从而能够 决定正确地反映讲话者或歌唱者的表现的意图的强调区间。
最好是具有以下特征所述声音强调装置还包括压力传感器,检测与 所述输入声音波形的发音时间同步、并根据所述发声者的移动而生成的压 力,所述强调发音区间检测部判断所述压力传感器的输出值是否超出预先 规定的值,并将所述压力传感器的输出值超出预先规定的值的时间区间作 为所述强调区间来检测。
根据这样的构成,能够简便直接地检测出讲话者或唱歌者用力发音的 状态。
最好是具有以下特征所述压力传感器被安装在接受所述输入声音波 形的麦克风的把持部。
根据这样的构成,根据发声时或唱歌时的自然的动 作,就能够简便直 接地检测出讲话者或唱歌者用力发音的状态。
最好是具有以下特征所述压力传感器通过支撑部,被安装在所述发 声者的腋窝或手臂上。
根据这样的构成,尤其根据在发声时或唱歌时,手拿手持式传声器的 状态下的自然的动作,就能够简便直接地检测出讲话者或唱歌者用力发音 的状态。
最好是具有以下特征所述声音强调装置还包括移动传感器,检测与 所述输入声音波形的发音时间同步的、所述发声者的移动,所述强调发音区间检测部将所述移动传感器的输出值超出预先规定的值的时间区间作为 所述强调区间来检测。
根据这样的构成,能够捕捉发声时或唱歌时的手势,从而能够根据动 作的大小来简便地检测讲话者或唱歌者用力发音的状态。
最好是具有以下特征所述声音强调装置还包括加速度传感器,检测 与所述输入声音波形的发音时间同步的、所述发声者移动时的加速度,所 述强调发音区间检测部将所述加速度传感器的输出值超出预先规定的值的 时间区间作为所述强调区间来检测。
根据这样的构成,能够捕捉发声时或唱歌时的手势,从而能够根据动 作的大小来简便地检测讲话者或唱歌者用力发音的状态。
再者,本发明不仅可以作为具备如此特征性单元的声音强调装置来实
现,还可以作为将声音强调装置所包括的特征性单元作为步骤的声音强调 方法来实现,或作为使计算机执行声音强调方法中所包括的特征性步骤的
程序来实现。并且,不言而喻,能够通过CD—ROM(Compact Disc—Read Only Memory:只读存储光盘)等记录介质或互联网等通信网络而使这样的 程序流通。
根据本发明的声音强调装置,能够在讲话者或用户试图附加声音强调 或音乐表现的位置生成,如所谓人在怒吼的时候、兴奋或紧张的状态下讲 话的时候、为了强调讲话内容而用力加强语气的时候等出现的嘶哑的声音、 粗鲁的声音、或者刺耳的声音(harsh voice);或者,在唱演歌等时出现的 "花腔(:A' L )"或"哼声(》& 0 )之类的;演唱布鲁斯歌曲或摇滚乐
曲等时出现的"喊叫声"之类的,具有与正常的发音不同特点的声音的"用 力"声音。因此,能够将输入声音转换成,表达讲话者或歌手的用力程度 或者感情投入的样子的表现力丰富的声音。


图1是表示在录音后的声音中所观察到的、普通声音和用力声音的波 形和振幅包络的一个例子的图。
图2是表示在录音后的声音中所观察到的、以用力声音发音的音拍的 振幅包络的波动频率的分布的直方图和累积频度的图形。
1图3A是表示在录音后的声音中所观察到的用力声音的第二高次谐波、 振幅包络线、以及根据多项式的拟合的一个例子的图。 图3B是用于说明振幅波动量的计算例的图。
图4是表示在录音后的声音中所观察到的、以用力声音发音的音拍的 振幅包络的调制度的分布的直方图和累积频度的图形。
图5是表示通过听取实验确认的听得见"用力"声音的振幅波动频率 的范围的图形。
图6是表示对附加振幅波动时的调制度的定义进行说明的调制信号的 例子的图。
图7是表示通过听取实验确认的听得见"用力"声音的振幅调制度的 范围的图形。
图8是表示在调制频率固定的情况下和随机的情况下的不协调感的大 小的图表。
图9是表示针对在歌唱声音中进行了振幅波动处理的声音的听取实验
的结果的图形。
图10是本发明的实施例1中的声音强调装置的轮廓图。 图11是表示本发明的实施例1中的声音强调装置的构成的功能框图。 图12是表示本发明的实施例1中的声音强调装置的构成的功能框图。 图13是表示用力声音判断部及用力声音附加处理判断部的详细构成的
功能框图。
图14是表示本发明的实施例1中的声音强调装置的工作的流程图。 图15是表示本发明的实施例1中的声音强调装置的工作的一部分的流 程图。
图16是表示本发明的实施例1中的声音强调装置的工作的一部分的流 程图。
图17是表示本发明的实施例1的变形例中的声音强调装置的构成的功 能框图。
图18是表示本发明的实施例1的变形例中的声音强调装置的工作的流 程图。
图19是表示本发明的实施例2中的声音强调装置的构成的功能框图。图20是表示本发明的实施例2中的声音强调装置的振幅动态范围扩张
部31的输入输出特性的一个例子的图。
图21是表示本发明的实施例2中的声音强调装置的工作的流程图。 图22是用于对通过振幅动态范围扩张部的边界等级的设定进行更详细
的说明的图。
图23是用于对有关通过振幅动态范围扩张部将实际的声音波形的振幅
的动态范围进行扩大后的结果进行说明的图。
图24是表示本发明的实施例3中的声音强调装置的构成的功能框图。 图25是表示本发明的实施例3中的声音强调装置的工作的流程图。 图26是表示本发明的实施例4中的声音强调装置的构成的功能框图。 图27是表示本发明的实施例4中的声音强调装置的工作的流程图。 图28是表示依据特开2007 — 68847号公报的图5所示的男性讲话者
的声音波形和EGG (Electroglottograph:电声门图)波形及第四共振峰
波形的例子的图。
图29是表示依据特开2007—68847号公报的图6所示的女性讲话者
的声音波形和EGG波形及第四共振峰波形的例子的图。
图30是表示本发明的实施例5中的声音强调系统的构成的图。
图31是表示本发明的实施例5中的声音强调系统的构成的功能框图。
图32是表示本发明的实施例5中的通过终端71的声音信号的取得和
发送的工作的流程图。
图33是表示本发明的施实例5中的声音处理服务器73的工作的流程图。
图34是表示本发明的实施例5中的通过终端71的声音信号的接收和 声音输出的工作的流程图。
图35是本发明的实施例2中依据其他的构成的声音强调装置的功能框图。
附图标记说明
11声音输入部
12、 44、 52强调发音区间检测部 13声音强调部14声音输出部
15用力声音判断部
16、 47、 57用力声音附加处理判断部
17周期信号生成部
18调幅部
19周期性分析部
20第二高次谐波抽取部
21振幅包络分析部
22波动频率分析部
23波动频率判断部
24振幅调制度计算部
25调制度判断部
26 全通滤波器
27开关
28加法器
31振幅动态范围扩张部 41手持式传声器
42、 76麦克风 43压力传感器
45、 55标准值计算部
46、 56标准值记忆部 51 EGG传感器
61平均输入振幅计算部 62振幅放大压縮部 71终端
71a便携型个人电脑 71b 移动电话 71c 网络游戏机
72 网络
73声音处理服务器74、80声音数据接收部
75、79声音数据发送部
77模数转换器
78输入声音数据记忆部
81强调声音数据记忆部
82数模转换器
83电声转换器
84声音输出指示输入部
85输出声音抽取部
86、92、 96、 102 声音波形
90、104振幅包络
88边界输入电平
94、98包络线
具体实施例方式
首先,对成为本发明的基础的、声音中的用力声音的特征进行叙述。 在伴随了感情或表现力的声音中,各种各样音质的声音混在一起,表 现声音的感情或表现力的特征,从而来形成声音的印象的技术已被一般所
知(例如,非专利文献:日本声学会会刊51巻11号(1995)、 pp869—875、 粕谷英树.杨长盛"音源力'^見t声質(根据声源所见的音质)"、专利文 献:特开2004—279436号公报)。在伴随"震怒"及"愤怒"的感情的声音 中,经常可见被表现为嘶哑的声音、粗鲁的声音或者刺耳的声音的"用力" 声音。根据"用力"声音的波形的调查,在多数"用力"声音的波形中明 确显示出振幅的周期性波动。图l(a)表示对于"特売L t法t工(Tokubai shitemasuyo/甩卖了)"的"i' 。 (bai/卖)"的部分,以不带感情的"平静" 的发音说出的普通发音的声音波形及其振幅包络的大概形状。图l(b)是伴 随"震怒"的感情被发音的、同样的"特卖L t:法t J: (Toknbai shitemasuyo/甩卖了)"的u (bai/卖)"的部分的波形及其振幅包络的 大概形状。两种波形的音素的边界都以虚线来表示。在图1(a)的波形的/a /、 / i /发音的部分,可以看出振幅平滑波动的模样。在普通的发音中,如图l(a)的波形所示,振幅在元音的开始部分平滑地变大,直至音素的中 央附近变成最大值,并向着音素边界变小。在存在元音的结束部分的情况 下,振幅向着无音或者后续子音的振幅平滑地变小。在如图l(a)所示的元 音为持续的情况下,振幅缓慢地向着后续的元音的振幅变小或者变大。普 通的发音中,在一个元音内,几乎没有如图l(b)所示的振幅反复增减的情 况,也没有关于这样的具有乍一看,不清楚与基频的关系的振幅的波动的 声音的报告。因此,考虑到振幅波动是用力声音的特征,通过以下的处理 来求出被标记为用力声音的声音的振幅包络的波动周期。
首先,为了抽取代表声音波形的正弦波分量,逐次求出将成为对象的 声音波形的基频的第二谐波作为中心频率的带通滤波器,并使声音波形通 过此滤波器。对通过了滤波器的声音施行希尔伯特变换以求出解析信号, 并通过根据其绝对值求出希尔伯特包络曲线,来求出声音波形的振幅包络 曲线。将求出的振幅包络曲线再进行希尔伯特变换,并按照每个采样点来 计算瞬时角速度,根据采样周期将角速度变换为频率。对按照每个采样点 求出的瞬时频率按每个音韵制作直方图,把众数当作此音韵的声音波形的 振幅包络的波动频率。
图2是将由男性讲话者发出的伴随"震怒"的感情的发音作为对象, 以直方图和累积频度来表示分析后的用力声音的振幅包络的波动频率的分 布的图。表1是表示图2所示的用力声音的振幅包络的波动频率的频度及
累积频度的列表。
(表l)
数据区间频度累积%
000.00%
1010.18%
2061.29%
30113.33%
40176.47%
502711.46%
604519.78%
704127.36%806038.45%
907351.94%
1007665.99%
1107780.22%
1204388.17%
1303193.90%
1401195.93%
1501197.97%
160498.71%
170299.08%
180099.08%
190299.45%
2003100.00%
0100.00%
不是用力声音的普通的声音在振幅包络中没有周期性波动。因此,为 了辨别"用力"声音和普通声音,需要区别没有周期性波动的状态和有周
期性波动的状态。图2的直方图中,用力声音的频度在振幅波动的频率为 10Hz至20Hz之间开始,在40Hz至50Hz的范围内急剧增加。虽然可以 考虑频率的下限在40Hz附近较为妥当,但是在更加广泛的范围内网罗性 地检测用力声音之时,也可以将10Hz作为下限。在根据累积频度而被标 记为用力的音韵之中,90X为振幅以47.1Hz以上的频率进行波动。据此, 能够将47.1Hz作为频率的下限来利用。在考虑到若振幅波动的频率过高, 则人的听觉不能觉察出振幅的波动的特性的情况下,为了根据振幅波动来 检测用力声音,最好在频率中设定上限。作为听觉的特性,70Hz附近是最 能感觉到"粗糙度"的频率,尽管与接受调制的原来的声音有关,但是从 100Hz直到200Hz "粗糙度"的感觉会变小。
图2的直方图中,用力声音的频度在110Hz至120Hz的范围内急剧 减少,进一步在130Hz至140Hz的范围内减半。表现用力声音的特征的 振幅波动的频率的上限应设定在130Hz附近。进而,下限同样,在更加广 泛的范围内网罗性地检测用力声音之时,根据图2中的在170Hz至180Hz的范围内一旦频度降低到0,也可以将频率的上限作为170Hz。配合47.1Hz 的下限,将在根据累积频度而被标记为用力的音韵之中,包含805^的音韵 的123.2Hz作为频率的上限来利用的方法比较有效。
图3A及图3B是用于说明用力声音的振幅包络的调制度的图。与所谓 对振幅固定的载波信号的振幅进行调制的振幅调制不同,在作为被调制的 信号的声音波形中原本存在振幅的变化。因此,在此对振幅波动的调制度 (振幅调制度)做出以下的定义。如图3A所示,对作为波形的希尔伯特包 络曲线被求出的振幅包络曲线进行多项式近似,从而制作根据多项式的拟 合函数,该波形是通过了以第二高次谐波为中心频率的带通滤波器的波形。 图3A表示根据三次函数进行的拟合。将拟合函数当作调制前的波形的振幅 包络线。如图3B所示,按每个振幅包络线的峰值求出与拟合函数的差分, 并当作振幅波动量。因为拟合函数的值和振幅波动量都不固定,所以对于 振幅波动量和拟合函数的值,求出两者在音韵内的中值,并将两个中值的 比作为调制度。
图4是表示如此这般求出的调制度的直方图和累积频度的图。表2是 表示图4所示的调制度的频度及累积频度的列表。
(表2)
数据区间频度累积%
000.00%
0.0271.29%
0.045210.91%
0.066022,00%
0.087535.86%
0.16247.32%
0.124255.08%
0.143261.00%
0.163567.47%
0.183273.38%
0.23880.41%
0.221683.36%0.242287.43%
0.26989.09%
0.28690.20%
0.31492.79%
0.32894.27%
0.34495.01%
0.36295.38%
0.38496.12%
0.4296.49%
0.42697.60%
0.44297.97%
0.46498.71%
0.48399.26%
0.5199.45%
0.52199.63%
0.54099.63%
0.56099,63%
0.58099.63%
0.6199.82%
0.62099.82%
0.64099.82%
0.66099,82%
0.68099.82%
0.7099.82%
0.72099.82%
0.74099.82%
0.76099.82%
0.78099.82%
0.8099.82%
0.82099.82%下一级
0.84099.82%
0.86099.82%
0.881100.00%
0.90100.00%
0.920100.00%
0.940100.00%
0.960100.00%
0.980100.00%
10100.00%
0100.00%
图4所示的直方图表示,在由男性讲话者发出的伴随"震怒"的感情 的发音中所见的、通过用力声音求出的振幅波动的调制度的分布。为了让 听众察觉振幅波动,波动的大小、即调制度需要在一定值以上。在图4的 直方图中,振幅波动的调制度的频度在0.02至0.04的范围内急剧增高。因 此,将表现用力声音的特征的振幅波动的调制度的下限设为0.02附近较为 妥当。而且,从累积频度来看,90%的音韵的调制度是0.038以上。因此, 能够将0.038作为调制度的下限来利用。进而,配合0.038的下限,将在 根据累积频度而被标记为用力的音韵之中,包含80%的音韵的0.276作为 振幅波动的调制度的上限来利用的方法比较有效。如上所述,作为用于检 测用力声音的一个基准,能够使用振幅包络的周期波动为40Hz—120Hz, 调制度为0.04以上的基准。
进行了用于根据这样的振幅波动来确认听得见"用力"声音的听取实 验。首先,准备对三个普通发音的声音进行调制处理后的声音,从而进行 了使被试验者在以下三个分类之中选择各自的声音与哪一个相符的实验, 该调制处理是在从无振幅波动到200Hz为止的15个等级,进行伴随改变 了振幅频率的振幅波动的调制处理。13名听力正常的被试验者,从三个分 类中选择声音试样所符合的情况。S卩,被试验者在听得见普通的声音的情 况下,选择"听不见用力声音"。并且,在听得见"用力"声音的情况下, 选择"听得见用力声音"。进而,振幅波动使人感觉到是与该声音不同的别 的声音,在听不见"用了力的声音"的情况下,选择"听得见杂音"。对各个声音的判断分别进行了两次。
其结果为,如图5所示,从没有振幅波动到振幅波动频率30Hz为止, "听不见用力声音"的回答最多。并且,振幅波动频率从40Hz到120Hz 为止"听得见用力声音"的回答最多。进而,在振幅频率130Hz以上"听 得见杂音"的回答最多。通过此结果显示出,容易判断为"用力"声音的 振幅波动频率的范围是与实际的"用力"声音的振幅波动频率的分布接近 的、从40Hz到120Hz的范围。
另一方面,声音波形按每个音韵具有缓慢的振幅的波动。因此,振幅 波动的调制度与所谓对振幅固定的载波信号的振幅进行调制的振幅调制不 同。但是,模仿针对振幅固定的载波信号的振幅调制,假设如图6所示的 调制信号。将在从100%、即无改变,到0%、即振幅0之间,对成为调制 对象的信号的振幅绝对值进行调制的情况作为调制系数是100%,将调制信 号的波幅以百分率来表现的值作为调制度。图6所示的调制信号是从无调 制对象的信号的变化到0.4倍之间进行调制的情况,波幅为1一0.4、即0.6。 因此调制度成为60%。
利用这样的调制信号,进行了对听得见"用力"声音的调制度的范围 进行确认的听取实验。准备了针对两个普通发音的声音进行调制处理后的 声音,该调制处理是在从调制系数为0%、即无振幅波动到调制系数为100% 之间的12个等级,进行伴随改变了调制度的振幅波动的调制处理。进行了 使15名听力正常的被试验者,从听得见普通的声音的情况下的无"用力声 音"、听得见用力声音的情况下的有"用力声音"、听得见用力声音以外的、 具有不协调感的声音的情况下的听不见"用力声音"的三个分类之中,选 择声音试样所符合的情况的听取实验。各个声音的判断分别进行五次。如 图7所示,听取实验的结果为,到调制度35%为止,无"用力声音"的回 答最多;从40%到80%为止,有"用力声音"的回答最多。进而,在90% 以上的情况下听得见用力声音以外的具有不协调感的声音的回答最多。根 据此结果,表示出容易被判断为"用力"声音的调制度的范围是从40%到 80%。
在唱歌中,多存在配合旋律而延长元音的时间长短的情况,若对时间 长短长的元音(例如,超过3秒),以固定的调制频率来附加振幅波动,则存在生成与声音一起听得见蜂鸣器音等不自然的声音的情况。通过使振幅 波动的调制频率随机变化,还存在减小如蜂鸣器音和杂音的重叠式的印象
的情况。针对为了使振幅波动的调制频率成为平均80Hz、标准偏差20Hz, 而使调制频率随机变化来进行振幅调制的声音,和将调制频率固定为80Hz 来进行振幅调制的声音,进行了由15名被试验者对不协调感以五个等级来 评价的实验。那时,在调制频率固定的情况和随机变化的情况之间,在不 协调感的评价值中没能见到显著性差异。但是,对于特定的样本声音,如 图8所示,15名中12名的被实验者,与调制频率固定的情况相比,在调 制频率为随机的情况下,判断为不协调感减小或无变化。即,还存在通过 将调制频率设为随机,从而期待不生成不自然的声音,减小不协调感的效 果的情况。再者,在实验中使用的特定的样本声音是指,在发出"6*0 J: <眠扎&力> o t J:》t t ft (好像没有睡好呀)"的声音中的,"t (ma)"、 "J: , (you)"的部分,插入进行了超过100ms的振幅调制的声音,在"力> (ka)"的部分插入进行了 90ms的振幅调制的声音的声音。
进而,准备歌声中的进行了振幅波动处理的声音,该振幅波动处理使 调制频率以平均80Hz、标准偏差20Hz来随机变化。针对此声音,进行了 15名听力正常的被试验者判断是否"在用力唱歌"的听取实验。通过进行 如图9所示的振幅波动处理,与不进行振幅波动处理的情况相比,被评价 为更加"在用力唱歌"。因此,表示出作为唱歌中的音乐表现的"用力声音" 或者"哼声",能够通过与伴随感情的讲话中的"用力声音"同样的调制处 理来生成。
以下,参照附图来说明本发明的具体实施例。 (实施例1)
图IO是实施例1的声音强调装置的轮廊图,具体是卡拉OK装置等。 图11是实施例1的声音强调装置的功能框图。
如图11所示,本发明的实施例1所涉及的声音强调装置是对输入声音 中的用力声音进行强调从而输出的装置,包括声音输入部ll、强调发音 区间检测部12、声音强调部13、声音输出部14。
声音输入部11是将声音波形作为输入来接受的处理部,例如由麦克风 等构成。强调发音区间检测部12是从声音输入部ll所输入的声音波形中检测, 讲话者或者用户想要附加根据"用力声音"的强调或音乐表现("哼声") 的声音的区间的处理部。
声音强调部13是在由声音输入部11输入的声音波形之中的、想要附 加由强调发音区间检测部12检测出的强调或音乐表现的区间中,施行伴随 振幅波动的调制处理的处理部。
声音输出部14是输出,通过声音强调部13对声音波形的一部分或全 部施行调制处理后的声音波形的处理部,例如,由扬声器等构成。
图12是表示在图11所示的声音强调装置中,对强调发音区间检测部 12及声音强调部13的构成进行详细说明的声音强调装置的构成的功能框 图。
如图12所示,强调发音区间检测部12包括用力声音判断部15和用力 声音附加处理判断部16。声音强调部13包括周期信号生成部17和调幅部 18。
用力声音判断部15是,接受由声音输入部11输入的声音波形,并通 过根据声音的振幅包络来检测一定范围内的频率的振幅波动,判断声音波 形中的"用力声音"的有无的处理部。
用力声音附加处理判断部16是,对于在用力声音判断部15被判断为 具有"用力声音"的声音区间,判断为了感觉"用力声音",振幅波动的调 制度的大小是否充分的处理部。
周期信号生成部17是生成在伴随声音的振幅波动的调制处理中使用的 周期信号的处理部。
调幅部18是对于在以用力声音判断部15被判断为具有"用力声音" 的声音区间之中的、以用力声音附加处理判断部16判断为调制度的大小不 充分的区间,对该区间所包含的声音波形乘以周期信号生成部17所生成的 周期信号,从而对该声音波形进行伴随振幅波动的周期性调制处理的处理 部。
图13是表示用力声音判断部15及用力声音附加处理判断部16的详细 构成的功能框图。
如图13所示,用力声音判断部15包括周期性分析部19、第二高次谐波抽取部20、振幅包络分析部21、波动频率分析部22、波动频率判断 部23;用力声音附加处理判断部16包括振幅调制度计算部24、调制度 判断部25。
周期性分析部19是对从声音输入部11输入的声音波形的周期性进行 分析,将具有周期性的区间作为有声区间输出,并输出声音波形的基频的 处理部。
第二高次谐波抽取部20是根据周期性分析部19所输出的基频的信息, 来抽取声音波形的第二高次谐波信号的处理部。
振幅包络分析部21是求出在第二高次谐波抽取部20抽取的第二高次 谐波信号的振幅包络的处理部。
波动频率分析部22是求出在振幅包络分析部21被求出的振幅包络(包 络线)的波动频率的处理部。
波动频率判断部23是根据波动频率分析部22所输出的包络线的波动 频率是否存在于预先规定的范围内,来判断声音是否为"用力"声音的处 理部。
振幅调制度计算部24是对于在波动频率判断部23被判断为"用力" 声音的区间,求出包络线的振幅调制度的处理部。
调制度判断部25是在振幅调制度计算部24所求出的"用力声音"区 间的振幅包络线的振幅调制的程度在预先规定的值以下的情况下,将该区 间作为用力声音处理对象区间的处理部。
其次,按照图14一图16的顺序,对如上述构成的声音强调装置的工 作进行说明。图14是表示声音强调装置的工作的流程图。
首先,声音输入部11取得声音波形(步骤Sll)。由声音输入部11取 得的声音波形被输入到强调发音区间检测部12的用力声音判断部15,用 力声音判断部15进行声音中的振幅波动区间的检测(步骤Sl2)。
图15是表示振幅波动区间检测处理(步骤S12)的详细过程的流程图。
更具体地说,周期性分析部19接受声音输入部11所输入的声音波形, 对该声音波形的周期性的有无进行分析,并对具有周期性的部分求出其频 率(步骤S1001)。作为周期性及频率的分析方法,例如具有,求出输入声 音的自相关系数,以相当于从50Hz至500Hz的周期,将相关系数为一定值以上的部分认为是具有周期性的部分、即有声区间,将与相关系数为最 大的周期对应的频率作为基频的方法。
进而,周期性分析部19抽取在步骤S1001中被认为是声音中的有声 区间的区间(步骤S1002)。
第二高次谐波抽取部20设定将在步骤S1001中求出的有声区间的基 频的两倍的频率作为中心的带通滤波器,并过滤有声区间的声音波形从而 抽取第二高次谐波分量(步骤S1003)。
振幅包络分析部21抽取在步骤S1003抽取了的第二高次谐波分量的 振幅包络(步骤S1004)。振幅包络是采用进行全波整流,对此峰值进行平 滑处理来求出的方法,或者采用进行希尔伯特变换来求出其绝对值的方法 等来抽取。
波动频率分析部22按每个分析帧求出在步骤S1004被抽取的振幅包 络的瞬时频率。例如,设分析帧为5ms。另外,也可以设分析帧为10ms 或以上。波动频率分析部22进而求出在该有声区间被求出的瞬时频率的中 值,并将其作为波动频率(步骤S1005)。
波动频率判断部23判断,在步骤S1005求出的波动频率是否存在于 预先规定的基准范围内(步骤S1006)。根据图2的直方图,能够设基准范 围为10Hz以上且不足170Hz,但是,更合适的是40Hz以上且不足120Hz。 在判断波动频率是在基准范围以外的情况下(步骤S1006的"否"),波动 频率判断部23判断该有声区间不是用力声音,即判断为普通声音(步骤 S1007)。在判断波动频率是在基准范围以内的情况下(步骤S1006的 "是"),波动频率判断部23判断该有声区间是用力声音(步骤S1008), 将判断为用力声音的区间和第二高次谐波的包络线输出到用力声音附加处 理判断部16。
其次,用力声音附加处理判断部16对用力声音区间的振幅波动的调制 度进行分析(步骤S13)。
图16是表示调制度分析处理(步骤S13)的详细过程的流程图。 输入到用力声音附加处理判断部16的用力声音区间和第二高次谐波的 包络线,被输入到振幅调制度计算部24。振幅调制度计算部24将被输入 的用力声音区间的第二高次谐波的振幅包络线以三次式来近似,从而推断振幅调制前的声音的包络线(步骤S1009)。
进而,振幅调制度计算部24按每个振幅包络的峰值,求出振幅包络的 值与在步骤S1009依据三次式求出的近似值的差分(步骤SIOIO)。
振幅调制度计算部24根据该分析区间中的全部峰值的差分的中值与该 分析区间内的近似式的值的中值的比,来求出调制度(步骤SlOll)。调制 度虽然也能够进行,振幅包络的凸出部分的峰值的平均值或者中值与凹陷 部分的峰值的平均值或者中值的比等其他的定义,但是,此时调制度的基 准值需要根据此定义来设定。
调制度判断部25判断,在步骤S1011求出的调制度是否小于预先规 定的基准值,例如0.04 (步骤S14)。根据如图4的直方图所示的,用力声 音的频度在调制度从0.02至0.04之间急剧增加,在此设基准值为0.04。 在调制度被判断为大于基准值的情况下(步骤S14的"否"),调制度判断 部25判断该用力声音区间的振幅调制度为充分,从而不将该区间作为用力 声音处理对象区间,并向调幅部18输出区间信息。调幅部18不对输入声 音进行处理,就向声音输出部14输出声音波形,并且声音输出部14输出 声音波形(步骤S18)。
在调制度被判断为小于基准值的情况下(步骤S14的"是"),周期信 号生成部17生成80Hz的正弦波(步骤S15),并生成在此正弦波信号中 加上直流分量的信号(步骤S16)。调幅部18对于在输入声音波形之中的 作为用力声音处理对象区间被确定的区间,通过周期信号生成部17生成的 以80Hz振动的周期信号乘以输入声音信号来进行振幅调制(步骤S17), 从而进行向包含振幅的周期性波动的"用力"声音的转换。声音输出部14 输出进行了向"用力"声音的转换后的声音波形(步骤S18)。
例如,以上所说明的处理(步骤S11—S18)在规定的时间间隔内被反 复执行。
根据这样的构成,检测输入声音的振幅波动区间,在此调制度足够大 的情况下不施行处理,在调制度不足的情况下,对声音波形进行伴随振幅 波动的调制,以补偿作为声音的表现显得不足的振幅波动。通过这样的处 理,讲话者为了向听众充分进行传达,从而对试图进行强调的部分、试图 进行"用力声音"或"哼声"的音乐表现的部分、或者用力讲话的部分的"用力声音"的表现进行强调,且对于已经是自然的强调或表现的部分, 利用自然的声音,从而能够提高声音的表现力。
仅在输入声音的振幅波动区间调制度不足的情况下补偿振幅波动。通 过这样的处理,不会出现由于处理而将输入声音原本具备的、调制度足够
大的振幅波动抵消;由于改变波动频率而使输入声音原来的强调表现减弱、 变形的情况。在此基础上,能够进一步提高输入声音的表现力。
并且,根据这样的构成,不需要保持为了进行更换声音波形等的处理 的、能够与任意的输入声音对应的大量的特征性声音波形。在此基础上, 能够生成表现力丰富的声音。而且,仅对输入声音附加伴随振幅波动的调 制处理就能够进行声音表现。因此,能够仍旧维持输入声音的特征,并附 加仅以单纯的处理传达强调或紧张的表现的声音波形或者音乐性表现。
"用力声音"或者"哼声"是,在人大声喊叫时、为了强调讲话内容 而用力加强语气时、在兴奋或紧张状态下讲话时等出现的嘶哑的声音、粗 鲁的声音或者刺耳的声音(harsh voice)等可见的,具有与普通的声音不同 的特征的"用力"声音表现。"用力"声音表现中还包含在唱演歌等时出现 的、被称为"花腔"或"哼声"的表现。而且,"用力"声音表现中还包含 在唱布鲁斯歌曲或者摇滚乐等时出现的象"喊叫声"那样的表现。"用力声 音"或者"哼声"使人逼真地感受讲话者的发音器官的紧张程度或用力程 度,作为表现力丰富的声音而给予听众强烈的印象。但是,除去象演员、 配音演员或者解说员那样的进行过讲话训练的人,或者象歌手那样进行过 歌唱训练的人以外,很难将这些表现方法运用自如。而且,如果勉强进行 这些发音还有损伤喉咙的危险。若将本发明的声音强调装置应用于扬声器 或者卡拉OK装置上,则即使没有积累特别的训练经验的用户,也能够在 想附加表现的地方,通过在身体用力或在喉咙上用力来讲话或唱歌,能够 实现象演员、配音演员、解说员或者歌手那样的丰富的声音表现。因此, 若将本发明应用于卡拉OK装置,就能够象歌手那样唱歌,从而能够增大 唱歌的乐趣。并且,若将本发明应用于扬声器,就能够在演说或演讲时以 "用力"声音讲出想要强调之处,从而能够加深对内容的印象。
再者,在本实施例中,虽然设步骤S15中的周期信号生成部17输出 80Hz的正弦波,但是并不仅限于此。例如,按照振幅包络的波动频率的分布,可以为40Hz—120Hz之间的任一频率,周期信号生成部17也可以输 出正弦波以外的周期性信号。 (实施例l的变形例)
图17是实施例1的声音强调装置的变形例的功能框图,图18是表示 本变形例所涉及的声音强调装置的一部分工作的流程图的一部分。关于与 图12及图14相同的组成部分采用相同的符号,且不重复进行详细的说明。
如图17所示,本变形例的声音强调装置的构成具有与实施例1的图 11所示的声音强调装置相同的构成,但是,声音强调部13的内部构成不 同。即,在实施例1中,由周期信号生成部17和调幅部18构成的声音强 调部13,变为由周期信号生成部17、全通滤波器26、开关27、加法器28 构成。
周期信号生成部17与实施例1的周期信号生成部17同样,都是周期 波动信号的生成处理部。
全通滤波器26是振幅响应为固定的,但相位响应是根据频率而不同的 滤波器。全通滤波器在电气通信领域被应用于补偿传输路径的延迟特性, 在电子乐器的领域被应用于称为相位器或者移相器(非专利文献Curtis Roads著,青柳龙也等翻译/主编"- >匕。- 一夕音楽一歴史.亍夕/ 口 -一.7 —卜 一(计算机音乐一历史/技术/技艺)"东京电机大学出版社,p353) 的效应器(给音色附加变化及效果的装置)。本变形例的全通滤波器26具 有所谓相位的移位量是可调的特性。
开关27按照来自强调发音区间检测部的输入,来切换是否对加法器 28输入全通滤波器26的输出。
加法器28是将全通滤波器26的输出信号与输入声音信号相加的处理部。
按照图18的流程图对如上述构成的声音强调装置的工作进行说明。
首先,声音输入部11取得声音波形(步骤Sll),并将声音波形输出 到强调发音区间检测部12。
与实施例1相同,强调发音区间检测部12通过检测输入声音的振幅波 动区间来确定用力声音区间(步骤S12)。
用力声音附加处理判断部16求出用力声音区间的调制度(步骤S13),并判断振幅波动的调制度是否小于预先规定的基准值(步骤S14)。在振幅 波动的调制度不足基准值的情况下(步骤S14的"是"),用力声音附加处 理判断部16将表示用力声音处理对象区间的信号作为切换信号输出到开关 27。
开关27在被输入的声音信号被包含在强调发音区间检测部12所输出 的用力声音处理对象区间中的情况下,连接全通滤波器26和加法器28 (步 骤S27)。
周期信号生成部17生成80Hz的正弦波(步骤Sl5),并输出到全通滤 波器26。全通滤波器26按照由周期信号生成部17输出的80Hz的正弦波, 来控制相位移动量(步骤S26)。
加法器28使输入声音信号和全通滤波器26的输出相加(步骤S28)。 声音输出部14输出相加后的声音波形(步骤S18)。
由全通滤波器26输出的声音信号被进行相位移动。因此,相位为反相 的高次谐波分量与没有变形的输入声音信号相互抵消。全通滤波器26按照 由周期信号生成部17输出的80Hz的正弦信号,使相位的移动量进行周期 性波动。因此,通过将全通滤波器26的输出和输入声音信号相加,从而使 信号的相互抵消量以80Hz进行周期性波动。据此,相加结果的信号的振 幅以80Hz进行周期性波动。
另一方面,在调制度为基准值以上的情况下(步骤S14的"否"),开 关27断开全通滤波器26和加法器28的连接。因此,输入声音信号未被加 工,声音波形就被输出到声音输出部14。声音输出部14输出该声音波形 (步骤S18)。
例如,以上所说明的处理(步骤S11 — S18)在规定的时间间隔内被反 复执行。
根据这样的构成,与实施例l同样,输入声音的振幅波动区间被检测。 在被检测出的振幅波动区间中的振幅波动的调制度足够大的情况下,不对 输入声音的声音波形施行处理。在调制度不足的情况下,对声音波形施行 伴随振幅波动的调制,以补偿作为声音的表现的不充分的振幅波动。因此, 讲话者为了向听众充分进行传达,从而对试图进行强调的部分、试图进行 "用力声音"或"哼声"的音乐表现的部分、或者用力讲话的部分的"用力声音"的表现进行强调,而能够提高声音的表现力。
进而,利用全通滤波器,通过使原波形与使相位移动量周期性波动的 信号相加,从而生成振幅波动。因此,能够生成更加自然的振幅变化。艮口, 通过全通滤波器的相位变化,针对频率是不一样的。因此,在声音所包含 的各种各样的频率分量中,被增强的和被减弱的混在一起。相对于实施例1 中的所有的频率分量都进行同样的振幅变化,在本变形例中,按每个频率 分量发生不同的振幅的波动。因此,能够产生更加复杂的振幅变化,具有 不损坏听觉上的自然程度的优点。
再者,在本变形例中,设步骤S15中的周期信号生成部17输出80Hz 的正弦波。但是,与实施例1同样,按照振幅包络的波动频率的分布,可 以为40Hz—120Hz之间的任一频率,周期信号生成部17也可以输出正弦 波以外的周期性信号。 (实施例2)
实施例2的对输入声音中的"用力声音"或者"哼声"的音乐表现不 足的部分的振幅波动进行扩张之处与实施例1不同。
图19是实施例2的声音强调装置的功能框图。图20是表示将本实施 例的振幅动态范围扩张部31的输入输出特性模式化表示的图形。图21是 表示本实施例的声音强调装置的工作的流程图。关于与图12和图14相同 的构成部分及步骤采用相同的符号,并不重复进行详细的说明。
如图19所示,本发明的实施例2所涉及的声音强调装置包括声音输 入部11、强调发音区间检测部12、振幅动态范围扩张部31、声音输出部 14。本实施例所涉及的声音强调装置具有与图12所示的实施例1所涉及的 声音强调装置同样的构成。但是,声音强调部13被振幅动态范围扩张部 31替换之处与实施例1所涉及的声音强调装置不同。因此,关于声音输入 部ll、强调发音区间检测部12、声音输出部14不进行重复说明。
振幅动态范围扩张部31是,接收声音输入部11所取得的声音波形, 并按照强调发音区间检测部12所输出的用力声音处理对象区间信息和振幅 调制度信息,对输入声音波形的振幅进行压縮及放大,以便对输入声音波 形的振幅动态扩张范围进行扩张的处理部。
如图20所例示的,振幅动态范围扩张部31针对振幅比根据强调发音区间检测部12所输出的振幅调制度信息而设定的边界输入电平小的输入, 进行振幅压縮处理,并通过针对振幅比边界输入电平大的输入进行放大处 理,从而强调振幅的波动。
其次,按照图21的流程图对如上述构成的声音强调装置的工作进行说明。
首先,声音输入部11取得声音波形(步骤Sll),并将声音波形输出 到强调发音区间检测部12。
与实施例1相同,强调发音区间检测部12的用力声音判断部15通过 检测输入声音的振幅波动区间来确定用力声音区间(步骤S12)。
其次,用力声音附加处理判断部16求出用力声音区间的调制度(步骤 S13)。用力声音附加处理判断部16判断振幅波动的调制度是否小于预先规 定的基准值(步骤S14)。
在判断调制度小于基准值的情况下(步骤S14的"是"),用力声音附 加处理判断部16判断该用力声音区间的振幅调制度不充分。用力声音附加 处理判断部16判断该区间为用力声音处理对象区间。而且,用力声音附加 处理判断部16将区间信息和在步骤S13进行了拟合的多项式的值的中值输 出到振幅动态范围扩张部31。振幅动态范围扩张部31针对输入声音波形 之中的作为用力声音处理对象区间被确定的区间,根据由用力声音附加处 理判断部16求出的多项式的中值,来决定边界输入电平,从而设定如图 20所示的输入输出特性。振幅动态范围扩张部31通过应用此输入输出特 性来进行振幅的压縮和伸长,从而进行输入声音的振幅动态范围扩张(步 骤S31),将包含振幅的周期性波动的"用力"声音的调制度扩张到足够大。 声音输出部14输出振幅被扩张后的声音波形(步骤S18)。
在判断调制度为基准值以上的情况下(步骤S14的"否"),振幅动态 范围扩张部31设定不进行振幅的压縮及伸长的输入输出特性,对于输入声 音的振幅不进行变形处理,就将声音波形输出到声音输出部14。声音输出 部14输出声音波形(步骤S18)。
例如,以上所说明的处理(步骤S11—S18)在规定的时间间隔内被反 复执行。
在步骤S31中,振幅动态范围扩张部31根据经验,利用第二高次谐波的振幅为声音波形的振幅的十分之一左右的特征。即,振幅动态范围扩张
部31将由用力声音附加处理判断部16输出的第二高次谐波的振幅包络的 拟合函数的中值、即图3A的拟合结果的值的中值增大十倍,以作为图20 所示的边界输入电平。因此,大体上,设定边界输入电平,以便在图3B的 曲线所示的振幅波动为正的情况下,放大振幅;在振幅波动为负的情况下, 压縮振幅。
图22是为了详细说明关于依据振幅动态范围扩张部31的边界输入电 平的设定的图。该图中,以虚线表示被输入到振幅动态范围扩张部31的声 音波形102。并且,以虚线表示声音波形102的第二高次谐波的振幅包络 104。若将振幅包络104的中值增大十倍后的值作为边界输入电平88,则 以点划线表示边界输入电平88。在此,在将振幅包络104的值和边界输入 电平88进行比较的情况下,在振幅包络104的值变为边界输入电平88以 下的时刻中,振幅动态范围扩张部31进行压縮声音波形102的振幅的处理。 而且,在振幅包络104的值超过边界输入电平88的时刻中,振幅动态范围 扩张部31进行放大声音波形102的振幅的处理。作为通过振幅动态范围扩 张部31进行声音波形102的振幅的压縮及放大的结果,生成声音波形86。 在将声音波形86和声音波形102进行比较的情况下,在振幅包络104的 值小的部分,声音波形86的振幅与声音波形102的振幅相比变得更小。反 之,在振幅包络104的值大的部分,声音波形86的振幅与声音波形102 的振幅相比变得更大。因此,声音波形86中,振幅大的部分和振幅小的部 分之间的振幅的差(动态范围),比声音波形102的大。此事,通过将声音 波形86的振幅包络90与声音波形102的振幅包络104进行比较也可明了 。 并且,振幅动态范围扩张部31不仅放大声音波形102的振幅,还对于声音 波形102的振幅小的部分,将声音波形102的振幅进行压縮。因此,与仅 仅放大声音波形102的振幅的情况相比,振幅动态范围扩张部31能够生成 振幅的最大值和最小值之间的差(动态范围)更大的声音波形86。
图23是说明有关通过振幅动态范围扩张部31将实际的声音波形的振 幅的动态范围进行扩大后的结果的图。图23(a)是表示进行/ba/的发音时的 声音波形92和其包络线94的图。图23(b)是表示通过振幅动态范围扩张部 31,扩大图23(a)所示的声音波形92的振幅的动态范围后的声音波形96和其包络线98的图。将包络线94和包络线98进行比较即可得知,声音波 形96与声音波形92相比,振幅的动态范围被扩大。
根据这样的构成,检测输入声音的振幅波动区间,在此调制度足够大 的情况下不施行处理,在调制度不足的情况下,将声音波形的振幅波动进 行扩张。以此,使作为声音的表现不足的振幅波动成为足够的大小。因此, 讲话者能够为了向听众充分进行传达,从而对试图进行强调或进行"用力 声音"或"哼声"的音乐表现的部分、或者用力讲话的部分的"用力声音" 的表现进行扩大、强调。进而,作为用力声音处理,将发音者的原来的声 音波形的振幅波动进行扩张。因此,能够在保持发音者个人的特性的同时 提高声音的表现力。因而,能够生成更加自然的声音。即通过单纯的处理, 能够附加利用了输入声音的特征的、传达强调或紧张的表现的声音波形或 声音表现。
再者,本实施例中,设在步骤S14中调制度小于基准值的情况下,在 步骤S31中,振幅动态范围扩张部31改变输入输出特性并进行振幅的压縮 和伸长,从而进行振幅动态范围的扩张。而且,设在步骤S14中调制度为 基准值以上的情况下,振幅动态范围扩张部31改变输入输出特性,并不进 行振幅的压縮以及伸长的处理。但是,也可以准备迂回的路径,从而从声 音输入部11到声音输出部14的途中不经过振幅动态范围扩张部31。而且, 还可以准备开关,用来切换是将输入声音波形输入到振幅动态范围扩张部 31,还是通过迂回而输入到声音输出部14。在步骤S14中调制度小于基准 值的情况下,将开关切换到与振幅动态范围扩张部31相连接的一侧,以对 输入声音波形进行振幅动态范围扩张处理。并且,在步骤S14中调制度为 基准值以上的情况下,将开关切换到绕过振幅动态范围扩张部31与声音输 出部14相连接的一侧,并且不对输入声音施行处理而输出。在此情况下, 振幅动态范围扩张部31的输入输出特性也可以固定为图20所示的特性。
另外,虽然本实施例中,在歩骤S31中振幅动态范围扩张部31根据针 对第二高次谐波的振幅包络的拟合函数的值的中值,来求出边界输入电平, 但是并不限于此。例如,在用力声音判断部15将声源波形或基波应用于振 幅波动频率的分析的情况下,振幅动态范围扩张部31也可以利用针对声源 波形或基波的振幅包络线的拟合函数的值,来求出边界输入电平。而且,振幅动态范围扩张部31在通过声音波形的全波整流来求出振幅包络的情况 下,针对全波整流的结果的拟合函数的值,或者全波整流的结果的平均值 等,只要是能够将声音波形的振幅波动包络曲线分割为上下两个的值,就 可以利用任何值来求出边界输入电平。 (实施例3)
在实施例3中,使用压力传感器来指示声音的"用力声音"部分或者 "哼声"部分。
图24是实施例3的声音强调装置的功能框图。图25是表示本实施例 的工作的流程图。关于与图12和图14相同的构成部分及步骤采用相同的 符号,并不重复进行详细的说明。
如图24所示,本发明的实施例3所涉及的声音强调装置包括手持式 传声器41、强调发音区间检测部44、声音强调部13、声音输出部14。
因为声音强调部13和声音输出部14与实施例1相同,所以不重复进 行说明。
手持式传声器41包括感知用户握住手持式传声器41时的压力的压 力传感器43、接受用户的声音输入的麦克风42。
强调发音区间检测部44包括标准值计算部45、标准值记忆部46、 用力声音附加处理判断部47。
标准值计算部45是接受压力传感器43的输出,并求出用户的把持压 的标准范围,从而输出此上限值的处理部。
标准值记忆部46是记忆装置,记忆在标准值计算部45计算出的用户 的把持压的的标准把持压上限值,例如,由存储器或硬盘等构成。
用力声音附加处理判断部47是接受压力传感器43的输出,并将从压 力传感器43输出的值和标准值记忆部46所记忆的标准把持压的上限值进 行比较,从而判断是否将对应于成为判断对象的区间的输入声音作为用力 声音处理的对象的处理部。
其次,按照图25的流程图,对如上述构成的声音强调装置的工作进行 说明。
首先,在用户握住手持式传声器的情况下,压力传感器43测定把持压 (步骤S41)。将讲话前及刚开始讲话后的预先决定的期间、乐曲开始前及幵始唱歌 前的前奏区间、以及间奏区间定为标准值设定时间范围,若在标准值设定
时间范围内(步骤S43的"是"),则以压力传感器43测定的把持压信息被 输入并被蓄积在标准值计算部45 (步骤S44)。
在标准把持压的计算所需要的数据的蓄积完毕的情况下(步骤S45的
"是"),标准值计算部45计算标准把持压的上限值(步骤S46)。例如, 标准把持压的上限值为在标准值设定时间范围内的把持压的平均值中加上 标准偏差后的值。并且例如,是相当于标准值设定时间范围内的把持压的 最大值的90%的值。标准值计算部45将在步骤S46计算的标准把持压的 上限值记忆在标准值记忆部46 (步骤S47)。在步骤S45中,在标准把持 压的计算所需要的数据的蓄积未完毕的情况下(步骤S45的"否"),则返 回步骤S41,从而接受来自压力传感器43的下一个输入。在利用前奏区间 及间奏区间的把持压来计算标准把持压的情况下,标准值计算部45参照卡 拉OK系统的乐曲信息,来确定前奏区间及间奏区间,并设定标准值设定 时间范围,从而计算标准把持压。
在所着眼的时刻不在标准值设定时间范围内的情况下(步骤S43的
"否"),以压力传感器43测定的把持压信息被输入到用力声音附加处理判 断部47。
麦克风42取得用户发出的声音(步骤S42),并作为输入声音波形输 出到调幅部18。
用力声音附加处理判断部47将标准值记忆部46所记忆的标准把持压 的上限值和由压力传感器43输入的值进行比较(步骤S48)。在该把持压 比标准把持压的上限值大的情况下(步骤S48的"是"),用力声音附加处 理判断部47将该区间作为用力声音处理对象区间输出到调幅部18。
而且,周期信号生成部17生成80Hz的正弦波(步骤S15),并生成 在此正弦波信号中加上了直流分量的信号(步骤S16)。调幅部18对于与 输入声音波形之中的部分波形同步的把持压信息,比步骤S48中的标准把 持压的上限值大的作为用力声音处理对象区间的区间,通过周期信号生成 部17生成的以80Hz振动的周期信号乘以输入声音信号来进行振幅调制 (步骤S17),从而进行向包含振幅的周期性波动的"用力"声音的转换。声音输出部14输出转换后的声音波形(步骤S18)。
在该把持压为标准把持压的上限值以下的情况下(步骤S48的"否"), 调幅部18对与该把持压信息同步的输入声音不进行处理,就将声音波形输 出到声音输出部14。声音输出部14输出此声音波形(步骤S18)。
因为按每个用户进行把持压的标准化,所以伴随用户的更换,需要对 把持压数据进行初始化。关于这一点,能够通过接受用户更换的输入,并 感测麦克风42的移动,在一定时间以上为静止的情况下,对把持压数据进 行初始化;或者在卡拉OK的情况下,通过在乐曲的开始时对把持压数据 进行初始化等方法来实现。
例如,以上所说明的处理(步骤S41 —S18)在规定的时间间隔内被反 复执行。
根据这样的构成,检测出用户的握住手持式传声器的把持压比标准时 高的定时,对声音波形进行伴随振幅波动的调制,以附加根据"用力声音" 的强调或者根据"哼声"的音乐表现。通过这样的处理,能够在用户用力 讲话或者唱歌里适合强调或音乐表现的部分中,附加"用力声音"或"哼 声"的表现。因此,能够在用户用力讲话或者唱歌的自然的定时,附加强 调或音乐表现以提高声音的表现力。
再者,在本实施例中,虽然设步骤S15中的周期信号生成部17输出 80Hz的正弦波,但是并不仅限于此。例如,按照振幅包络的波动频率的分 布,可以为40Hz—120Hz之间的任一频率,周期信号生成部17也可以输 出正弦波以外的周期性信号。而且,也可以如实施例1的变形例,通过全 通滤波器来附加振幅波动。
再者,在本实施例中,虽然设手持式传声器41中包括压力传感器43, 但是并不限定于此。例如,除手持式传声器41之外,还可以在凳子、鞋或 者脚掌等处配置压力传感器,以设为感知脚踩的力量的构成。并且,在安 装于上臂的带子上配置压力传感器,以成为感知加紧腋窝的力量的构成。
再者,虽然在本实施例中,设为直接输入来自手持式传声器41的、与 把持压同步的声音,但是只要来自压力传感器的输出数据和声音波形同步 记录,也可以为将被记录的把持压和声音波形作为输入来接受。 (实施例4)在实施例4中,利用检测喉头的移动的传感器来检测声音的"用力声 音"部分或者"哼声"部分。
图26是实施例4的声音强调装置的功能框图。图27是表示本实施例 的工作的流程图。关于与图24及图25相同的构成部分及步骤采用相同的 符号,并不重复进行详细的说明。
如图26所示,本发明的实施例4所涉及的声音强调装置包括EGG (Electroglottograph)传感器51、麦克风42、强调发音区间检测部52、 声音强调部13、声音输出部14。因为声音强调部13和声音输出部14与 实施例1相同,所以不重复进行说明。
EGG传感器51是与颈部的皮肤相接触并感知喉头的移动的传感器。 麦克风42与实施例3同样地取得用户的声音。
强调发音区间检测部52包括标准值计算部55、标准值记忆部56、 用力声音附加处理判断部57。
标准值计算部55是,接受EGG传感器51的输出,根据EGG波形而 求出发出有声音中的声门关闭区间比率,并输出标准发音时的该比率的下 限值的处理部。
标准值记忆部56是记忆装置,记忆在标准值计算部55计算出的用户 的标准声门关闭区间比率的下限值,例如,由存储器或硬盘等构成。
用力声音附加处理判断部57是,接受EGG传感器51的输出,并将 从EGG传感器51输出的值和标准值记忆部56所记忆的标准声门关闭区 间比率的下限值进行比较,从而判断是否将对应于该区间的输入声音作为 用力声音处理的对象的处理部。
其次,按照图27的流程图对如上述构成的声音强调装置的工作进行说明。
首先,若用户发出声音,则通过EGG传感器51取得表示喉头的移动 的EGG波形(步骤S51)。
标准值计算部55接受由EGG传感器51输出的EGG波形,并取出相 当于声音波形的基本周期的一个周期的EGG波形(步骤S52)。如在图28 及图29所分别表示的专利文献特开2007 — 68847号公报的图5及图6 所示,在EGG波形的一个周期中,具有一个波峰和进行无变化推移的部分。所谓一个周期是指从此波峰的开始上升时到下一个波峰的开始上升时为 止。此波峰的部分相当于声门的开放期,无变化的部分相当于声门的关闭 期。
标准值计算部55将一个周期内的无变化部分的时间幅度在一个周期的 时间幅度里所占的比例,作为声门关闭区间比率来计算(步骤S53)。在刚 开始讲话或者唱歌之后的预先规定的期间,例如,如果设标准值设定时间 范围为5秒钟,且取得该EGG波形数据的时刻在标准值设定时间范围内(步 骤S54的"是"),则在步骤S53计算出的声门关闭区间比率被蓄积在标准 值计算部55中(步骤S55)。再者,不仅可以是5秒钟,也可以是8秒钟 或在此之上。
进而,在标准声门关闭区间比率的计算所需要的数据的蓄积完毕的情 况下(步骤S56的"是"),标准值计算部55计算的标准声门关闭区间比率 的上限值(步骤S57)。例如,标准声门关闭区间比率的上限值为在标准值 设定时间范围内的标准声门关闭区间比率的平均值中加上标准偏差后的 值。标准值计算部55将在步骤S57计算的标准声门关闭区间比率的上限值 记忆在标准值记忆部56 (步骤S58)。
在标准声门关闭区间比率的计算所需要的数据的蓄积未完毕的情况下 (步骤S56的"否"),则返回步骤S51,从而标准值计算部55接受来自 EGG传感器51的下一个输入。
在该时间不在标准值设定时间范围内的情况下(步骤S54的"否"), 麦克风42取得用户发音的声音波形,并作为输入声音波形输出到调幅部 18(步骤S42)。并且,在步骤S53计算的声门关闭区间比率被输入到用力 声音附加处理判断部57。用力声音附加处理判断部57将标准值记忆部56 所记忆的标准声门关闭区间比率的上限值与标准值计算部55所计算的声门 关闭区间比率进行比较(步骤S59)。
在该声门关闭区间比率比标准声门关闭区间比率的上限值大的情况下 (步骤S59的"是"),用力声音附加处理判断部57将该区间作为用力声音 处理对象区间输出到调幅部18。在喉头上用力的状态下,声门的关闭区间 变长的现象已被一般所知(例如,非专利文献:石井Carlos寿宪、石黑浩及 萩田纪博"EGG全用l、 t 「" § *」発声o音響分析(利用EGG的"用力"发声的声学分析)"、2007年春季日本声学学会讲演论文集、pp.221 — 222、 2007)。声门关闭区间比率比标准声门关闭区间比率的上限值大的情 况是表示标准时以上的力被用在声门上。
周期信号生成部17生成80Hz的正弦波信号(步骤S15),并生成在 此正弦波信号中加入直流分量的信号(步骤S16)。调幅部18对于与输入 声音波形之中的部分波形同步的EGG波形的声门关闭区间比率,比步骤 S59中的标准声门关闭区间比率的上限值大的作为用力声音处理对象区间 的区间,使周期信号生成部17生成的以80Hz振动的周期信号乘以输入声 音信号(步骤S17)。通过此处理,进行振幅调制,从而进行向包含振幅的 周期性波动的"用力"声音的转换。声音输出部14输出转换后的声音波形 (步骤S18)。
在该声门关闭区间比率为标准声门关闭区间比率的上限值以下的情况 下(步骤S59的"否"),调幅部18不对与该把持压信息同步的输入声音进 行处理,就将声音波形输出到声音输出部14,从而声音输出部14输出此 声音波形(步骤S18)。
例如,以上所说明的处理(步骤S51—S18)在规定的时间间隔内被反 复执行。
根据这样的构成,检测讲话中或唱歌中的用户的声门关闭区间比率变 得比标准时高的定时,从而对声音波形进行伴随振幅波动的调制。以此附 加根据"用力声音"的强调或根据"哼声"的音乐表现。因此,用户为了 想要进行强调或音乐性表现,能够在喉头的用力部分附加"用力声音"或 者"哼声"的表现。因而,能够在用户用力讲话或者唱歌的定时,附加强 调或音乐表现。并且,即使声音波形上的变化不足以用来听取用户的发音 为用力的状态,也能够提高声音的表现力。
另外,在本实施例中,将声门关闭时间比率的标准值设定时间范围设 为开始讲话或开始唱歌后的五秒钟。但是,在应用于卡拉OK系统的情况 下,也可以与实施例3同样,参考乐曲数据以确定乐曲中的除精华部分以 外的歌唱区间,从而设定规定了的时间长度,根据精华部分以外的歌唱声 音来设定声门关闭时间比率的标准值。因此,容易强调出现在精华部分的 音乐表现,并能够强调音乐的高潮。再者,虽然在本实施例中,是根据以EGG传感器51取得的EGG波 形计算声门关闭区间比率,但是也可以如专利文献特开2007 —68847号 公报所述,将从声音波形抽取了第四共振峰的频带的波形的振幅低于预先 规定的振幅的区间,作为声门关闭区间,将高于预先规定的振幅的区间作 为声门开放区间,并将作为一组的相邻的一个声门开放区间和一个声门关 闭区间当作一个周期,从而计算声门关闭区间比率。
再者,在本实施例中,虽然设步骤S15中的周期信号生成部17输出 80Hz的正弦波,但是并不仅限于此。例如,按照振幅包络的波动频率的分 布,频率可以为40Hz—120Hz之间的任一频率,周期信号生成部17也可 以输出正弦波以外的周期性信号。而且,也可以如实施例1的变形例,通 过全通滤波器来附加振幅波动。 (实施例5)
图30是表示实施例5中的声音强调系统的构成的图。作为声音强调系 统的具体例子具有用于移动电话71b的来电通知用声音(来电通知用音 乐、来电声音)的服务系统;用于便携型个人电脑71a的语音电子邮件用 声音的服务系统;或者用于网络游戏机71c的游戏角色或化身用声音的服 务系统。声音强调系统包括通过网络72被接续的便携型个人电脑71a、 移动电话71b以及网络游戏机71c等终端,还有声音处理服务器73。各个 终端将被输入的声音数据发送到声音处理服务器73。声音处理服务器73 针对被发送的声音数据,进行用力声音部分的强调,再将声音数据返送到 发送终端。
图31是表示实施例5中的声音强调系统的构成的框图。图32是表示 实施例5的声音强调系统之中的终端71的工作的流程图。图33是表示实 施例5的声音强调系统之中的声音处理服务器73的工作的流程图。
如图31所示,本发明的实施例5所涉及的声音强调系统是,将通过终 端的麦克风被输入的、并通过网络被发送到服务器的声音中的用力声音, 在服务器内进行强调后再返送给终端,并以终端输出处理声音的系统。声 音强调系统包括终端71、网络72以及声音处理服务器73。
如图30所示,具体而言,终端71是便携型个人电脑71a、移动电话 71b或者网络游戏机71c等。而且,终端71还可以是便携型信息终端等。如图31所示,终端71包括麦克风76、模数转换器77、输入声音 数据记忆部78、声音数据发送部79、声音数据接收部80、强调声音数据 记忆部81、数模转换器82、电声转换器83、声音输出指示输入部84、以 及输出声音抽取部85。
模数转换器77是将由麦克风76输入的声音的模拟信号转换成数字信 号的处理部。输入声音数据记忆部78是存储由模数转换器77转换成数据 信号的输入声音数据的记忆部。声音数据发送部79是将被转换成数据信号 的输入声音数据与终端标识符配在一起,并通过网络72发送到声音处理服 务器73的处理部。
声音数据接收部80是通过网络72,来接收由声音处理服务器73发送 的、被施加了依据用力声音附加的强调处理的声音数据的处理部。强调声 音数据记忆部81是存储由声音数据接收部80接收的、在声音处理服务器 73进行了强调处理的声音数据的记忆部。数模转换器82是将由声音数据 接收部80接收的、以数据信号来表现的声音信号转换成模拟电信号的处理 部。电声转换器83是将电信号转换成声信号的处理部,具体来说,是扬声 器等。
声音输出指示输入部84是用户用于指示声音输出的输入处理装置,具 体来说,是按钮、开关或者能够列表显示被选择项目的触摸屏等。输出声 音抽取部85是按照由声音输出指示输入部84输入的声音输出指示,来抽 取存储在强调声音数据记忆部81中的进行了强调处理的声音数据,并输入 到数模转换器82的处理部。
并且,如图31所示,声音处理服务器73包括声音数据接收部74、 声音数据发送部75、强调发音区间检测部12、以及声音强调部13。
声音数据接收部74是接收由终端71的声音数据发送部79发送的输入 声音数据的处理部。声音数据发送部75是对终端71的声音数据接收部80, 发送施加了依据用力声音附加的强调处理的声音数据的处理部。
强调发音区间检测部12包括用力声音判断部15及用力声音附加处理 判断部16。声音强调部13包括调幅部18及周期信号生成部17。由于强 调发音区间检测部12及声音强调部13与图12所示的相同,所以对其不重 复进行详细的说明。其次,在如上所述的构成的声音强调系统之中,按照图32、图34的 流程图对终端71的工作,按照图33的流程图对声音处理服务器73的工作 分别进行说明。在图33的流程图中,对于与实施例1的图12所示的声音 强调装置的工作同样的工作,付与相同的参考标记以进行说明。关于同样 的工作,在此对其不重复进行详细的说明。
首先,按照图32,对通过终端71进行声音信号的取得和发送的工作 进行说明。
麦克风76通过用户发出的声音的输入,取得作为模拟电信号的声音(步 骤S701)。模数转换器77将由麦克风76输入的模拟声音信号,以预先规 定的采样频率来进行采样,并转换成数字信号(步骤S702)。例如,采样 频率为22050Hz等。另外,只要采样频率为再生声音的精确度及信号处理 精确度所需要的频率以上,可以为任意的频率。模数转换器77将在步骤 S702中转换成数字信号的声音信号存储在输入声音数据记忆部78 (步骤 S703)。声音数据发送部79将在步骤S702中转换成数字信号的声音信号, 与终端71的终端标识符或者应当接收处理声音的其他的终端的终端标识符 配在一起,并通过网络72发送到声音处理服务器73 (步骤S704)。' 其次,按照图33对声音处理服务器73的工作进行说明。 声音数据接收部74通过网络72,接收终端71在步骤S704发送的终 端标识符和声音信号(步骤S71)。由声音数据接收部74取得的声音信号、 即声音波形被输入到强调发音区间检测部12的用力声音判断部15,用力 声音判断部15进行声音中的振幅波动区间的检测(步骤S12)。其次,用 力声音附加处理判断部16对用力声音区间的振幅波动的调制度进行分析
(步骤S13)。调制度判断部25判断,在步骤S13求出的调制度是否小于 预先规定的基准值(步骤S14)。在调制度被判断为在基准值以上的情况下
(步骤S14的"否"),调制度判断部25判断该用力声音区间的振幅调制度 为充分,从而不将该区间作为用力声音处理对象区间,并向调幅部18输出 区间信息。调幅部18不对输入声音进行处理,就将声音波形输出到声音数 据发送部75。声音数据发送部75通过网络72,向具有在步骤S71接收的 终端标识符的终端发送由调幅部18输出的声音波形(步骤S72)。
在调制度被判断为小于基准值的情况下(步骤S14的"是"),周期信号生成部17生成80Hz的正弦波(步骤S15),并生成在此正弦波信号中 加上直流分量的信号(步骤S16)。调幅部18关于在输入声音波形之中作 为用力声音处理对象区间被确定的区间,通过周期信号生成部17生成的以 80Hz振动的周期信号乘以输入声音信号来进行振幅调制。通过这样的处 理,调幅部18进行从输入声音向包含振幅的周期性波动的"用力"声音的 转换(步骤S17)。调幅部18向声音数据发送部75输出转换后的声音波形。 声音数据发送部75通过网络72,向具有在步骤S71接收的终端标识符的 终端,发送在步骤S17由调幅部18输出的声音波形(步骤S72)。
其次,按照图34,对终端71的声音信号的接收和声音输出的工作进 行说明。
声音数据接收部80通过网络,接收由声音处理服务器73发送的声音 波形(步骤S705)。声音数据接收部80将取得了的声音波形存储在强调声 音数据记忆部81 (步骤S706)。在根据接收时的应用软件等存在声音输出 指示的情况下(步骤S707的"是"),输出声音抽取部85从强调声音数据 记忆部81所存储的声音数据之中抽取对象的声音波形,并输入到数模转换 器82 (步骤S708)。数模转换器82以与模数转换器77在步骤S702中进 行了采样的周期相同的周期,将数字信号转换成模拟电信号(步骤S709)。 在步骤S709由数模转换器82输出的模拟电信号,通过电声转换器83作 为声音被输出(步骤S710)。终端71在无声音输出指示的情况下(步骤 S707的"否"),结束工作。
除接收工作之外,在用户的声音输出指示被输入到声音输出指示输入 部84的情况下(步骤S711),输出声音抽取部85按照被输入到声音输出 指示输入部84的声音输出指示,从强调声音数据记忆部81所存储的声音 数据之中抽取对象的声音波形,并输入到数模转换器82 (步骤S708)。数 模转换器82将数字信号转换成模拟电信号(步骤S709)。模拟电信号通过 电声转换器83作为声音被输出(步骤S710)。
根据这样的构成,将在终端71被输入的用户或发声者的声音发送到声 音处理服务器73。声音处理服务器73检测输入声音的振幅波动区间,并 将对作为声音的表现的调制度不足的部分进行振幅波动补偿的声音发送到 终端。终端能够利用被进行了强调处理的声音。因此,为了向听众充分进行传达,对强调或用力讲话的"用力声音"的表现或者"哼声"的音乐表 现进行强调,从而能够提高声音的表现力。与此同时,有效地利用输入声 音原本具备的调制度足够大的振幅波动,从而能够生成更加自然且表现力 高的声音。根据本实施例所涉及的声音强调系统,能够将以未受过特殊训 练的普通的发声者或用户的自然的嗓音而难以实现的表现力高的声音,作 为来电声音用声音、语音电子邮件或者化身用声音等来利用。不仅发声者 或用户本身利用这样的声音,也可以通过将其发送到别人的终端,从而以 更加丰富的表现向别人传达消息。而且,不需要在终端进行声音分析和信 号处理之类的计算量大的处理。因此,即使是计算能力低的终端也能够利 用表现力高的声音。
再者,在本实施例中,设采样频率与终端71内的模数转换器77和数 模转换器82相同,并将声音处理服务器73中的输入声音信号的采样频率 作为固定的频率进行了说明。但是,在每个终端的采样频率不同的情况下, 也可以设为终端配合声音信号,将采样频率发送到声音处理服务器73。因 此,设声音处理服务器73按照所接收的采样频率,对接收的声音信号进行 处理。并且,设声音处理服务器73通过重新采样处理,将采样频率转换成 信号处理时的采样频率。而且,设在发送未处理声音的终端与接收进行了 强调处理的声音的终端不同的情况下,或声音处理服务器73输出的声音信 号的采样频率与终端的采样频率不同的情况等情况下,声音处理服务器73 向终端发送进行了强调处理的声音波形,并发送采样频率,数模转换器82 根据接收的采样频率,生成模拟电信号。
再者,在本实施例中,虽然设为将采样后的波形数据照原样从终端71 发送到声音处理服务器73,但是,当然也可以利用作为通过网络72进行 通信的数据的,由MP3 (MPEG Audio Layer—3:活动图像压縮标准音 频第三层)或CELP (Code—Excited Linear Prediction:码激励线性预 测)等波形压縮编码器压縮的数据。同样,作为从声音处理服务器73向终 端71发送的声音数据,也可以利用被压縮后的数据。
再者,在本实施例中,虽然将输入声音数据记忆部78和强调声音数据 记忆部81作为独立的部分进行了说明,但是,也可以在一个记忆部中,对 输入声音数据及强调声音数据都进行记忆。此时设为,配合声音信号存储对输入声音数据和强调声音数据进行识别的信息的构成。而且,虽然设输
入声音数据记忆部78和强调声音数据记忆部81存储数字信号,但是也可 以设为存储作为由麦克风76输入的、通过模数转换器77转换成数字信号 之前的模拟电信号的输入声音信号;以及存储作为通过数模转换器82将数 字信号转换成模拟信号后的模拟电信号的强调声音信号。此时,设声音信 号被记录在磁带或唱片之类的模拟介质上。
再者,虽然在本实施例中,设在终端71进行模数转换及数模转换,并 通过网络72收发数据信号,但是,也可以收发模拟信号,并在声音处理服 务器73进行模数转换及数模转换。此时,网络需要通过经由交换机的模拟 电路来实现。
再者,虽然设声音处理服务器73的声音强调部13与实施例1同样, 通过周期信号生成部17和调幅部18,使周期信号乘以声音波形来进行振 幅调制,但并不只限于此。例如,还可以如实施例1的变形例所述,利用 全通滤波器,或可以如实施例2所述,通过对原波形的振幅波动的动态范 围进行扩张,来强调振幅调制。进而与实施例2同样,为了扩张动态范围, 也可以利用模拟电路。
以上,关于本发明,根据上述的实施例l至5进行了说明,但是,本 发明并不只限于上述的实施例。
例如,在实施例3、实施例4中,分别利用由压力传感器43得到的把 持压、根据由EGG传感器51得到得EGG波形计算出的声门关闭区间比 率,来判断用力声音处理对象区间。但是,用力声音处理对象区间的判断 方法并不只限于此。例如,也可以安装能够测定手持式传声器内的回转仪 等的加速度或移动的传感器,或者可以在头部安装传感器,在讲话者或者 唱歌者的移动的速度或移动的距离为一定值以上的情况下,作为用力声音 处理对象区间来判断。
而且,设在实施例1、实施例2中对输入声音的振幅波动的调制度进行 分析,并对调制度不充分的区间施行强调处理。但是,也能够无论调制度 如何,都对输入声音的所有被判断为具有振幅波动的区间施行强调处理。 因此,不需要多项式近似等发生延迟的调制度的分析处理。并且,延迟时 间被削减。因此,在适用于卡拉OK或扩音器等需要实时处理的系统的情况下比较有效。此时,实施例2的振幅动态范围扩张部31如图35所示, 由平均输入振幅计算部61和振幅放大压縮部62构成。而且,平均输入振 幅计算部61至少以用力声音的振幅包络的波动的一个周期的时间幅度,求 出输入声音的振幅的平均。例如,设振幅包络波动为40Hz以上,以1/40 秒、即25ms的时间幅度来求出振幅的平均值。振幅放大压縮部62将从平 均输入振幅计算部61输出的平均值作为图20的边界输入电平来设定。振 幅放大压缩部62进行放大,以使超过平均值的输入、即振幅包络的波动周 期中的振幅大的部分变得更大。并且,振幅放大压縮部62进行压縮,以使 低于平均值的输入、即振幅包络的波动周期中的振幅小的部分变得更小。 通过这样的处理,能够强调输入声音的振幅波动。求出振幅的平均值的时 间幅度不仅限于25ms,也可以将振幅包络波动的频率縮短为与120Hz对 应的8.3ms左右。在部分吉他放大器中,在使声音失真时使用类似的构成。 根据这样的构成,能够以延迟少的简单的处理,来强调输入声音的振幅波 动。而且,能够对输入声音附加"用力声音"或者"哼声"的丰富的表现 力,并仍然有效地利用了输入声音的特征。
而且,在实施例3、实施例4中,为了附加"用力声音"或者"哼声" 的表现,与实施例1同样,对输入声音附加周期性振幅波动。但是,也可 以通过如实施例2所示的扩张输入声音的振幅动态范围,来对声音附加"用 力声音"或者"哼声"的表现。但是,在扩张输入声音的振幅动态范围的 情况下,如实施例1或实施例2的步骤S12所述,需要辨别输入声音中具 有相当于"用力声音"或者"哼声"的波动频率范围内的振幅波动。
并且,设在实施例l、实施例3、实施例4中,周期信号生成部17生 成80Hz的周期信号。但是,周期发信号生成部17也可以在能够将波动作 为"用力声音"听取的40Hz至120Hz之间,生成具有随机周期波动的信 号。由于调制频率随机波动,能够更接近实际的声音的振幅波动,从而能 够生成自然的声音。
而且,为了检测讲话者或唱歌者用力的状态,判定用力声音附加处理 区间,在实施例l、 2中利用声音波形的振幅波动,在实施例3中利用手持 式传声器的把持压,在实施例4中利用从EGG波形观察到的声门关闭区间 比率。但是,也可以将这些信息进行组合以判定用力声音附加处理区间。并且,具体而言,上述各个装置也可以作为由微处理器、ROM、 RAM、 硬盘驱动器、显示器件、键盘、滑鼠等构成的计算机系统来构成。计算机 程序被记忆在RAM或硬盘驱动器中。通过微处理器按照计算机程序工作, 使得各个装置完成其功能。在此,计算机程序为了完成规定的功能,表示 针对计算机的指令的指令码为进行多个组合的构成。
进且,构成上述各个装置的构成元件的一部分或全部也可以设为由一 个系统LSI (Large Scale Integration:大规模集成电路)构成。系统LSI 是在一个芯片上集积多个构成部而制造的超级多功能LSI,具体而言,是 包含微处理器、ROM、 RAM等而构成的计算机系统。计算机程序被记忆 在RAM中。通过微处理器按照计算机程序来工作,使得系统LSI完成其 功能。
进而还有,构成上述各个装置的构成元件的一部分或全部也可以设为, 由能够在各个装置上装卸得IC (Integrated Circuit凍成电路)卡或者单 体的模块构成。IC卡或模块是由微处理器、ROM、 RAM等构成的计算机 系统。IC卡或模块也可以设为包含上述超级多功能LSI。通过微处理器按 照计算机程序工作,使得IC卡或模块完成其功能。此IC卡或模块也可以 设为具有抗干扰性。
而且,本发明也可以作为如上所述的方法。并且,也可以是通过计算 机来实现这些方法的计算机程序,还可以是由所述计算机程序形成的数字 信号。
进而,本发明也可以将上述计算机程序或上述数字信号记录在计算机 能够读取的记录介质,例如软盘、硬盘、CD—ROM、 MO、 DVD、 DVD —ROM、 DVD—RAM、 BD (BlirrayDisc (注册商标)蓝光光盘)、半 导体存储器等上。而且,也可以是记录在这些记录媒体上的上述数据信号。
并且,本发明也可以将上述计算机程序或上述数字信号,经由以电气 通讯线路、无线或有线通讯线路、互联网为代表的网络、数据广播等进行 传输。
而且,本发明也可以是具备微处理器和存储器的计算机系统,上述存 储器记忆上述计算机程序,上述微处理器按照上述计算机程序进行工作。 并且,通过将上述程序或上述数字信号记录在上述记录介质上并进行转送,或者通过将上述程序或上述数字信号经由上述网络等进行转送,也
可以通过其他的独立的计算机系统来实施。
进而,也可以分别将上述实施例及上述变形例进行组合。 应该能够认识到,此次公开的实施例的所有内容都是例示而非限制性
的内容。本发明的范围并非上述说明的范围,而是根据权利要求的范围来
表述的,并试图包含与权利要求的范围同等的意思以及在范围内的所有的 变更。
本发明所涉及的声音强调装置,检测讲话者或唱歌者用力说话、唱歌 的部分,以确定讲话者或唱歌者试图进行较强的声音表现的部分,并对此 部分的声音波形进行加工,从而能够生成"用力声音"或"哼声"的表现。
因此,本发明能够应用于具有用力声音强调功能的扩音器或卡拉OK等。 而且,本发明还能够应用于游戏机、通讯设备、移动电话等。即,能够对 游戏机或通讯设备的角色声音、化身的声音、语音电子邮件的声音、移动 电话的来电通知用音乐或来电声音、或者使用家用摄像机等制作影片内容 时的解说声音等进行声音用户化。
权利要求
1、一种声音强调装置,其特征在于,包括强调发音区间检测部,检测输入声音波形之中的强调区间,所述强调区间是指发出该输入声音波形的发声者想要使声音波形发生变化的时间区间;以及声音强调部,使所述输入声音波形之中的、由所述强调发音区间检测部检测出的所述强调区间所包含的声音波形的振幅包络的波动增加,所述强调发音区间检测部,将所述输入声音波形的所述振幅波动的频率存在于10Hz以上且不足170Hz的预先规定了的范围内的状态,作为在声带上用了力的状态来检测,并将被检测出在声带上用了力的状态的时间区间作为所述强调区间来检测。
2、 如权利要求l所述的声音强调装置,其特征在于,所述声音强调部对所述输入声音波形之中的、由所述强调发音区间检测部检测出的所述强调区间所包含的声音波形施行调制,以使所述声音波形伴随周期性振幅波动。
3、 如权利要求2所述的声音强调装置,其特征在于,所述声音强调部利用40Hz以上且120Hz以下的频率的信号,对在所述输入声音波形之中的、由所述强调发音区间检测部检测出的所述强调区间所包含的声音波形施行调制,以使所述声音波形伴随周期性振幅波动。
4、 如权利要求3所述的声音强调装置,其特征在于,所述声音强调部还使信号的频率在40Hz—120Hz的范围内波动,所述信号是在为了使所述声音波形伴随周期性振幅波动,而对所述声音波形施行调制时被使用的信号。
5、 如权利要求2所述的声音强调装置,其特征在于,所述声音强调部通过使所述输入声音波形之中的、由所述强调发音区间检测部检测出的所述强调区间所包含的声音波形乘以周期信号,从而对声音波形给予伴随周期性振幅波动的调制。
6、 如权利要求2所述的声音强调装置,其特征在于,所述声音强调部具有全通滤波器,移动所述输入声音波形之中的、由所述强调发音区间检测部检测出的所述强调区间所包含的声音波形的相位;以及加法运算单元,使被输入到所述全通滤波器的所述强调区间所包含的所述声音波形,与由所述全通滤波器移动了相位后的声音波形相加。
7、 如权利要求1所述的声音强调装置,其特征在于,所述声音强调部扩大所述输入声音波形之中的、由所述强调发音区间检测部检测出的所述强调区间所包含的声音波形的振幅的动态范围。
8、 如权利要求7所述的声音强调装置,其特征在于,在所述输入声音波形之中的、由所述强调发音区间检测部检测出的所述强调区间所包含的声音波形中,在所述声音波形的振幅包络的值在规定的值以下的情况下,所述声音强调部对所述声音波形的振幅进行压縮;且在所述声音波形的振幅包络的值比所述规定的值大的情况下,所述声音强调部对所述声音波形的振幅进行放大。
9、 如权利要求1所述的声音强调装置,其特征在于,所述强调发音区间检测部将所述输入声音波形的所述振幅波动的频率存在于10Hz以上且不足170Hz的预先规定了的范围内的、且振幅调制度不足0.04的时间区间作为所述强调区间来检测,所述振幅调制度表示所述输入声音波形的振幅包络的振幅波动的程度。
10、 如权利要求l所述的声音强调装置,其特征在于,所述强调发音区间检测部根据所述发声者的声门关闭着的时间区间,来决定所述强调区间。
11、 一种声音强调方法,其特征在于,包括强调发音区间检测步骤,检测输入声音波形之中的强调区间,所述强调区间是指发出该输入声音波形的发声者想要使声音波形发生变化的时间区间;以及声音强调步骤,使所述输入声音波形之中的、在所述强调发音区间检测步骤中检测出的所述强调区间所包含的声音波形的振幅包络的波动增加,在所述强调发音区间检测步骤中,将所述输入声音波形的所述振幅波动的频率存在于10Hz以上且不足170Hz的预先规定了的范围内的状态,作为在声带上用了力的状态来检测,并将被检测出在声带上用了力的状态的时间区间作为所述强调区间来检测。
12、 一种程序,其特征在于,使计算机执行以下步骤强调发音区间检测步骤,检测输入声音波形之中的强调区间,所述强调区间是指发出该输入声音波形的发声者想要使声音波形发生变化的时间区间;以及声音强调步骤,使所述输入声音波形之中的、在所述强调发音区间检测步骤中检测出的所述强调区间所包含的声音波形的振幅包络的波动增加,在所述强调发音区间检测步骤中,将所述输入声音波形的所述振幅波动的频率存在于10Hz以上且不足170Hz的预先规定了的范围内的状态,作为在声带上用了力的状态来检测,并将被检测出在声带上用了力的状态的时间区间作为所述强调区间来检测。
13、 一种声音强调系统,其特征在于,包括声音强调装置,通过对输入声音波形的一部分施行规定的转换处理,来生成输出声音波形;以及终端,再生所述输出声音波形,所述终端包括输入声音波形发送部,将所述输入声音波形发送到所述声音强调装置;输出声音波形接收部,从所述声音强调装置接收所述输出声音波形;以及再生部,再生所述输出声音波形接收部所接收的所述输出声音波形,所述声音强调装置包括输入声音波形接收部,从所述终端接收所述输入声音波形;强调发音区间检测部,检测所述输入声音波形接收部所接收的所述输入声音波形之中的强调区间,所述强调区间是指发出该输入声音波形的发声者想要使声音波形发生变化的时间区间;声音强调部,通过使所述输入声音波形之中的、由所述强调发音区间检测部检测出的所述强调区间所包含的声音波形的振幅包络的波动增加,从而生成所述输出声音波形;以及输出声音波形发送部,将所述输出声音波形发送到所述终端,所述强调发音区间检测部,将所述输入声音波形的所述振幅波动的频率存在于10Hz以上且不足170Hz的预先规定了的范围内的状态,作为在声带上用了力的状态来检测,并将被检测出在声带上用了力的状态的时间区间作为所述强调区间来检测。
全文摘要
一种声音强调装置,通过使所述的“用力”声音出现在讲话者或用户试图附加强调或者音乐表现的位置上,从而附加由愤怒、兴奋或紧张、精力充沛的说话方式所表现的强调,及附加演歌、布鲁斯歌曲或者摇滚乐等的音乐表现,以实现丰富的声音表现,该声音强调装置包括强调发音区间检测部(12),检测输入声音波形之中的强调区间,所述强调区间是指发出该输入声音波形的发声者想要使声音波形发生变化的时间区间;以及声音强调部(13),使所述输入声音波形之中的、由所述强调发音区间检测部(12)检测出的所述强调区间所包含的声音波形的振幅包络的波动增加。
文档编号G10L21/02GK101627427SQ200880007020
公开日2010年1月13日 申请日期2008年9月29日 优先权日2007年10月1日
发明者加藤弓子, 星见昌克, 釜井孝浩 申请人:松下电器产业株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1