声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测...的制作方法

文档序号:2827143阅读:111来源:国知局
声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测方法、声音区间检测 ...的制作方法
【专利摘要】提供了一种声音检测装置,包括:特征值提取单元,其从输入时间信号中提取每隔预定时间的特征值;特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及比较单元,其每当特征值提取单元新提取出特征值时,分别将特征值提取单元提取的特征值序列与保持的预定数目的检测目标声音项的特征值序列相比较,并且获取预定数目的检测目标声音项的检测结果,其中特征值提取单元包括时频变换单元和似然分布检测单元,在频率方向和时间方向上使获得的似然分布平滑并且提取按照预定时间的特征值。
【专利说明】声音检测装置、声音检测方法、声音特征值检测装置、声音 特征值检测方法、声音区间检测装置、声音区间检测方法及 程序

【技术领域】
[0001] 本技术涉及声音检测装置、声音检测方法、声音特征值检测装置、声音特征值检测 方法、声音区间检测装置、声音区间检测方法及程序。

【背景技术】
[0002] 近年来,家用电器(家庭用途的电气设备)根据运行状态生成诸如控制声、通知 声、操作声和警报声之类的各种声音(在下文中被称作"运行状态声")。如果可以通过安 装在家中某处的麦克风等观察这种运行状态声并且检测何时以及哪个家用电器执行哪种 操作,则可以实现各种应用功能,诸如对作为所谓生活记录的自主行动历史的自动采集、针 对具有听力困难的人将通知声可视化以及针对独自居住的老年人的行动监视。
[0003] 运行状态声可能是简单的蜂鸣声、嘟嘟声、音乐、语音声等,并且持续时间长度在 短持续时间长度的情况下大约为300ms并且在长持续时间长度的情况下大约为几十秒。这 种运行状态声被诸如安装在每个家用电器上的压电式蜂鸣器或者薄型扬声器之类的来自 其的声音不足够令人满意的再现设备再现,并且被使得在周围传播。
[0004] 例如,PTL1公开了一种技术,其中音乐作曲的部分碎片数据被转换为时频分布,特 征值被提取并且随后被与已经登记的音乐作曲的特征值相比较,并且音乐作品的名称被识 别出。
[0005] 引用列表
[0006] 专利文献
[0007] PTL 1 :日本专利第4788810号


【发明内容】

[0008] 技术问题
[0009] 还可考虑将与PTL1中公开的技术相同的技术应用于对前述运行状态声音的检 测。然而,关于家用电器生成的运行状态声,存在妨碍这种检测的以下事实:
[0010] (1)有必要认出短至几百毫秒的运行状态声。
[0011] (2)由于再现设备的不佳质量,声音变得失真,或者发生共鸣并且在一些情况下频 率特性极度失真。
[0012] ⑶由于在周围的传播,幅度和相频特性较之实际家用电器生成的声音进一步失 真。
[0013] 例如,图17A示出了在靠近家用电器的位置记录的运行状态声的波形示例。另一 方面,图17B示出了在远离家用电器的位置记录的运行状态声的波形示例,并且波形是失 真的。
[0014] (4)诸如来自电视的输出声和交谈声之类的相对大的噪声和非恒定噪声在一些情 况下由于周围的传播而被叠加。例如,图17C示出了在靠近作为噪声源的电视的位置记录 的运行状态声的波形示例,并且运行状态声被淹没在噪声中。
[0015] (5)因为来自每个家用电器的声音级别和距麦克风的距离取决于每个家用电器, 因此所记录的声音的音量发生变化。
[0016] 希望满意地检测诸如从家用电器生成的运行状态声之类的检测目标声音。
[0017] 问题的解决方案
[0018] 本技术的一个实施例涉及一种声音检测装置,包括:特征值提取单元,其从输入时 间信号中提取每隔预定时间的特征值;特征值保持单元,其保持预定数目的检测目标声音 项的特征值序列;以及比较单元,其每当特征值提取单元新提取出特征值时分别将特征值 提取单元提取的特征值序列与保持的预定数目的检测目标声音项的特征值序列相比较并 且获取预定数目的检测目标声音项的检测结果,其中特征值提取单元包括对每个时间帧的 输入时间信号执行时频变换并且获取时频分布的时频变换单元、从该时频分布获取音调似 然分布的似然分布检测单元以及在频率方向和时间方向上使似然分布平滑的平滑单元,并 且该特征值提取单元从经平滑的似然分布中提取每隔预定时间的特征值。
[0019] 根据本技术,特征值提取单元从输入时间信号中提取按照预定时间的特征值。在 这种情况下,特征值提取单元对每个时间帧的输入信号执行时频变换、获取时频分布、从该 时频分布获取音调似然分布、在频率方向和时间方向上使似然分布平滑并且从经平滑的似 然分布中提取按照预定时间的特征值。
[0020] 例如,似然分布检测单元可包括在时频分布的每个时间帧中检测频率方向上的峰 的峰检测单元、在每个检测到的峰处拟合音调模型的拟合单元、以及基于拟合结果获取表 示每个检测到的峰处的音调成分似然性的分数的评分单元。
[0021] 特征值保持单元保持预定数目的检测目标声音项的特征值序列。检测目标声音可 包括人或动物的语音声等以及从家用电器生成的运行状态声(控制声、通知声、操作声、警 报声等)。每当特征值提取单元新提取出特征值时,比较单元分别将特征值提取单元提取的 特征值序列与保持的预定数目的检测目标声音的特征值序列相比较并且获取预定数目的 检测目标声音项的检测结果。
[0022] 例如,比较单元可基于保持的检测目标声音项的特征值序列和由特征值提取单元 针对预定数目的检测目标声音项中的每一个提取的特征值序列之间的对应特征值之间的 关联来获取相似性,并且基于所获取的相似性获取检测目标声音项的检测结果。
[0023] 根据本技术,音调似然被从输入时间信号的时频分布获得,每隔预定时间的特征 值被从在频率方向和时间方向上已被平滑的似然分布中提取并使用,并且可以在不依赖 于麦克风的安装位置的情况下精确地检测检测目标声音(从家用电器生成的运行状态声 等)。
[0024] 根据本技术,例如,特征值提取单元还可包括在频率方向和/或时间方向上使经 平滑的似然分布稀疏的稀疏单元。根据本技术,例如,特征值提取单元还可包括使经平滑的 似然分布量化的量化单元。在这种情况下,可以减少特征值序列的数据量并因而减少比较 计算的负担。
[0025] 根据本技术,例如,该装置还可包括记录控制单元,其将预定数目的检测目标声音 项的检测结果与时间信息一起记录在记录介质上。在这种情况下,例如,可以获得诸如家用 电器的操作历史之类的在家的用户动作历史。
[0026] 本技术的另一概念涉及一种声音特征值提取装置,包括:时频变换单元,其对每个 时间帧的输入时间信号执行时频变换并且获取时频分布;似然分布检测单元,其从该时频 分布获取音调似然分布;以及特征值提取单元,其在频率方向和时间方向上使似然分布平 滑并且提取每隔预定时间的特征值。
[0027] 根据本技术,时频变换单元对每个时间帧的输入时间信号执行时频变换并且获取 时频分布。似然分布检测单元从该时频分布获取音调似然分布。例如,似然分布检测单元 可包括在时频分布的每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰 处拟合音调模型的拟合单元、以及基于拟合结果获取表示每个检测到的峰处的音调成分似 然性的分数的评分单元。此外,特征值提取单元在频率方向和时间方向上使似然分布平滑 并且提取按照预定时间的特征值。
[0028] 如上所述,根据本技术,音调似然性被从输入时间信号的时频分布获得,每隔预定 时间的特征值被从在频率方向和时间方向上已被平滑的似然分布中提取,并且可以令人满 意地提取输入时间信号中包括的声音的特征值。
[0029] 根据本技术,例如,特征值提取单元还可包括稀疏单元,其在频率方向和/或时间 方向上使经平滑的似然分布稀疏。根据本技术,例如,特征值提取单元还可包括量化单元, 其使经平滑的似然分布量化。在这样做时,可以减少提取的特征值的数据量。
[0030] 根据本技术,例如,该装置还可包括:声音区间检测单元,其基于输入时间信号检 测声音区间,并且似然分布检测单元可在检测到的声音区间的范围内从时频分布获取音调 似然分布。在这样做时,可以提取对应于声音区间的特征值。
[0031] 在这种情况下,声音区间检测单元可包括对每个时间帧的输入时间信号执行时频 变换并且获取时频分布的时频变换单元,基于该时频分布提取每个时间帧的幅度、音调成 分强度和频谱大概轮廓的特征值的特征值提取单元,基于提取的特征值获取表示每个时间 帧的声音区间似然性的分数的评分单元,在所述时间方向上使获取的每个时间帧的分数平 滑的时间平滑单元,以及确定每个时间帧的经平滑分数的阈值并且获取声音区间信息的阈 值确定单元。
[0032] 此外,本技术的另一实施例涉及一种声音区间检测装置,包括:时频变换单元,其 通过对每个时间帧的输入时间信号执行时频变换来获取时频分布;特征值提取单元,其基 于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值;以及评分 单元,其基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。
[0033] 根据本技术,时频变换单元对每个时间帧的输入时间信号执行时频变换并且获取 时频分布。特征值提取单元基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱 大概轮廓的特征值。此外,评分单元基于提取的特征值获取表示每个时间帧的声音区间似 然性的分数。根据本技术,例如,该装置还可包括:时间平滑单元,其在时间方向上使获取的 每个时间帧的分数平滑;以及阈值确定单元,其确定每个时间帧的经平滑分数的阈值并且 获取声音区间信息。
[0034] 如上所述,根据本技术,每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征 值被从输入时间信号的时频分布中提取,表不每个时间巾贞的声音区间似然性的分数被从特 征值获得,并且可以精确地获取声音区间信息。
[0035] 本发明的有利效果
[0036] 根据本技术,可以满意地检测诸如由家用电器生成的运行状态声等检测目标声 音。

【专利附图】

【附图说明】
[0037] [图1]图1是示出根据一个实施例的声音检测装置的配置示例的框图。
[0038] [图2]图2是示出特征值登记装置的配置示例的框图。
[0039] [图3]图3是不出声音区间和存在于该声音区间之前和之后的噪声区间的一个不 例的示图。
[0040] [图4]图4是示出构成特征值登记装置的声音区间检测单元的配置示例的框图。
[0041] [图5A]图5A是例示出音调强度特征值计算单元的示图。
[0042] [图5B]图5B是例示出音调强度特征值计算单元的示图。
[0043] [图5C]图5C是例示出音调强度特征值计算单元的示图。
[0044] [图图?是例示出音调强度特征值计算单元的示图。
[0045] [图6]图6是示出音调强度特征值计算单元中包括的、用于获取音调特性似然性 的分数S(n,k)的分布的音调似然性分布检测单元的配置示例的框图。
[0046] [图7A]图7A是示意性地例示出二次多项式函数在噪声特性的频谱峰附近不拟合 良好,而该二次多项式函数在音调特性的频谱峰附近拟合良好的特性的示图。
[0047] [图7B]图7B是示意性地例示出二次多项式函数在噪声特性的频谱峰附近不拟合 良好,而该二次多项式函数在音调特性的频谱峰附近拟合良好的特性的示图。
[0048] [图8A]图8A是示意性地示出音调特性的峰在时间方向上的变化的示图。
[0049] [图8B]图8B是示意性地示出在频谱图上的小区域伽马(Γ)中拟合的示图。
[0050] [图9]图9是示出音调似然分布检测单元检测音调似然分布的处理过程的示例的 流程图。
[0051][图10]图10是示出音调成分检测结果的一个示例的示图。
[0052] [图11]图11是示出语音声的频谱图的一个示例的示图。
[0053] [图12]图12是示出特征值提取单元的一个配置示例的框图。
[0054] [图13]图13是示出声音检测单元的一个配置示例的框图。
[0055] [图14]图14是例示出声音检测单元中的每个部件的操作的示图。
[0056] [图15]图15是示出通过软件执行声音检测处理的计算装置的配置示例的框图。
[0057] [图16]图16是示出由CPU执行的检测目标声音检测处理的过程示例的流程图。
[0058] [图17A]图17A是例示出由实际家用电器生成的声音的记录状态的示图。
[0059] [图17B]图17B是例示出由实际家用电器生成的声音的记录状态的示图。
[0060] [图17C]图17C是例示出由实际家用电器生成的声音的记录状态的示图。

【具体实施方式】
[0061] 在下文中,将给出对用于实现本技术的实施例(在下文中被称作"实施例")的描 述。此外,将按照以下次序给出描述。
[0062] 1.实施例
[0063] 2.修改示例
[0064] 〈1.实施例〉
[0065] "声音检测装置"
[0066] 图1示出了根据一个实施例的声音检测装置100的配置示例。声音检测装置100 包括麦克风101、声音检测单元102、特征值数据库103和记录和显示单元104。
[0067] 声音检测装置100执行用于检测由家用电器生成的运行状态声(控制声、通知声、 操作声、警报声等)的声音检测处理并且记录和显示检测结果。就是说,在声音检测处理 中,每隔预定时间的特征值被从通过由麦克风101采集声音而获得的时间信号f(t)中提 取,并且该特征值被与特征值数据库中登记的预定数目的检测目标声音项相比较。然后,如 果特征值与预定检测目标声音的特征值序列大体符合的比较结果在声音检测处理中被获 得,则该预定检测目标声音的时间和名称被记录和显示。
[0068] 麦克风101采集房间中的声音并且输出时间信号f(t)。房间中的声音也包括由家 用电器1至N生成的运行状态声(控制声、通知声、操作声、警报声等)。声音检测单元102 获取从麦克风101输出的时间信号f(t)作为输入并且从该时间信号中提取每隔预定时间 的特征值。在这点上,声音检测单元102构成特征值提取单元。
[0069] 在构成特征值保持单元的特征值数据库103中,包括预定数目的检测目标声音项 的特征值序列被与检测目标声音名称相关联地登记和保持。在该实施例中,预定数目的检 测目标声音项例如意味着由家用电器1至N生成的运行状态声的全部或者一部分。声音检 测单元102每当新特征值被提取时将所提取的特征值序列与特征值数据库103中保持的预 定数目的检测目标声音项的特征值序列相比较并且获取预定数目的检测目标声音的检测 结果。在这点上,声音检测单元102构成比较单元。
[0070] 记录和显示单元104将声音检测单元102的检测目标声音检测结果与时间一起记 录在记录介质中并且将检测结果显示在显示器上。例如,当声音检测单元102的检测目标 声音检测结果表明来自家用电器1的通知声A已被检测到时,记录和显示单元104将来自 家用电器1的通知声A被产生的事实及其时间记录在记录介质上并且显示在显示器上。
[0071] 图1所示的声音检测装置100的操作将被描述。麦克风101采集房间中的声音。 来自麦克风101的时间信号输出被提供给声音检测单元102。声音检测单元102从时间信 号中提取每隔预定时间的特征值。然后,声音检测单元102每当新特征值被提取时将所提 取的特征值序列与特征值数据库103中保持的预定数目的检测目标声音项的特征值序列 相比较并且获取预定数目的检测目标声音项的检测结果。检测结果被提供给记录和显示单 元104。记录和显示单元104将检测结果与时间一起记录在记录介质上并且显示在显示器 上。
[0072] "特征值登记装置"
[0073] 图2示出了将检测目标声音的特征值序列登记在特征值数据库103中的特征值登 记装置200的配置示例。特征值登记装置200包括麦克风201、声音区间检测单元202、特 征值提取单元203和特征值登记单元204。
[0074] 特征值登记装置200执行声音登记处理(声音区间检测处理和声音特征提取处 理)并且将检测目标声音(家用电器生成的运行状态声)的特征值序列登记在特征值数据 库103中。一般而言,噪声区间存在于由麦克风201记录的、将被登记的检测目标声音之前 和之后。因此,实际将被登记的包括有意义声音(检测目标声音)的声音区间在声音区间 检测处理中被检测到。图3示出了声音区间和存在于该声音区间之前和之后的噪声区间的 一个示例。在声音特征提取处理中,对检测检测目标声音有用的特征值被从由麦克风201 获取的声音区间的时间信号f(t)中提取并且与检测目标声音名称一起被登记在特征值数 据库103中。
[0075] 麦克风201米集将被登记为检测目标声音的家用电器的运行状态声。声音区间检 测单元202获取从麦克风201输出的时间信号f(t)作为输入并且从时间信号f(t)中检测 声音区间,即由家用电器生成的运行状态声的区间。特征值提取单元203获取从麦克风201 输出的时间信号f(t)作为输入并且从时间信号f(t)中提取每隔预定时间的特征值。
[0076] 特征值提取单元203对每个时间帧的输入时间信号f(t)执行时频变换,获取时频 分布,从时频分布获取音调似然分布,在频率方向和时间方向上使似然分布平滑,并且提取 每隔预定时间的特征值。在这种情况下,特征值提取单元203在基于从声音区间检测单元 202提供的声音区间信息的声音区间范围内提取特征值并且获取与家用电器生成的操作情 况声的区间相对应的特征值序列。
[0077] 特征值登记单元204将与已经由特征值提取单元203获取的、作为检测目标声音 的、由家用电器生成的运行状态声相对应的特征值序列与特征值数据库103中的检测目标 声音名称(关于运行状态声的信息)相关联并且登记。在附图中示出的示例中,其中包括 I个检测目标声音项Zl(m)、Z2(m),一,21011), -71011)的特征值序列被登记在特征值数 据库103中的状态被例示出。
[0078] "声音区间检测单元"
[0079] 图4示出声音区间检测单元202的配置示例。声音区间检测单元202的输入是由 记录将被登记的检测目标声音(由家用电器生成的运行状态声)的麦克风201获取的时间 信号f (t),并且噪声区间如图3所示也被包括在检测目标信号之前和之后。此外,来自声音 区间检测单元202的输出是指示包括实际将被登记的有意义声音(检测目标声音)的声音 区间的声音区间信息。
[0080] 声音区间检测单元202包括时频变换单元221、幅度特征值计算单元222、音调强 度特征值计算单元223、频谱大概轮廓特征值计算单元224、分数计算单元225、时间平滑单 元226和阈值确定单元227。
[0081] 时频变换单元221对输入时间信号f(t)执行时频变换并且获得时频信号F(n,k)。 这里,t表示离散时间,η表示时间巾贞的数目,并且k表示离散频率。时频变换单元221通过 短时间傅立叶变换对输入时间信号f(t)执行时频变换并且获得如在以下式(1)中示出的 时频信号F(n,k)。
[0082] [数学 1] Λ/-Ι
[0083] F(n.k)= log| ^ W(r)f(t - \ (!) 1-0
[0084] 这里,W(t)表示窗口函数,Μ表示窗口函数的大小,并且R表示帧时间间隔(=跳 大小(hop size))。时频信号F(n,k)表示时间巾贞η中的、位于频率k的频率成分的对数幅 度值并且是所谓的频谱图(时频分布)。
[0085] 幅度特征值计算单元222根据时频信号F (n,k)计算幅度特征值χΟ (η)和xl (η)。 具体而言,幅度特征值计算单元222获取由以下式(2)表示的、预定频率范围(具有下限KL 和上限KH)的目标帧η附近的时间区间(具有目标帧η之前和之后的长度L)的平均幅度 Aave(η)〇
[0086] [数学 2]
[0087]

【权利要求】
1. 一种声音检测装置,包括: 特征值提取单元,其从输入时间信号中提取每隔预定时间的特征值; 特征值保持单元,其保持预定数目的检测目标声音项的特征值序列;以及 比较单元,其每当所述特征值提取单元新提取出特征值时,分别将由所述特征值提取 单元提取的特征值序列与保持的预定数目的检测目标声音项的特征值序列相比较,并且获 取所述预定数目的检测目标声音项的检测结果, 其中,所述特征值提取单元包括对每个时间帧的输入时间信号执行时频变换并获取时 频分布的时频变换单元,以及从所述时频分布获取音调似然分布的似然分布检测单元,所 述特征值提取单元在频率方向和时间方向上使获取的似然分布平滑并且提取所述每隔预 定时间的特征值。
2. 根据权利要求1所述的装置,其中,所述似然分布检测单元包括在所述时频分布的 每个时间帧中检测频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型的拟 合单元、以及基于拟合结果获取表示在每个检测到的峰处的音调成分似然性的分数的评分 单元。
3. 根据权利要求1所述的装置,其中,所述特征值提取单元还包括在所述频率方向和/ 或所述时间方向上使经平滑的似然分布稀疏的稀疏单元。
4. 根据权利要求1所述的装置,其中,所述特征值提取单元还包括将经平滑的似然分 布量化的量化单元。
5. 根据权利要求1所述的装置,其中,所述比较单元基于所述保持的检测目标声音项 的特征值序列和由所述特征值提取单元针对所述预定数目的检测目标声音项中的每一个 提取的特征值序列之间的对应特征值之间的关联来获取相似性,并且基于所获取的相似性 获取所述检测目标声音项的检测结果。
6. 根据权利要求1所述的装置,还包括: 记录控制单元,其将所述预定数目的检测目标声音项的检测结果与时间信息一起记录 在记录介质上。
7. -种声音检测方法,包括: 从输入时间信号中提取每隔预定时间的特征值;以及 每当在所述特征值的提取中新提取出特征值时,分别将由特征值提取单元提取的特征 值序列与所保持的预定数目的检测目标声音项的特征值序列相比较,并且获取所述预定数 目的检测目标声音项的检测结果, 其中,在所述特征值的提取中,对每个时间帧的输入时间信号执行时频变换,获取时频 分布,从所述时频分布获取音调似然分布,在频率方向和时间方向上使该似然分布平滑,并 且提取所述每隔预定时间的特征值。
8. -种程序,其使计算机执行以下操作: 从输入时间信号中提取每隔预定时间的特征值;以及 每当在所述特征值的提取中新提取出特征值时,分别将由特征值提取单元提取的特征 值序列与所保持的预定数目的检测目标声音项的特征值序列相比较,并且获取所述预定数 目的检测目标声音项的检测结果, 其中,在所述特征值的提取中,对每个时间帧的输入时间信号执行时频变换,获取时频 分布,从所述时频分布获取音调似然分布,在频率方向和时间方向上使该似然分布平滑,并 且提取所述每隔预定时间的特征值。
9. 一种声音特征值提取装置,包括: 时频变换单元,其对每个时间帧的输入时间信号执行时频变换并且获取时频分布; 似然分布检测单元,其从所述时频分布获取音调似然分布;以及 特征值提取单元,其在频率方向和时间方向上使所述似然分布平滑并且提取每隔预定 时间的特征值。
10. 根据权利要求9所述的装置,其中,所述似然分布检测单元包括在所述时频分布的 每个时间帧中检测所述频率方向上的峰的峰检测单元、在每个检测到的峰处拟合音调模型 的拟合单元、以及基于拟合结果获取表示在每个检测到的峰处的音调成分似然性的分数的 评分单元。
11. 根据权利要求9所述的装置,还包括: 稀疏单元,其在所述频率方向和/或所述时间方向上使经平滑的似然分布稀疏。
12. 根据权利要求9所述的装置,还包括: 量化单元,其将经平滑的似然分布量化。
13. 根据权利要求9所述的装置,还包括: 声音区间检测单元,其基于所述输入时间信号检测声音区间, 其中,所述似然分布检测单元在检测到的声音区间的范围内从所述时频分布获取音调 似然分布。
14. 根据权利要求13所述的装置,其中,所述声音区间检测单元包括对每个时间帧的 输入时间信号执行时频变换并且获取时频分布的时频变换单元,基于该时频分布提取每个 时间帧的幅度、音调成分强度和频谱大概轮廓的特征值的特征值提取单元,基于提取的特 征值获取表示每个时间帧的声音区间似然性的分数的评分单元,在所述时间方向上使获取 的每个时间帧的分数平滑的时间平滑单元,以及确定每个时间帧的经平滑分数的阈值并且 获取声音区间信息的阈值确定单元。
15. -种声音特征值提取方法,包括: 通过对每个时间帧的输入时间信号执行时频变换来获取时频分布; 从所述时频分布获取音调似然分布;以及 在频率方向和时间方向上使所述似然分布平滑。
16. -种声音区间检测装置,包括: 时频变换单元,其通过对每个时间帧的输入时间信号执行时频变换来获取时频分布; 特征值提取单元,其基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大 概轮廓的特征值;以及 评分单元,其基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。
17. 根据权利要求16所述的装置,还包括: 时间平滑单元,其在时间方向上使获取的每个时间帧的分数平滑;以及 阈值确定单元,其确定每个时间帧的经平滑分数的阈值并且获取声音区间信息。
18. -种声音区间检测方法,包括: 通过对每个时间帧的输入时间信号执行时频变换来获取时频分布; 基于该时频分布提取每个时间帧的幅度、音调成分强度和频谱大概轮廓的特征值;以 及 基于提取的特征值获取表示每个时间帧的声音区间似然性的分数。
【文档编号】G10L25/48GK104221018SQ201380019489
【公开日】2014年12月17日 申请日期:2013年4月16日 优先权日:2012年4月18日
【发明者】安部素嗣, 西口正之, 仓田宜典 申请人:索尼公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1