声音评价程序、声音评价方法以及声音评价装置与流程

文档序号:17729227发布日期:2019-05-22 02:44阅读:242来源:国知局
声音评价程序、声音评价方法以及声音评价装置与流程

本发明涉及声音评价程序等。



背景技术:

近年来,多数的企业倾向于重视顾客满足度,想要把握对应者和顾客的会话中的、应对者的印象、顾客的感情这样的需求日益提高。应对者的印象、顾客的感情大多出现在声音中。

例如,在现有技术中,基于通话中的声音的基音频率的上下宽度来判定声音的印象。图15是用于说明现有技术的图。图15的图表5的横轴是表示时间的轴,纵轴是表示频率的轴。

在现有技术中,将基音频率的上下宽度较大的判定为清晰(明亮),将基音频率的上下宽度较小的判定为不清晰(低沉)。基音频率的上下宽度是某个期间中的基音频率的最大值与最小值的差。

例如,在现有技术中,由于在图表5的期间t1中上下宽度5a较大,所以判定为声音的印象清晰。在现有技术中,由于在图表5的期间t2中上下宽度5b较小,所以判定为声音的印象不清晰。

现有技术文献

专利文献

专利文献1:日本特开2015-87557号公报

专利文献2:日本特开2006-267465号公报

然而,在上述的现有技术中,存在不能够准确地评价声音这个问题。

在检测基音频率的处理中,有时在特性上错误地计算半基音、双基音。因此,如果如现有技术那样单纯地根据基音频率的上下宽度的大小来判定声音的清晰/不清晰的话,则有时不能够准确地评价声音。

图16是表示计算准确的基音频率的情况下的图表的图。图16的图表6的横轴是表示时间的轴,纵轴是表示频率的轴。图表6是表示计算出准确的基音频率的情况的图。在图表6中,由于基音频率的上下宽度6a较小,所以判定为声音不清晰。

图17是表示计算出半基音/双基音的情况下的图表的图。图17的图表7的横轴是表示时间的轴,纵轴是表示频率的轴。图表7表示错误地计算了半基音/双基音的情况。在图表7中,导致基音频率的上下宽度7a变大,虽然实际上声音不清晰,但判定为声音清晰。



技术实现要素:

在一个方面,本发明的目的在于提供能够准确地评价声音的声音评价程序、声音评价方法以及声音评价装置。

第一方面中,使计算机执行下述的处理。计算机对声音信号进行解析来检测基音频率。计算机基于检测到的基音频率的检测频率的分布来选择检测到的基音频率中的作为评价对象的评价对象区域。计算机基于检测频率的分布和选择的评价对象区域来评价声音。

发明效果

能够准确地评价声音。

附图说明

图1是表示本实施例1所涉及的声音评价装置的结构的功能框图。

图2是表示本实施例1所涉及的声音评价部的结构的功能框图。

图3是表示直方图的一个例子的图。

图4是表示本实施例1所涉及的声音评价部的处理顺序的流程图。

图5是用于说明声音评价装置的其它处理的图。

图6是表示本实施例2所涉及的声音评价系统的结构的图。

图7是表示本实施例2所涉及的声音评价装置的结构的功能框图。

图8是表示本实施例2所涉及的声音评价部的结构的功能框图。

图9是表示本实施例2所涉及的平常时分布表的数据构造的一个例子的图。

图10是表示本实施例3所涉及的声音评价系统的结构的图。

图11是表示本实施例3所涉及的收录设备的结构的功能框图。

图12是表示本实施例3所涉及的声音评价装置的结构的功能框图。

图13是表示本实施例3所涉及的声音评价部的结构的功能框图。

图14是表示实现与声音评价装置同样的功能的计算机的硬件构成的一个例子的图。

图15是用于说明现有技术的图。

图16是表示计算出准确的基音频率的情况下的图表的图。

图17是表示计算出半基音/双基音的情况下的图表的图。

具体实施方式

以下,基于附图,详细地对本申请公开的声音评价程序、声音评价方法以及声音评价装置的实施例进行说明。此外,并没有通过该实施例来限定该发明。

实施例1

图1是表示本实施例1所涉及的声音评价装置的结构的功能框图。如图1所示,该声音评价装置100与收集说话者(图示省略)的声音的麦克风10连接。麦克风10将收集到的声音的信号输出至声音评价装置100。在以下的说明中,将麦克风10收集到的声音的信号记载为“声音信号”。

声音评价装置100具有ad(analog-to-digital)转换部101、声音文件部102、声音评价部103、评价结果储存部104、存储装置105、输出部106。

ad转换部101是从麦克风10接收声音信号并执行ad转换的处理部。具体而言,ad转换部101将声音信号(模拟信号)转换为声音信号(数字信号)。ad转换部101将声音信号(数字信号)输出至声音文件部102、声音评价部103。在以下的说明中,将从ad转换部101输出的声音信号(数字信号)仅称为声音信号。

声音文件部102是将声音信号通过规定的声音文件格式转换为声音文件的处理部。例如,声音文件包括将各时刻和声音信号的强度分别建立对应的信息。声音文件部102将声音文件储存至存储部105的声音文件表105a。在以下的说明中,为了便于说明,将声音文件所包含的时刻和声音信号的强度的关系的信息仅记载为声音信号。

此外,声音文件部102从输入装置(图示省略)获取说话者信息,并将说话者信息添加至声音文件。例如,说话者信息是唯一地识别说话者的信息。

声音评价部103是基于声音信号来评价说话者的声音的印象的处理部。例如,说话者的声音的印象的评价结果为“印象较好”、“普通”、“印象较差”中的之一。声音评价部103将说话者信息和评价结果的信息输出至评价结果储存部104。

评价结果储存部104是将说话者信息和评价结果相对应地储存至存储装置105的评价结果表105b的处理部。

存储装置105存储声音文件表105a以及评价结果表105b。存储装置105与ram(randomaccessmemory:随机存取存储器)、rom(readonlymemory:只读存储器)、闪存(flashmemory)等半导体存储元件、hdd(harddiskdrive:硬盘驱动器)等存储装置对应。

声音文件表105a是储存从声音文件部102输出的声音文件的表。评价结果表105b是将由评价结果储存部104储存的说话者信息和评价结果建立对应的表。

输出部106是通过将存储装置105中储存的评价结果表105b输出至显示装置来使评价结果显示的处理部。另外,输出部106也可以将声音文件表105a中储存的声音文件输出至其它外部装置。

此处,图1所示的ad转换部101、声音文件部102、声音评价部103、评价结果储存部104、输出部106与规定的控制部(图示省略)对应。例如,控制部能够通过cpu(centralprocessingunit:中央处理器)、mpu(microprocessingunit:微处理器)等来实现。另外,控制部也能够通过asic(applicationspecificintegratedcircuit:专用集成电路)、fpga(fieldprogrammablegatearray:现场可编程门阵列)等硬布线逻辑来实现。

接着,对图1所示的声音评价部103的结构进行说明。图2是表示本实施例1所涉及的声音评价部的结构的功能框图。如图2所示,该声音评价部103具有基音检测部110、分布计算部111、扩展计算部112、存储部113、推定部114、评价部115。

基音检测部110是通过对声音文件的声音信号进行频率解析来检测基音频率的处理部。基音频率与声音信号的基本频率对应。基音检测部110将基音频率的信息输出至分布计算部111。

基音检测部110也可以根据声音文件的声音信号检测讲话区间,并基于讲话区间的声音信号来检测基音频率。例如,基音检测部110将声音信号的强度为阈值以上的时刻设为讲话区间的开始时刻。基音检测部110将在开始时刻以后声音信号的强度小于阈值的时刻设为讲话区间的结束时刻。基音检测部110将从开始时刻到结束时刻的区间设为讲话区间。

基音检测部110通过将讲话区间的声音信号分割为作为规定的时间宽度的多个区间并对每个区间的声音信号进行频率解析来检测每个区间的基音频率。基音检测部110将讲话区间所包含的多个区间中的各个区间的基音频率输出至分布计算部111。

例如,基音检测部110也可以基于文献(d.talkin,"arobustalgorithmforpitchtracking(rapt),"inspeechcoding&synthesis,w.b.kleijnandk.k.pailwal(eds.),elsevier,pp.495-518,1995)来检测基音频率。

分布计算部111是基于规定区间内的多个基音频率来计算直方图的处理部。图3是表示直方图的一个例子的图。图3所示的直方图20的横轴是与基音频率对应的轴,纵轴是与检测频率对应的轴。该直方图20与基音频率的检测频率的分布对应。

分布计算部111通过执行下述的处理来确定直方图20的中心部和边缘部。分布计算部111计算规定区间内的各基音频率的平均μ。分布计算部111计算规定区间内的各基音频率的标准偏差σ。例如,分布计算部111将直方图20的中心部设为“μ-σ~μ+σ”。分布计算部111将直方图20的边缘部设为“(μ-σ)/2~(μ+σ)/2”、“2×(μ-σ)/2~2×(μ+σ)”。

例如,在图3中,基音频率的范围a成为中心部,范围b1、b2成为边缘部。此外,分布计算部111也可以通过上述以外的处理来计算直方图20的中心部以及边缘部。分布计算部111根据直方图20的大致形状将中心的山的起点与终点之间确定为中心部,将该中心部以外的范围确定为边缘部。

分布计算部111将规定区间内的多个基音频率的信息或直方图20的信息、中心部的信息以及边缘部的信息输出至扩展计算部112。

扩展计算部112是在修正了直方图20后计算直方图20的扩展的处理部。如下述所说明那样,修正后的直方图20的扩展与基于修正后的基音频率的标准偏差对应。

例如,扩展计算部112将规定区间内的多个基音频率分类为与中心部对应的基音频率、和与边缘部对应的基音频率。扩展计算部112通过对与中央部对应的各基音频率分别乘以权重“α”来修正中心部的各基音频率。将α的值例如设为“1”,但管理者可以适当地变更。

扩展计算部112通过对与边缘部对应的各基音频率分别乘以权重“β”来修正边缘部的各基音频率。将β的值例如设为“0.1”,但管理者可以适当地变更。

扩展计算部112基于修正后的中央部以及边缘部的各基音频率来计算基音频率的标准偏差。这样基于修正后的中央部以及边缘部的各基音频率所计算的基音频率的标准偏差与修正后的直方图20的扩展对应。扩展计算部112将与修正后的直方图20的扩展对应的标准偏差的信息输出至推定部114以及评价部115。

存储部113具有平常时分布表113a。存储部113与ram、rom、闪存等半导体存储元件、hdd等存储装置对应。

平常时分布表113a是保持平常时的说话者的直方图的扩展的信息的表。例如,平常时分布表113a将说话者信息和标准偏差建立对应。由后述的推定部114推定平常时分布表113a的标准偏差。

推定部114是推定说话者的平常时的标准偏差的处理部。推定部114将说话者信息和平常时的标准偏差建立对应地储存至平常时分布表113a。推定部114获取附加到声音文件的说话者信息。

推定部114获取说话者信息,并在与说话者信息对应的标准偏差未被储存到平常时分布表113a的情况下,进行“初始动作”。另一方面,推定部114在与说话者信息对应的标准偏差被储存到平常时分布表113a的情况下,进行“更新动作”。以下,依次对初始动作、更新动作进行说明。

对推定部114执行的初始动作进行说明。推定部114将从讲话区间的开始时刻到规定时间后(1分钟后)的区间设为初始区间,从扩展计算部112获取初始区间中的标准偏差。初始区间中的标准偏差如上述那样是根据权重α、β修正基音频率后所计算出的标准偏差。

此外,推定部114也可以计算初始区间中的标准偏差。即,推定部114将初始区间内的多个基音频率分类为与中心部对应的基音频率、和与边缘部对应的基音频率。推定部114通过对与中央部对应的各基音频率分别乘以权重“α”来修正中心部的各基音频率。推定部114通过对与边缘部对应的各基音频率分别乘以权重“β”来修正边缘部的各基音频率。推定部114基于修正后的中央部以及边缘部的各基音频率来计算基音频率的标准偏差。

推定部114如上述那样进行初始动作,并将说话者信息和初始区间的标准偏差建立对应地登记至平常时分布表113a。

对推定部114执行的更新动作进行说明。推定部114从平常时分布表113a获取与说话者信息对应的标准偏差。另外,推定部114从扩展计算部112获取规定区间内的标准偏差。在以下的说明中,将从平常时分布表113a获取到的标准偏差记载为“平常时标准偏差”,将从扩展计算部112获取到的标准偏差记载为“评价标准偏差”。

推定部114基于式(1)来计算新的平常时标准偏差,并通过计算出的平常时标准偏差更新平常时分布表113a的平常时标准偏差。

平常时标准偏差=0.8×平常时标准偏差+0.2×评价标准偏差…(1)

推定部114每当从扩展计算部112接收规定区间内的标准偏差(评价标准偏差)时,反复执行上述处理,更新平常时分布表113a。

此外,推定部114从评价部115获取说话者信息,并在接受了平常时标准偏差的请求的情况下,从平常时分布表113a获取与说话者信息对应的平常时标准偏差,将平常时标准偏差输出至评价部115。

评价部115是基于平常时标准偏差和评价标准偏差来评价说话者的声音的印象的处理部。例如,评价部115将添加到声音文件的说话者信息输出至推定部114,以获取平常时标准偏差。评价部115从扩展计算部112获取评价标准偏差。

评价部115在评价标准偏差大于平常时标准偏差的情况下,评价为印象较好。评价部115在评价标准偏差与平常时标准偏差同等的情况下,评价为印象普通。评价部115在评价标准偏差小于平常时标准偏差的情况下,评价为印象较好。

另外,评价部115也可以如下述那样进行评价。例如,评价部115在评价标准偏差大于平常时标准偏差、且评价标准偏差与平常时标准偏差的差为阈值以上的情况下,评价为印象较好。评价部115在评价标准偏差与平常时标准偏差的差小于阈值的情况下,评价为印象普通。评价部115在评价标准偏差小于平常时标准偏差、且评价标准偏差与平常时标准偏差的差为阈值以上的情况下,评价为印象较差。

评价部115将说话者信息和评价结果的信息输出至评价结果储存部104。

接下来,对本实施例1所涉及的声音评价装置100的声音评价部103的处理顺序进行说明。图4是表示本实施例1所涉及的声音评价部的处理顺序的流程图。如图4所示,该声音评价部103的基音检测部110接收声音信号(步骤s101)。

基音检测部110对声音信号进行解析来计算基音频率(步骤s102)。声音评价部103的分布计算部111计算基音频率的分布(步骤s103)。在步骤s103中,如上所述,分布计算部111计算基音频率的分布的处理与基于各基音频率来计算直方图20的中心部以及边缘部的处理对应。

声音评价部103的扩展计算部112计算分布的扩展(步骤s104)。在步骤s104中,计算分布的扩展的处理与计算上述评价标准偏差的处理对应。

声音评价部103的推定部114计算平常时的分布的扩展(步骤s105)。计算平常时的分布的扩展的处理与计算上述的平常时标准偏差的处理对应。

声音评价部103的评价部115基于平常时标准偏差和评价标准偏差来评价声音(步骤s106)。

声音评价部103在声音结束的情况下(步骤s107:是),结束处理。另一方面,声音评价部103在声音未结束的情况下(步骤s107:否),更新分析开始位置(步骤s108),移至步骤s102。

接下来,对本实施例1所涉及的声音评价装置100的效果进行说明。声音评价装置100对声音信号进行解析来创建基音频率的检测频率的分布,并进行抑制分布的边缘部分的修正,基于修正后的分布来进行声音的评价。因此,根据检测基音频率的处理,即使在计算出半基音或双基音的情况下,这些基音也被分类为边缘部的基音频率,能够在抑制影响后进行声音的评价,能够准确地评价声音。例如,即使在虽然实际上是明亮声音但误计算了半基音或双基音的情况下,也能够抑制评价为低沉的声音。

声音评价装置100由于执行通过对与分布(直方图)的中心部对应的基音频率乘以权重α,并对与分布的边缘部分对应的基音频率乘以权重β来修正分布的处理,所以能够抑制半基音或双基音的影响所造成的错误判定。

声音评价装置100的推定部114推定说话者的平常时的分布的扩展,评价部115对平常时的分布的扩展和当前的分布的扩展进行比较以评价声音的印象。因此,能够进行基于说话者自身的平常时的分布的扩展的声音的评价。

声音评价装置114的推定部在与说话者信息对应的平常时的分布的扩展(标准偏差)被储存到平常时分布表113a的情况下,进行“更新动作”。由此,能够将与说话者相关的平常时的分布修正为更适当的分布。

此外,作为一个例子,对声音评价装置100通过对与分布(直方图)的中心部对应的基音频率乘以权重α,对与分布的边缘部分对应的基音频率乘以权重β来修正分布的情况进行了说明。也可以说该处理在消除分布所包含的边缘部的基音频率的影响这一点上,选择分布所包含的中央部的基音频率,并基于选择的基音频率的标准偏差来评价声音。

声音评价装置100的基音检测部110通过将讲话区间的声音信号分割为作为规定的时间幅度的多个区间,并对每个区间的声音信号进行频率解析,检测每个区间的基音频率,但并不限于此。例如,基音检测部110也可以将从规定量的区间检测到的各基音频率的平均值作为基音频率并输出至分布计算部111。基音检测部110也可以将从规定量的区间检测到的各基音频率的上限值作为基音频率并输出至分布计算部111。基音检测部110也可以将从规定量的区间检测到的各基音频率的下限值作为基音频率并输出至分布计算部111。由此,能够与说话者或环境相匹配地利用基音频率。

声音评价装置100的扩展计算部112将讲话区间所包含的各基音频率的标准偏差计算为分布的扩展,但并不限于此。例如,扩展计算部112也可以将讲话区间所包含的各基音频率的方差、范围、平方和、四分位距的任意一个计算为分布的扩展。

然而,本实施例1所涉及的声音评价装置100也可以如以下所说明那样基于讲话区间的直方图的大致形状来评价说话者的声音。图5是用于说明声音评价装置的其它处理的图。如图5所示,声音评价装置100基于讲话区间的多个基音频率来计算直方图25。直方图25的横轴是与基音频率对应的轴,纵轴是与检测频率对应的轴。

声音评价装置100进行图案匹配等以确定直方图25的大致形状中的中心部c、和边缘部d1、d2。声音评价装置100通过对中心部c的检测频率乘以权重α,对边缘部d1、d2的检测频率乘以权重β来修正直方图25。将修正后的直方图记载为直方图26。例如,将权重α设为“1”,将权重β设为“0.1”。

声音评价装置100基于修正后的直方图26的扩展的大小来判定说话者的声音的印象。例如,声音评价装置100将直方图26的检测频率为规定频率以上的范围确定为直方图26的扩展。声音评价装置100在直方图26的扩展为规定的阈值以上的情况下,评价为说话者的印象明亮。另一方面,声音评价装置100在直方图26的扩展为规定的阈值以上的情况下,评价为说话者的印象低沉。

例如,由于半基音/双基音存在于分布(直方图25)的边缘部,所以通过减小边缘部的权重,增大中心部的权重来修正直方图25,从而抑制错误地评价。

实施例2

图6是表示本实施例2所涉及的声音评价系统的结构的图。如图6所示,该声音评价系统具有移动终端2a、终端装置2b、分支连接器3、收录设备150、云160。移动终端2a经由电话网15a与分支连接器3连接。终端装置2b与分支连接器3连接。分支连接器3与收录设备150连接。收录设备150经由因特网15b与云160连接。例如,云160中包括声音评价装置200。省略图示,声音评价装置200也可以由多个服务器构成。移动终端2a以及终端装置2b与麦克风(图示省略)连接。

说话者1a的声音由移动终端2a的麦克风收集,收集到的声音信号经由分支连接器3发送至收录设备150。在以下的说明中,将说话者1a的声音信号记载为“第一声音信号”。

移动终端2a对第一声音信号赋予说话者1a的属性信息。例如,属性信息包括性别信息和声音的高低信息。性别是唯一地识别说话者的性别的信息。声音的高低信息是表示说话者的声音是高还是低的信息。例如,说话者1a预先将自身的属性信息登记至移动终端2a。

说话者1b的声音由终端装置2b的麦克风收集,收集到的声音信号经由分支连接器3发送至收录设备150。在以下的说明中,将说话者1b的声音信号记载为“第二声音信号”。

终端装置2b对第二声音信号赋予说话者1b的属性信息。例如,说话者1b预先将自身的属性信息登记至终端装置2b。与说话者1b的属性信息相关的说明同与说话者1a的属性信息相关的说明相同。

收录设备150是收录第一声音信号以及第二声音信号的装置。例如,收录设备150若接收第一声音信号,则将第一声音信号通过规定的声音文件格式转换为声音文件,并将第一声音信号的声音文件发送至声音评价装置200。第一声音信号的声音文件包括说话者1a的属性信息。在以下的说明中,适当地将第一声音信号的声音文件记载为“第一声音文件”。

收录设备150若接收第二声音信号,则将第二声音信号通过规定的声音文件格式转换为声音文件,并将第二声音信号的声音文件发送至声音评价装置200。第二声音信号的声音文件包括说话者1b的属性信息。在以下的说明中,适当地将第二声音信号的声音文件记载为“第二声音文件”。

声音评价装置200基于第一声音文件的第一声音信号来评价说话者1a的声音的印象。声音评价装置200基于第二声音文件的第二声音信号来评价说话者1b的声音的印象。而且,声音评价装置200基于说话者1a的声音的印象的评价结果以及说话者2a的声音的印象的评价结果来计算说话者1a、1b间的整个会话的得分。

图7是表示本实施例2所涉及的声音评价装置的结构的功能框图。如图7所示,该声音评价装置200具有接收部201、存储装置202、声音评价部203、评价结果储存部204。

接收部201是从收录设备150接收第一声音文件以及第二声音文件的处理部。接收部201将接收到的第一声音文件以及第二声音文件登记至存储部202的声音文件表202a。接收部201与通信装置对应。

存储装置202具有声音文件表202a和评价结果表202b。存储装置202与ram、rom、闪存等半导体存储元件、hdd等存储装置对应。

声音文件表202a是储存第一声音文件以及第二声音文件的表。

评价结果表202b是储存评价结果的表。例如,评价结果表202b储存说话者1a的评价结果、说话者1b的评价结果、说话者1a、1b间的整个会话的得分。

声音评价部203基于第一声音文件以及第二声音文件来评价说话者1a、1b的声音的印象。而且,声音评价部203基于说话者1a、1b的声音的印象的评价结果来计算说话者1a、1b间的整个会话的得分。声音评价部203将说话者1a、1b的声音的印象的评价结果以及整个会话的得分输出至评价结果储存部204。

评价结果储存部204是将说话者1a、1b的声音的印象的评价结果以及整个会话的得分储存至评价结果表202b的处理部。

此处,图7所示的声音评价部203、评价结果储存部204与规定的控制部(图示省略)对应。例如,控制部能够通过cpu、mpu等来实现。另外,控制部也能够通过asic、fpga等硬布线逻辑来实现。

接着,对图7所示的声音评价部203的结构进行说明。图8是表示本实施例2所涉及的声音评价部的结构的功能框图。如图8所示,该声音评价部203具有基音检测部210、分布计算部211、扩展计算部212、存储部213、推定部214、评价部215。

基音检测部210是通过对声音文件的声音信号进行频率解析来检测每个规定区间的基音频率的处理部。例如,基音检测部210通过对第一声音文件的第一声音信号进行频率解析来检测第一声音信号的第一基音频率。另外,基音检测部210通过对第二声音文件的第二声音信号进行频率解析来检测第二声音信号的第二基音频率。基音检测部210从声音信号检测基音频率的处理与图2所示的基音检测部110从声音信号检测基音频率的处理相同。

基音检测部210将说话者1a的属性信息和多个第一基音频率输出至分布计算部211。另外,基音检测部210将说话者1b的属性信息和多个第二基音频率输出至分布计算部211。

分布计算部211是基于规定区间内的多个基音频率来计算直方图的处理部。例如,分布计算部211基于规定区间内的多个第一基音频率来计算第一直方图。分布计算部211基于规定区间内的多个第二基音频率来计算第二直方图。分布计算部211计算直方图的处理与图2所示的分布计算部111计算直方图的处理相同。

分布计算部211将基于多个第一基音频率所计算出的第一直方图的信息输出至扩展计算部212。第一直方图的信息包括第一直方图的中心部的信息、第一直方图的边缘部的信息。

分布计算部211将基于多个第二基音频率所计算出的第二直方图的信息输出至扩展计算部212。第二直方图的信息包括第二直方图的中心部的信息、第二直方图的边缘部的信息。

扩展计算部212是修正直方图后计算直方图的扩展的处理部。例如,扩展计算部212修正第一直方图后,计算第一直方图的扩展。扩展计算部212修正第二直方图后,计算第二直方图的扩展。扩展计算部212计算直方图的扩展的处理与图2所示的扩展计算部112计算直方图的扩展的处理相同。例如,修正后的直方图的扩展与基于修正后的基音频率(第一基音频率、第二基音频率)的标准偏差对应。

扩展计算部212将与修正后的直方图的扩展对应的标准偏差的信息与属性信息建立对应地输出至推定部214以及评价部215。例如,扩展计算部212将与修正后的第一直方图的扩展对应的标准偏差的信息与说话者1a的属性信息建立对应地输出至推定部214以及评价部215。扩展计算部212将与修正后的第二直方图的扩展对应的标准偏差的信息与说话者1b的属性信息建立对应地输出至推定部214以及评价部215。

存储部213具有平常时分布表213a。存储部213与ram、rom、闪存等半导体存储元件、hdd等存储装置对应。

平常时分布表213a是与属性信息对应的说话者的平常时的、保持直方图的扩展的信息的表。例如,平常时分布表213a将属性信息和标准偏差建立对应。由后述的推定部214推定平常时分布表213a的标准偏差。

图9是表示本实施例2所涉及的平常时分布表的数据构造的一个例子的图。如图9所示,该平常时分布表213a将属性信息和标准偏差建立对应。属性信息将性别信息和声音的高低信息建立对应。

推定部214是针对每个属性信息推定说话者的平常时的标准偏差的处理部。推定部214将属性信息和平常时的标准偏差建立对应地储存至平常时分布表213a。推定部214获取添加到声音文件(第一声音文件以及第二声音文件)的属性信息。

推定部214获取属性信息,并在与属性信息对应的标准偏差未被储存到平常时分布表213a的情况下,进行“初始动作”。另一方面,推定部214在与属性信息对应的标准偏差被储存到平常时分布表213a的情况下,进行“更新动作”。推定部214的与初始动作、更新动作相关的说明除了针对每个属性信息执行这一点之外,和与推定部114的初始动作、更新动作相关的说明相同。

在以下的说明中,将与说话者1a的属性信息对应的、从平常时分布表213a获取到的标准偏差记载为“第一平常时标准偏差”。将与说话者1a的属性信息对应的、从扩展计算部212获取到的标准偏差记载为“第一评价标准偏差”。

将与说话者1b的属性信息对应的、从平常时分布表213a获取到的标准偏差记载为“第二平常时标准偏差”。将与说话者1b的属性信息对应的、从扩展计算部212获取到的标准偏差记载为“第二评价标准偏差”。

此外,推定部214从评价部215获取说话者1a的属性信息,并在接受了第一平常时标准偏差的请求的情况下,从平常时分布表213a获取第一平常时标准偏差,且将第一平常时标准偏差输出至评价部215。

推定部214从评价部215获取说话者1b的属性信息,并在接受了第二平常时标准偏差的请求的情况下,从平常时分布表213a获取第二平常时标准偏差,且将第二平常时标准偏差输出至评价部215。

评价部215是基于各标准偏差来评价说话者1a、1b的声音的印象的处理部。另外,评价部215基于说话者1a、1b的声音的印象的评价结果来计算说话者1a、1b间的整个会话的得分。

具体地,评价部215基于第一平常时标准偏差和第一评价标准偏差来评价说话者1a的声音的印象。另外,评价部215基于第二平常时标准偏差和第二评价标准偏差来评价说话者1b的声音的印象。评价部215基于各标准偏差来评价说话者1a、1b的声音的印象评的处理与评价部115评价声音的处理相同。

评价部215通过反复执行上述处理,从而针对每个规定区间确定说话者1a的评价结果以及说话者1b的评价结果。

接着,评价部215确定说话者1a的评价结果以及说话者1b的评价结果后,基于式(2)来计算整个会话的得分。

整个会话的得分=(评价为说话者1a的印象较好的区间数+评价为说话者1b的印象较好的区间数)/(全部的区间数×2)×100…(2)

评价部215将说话者1a、1b的声音的印象的评价结果以及整个会话的得分输出至评价结果储存部204。

接下来,对本实施例2所涉及的声音评价装置200的效果进行说明。声音评价装置200根据说话者的属性信息来学习平常时标准偏差,并在评价时,使用与说话者的属性信息对应的平常时标准偏差来评价说话者的声音。因此,能够进行基于说话者的属性信息的、声音的评价,能够提高评价的准确性。

另外,由于声音评价装置200基于各说话者1a、1b的声音的评价结果来计算整个会话的得分,所以管理者等通过参照所述的得分能够把握整个会话的好坏。例如,通过式(2)所计算的整个会话的得分的值越大,则可以说会话内容较好。

实施例3

图10是表示本实施例3所涉及的声音评价系统的结构的图。如图10所示,该声音评价系统具有麦克风30a、30b、30c、收录设备300、云170。麦克风30a~30c与收录设备300连接。收录设备300经由因特网15b与云170连接。例如,云170中包括声音评价装置400。省略图示,但声音评价装置400也可以由多个服务器构成。

说话者1a的声音由麦克风30a收集,收集到的声音信号被输出至收录设备300。说话者1b的声音被麦克风30b收集,收集到的声音信号被输出至收录设备300。说话者1c的声音由麦克风30c收集,收集到的声音信号被输出至收录设备300。

在以下的说明中,将说话者1a的声音信号记载为“第一声音信号”。将说话者1b的声音信号记载为“第二声音信号”。将说话者1c的声音信号记载为“第三声音信号”。

此外,对第一声音信号赋予说话者1a的说话者信息。说话者信息是唯一地识别说话者的信息。对第二声音信号赋予说话者1b的说话者信息。对第三声音信号赋予说话者1c的说话者信息。

收录设备300是收录第一声音信号、第二声音信号、第三声音信号的装置。另外,收录装置300执行检查各声音信号的基音频率的处理。收录装置300将说话者信息和每个规定区间的基音频率建立对应地发送至声音评价装置400。

声音评价装置400是基于从收录设备300接收的各说话者信息的基音频率来评价各说话者的声音的处理部。另外,声音评价装置400基于各说话者的声音的评价结果来评价说话者1a~1c的会话的印象。

图11是表示本实施例3所涉及的收录设备的结构的功能框图。如图11所示,该收录设备300具有ad转换部310a~310b、基音检测部320、文件部330以及发送部340。

ad转换部310a是从麦克风30a接收第一声音信号并执行ad转换的处理部。具体而言,ad转换部310a将第一声音信号(模拟信号)转换为第一声音信号(数字信号)。ad转换部310a将第一声音信号(数字信号)输出至基音检测部320。在以下的说明中,将从ad转换部310a输出的第一声音信号(数字信号)仅记载为第一声音信号。

ad转换部310b是从麦克风30b接收第二声音信号并执行ad转换的处理部。具体而言,ad转换部310b将第二声音信号(模拟信号)转换为第二声音信号(数字信号)。ad转换部310b将第二声音信号(数字信号)输出至基音检测部320。在以下的说明中,将从ad转换部310b输出的第二声音信号(数字信号)仅记载为第二声音信号。

ad转换部310c是从麦克风30c接收第三声音信号并执行ad转换的处理部。具体而言,ad转换部310c将第三声音信号(模拟信号)转换为第三声音信号(数字信号)。ad转换部310c将第三声音信号(数字信号)输出至基音检测部320。在以下的说明中,将从ad转换部310c输出的第三声音信号(数字信号)仅记载为第三声音信号。

基音检测部320是通过对声音信号进行频率解析来计算每个规定区间的基音频率的处理部。例如,基音检测部320通过对第一声音信号进行频率解析来检测第一声音信号的第一基音频率。基音检测部320通过对第二声音信号进行频率解析来检测第二声音信号的第二基音频率。基音检测部320通过对第三声音信号进行频率解析来检测第三声音信号的第三基音频率。

基音检测部320将说话者1a的说话者信息和每个规定区间的第一基音频率建立对应地输出至文件部330。基音检测部320将说话者1b的说话者信息和每个规定区间的第二基音频率建立对应地输出至文件部330。基音检测部320将说话者1c的说话者信息和每个规定区间的第三基音频率建立对应地输出至文件部330。

文件部330是通过对从基音检测部320接受的信息创建文件来生成“声音文件信息”的处理部。在该声音文件信息包括将说话者信息和每个规定区间的基音频率建立对应的信息。具体地,声音文件信息包括将说话者1a的说话者信息和每个规定区间的第一基音频率建立对应的信息。声音文件信息包括将说话者1b的说话者信息和每个规定区间的第二基音频率建立对应的信息。声音文件信息包含将说话者1c的说话者信息和每个规定区间的第三基音频率建立对应的信息。文件部330将声音文件信息输出至发送部340。

发送部340从文件部330获取声音文件信息,并将获取到的声音文件信息发送至声音评价装置400。

图12是表示本实施例3所涉及的声音评价装置的结构的功能框图。如图12所示,该声音评价装置400具有接收部401、存储装置402、声音评价部403、评价结果储存部404。

接收部401是从收录设备300接收声音文件信息的处理部。接收部401将接收到的声音文件信息登记至存储部402的声音文件表402a。接收部401与通信装置对应。

存储装置402具有声音文件表402a和评价结果表402b。存储装置402与ram、rom、闪存等半导体存储元件、hdd等存储装置对应。

声音文件表402a是储存声音文件信息的表。声音文件信息包括将说话者1a的说话者信息和每个规定区间的第一基音频率建立对应的信息。声音文件信息包含将说话者1b的说话者信息和每个规定区间的第二基音频率建立对应的信息。声音文件信息包含将说话者1c的说话者信息和每个规定区间的第三基音频率建立对应的信息。

评价结果表402b是储存评价结果的表。例如,评价结果表402b储存说话者1a~1c的评价结果、说话者1a~1c间的整个会话的评价结果。

声音评价部403基于声音文件信息来评价说话者1a~1c的声音的印象。而且,声音评价部403基于说话者1a~1c的声音的印象的评价结果来评价说话者1a~1c间的整个会话。声音评价部403将说话者1a~1c的声音的印象的评价结果以及整个会话的评价结果输出至评价结果储存部404。

评价结果储存部404是将说话者1a~1c的声音的印象的评价结果以及整个会话的评价结果储存至评价结果表402b的处理部。

此处,图12所示的声音评价部403、评价结果储存部404与规定的控制部(图示省略)对应。例如,控制部能够通过cpu、mpu等来实现。另外,控制部也能够通过asic、fpga等硬布线逻辑来实现。

接着,对图13所示的声音评价部403的结构进行说明。图13是表示本实施例3所涉及的声音评价部的结构的功能框图。如图13所示,该声音评价部403具有基音获取部410、分布计算部411、扩展计算部412、存储部413、推定部414、评价部415。

基音获取部410是从声音文件表402a获取声音文件信息的处理部。基音获取部410将声音文件信息输出至分布计算部411。

分布计算部411是基于规定区间内的多个基音频率来计算直方图的处理部。例如,分布计算部411基于规定区间内的多个第一基音频率来计算第一直方图。分布计算部411基于规定区间内的多个第二基音频率来计算第二直方图。分布计算部411基于规定区间内的多个第三基音频率来计算第三直方图。分布计算部411计算直方图的处理与图2所示的分布计算部111计算直方图的处理相同。

分布计算部411将基于多个第一基音频率所计算出的第一直方图的信息输出至扩展计算部412。第一直方图的信息包括第一直方图的中心部的信息、第一直方图的边缘部的信息。

分布计算部411将基于多个第二基音频率所计算出的第二直方图的信息输出至扩展计算部412。第二直方图的信息包括第二直方图的中心部的信息、第二直方图的边缘部的信息。

分布计算部411将基于多个第三基音频率所计算出的第三直方图的信息输出至扩展计算部412。第二直方图的信息包括第三直方图的中心部的信息、第三直方图的边缘部的信息。

扩展计算部412是修正直方图后计算直方图的扩展的处理部。例如,扩展计算部412修正第一直方图后计算第一直方图的扩展。扩展计算部412修正第二直方图后计算第二直方图的扩展。扩展计算部412修正第三直方图后计算第三直方图的扩展。扩展计算部412计算直方图的扩展的处理与图2所示的扩展计算部112计算直方图的扩展的处理相同。例如,修正后的直方图的扩展与基于修正后的基音频率(第一基音频率、第二基音频率、第三基音频率)的标准偏差对应。

扩展计算部412将与修正后的直方图的扩展对应的标准偏差的信息与说话者信息建立对应地输出至推定部414以及评价部415。例如,扩展计算部412将与修正后的第一直方图的扩展对应的标准偏差的信息与说话者1a的说话者信息建立对应地输出至推定部414以及评价部415。扩展计算部412将与修正后的第二直方图的扩展对应的标准偏差的信息与说话者1b的说话者信息建立对应地输出至推定部414以及评价部415。扩展计算部412与说话者1c的说话者信息建立对应地将与修正后的第二直方图的扩展对应的标准偏差的信息输出至推定部414以及评价部415。

存储部413具有平常时分布表413a。存储部413与ram、rom、闪存等半导体存储元件、hdd等存储装置对应。

平常时分布表413a是与说话者信息对应的说话者的平常时的、保持直方图的扩展的信息的表。例如,平常时分布表413a将说话者信息和标准偏差建立对应。由后述的推定部414推定平常时分布表413a的标准偏差。

推定部414是针对每个说话者信息推定说话者的平常时的标准偏差的处理部。推定部414将说话者信息和平常时的标准偏差建立对应地储存至平常时分布表413a。推定部414获取添加到声音文件信息的说话者信息。

推定部414获取说话者信息,并在与说话者信息对应的标准偏差未被储存到平常时分布表413a的情况下,进行“初始动作”。另一方面,推定部414在与说话者信息对应的标准偏差被储存到平常时分布表413a的情况下,进行“更新动作”。推定部414的、与初始动作、更新动作相关的说明和图2所示的与推定部114的初始动作、更新动作相关的说明相同。

在以下的说明中,将与说话者1a的说话者信息对应的、从平常时分布表413a获取到的标准偏差记载为“第一平常时标准偏差”。将与说话者1a的说话者信息对应的、从扩展计算部412获取到的标准偏差记载为“第一评价标准偏差”。

将与说话者1b的说话者信息对应的、从平常时分布表413a获取到的标准偏差记载为“第二平常时标准偏差”。将与说话者1b的说话者信息对应的、从扩展计算部412获取到的标准偏差记载为“第二评价标准偏差”。

将与说话者1c的说话者信息对应的、从平常时分布表413a获取到的标准偏差记载为“第三平常时标准偏差”。将与说话者1c的说话者信息对应的、从扩展计算部412获取到的标准偏差记载为“第三评价标准偏差”。

此外,推定部414从评价部415获取说话者1a的说话者信息,并在接受了第一平常时标准偏差的请求的情况下,从平常时分布表413a获取第一平常时标准偏差,且将第一平常时标准偏差输出至评价部415。

推定部414从评价部415获取说话者1b的说话者信息,并在接受了第二平常时标准偏差的请求的情况下,从平常时分布表413a获取第二平常时标准偏差,且将第二平常时标准偏差输出至评价部415。

推定部414从评价部415获取说话者1c的说话者信息,并在接受了第三平常时标准偏差的请求的情况下,从平常时分布表413a获取第三平常时标准偏差,且将第三平常时标准偏差输出至评价部415。

评价部415是基于各标准偏差来评价说话者1a~1c的声音的印象的处理部。另外,评价部415基于说话者1a~1c的声音的印象的评价结果来进行说话者1a~1c的整个会话的评价。

具体地,评价部415基于第一平常时标准偏差和第一评价标准偏差来评价说话者1a的声音的印象。评价部415基于第二平常时标准偏差和第二评价标准偏差来评价说话者1b的声音的印象。评价部415基于第三平常时标准偏差和第三评价标准偏差来评价说话者1c的声音的印象。评价部415基于各标准偏差来评价说话者1a~1c的声音的印象的处理与评价部115评价声音的处理相同。

评价部415通过反复执行上述处理,从而针对每个规定区间确定说话者1a的评价结果、说话者1b的评价结果、说话者1c的评价结果。

接着,评价部415确定说话者1a~1c的评价结果后进行整个会话的评价。例如,评价部415针对每个说话者确定规定帧间的各评价结果“较好、普通、较差”中的平均的评价结果。例如,评价部415将规定帧间的各评价结果中最多的评价结果设为平均的评价结果。

评价部415在各说话者1a~1c的平均的评价结果非常近的情况下,判定为较好的会话。评价部415在各说话者1a~1c的平均的评价结果不同的情况下,判定为较差的会话。

例如,评价部415对各说话者1a~1c的平均的评价结果进行比较,并在两个以上的平均的评价结果一致的情况下,判定为较好的会话。另一方面,评价部415对各说话者1a~1c的平均的评价结果进行比较,并在两个以上的平均的评价结果不一致的情况下,判定为较差的会话。

评价部415将说话者1a~1c的声音的印象的评价结果以及整个会话的评价结果输出至评价结果储存部404。

接下来,对本实施例3所涉及的声音评价装置400的效果进行说明。声音评价装置400根据说话者的说话者信息来学习平常时标准偏差,在评价时,使用与说话者的说话者信息对应的平常时标准偏差来评价说话者的声音。因此,能够进行基于说话者信息的、声音的评价,能够提高评价的准确性。

另外,由于声音评价装置400基于各说话者1a~1c的声音的评价结果来评价整个会话,所以管理者等能够把握整个会话的好坏。

另外,本实施例3所涉及的声音评价装置400在评价整个会话的情况下,也可以基于式(3)来计算整个会话的得分。

整个会话的得分=(评价为说话者1a的印象较好的区间数+评价为说话者1b的印象较好的区间数+评价为说话者1c的印象较好的区间数)/(全部的区间数×3)×100…(3)

接下来,对实现与上述实施例所示的声音评价装置100、200、400相同的功能的计算机的硬件构成的一个例子进行说明。图14是表示实现与声音评价装置相同的功能的计算机的硬件构成的一个例子的图。

如图14所示,计算机500具有执行各种运算处理的cpu501、接受来自用户的数据的输入的输入装置502、以及显示器503。另外,计算机500具有从存储介质读取程序等的读取装置504、和经由有线或者无线网络与收录设备等之间进行数据的收发的接口装置505。另外,计算机500具有暂时存储各种信息的ram506、和硬盘装置507。而且,各装置501~507与总线508连接。

硬盘装置507具有基音检测程序507a、分布计算程序507b、扩展计算程序507c、推定程序507d、评价程序507e。cpu501读出基音检测程序507a、分布计算程序507b、扩展计算程序507c、推定程序507d、评价程序507d并展开至ram506。

基音检测程序507a作为基音检测工序506a发挥作用。分布计算程序507b作为分布计算工序506b发挥作用。扩展计算程序507c作为扩展计算工序506c发挥作用。推定程序507d作为推定工序506d发挥作用。评价程序507e作为评价工序506e发挥作用。

基音检测工序506a的处理与基音检测部110、210、320的处理对应。分布计算工序506b与分布计算部111、211、411的处理对应。扩展计算工序506c的处理与扩展计算部112、212、412的处理对应。推定工序506d与推定部114、214、414的处理对应。

此外,对于各程序507a~507e,可以不必从最初存储至硬盘装置507。例如,预先使插入到计算机500的软盘(fd)、cd-rom、dvd盘、光磁盘、ic卡等“可移动用的物理介质”存储各程序。而且,也可以使得计算机500读出各程序507a~507e并执行。

关于包含以上的各实施例的实施方式,还公开以下的附记。

(附记1)一种声音评价程序,其特征在于,使计算机执行如下的处理:

对声音信号进行解析来检测基音频率;

基于检测到的上述基音频率的检测频率的分布来选择检测到的上述基音频率中的作为评价对象的评价对象区域;以及

基于上述检测频率的分布和所选择的上述评价对象区域来评价声音。

(附记2)根据附记1所述的声音评价程序,其特征在于,

进一步执行处理:通过对与上述分布的中心部对应的基音频率乘以第一权重,对与上述分布的边缘部分对应的基音频率乘以第二权重来修正上述分布,上述第二权重小于上述第一权重,在上述评价的处理中,基于修正后的分布的扩展来评价上述讲话区间内的声音的印象。

(附记3)根据附记1或2所述的声音评价程序,其特征在于,

在测量上述基音频率的处理中,检测各时刻的基音频率、一定时间内的平均的基音频率、上限的基音频率、下限的基音频率中的任一个。

(附记4)根据附记1、2或3所述的声音评价程序,其特征在于,

在上述评价的处理中,计算与多个基音频率相关的方差、标准偏差、范围、平方和、四分位距中的任一个的统计量,并基于上述统计量来评价声音的印象。

(附记5)根据附记2所述的声音评价程序,其特征在于,

进一步执行处理:基于对预先决定的规定区间内的声音信号进行解析所获得的基音频率来推定用户在平常时的检测频率的基准分布,在上述评价的处理中,基于上述基准分布和修正后的分布来评价声音的印象。

(附记6)根据附记5所述的声音评价程序,其特征在于,

进一步执行处理:将上述基准分布和说话者信息建立对应地存储至存储装置,在上述评价的处理中,选择与说话者信息对应的基准分布,基于选择的基准分布的扩展和修正后的分布的扩展来评价声音的印象。

(附记7)根据附记6所述的声音评价程序,其特征在于,

在推定上述基准分布的处理中,在与所指定的说话者信息对应的基准分布被存储到上述存储装置的情况下,将存储装置中存储的与所指定的说话者信息对应的基准分布设定为推定上述基准分布的情况下的初始值。

(附记8)根据附记2所述的声音评价程序,其特征在于,

在修正上述分布的处理中,基于预先决定的规定区间中的多个基音频率来确定上述分布的中心部以及上述分布的边缘部。

(附记9)根据附记1所述的声音评价程序,其特征在于,

在上述评价的处理中,针对每个不同的说话者信息评价声音,并评价多个说话者的整个会话。

(附记10)根据附记1所述的声音评价程序,其特征在于,

在上述评价的处理中,分别评价各时刻中的声音的印象,并计算与各评价结果相关的得分。

(附记11)根据附记2、3或4所述的声音评价程序,其特征在于,在上述评价的处理中,在上述分布的扩展较大的情况下,评价为声音的印象较好,在上述分布的扩展较小的情况下,评价为声音的印象较差。

(附记12)一种声音评价方法,其是计算机执行的声音评价方法,其特征在于,使计算机执行如下的处理:

对声音信号进行解析来检测基音频率;

基于检测到的上述基音频率的检测频率的分布来选择检测到的上述基音频率中的作为评价对象的评价对象区域;以及

基于上述检测频率的分布和所选择的上述评价对象区域来评价声音。

(附记13)根据附记12所述的声音评价方法,其特征在于,

进一步执行处理:通过对与上述分布的中心部对应的基音频率乘以第一权重,对与上述分布的边缘部分对应的基音频率乘以第二权重来修正上述分布,上述第二权重小于上述第一权重,在上述评价的处理中,基于修正后的分布的扩展来评价上述讲话区间内的声音的印象。

(附记14)根据附记12或13所述的声音评价方法,其特征在于,

在检测上述基音频率的处理中,检测各时刻的基音频率、一定时间内的平均的基音频率、上限的基音频率、下限的基音频率中的任一个。

(附记15)根据附记12、13或14所述的声音评价方法,其特征在于,

在上述评价的处理中,计算与多个基音频率相关的方差、标准偏差、范围、平方和、四分位距中的任一个的统计量,并基于上述统计量来评价声音的印象。

(附记16)根据附记13所述的声音评价方法,其特征在于,

进一步执行处理:基于对预先决定的规定区间内的声音信号进行解析所获得的基音频率来推定用户在平常时的检测频率的基准分布,在上述评价的处理中,基于上述基准分布和修正后的分布来评价声音的印象。

(附记17)根据附记16所述的声音评价方法,其特征在于,

进一步执行处理:将上述基准分布和说话者信息建立对应地存储至存储装置,在上述评价的处理中,选择与说话者信息对应的基准分布,并基于选择的基准分布的扩展和修正后的分布的扩展来评价声音的印象。

(附记18)根据附记17所述的声音评价方法,其特征在于,

在推定上述基准分布的处理中,在与所指定的说话者信息对应的基准分布被存储到上述存储装置的情况下,将存储装置中存储的与所指定的说话者信息对应的基准分布设定为推定上述基准分布的情况下的初始值。

(附记19)根据附记13所述的声音评价方法,其特征在于,

在修正上述分布的处理中,基于预先决定的规定区间中的多个基音频率来确定上述分布的中心部以及上述分布的边缘部。

(附记20)根据附记12所述的声音评价方法,其特征在于,

在上述评价的处理中,针对每个不同的说话者信息评价声音,并评价多个说话者的整个会话。

(附记21)根据附记12所述的声音评价方法,其特征在于,

在上述评价的处理中,分别评价各时刻中的声音的印象,计算与各评价结果相关的得分。

(附记22)根据附记13、14或15所述的声音评价方法,其特征在于,

在上述评价的处理中,在上述分布的扩展较大的情况下评价为声音的印象较好,在上述分布的扩展较小的情况下,评价为声音的印象较差。

(附记23)一种声音评价装置,其特征在于,具有:

基音检测部,对声音信号进行解析来检测基音频率;以及

评价部,基于检测到的上述基音频率的检测频率的分布来选择检测到的上述基音频率中的作为评价对象的评价对象区域,并基于上述检测频率的分布和所选择的上述评价对象区域来评价声音。

(附记24)根据附记23所述的声音评价装置,其特征在于,

上述声音评价装置还具有扩展计算部,上述扩展计算部通过对与上述分布的中心部对应的基音频率乘以第一权重,对与上述分布的边缘部分对应的基音频率乘以第二权重来修正上述分布,上述第二权重小于上述第一权重,上述评价部基于修正后的分布的扩展来评价上述讲话区间内的声音的印象。

(附记25)根据附记23或24所述的声音评价装置,其特征在于,

上述基音检测部检测各时刻的基音频率、一定时间内的平均的基音频率、上限的基音频率、下限的基音频率中的任一个。

(附记26)根据附记24或25所述的声音评价装置,其特征在于,

上述扩展计算部计算与多个基音频率相关的方差、标准偏差、范围、平方和、四分位距中的任一个的统计量,上述评价部基于上述统计量来评价声音的印象。

(附记27)根据附记24所述的声音评价装置,其特征在于,

上述声音评价装置还具有推定部,上述推定部基于对预先决定的规定区间内的声音信号进行解析所获得的基音频率来推定用户在平常时的检测频率的基准分布,上述评价部基于上述基准分布和修正后的分布来评价声音的印象。

(附记28)根据附记27所述的声音评价装置,其特征在于,

上述推定部将上述基准分布和说话者信息建立对应地存储至存储装置,上述评价部选择与说话者信息对应的基准分布,并基于所选择的基准分布的扩展和修正后的分布的扩展来评价声音的印象。

(附记29)根据附记28所述的声音评价装置,其特征在于,

上述推定部在与所指定的说话者信息对应的基准分布被存储到上述存储装置的情况下,将存储装置中存储的与所指定的说话者信息对应的基准分布设定为推定上述基准分布的情况下的初始值。

(附记30)根据附记24所述的声音评价装置,其特征在于,

上述扩展计算部基于预先决定的规定区间中的多个基音频率来确定上述分布的中心部以及上述分布的边缘部。

(附记31)根据附记23所述的声音评价装置,其特征在于,

上述评价部针对每个不同的说话者信息评价声音,并评价多个说话者的整个会话。

(附记32)根据附记23所述的声音评价装置,其特征在于,

上述评价部分别评价不同的讲话区间的声音,并计算与各评价结果相关的得分。

(附记33)根据附记24、25或26所述的声音评价装置,其特征在于,

上述评价部在上述分布的扩展较大的情况下评价为声音的印象较好,在上述分布的扩展较小的情况下,评价为声音的印象较差。

符号说明

100、200、400…声音评价装置

150、300…收录设备。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1