语音处理装置和语音处理方法

文档序号:9688758阅读:471来源:国知局
语音处理装置和语音处理方法
【专利说明】语音处理装置和语音处理方法
[0001]相关申请的交叉引用
[0002]这个申请基于并且要求2014年9月18日提交的第2014-190196号日本专利申请的优先权的利益;其全部内容通过引用被结合于此。
技术领域
[0003]此处描述的实施例一般涉及语音处理装置和语音处理方法。
【背景技术】
[0004]语音的评价在对话和通信中是非常重要的。特别地,在构建对话系统中,对话中的自然性的客观评价形成了在平滑的对话和通信的处理中的基础。因而,已经有评价针对语音质量的自然性的各种提案。
[0005]然而,针对语音质量的评价方法能够评价声音片段的自然性,但是不能评价语音对人类感觉的影响。还有评价作为来自频谱包络的连续声音的语音的方法。然而,利用这个方法,因为二次特征量从频谱包络中被生成,所以一些特征可能被遗漏,并且因而,难以适当地评价语音对人类感觉的影响。因此,已经有对于能够适当地评价语音对人类感觉具有什么影响的新技术的提案的需求。

【发明内容】

[0006]实施例的目的是提供能够适当地评价语音对人类感觉具有什么影响的语音处理装置和语音处理方法。
[0007]根据实施例,语音处理装置包含分析器、特征量计算器、比较器和感觉指标计算器。分析器进行多个伪频率分析,每个伪频率分析对要被处理的对象语音使用不同的窗函数。特征量计算器基于多个伪频率分析的分析结果,来计算对象语音的特征量。比较器将对象语音的特征量与从基准语音计算出的基准特征量进行比较,并且产生比较结果。感觉指标计算器基于比较结果,来计算感觉指标,感觉指标表示从对象语音接收到的感觉。
[0008]根据上述语音处理装置,可以适当地评价语音对人类感觉具有什么影响。
【附图说明】
[0009]图1是图解根据第一实施例的语音处理装置的实例配置的框图;
[0010]图2是图解被显示在显示器上的消息的实例的图;
[0011]图3是图解窗函数的实例的图表;
[0012]图4是图解被分类到感觉类别中的窗函数的实例的图;
[0013]图5图解感觉指标的实例;
[0014]图6是图解用于将对象语音的特征量与基准特征量进行比较的处理的实例的图表;
[0015]图7是图解根据第一实施例的语音处理装置的操作的概要的流程图;
[0016]图8是图解根据第二实施例的语音处理装置的实例配置的框图;
[0017]图9是图解根据第三实施例的语音处理装置的实例配置的框图;和
[0018]图10是图解根据第三实施例的语音处理装置的实例硬件配置的框图。
【具体实施方式】
[0019]第一实施例
[0020]图1是图解根据第一实施例的语音处理装置100的实例配置的框图。如图1中所示,语音处理装置100包含语音分析器110、评价运算单元120、存储器130和显示器140。存储器130包含用于存储稍后将被描述的窗函数的窗函数存储器131、以及用于存储稍后将被描述的基准特征量的特征量存储器132。显示器140具有根据本实施例的语音处理装置100的用户界面的功能,并且被配置成显示信息,诸如指示处理结果的信息或者正在被处理的信息、给用户的消息、以及用于接受用户的操作的信息,并且接收指定预定操作的用户的操作。
[0021]语音分析器110是用于分析语音并且计算特征量的块,并且包含如图1中所示的预处理单元111、窗函数选择器112、分析器113、以及特征量计算器114。
[0022]预处理单元111进行预处理,诸如从外部接收要被处理的对象语音的语音数据,并且进行用于噪声消除的滤波。注意,本实施例中使用的语音数据可以是自然嗓音的语音、合成语音、以任何方式生成的语音等等。预处理单元111还对于对象语音的语音数据,分析采样率和数据时间。在这个处理中,预处理单元111将对象语音的语音数据的采样率与稍后将被描述的基准语音的采样率进行比较。如果不存在相同的采样率,则预处理单元111例如在显示器140上显示如图2中所示的消息Ms,以提示用户变换采样率或者使语音数据再生。如果用户请求采样率的变换,则预处理单元111对于对象语音的语音数据,变换采样率。已经被预处理单元111处理的对象语音的语音数据被传递给分析器113。
[0023]窗函数选择器112从存储在窗函数存储器131中的窗函数中,选择要在分析器113被用于伪频率分析的窗函数。存储在窗函数存储器131中的窗函数被设计成滤波器,用于借助于与人类的听觉和发声有关的身体部位,来再现从语音信号中接收到的感觉,并且其实例包含自适应滤波函数和非线性滤波函数。
[0024]图3是图解存储在窗函数存储器131中的窗函数的实例的图表。如图3中所示,两个窗函数以成对的形式被存储在窗函数存储器131中。在下文中,为了方便起见,成对中的一个将被称为第一窗函数,并且另一个将被称为第二窗函数。第一窗函数是沿着时间轴的不对称的窗函数,以及第二窗函数是通过在时间轴的方向上反转第一窗函数所获得的窗函数。注意,沿着时间轴的不对称的窗函数指的是具有这种波形的窗函数,这种波形具有以下特征:通过关于时间轴上的中点(图3中的点P)转动该波形180度所获得的波形不与原始波形重叠,并且该波形关于穿过时间轴上的中点并且垂直于时间轴的线是不对称的。
[0025]例如,当登记某个第一窗函数的操作被进行时,通过在时间轴的方向上反转第一窗函数所获得的第二窗函数响应于登记第一窗函数的操作被自动地生成,并且成对的第一窗函数和第二窗函数被存储在窗函数存储器131中。在这个处理中,成对的第一窗函数和第二窗函数(一对窗函数),如图4中所示的,被分类到稍后将被描述的感觉指标的要素的感觉类别中,并且被存储在窗函数存储器131中。感觉类别基于从语音中接收到的感觉。
[0026]在本实施例中,例如,使用了十个感觉类别,这十个感觉类别是“自然”、“魅力”、“接近”、“回避”、“愤怒”、“悲伤”、“放松”、“集中”、“突现(灵感)”、以及“美丽”。多个成对的上述第一窗函数和第二窗函数被存储在每个感觉类别中。在图4的实例中,五对窗函数被包含在每个感觉类别中。注意,五对以上的窗函数可以被存储在每个感觉类别中,或者成对的窗函数可以被存储,如此,因为感觉类别的加权,被分类到一个感觉类别中的窗函数的成对的数目大于被分类到另一个感觉类别中的窗函数的成对的数目。例如,为了增加感觉类别“自然”的权重,可以通过增加被分类到“自然”中的窗函数的成对的数目来进行次元扩充。
[0027]例如,响应于用户的选择操作,窗函数选择器112至少选择包含在要被评价的感觉类别中的一对窗函数。例如,当用户进行选择属于感觉类别的窗函数的操作时,用户选择的窗函数(第一窗函数)和通过在时间轴的方向上反转该窗函数获得的窗函数(第二窗函数)被选择,并且因此,一对窗函数被选择。在这个处理中,对于要被处理的对象语音,当包含多个要素的感觉指标被计算作为稍后将被描述的感觉指标时,从每个感觉类别中选择出一对窗函数。替代地,如在图4中所示的实例中,当多对(图4的实例中的五对)窗函数被存储在一个感觉类别中时,可以选择属于要被评价的感觉类别的所有成对的窗函数,或者可以选择一些成对的窗函数。当从一个感觉类别中被选择出的窗函数的成对的数目较大时,感觉类别的评价的稳健性被增加。窗函数选择器112选择出的窗函数被传递给分析器113。
[0028]分析器113使用窗函数选择器112选择出的窗函数,对从预处理单元111接收到的对象语音的语音数据,进行伪频率分析。小波分析(Wavelet analysis)作为伪频率分析的一个实例是广为人知的。在小波分析中,信号乘以作为基底函数的小波函数,并且与小波函数的比例因子相关联的伪频率被分析。例如,根据本实施例的语音处理装置100能够使用这个小波分析作为分析器113所进行的伪频率分析。在这种情况下,窗函数选择器112选择出的窗函数是小波函数。注意,分析器113所使用的分析法不局限于小波分析,而可以是能够使用窗函数分析伪频率的任何方法。
[0029]对于要被评价的感觉类别,上述窗函数选择器112选择至少一对窗函数(
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1