语音处理设备及方法

文档序号：2827499阅读：122来源：国知局

语音处理设备及方法
【专利摘要】提供了一种语音处理设备和语音处理方法。所述语音处理设备包括计算机处理器，该设备包括：获取单元，其被配置成获得输入语音；检测单元，其被配置成检测包含在输入语音中的元音段；重音段估计单元，其被配置成估计包含在输入语音中的重音段；元音段长度指定单元，其被配置成指定包含重音段的第一元音段长度以及不包含重音段的第二元音段长度；以及控制单元，其被配置成控制第一元音段长度和第二元音段长度中的至少一个。
【专利说明】语音处理设备及方法

【技术领域】
[0001] 本文中所讨论的实施方式涉及例如语音处理设备、语音处理方法以及用于控制输入信号的语音处理程序。

【背景技术】
[0002] 例如，随着信息处理设备的最新进展及国际化，通过安装在个人计算机中的电话应用程序用外语进行电话呼叫变得越来越普遍。鉴于此趋势，公开了用于控制来自某种语言的非母语说话者的语音信号以使他/她的语音能够被该语言的母语说话者更容易地理解的方法。例如，日本专利第4942860号公开了这样一种技术：其用于通过使用声学模型的语音识别来生成与输入语音相对应的音素标志，根据特定转换表转换音素标志，并且根据所转换的音素标志产生合成语音。
[0003] 合成语音产生技术涉及执行具有高负荷的处理（例如使用声学模型的语音识别）、生成音素标记以及生成合成语音，这可能导致语音处理中的延迟。本公开的目的是提供一种以语音处理中的缩减的处理负荷使得用户的输入语音能够被更好地理解的语音处理设备。

【发明内容】

[0004] 根据实施方式的一个方面，一种语音处理设备包括计算机处理器，该设备包括：被配置成获得输入语音的获取单元；被配置成检测包含于所述输入语音中的元音段的检测单元；被配置成估计包含于所述输入语音中的重音段的重音段估计单元；被配置成指定包含所述重音段的第一元音段长度以及不包含所述重音段的第二元音段长度的元音段长度指定单元；以及被配置成控制所述第一元音段长度和所述第二元音段长度中的至少一个的控制单兀。
[0005] 将借助于权利要求中特别指出的要素及组合来实现并达到本发明的目的和优点。应当理解，如所要求保护的那样，前述一般描述和下述详细描述二者均是示例和说明并且不是对本发明的限制。
[0006] 本文中所公开的语音处理设备以语音处理中的缩减的处理负荷使得用户的输入语音能够被更好地理解。

【专利附图】

【附图说明】
[0007] 参考附图，根据对实施方式的以下描述，所述和/或其他方面及优点将变得明显并且更容易被理解，其中：
[0008] 图1是根据第一实施方式的语音处理设备的功能框图；
[0009] 图2是根据实施方式的检测单元的功能框图；
[0010] 图3示出了由检测单元进行的有声段检测及无声段检测的结果；
[0011] 图4A示出了有声段与基音（pitch)频率之间的关系，而图4B示出了有声段与基音变化率之间的关系；
[0012] 图5A示出了有声段与功率之间的关系；
[0013] 图5B示出了有声段与功率变化率之间的关系；
[0014] 图6示出了元音段长度比与目标缩放因子之间的关系；
[0015] 图7A示出了针对母语说话者的讲话的有声段与频带的功率谱之间的关系；
[0016] 图7B示出了针对非母语说话者的讲话的有声段与频带的功率谱之间的关系； [0017] 图8示出了针对由母语说话者所说的词语的第一元音段长度与第二元音段长度之间的关系；
[0018] 图9是说明要由语音处理设备执行的语音处理方法的流程图；
[0019] 图10示出了元音段长度与目标缩放因子之间的关系；
[0020] 图11是根据第三实施方式的语音处理设备的功能框图；
[0021] 图12是根据第四实施方式的语音处理设备的功能框图；
[0022] 图13示出了用作根据实施方式的语音处理设备的计算机硬件配置；以及
[0023] 图14示出了根据实施方式的便携式终端设备的硬件配置。

【具体实施方式】
[0024] 下面将参照附图来描述语音处理设备、语音处理方法及语音处理程序的实施方式。注意，实施方式不意在限制所公开的技术。
[0025](第一实施方式）
[0026] 图1是根据第一实施方式的语音处理设备1的功能框图。语音处理设备1包括获取单元2、检测单元3、重音段估计单元4、元音段长度计算单元5 (换言之，元音段长度指定单元5)及控制单元6。
[0027] 例如，获取单元2是包括布线逻辑的硬件电路。获取单元2也可以是由在语音处理设备1中执行的计算机程序所实现的功能模块。例如，获取单元2经由有线电路或无线电路获得输入语音。可选地，例如，获取单元2可以从未示出的麦克风获得输入语音，该麦克风与语音处理设备1连接或位于语音处理设备1中。例如，输入语音是英语，但是输入语音也可以是任何其他语言。同样，例如，输入语音对于用户来说是外语，但是输入语音也可以是用户的母语。为了进行描述，第一实施方式假设讲出输入语音的用户的母语是日语并且输入语音和输出语音是英语，并且收听输出语音的用户是英语的母语说话者。获取单元 2将其已获取的输入语音输出至检测单元3、重音段估计单元4及控制单元6。
[0028] 例如，检测单元3是包括布线逻辑的硬件电路。检测单元3也可以是由在语音处理设备1中执行的计算机程序实现的功能模块。检测单元3从获取单元2接收输入语音。检测单元3对指示包括在输入语音中的有声段的呼气段进行检测。例如，呼气段是从讲话期间用户吸气并且开始讲话时到用户再次吸气时的时间间隔（换言之，第一次呼吸与第二次呼吸之间的时间间隔，或者在其期间用户连续讲话的时间间隔）。例如，检测单元3可以根据包括在输入语音中的多个帧来检测作为用作信号质量指标的信号功率与噪声比的平均SNR，并且作为有声段（或呼气段）而检测其中平均SNR满足某个条件的段。检测单元3 也检测吸气段，其指示了包括在输入语音中的有声段结尾之后的无声段。例如，检测单元3 可以作为无声段（或吸气段）而检测其中平均SNR不满足条件的段。
[0029] 现在详细地描述由检测单元3对有声段和无声段进行的检测。图2是根据实施方式的检测单元3的功能框图。检测单元3包括音量计算单元10、噪声估计单元11、平均SNR 计算单元12及段确定单元13。检测单元3不必须具有音量计算单元10、噪声估计单元11、平均SNR计算单元12及段确定单元13,而是可以在包括一个或多个布线逻辑的硬件电路中实现这些部件的功能。可以在由在语音处理设备1中执行的计算机程序实现的功能模块中而不是在基于布线逻辑的硬件电路中实现检测单元3的部件功能。
[0030] 在图2中，将输入语音经由检测单元3输入至音量计算单元10。音量计算单元10 具有未示出的长度为m的缓冲器或高速缓冲存储器。音量计算单元10计算包括在输入语音中的每个帧中的声音音量，并且将声音音量输出至噪声估计单元11和平均SNR计算单元 12。例如，包括在输入语音中的帧的长度是0.2毫秒。可以根据下式来计算帧的声音音量 S ：
[0031]

【权利要求】
1. 一种语音处理设备，包括计算机处理器，所述设备包括：获取单元，其被配置成获得输入语音；检测单元，其被配置成检测包含在所述输入语音中的元音段；重音段估计单元，其被配置成估计包含在所述输入语音中的重音段；元音段长度指定单元，其被配置成指定包含所述重音段的第一元音段长度以及不包含所述重音段的第二元音段长度；以及控制单元，其被配置成控制所述第一元音段长度和所述第二元音段长度中的至少一个。
2. 根据权利要求1所述的设备，其中，所述控制单元延长所述第一元音段长度或者缩短所述第二元音段长度。
3. 根据权利要求1所述的设备，其中，所述控制单元基于所述第一元音段长度与所述第二元音段长度之间的比值或差值来控制所述第一元音段长度或所述第二元音段长度。
4. 根据权利要求1所述的设备，其中，所述控制单元实施控制以延长或缩短所述第一元音段长度或所述第二元音段长度以使得所述第一元音段长度变得长于所述第二元音段长度。
5. 根据权利要求1所述的设备，其中，所述重音段估计单元基于每单位时间所述输入语音的基音频率或功率的变化量来估计所述重音段。
6. 根据权利要求1所述的设备，还包括：特征计算单元，其被配置成计算所述元音段的基本周期，其中，所述控制单元以所述基本周期为单位来控制所述第一元音段长度或所述第二元音段长度。
7. 根据权利要求6所述的设备，其中，所述特征计算单元还计算声学特征的量，所述声学特征包括所述元音段的基音频率、共振峰频率及自相关中的至少一个，并且其中，当确定所述元音段是这样的段时：即对于该段，每单位时间内所述声学特征的量的变化量小于预定的第一阈值，所述控制单元控制所述第一元音段长度或所述第二元音段长度。
8. 根据权利要求1所述的设备，其中，当确定所述元音段是如下的段时，所述控制单元控制所述第一元音段长度或所述第二元音段长度：对于该段，针对所述第一元音段长度或所述第二元音段长度的所述自相关值等于或大于预定的阈值，或者对于该段，幅值小于预定的阈值。
9. 根据权利要求1所述的设备，其中，所述控制单元通过添加如下信号来延长或缩短所述第一元音段长度或所述第二元音段长度：其中随着时间减小的加权因子被施加到要被控制的目标帧之前的帧的信号，以及其中随着时间增大的加权因子被施加到所述目标帧之后的帧的信号。
10. 根据权利要求1所述的设备，还包括：识别单元，其被配置成将所述输入语音识别为文本信息，其中，所述识别单元基于所述文本信息来识别所述第一元音段长度或所述第二元音段长度。
11. 一种语音处理方法，包括：获得输入语音；检测包含在所述输入语音中的元音段；估计包含在所述输入语音中的重音段；指定包含所述重音段的第一元音段长度以及不包含所述重音段的第二元音段长度；以及控制所述第一元音段长度和所述第二元音段长度中的至少一个。
12. 根据权利要求11所述的方法，其中，所述控制包括延长所述第一元音段长度或者缩短所述第二元音段长度。
13. 根据权利要求11所述的方法，其中，所述控制包括基于所述第一元音段长度与所述第二元音段长度之间的比值或差值来控制所述第一元音段长度或所述第二元音段长度。
14. 根据权利要求11所述的方法，其中，所述控制包括实施控制以延长或缩短所述第一元音段长度或所述第二元音段长度，以使得所述第一元音段长度变得长于所述第二元音段长度。
15. 根据权利要求11所述的方法，其中，所述估计包括基于每单位时间所述输入语音的基音频率或功率的变化量来估计所述重音段。
【文档编号】G10L25/87GK104240696SQ201410213321
【公开日】2014年12月24日申请日期:2014年5月20日优先权日:2013年6月17日
【发明者】外川太郎, 盐田千里, 大谷猛申请人:富士通株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：外川太郎;盐田千里;大谷猛
技术所有人：富士通株式会社
我是此专利的发明人

上一篇：一种基于伽马通相关图语音特征参数提取方法
上一篇：一种声音唤醒方法及系统的制作方法