实时的客观语音分析器的制作方法

文档序号:2821315阅读:168来源:国知局
专利名称:实时的客观语音分析器的制作方法
技术领域
本发明总体上涉及网络系统,更特别地涉及网络系统中的语音信号。
背景技术
语音信号可以由多种网络系统发送,包括简易的旧式电话系统(POTS)、利用因特网上语音协议(VoIP)的基于因特网的网络、无线电信系统等。源语音信号,例如由第一用户的话音产生的声音信号,一般在其通过网络系统到达第二用户的耳朵时由许多设备进行处理。例如,在无线电信网络中,在第二用户听到处理后的语音信号之前,源语音信号可以由第一移动单元、第一基站、网络集线器、第二基站、第二移动单元及其它中间设备进行处理。
网络系统中的每个设备及发送处理后的语音信号的有线和/或无线信道都可以修改处理后的语音信号。这些修改中有些是期望的。例如,各种过滤器可用于从处理后的语音信号除去不想要的噪声、令人舒服的噪声可以添加到处理后的语音信号以除去听起来不自然的安静,而且处理后的语音信号可以压缩以减少发送的数据总量。对处理后的语音信号的其它修改可能不是期望的。例如,当处理后的语音信号通过网络传播时发送错误可能引入该信号。这些错误可能导致处理后的语音信号中的中断、不想要的噪声等。
不管期望还是不期望,网络系统对源语音信号的处理都会导致处理后的语音信号质量的一些降低。基于人类知觉的主观技术可用于评价处理后的语音信号的质量。例如,源语音样本的数据库可以由网络系统进行处理,处理后的语音信号可以提供给一组听众,他们对处理后的语音信号按1至5的等级分级。但是,主观技术既消耗时间又昂贵。主观测试昂贵和/或消耗时间方面的例子包括装配语音数据库,招聘很大的听众组并向其付费以提供对语音质量有统计意义的估计,及提供隔音的房间和其它设备。
客观方法也可用于评价处理后的语音信号的质量。在通常称为入侵方法的典型的处理后语音质量的客观评价中,源语音信号由网络系统处理,然后源语音样本和处理后的语音样本都提供给计算机。然后,计算机比较源和处理后的语音信号,以估计处理后的语音信号的质量。但是,如果源语音信号不可获得,则传统的入侵式客观方法不能用于估计处理后的语音信号的质量。估计的源语音信号可以代替缺少的源语音信号,但是由于处理后的语音信号的失真增加了,因此估计的源语音信号的质量降低了。
本发明旨在解决以上阐述的一个或多个问题的后果。

发明内容
在本发明的一种实施方式中,提供了用于实时客观语音分析的装置。该装置包括声音质量分析器,用于接收至少一个第一信号并基于该至少一个第一信号提供指示声音质量的至少一个非入侵式估计的至少一个第二信号。
在本发明的另一种实施方式中,提供了用于实时客观语音分析的方法。该方法包括接收至少一个指示至少一个处理后的语音信号的第一信号,基于该至少一个第一信号非入侵式地确定至少一个处理后的语音信号的声音质量,并提供至少一个指示至少一个处理后的语音信号的声音质量的第二信号。


通过结合附图参考以下描述可以理解本发明,其中相同的标号识别相同的元件,其中图1示出了根据本发明一种实施方式包括声音质量分析器的电信网络;
图2示出了根据本发明一种实施方式如图1所示声音质量分析器的声音质量分析器的一种示例实施方式;图3A示出了根据本发明一种实施方式可用于显示由图2声音质量分析器所提供信息的图形用户接口的一种示例实施方式;及图3B示出了根据本发明一种实施方式可以利用图3A所示图形用户接口观看的处理后语音信号波形的示例部分。
尽管本发明容易进行各种修改和有可选形式,但其特定实施方式已作为例子在附图中示出并在此具体描述。但是,应当理解在此特定实施方式的描述不是要将本发明限定到所公开的特定形式,相反,本发明要覆盖落在由所附权利要求定义的本发明主旨与范围的所有修改、等同替换及可选方式。
具体实施例方式
以下描述本发明的说明性实施方式。为了清晰,在本说明书中没有描述实际实现中的全部特征。当然应当理解在任何这种实际实施方式的开发中,应当作出各种特定于实现的决定,以实现开发者的特定目标,如与系统相关和业务相关约束的兼容,这对每种实现都会有变化。而且,应当理解这种开发工作可能是复杂和消耗时间的,不过对利用本公开内容的本领域普通技术人员来说是常规任务。
图1示出了无线电信网络100的一种示例实施方式。尽管本发明将在无线电信网络100示例实施方式的环境下描述,但本领域普通技术人员应当理解本发明不限于如图1所示的无线电信网络。在可选实施方式中,本发明可以在包括简易旧式电话系统(POTS)、利用因特网上语音协议(VoIP)的基于因特网的网络等的其它网络中实现。而且,无线电信网络100的结构和操作通常对本领域普通技术人员是已知的,因此,为了清晰,只有那些对理解本发明有用的无线电信网络100的结构和操作方面将在此描述。
无线电信网络100包括可以通过无线通信信道115向基站110发送信号或从其接收信号的第一移动单元105。基站110通信耦合到网络120。在各种可选实施方式中,基站110可以包括无线通信链路、有线通信链路等任何期望的方式通信耦合到网络120。网络120可以包括如路由器、交换机、过滤器、信号处理器等以任何期望方式互连的设备。网络120还通信耦合到可通过无线通信信道115提供和/或接收来自移动单元130的信号的至少一个基站125。
在运行中,源语音信号140提供给移动单元105。例如,第一用户可以向包括在移动单元105中的麦克风(未示出)讲话。移动单元105处理源语音信号140,形成发送到基站110的处理后的语音信号145。处理后的语音信号145可以经网络120、基站125、无线通信信道135及其它中间设备和/或信道从基站110发送到移动单元130。然后,移动单元130可基于处理后的语音信号145向第二用户提供声音信号。
处理后的语音信号145可以由移动单元105、130、基站110、125、网络120、无线通信信道115、135及其它中间设备和/或信道修改。因此,处理后的语音信号145可能与源语音信号140不同。总的来说,对源语音信号140的修改往往会降低处理后的语音信号145的声音质量。例如,处理后的语音信号145可能包括在源语音信号140中不存在的噪声尖峰150。但是,处理后的语音信号145声音质量相对小的降低对人的耳朵可能是不易察觉的,因而可以不考虑。
因此,提供了利用非入侵式声音质量估计技术估计处理后的语音信号145声音质量的声音质量分析器155。根据本领域中的普通用途,术语“非入侵式”在此将理解为是指可以不利用原始源语音信号执行的声音质量估计技术。在图1所示的实施方式中,声音质量分析器155可以从基站125接收指示处理后的语音信号145的信号并基于所接收的信号估计处理后的语音信号145的声音质量。但是,至少部分地因为声音质量分析器155利用了非入侵式声音质量估计技术,因此声音质量分析器155可以从无线通信网络100的任何部分接收指示处理后的语音信号145的信号。例如,在一种实施方式中,声音质量分析器155可以从网络120的一部分接收指示处理后的语音信号145的信号。
在图1所示的示例实施方式中,声音质量分析器155在处理后的语音信号145路径的外面。但是,本发明不限于在处理后的语音信号145路径外面的声音质量分析器155。在可选实施方式中,声音质量分析器155基本上可以部署在处理后的语音信号145的路径中。例如,声音质量分析器155可以在基站125和移动单元130之间串联部署。在其它可选实施方式中,声音质量分析器155可以与无线通信网络100的任何部分并联部署。此外,可以部署不止一个声音质量分析器155,在无线电信网络100的选定点利用非入侵式技术估计处理后的语音信号145的声音质量。
在一种实施方式中,声音质量分析器155可以基于非入侵式估计的处理后的语音信号145的声音质量向基站125提供反馈。例如,声音质量分析器155可以通过噪声尖峰150的存在确定处理后的语音信号145的声音质量已降低,并且可以向基站125提供指示期望施加过滤处理以试图减小处理后的语音信号145中噪声尖峰150幅度的信号。但是,本领域普通技术人员应当理解本发明不限于施加过滤处理,在可选实施方式中,响应由声音质量分析器155提供的反馈,任何期望的信号处理技术都可以由任何期望的设备用于减小处理后的语音信号145的非期望部分的影响。
图2示出了声音质量分析器155的一种示例实施方式。声音质量分析器155可以通过一条或多条输入线路200(1-n)接收一个或多个处理后的语音信号,如图1所示处理后的语音信号145。在一种实施方式中,输入线路200(1-n)是可以从连接到网关设备(未示出)的转换器,如耦合到Cisco媒体网关MGX的OC3-T1转换器,获得的T1线路。一个T1线路典型地承载约24个呼叫信道。但是,本领域普通技术人员应当理解输入线路200(1-n)不限于T1线路,在可选实施方式中,可以是承载任何期望呼叫信道数的任何期望的线路类型。
输入线路200(1-n)向接口205,如PCMCIA接口等,提供处理后的语音信号。接口205可以向一个或多个数字信号处理器(DSP)210(1-m)提供一个或多个指示处理后的语音信号的信号。在所说明的实施方式中,数字信号处理器210是在部署在板215上的各个芯片上形成的。但是,本发明不限于部署在单个板215上的一个或多个数字信号处理器210(1-m)。在可选实施方式中,板215可以不提供。在其它可选实施方式中,数字信号处理器210(1-m)可以部署在多个板215上。
数字信号处理器210(1-m)实现估计处理后的语音信号145的声音质量的非入侵式方法。在一种实施方式中,数字信号处理器210(1-m)实现听觉非入侵式质量估计(ANIQUE)算法。这种听觉-发音分析技术利用发音频率范围中的功率和非发音频率范围中的功率之间的比较来估计语音信号的声音质量。例如,ANIQUE算法可以通过比较大约2-12.5Hz的发音频率范围中的功率与大于大约12.5Hz的非发音频率范围中的功率来估计处理后的语音信号的声音质量。非入侵式ANIQUE算法的示例实施方式可以在于2002年7月1日提交的美国专利申请10/186,840号、Kim的“Auditory-Articulatory Analysis forSpeech Quality Assessment”中找到,该申请在此引入其全部作为参考。
ANIQUE算法的复杂度可以通过采用用于实现ANIQUE算法的从可选择模式声码器到C源代码的每秒加权百万次操作计算例程来获得。估计结果指示ANIQUE算法有大约每秒217加权百万次操作的复杂度。但是,如本领域普通技术人员应当理解的,这种估计依赖于算法的特定实现。例如,通过将快速傅立叶变换点从4096减少到2048、在过滤处理中利用四联立相乘和累加操作、优化源代码等,ANIQUE算法复杂度的估计可以降到大约每秒122加权百万次操作或更少。
在一种实施方式中,声音质量分析器155包括16个数字信号处理器210(1-m)。如果在每个数字信号处理器210(1-m)中实现的非入侵式声音质量估计技术使用稍小于上面关于ANIQUE算法讨论的每秒122加权百万次操作的大约每秒8000万条指令的运行速度,则声音质量分析器155的这种实施方式可以同时处理大约64条呼叫信道。但是,本领域普通技术人员应当理解可以由声音质量分析器155同时处理的呼叫信道数的这种估计是示例性的,不是要限制本发明。
数字信号处理器210(1-m)向接口217,如PCMCIA接口等,提供一个或多个指示处理后的语音信号的估计声音质量的信号。在一种实施方式中,接口217可以向计算机220提供一个或多个指示估计声音质量的信号。例如,接口217可以向膝上型计算机220提供信号。然后,计算机220可以显示指示由声音质量分析器155分析的一条或多条通信信道上处理后的语音信号的估计声音质量的信息。例如,计算机220可以利用图形用户接口225显示信息。
图3A示出了图形用户接口225的一种示例实施方式。在所说明的实施方式中,图形用户接口225在列300显示指示通信信道的信息(如信道号),在列305显示指示估计声音质量的信息(如1和5之间的声音质量等级)、在列310显示指示处理后的语音信号的时间和/或持续时间的信息(如时间戳)、在列320显示允许用户观看如图3B所示示例波形330的处理后的语音信号一部分波形的用户激活按钮315。但是,本领域普通技术人员应当理解本发明不限于图3A所示的信息,在可选实施方式中,任何期望的信息都可以显示在图形用户接口225中。
回过头来参考图2,如上面所讨论的,声音质量分析器155可以基于声音质量的非入侵式估计提供反馈。因此,在一种实施方式中,计算机220通信耦合到无线通信网络100,而且可以提供指示可以对处理后的语音信号施加的修改的信号。该信号可以提供给无线通信网络100中的一个或多个设备,并由这些设备用于修改处理后的语音信号。可选地,计算机220可以修改处理后的语音信号。例如,计算机220可以允许用户对处理后的语音信号选择和/或施加各种声音编辑工具。声音编辑工具可以包括时间和/或频率过滤、压缩、内插、衰减、标准化、包络等。
由于上述声音质量分析器155可以非入侵式地,即不利用源语音信号地,估计一个或多个处理后的语音信号的声音质量,因此声音质量分析器155可用于估计使用中的网络及其它源语音信号不可获得的系统的声音质量。此外,声音质量分析器155不需要利用预定义的测试信号驱动,而且由于声音质量分析器155客观地估计声音质量,因此相对于传统的主观方法,估计网络声音质量的时间和成本都可以降低。
由于本发明可以以对利用在此的教导的本领域技术人员显而易见的不同但等效的方式进行修改和实践,因此上面公开的特定实施方式仅仅是说明性的。此外,除了以下权利要求中所描述的以外,不旨在对在此示出的结构或设计细节进行限制。因此,很显然上面公开的特定实施方式可以改变或修改,而且所有这类变体都认为是在本发明的范围和主旨内。因此,在此所寻求的保护如以下权利要求中所述。
权利要求
1.一种装置,包括声音质量分析器,用于接收至少一个第一信号,还用于基于该至少一个第一信号提供指示至少一个非入侵式声音质量估计的至少一个第二信号。
2.如权利要求1所述的装置,其中至少一个第一信号包括至少一个处理后的语音信号。
3.如权利要求2所述的装置,包括第一接口,用于接收至少一个处理后的语音信号,还用于基于该至少一个处理后的语音信号提供至少一个第一信号;及第二接口,用于接收至少一个第二信号,还用于基于该至少一个第二信号提供至少一个第三信号,其中第二接口能够向计算机提供至少一个第三信号。
4.如权利要求3所述的装置,其中计算机配置成显示指示至少一个第一信号的至少一个非入侵式声音质量估计的信息;及基于估计的声音质量确定至少一个对处理后的语音信号的修改。
5.如权利要求1所述的装置,其中声音质量分析器包括至少一个数字信号处理电路,配置成同时接收至少一个第一信号并基于该至少一个第一信号估计至少一个处理后的语音信号的至少一个声音质量。
6.如权利要求1所述的装置,其中声音质量分析器实现非入侵式听觉-发音分析技术。
7.一种方法,包括接收指示至少一个处理后的语音信号的至少一个第一信号;基于该至少一个第一信号非入侵式地确定至少一个处理后的语音信号的声音质量;及提供指示至少一个处理后的语音信号的声音信号的至少一个第二信号。
8.如权利要求7所述的方法,包括显示指示以下至少一项的信息通信信道、估计的声音质量、与处理后的语音信号关联的时间及处理后的语音信号的持续时间。
9.如权利要求7所述的方法,包括基于确定的声音质量确定对处理后的语音信号的至少一个修改。
10.如权利要求7所述的方法,其中非入侵式地确定声音质量包括利用非入侵式听觉-发音分析技术确定声音质量,该技术包括比较处理后的语音信号发音频率范围内的功率和处理后的语音信号非发音频率范围内的功率的步骤。
全文摘要
本发明提供了用于实时客观语音分析的方法和装置。该装置包括声音质量分析器,用于接收至少一个第一信号并基于该至少一个第一信号提供指示至少一个非入侵式声音质量估计的至少一个第二信号。
文档编号G10L11/00GK1681004SQ20051006298
公开日2005年10月12日 申请日期2005年4月4日 优先权日2004年4月5日
发明者曹彬石, 金度锡, 哈迈德·A.·塔拉夫 申请人:朗迅科技公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1