话音分组识别的制作方法

文档序号：2829233阅读：262来源：国知局

专利名称：话音分组识别的制作方法
技术领域：
本发明一般涉及话音信号产生和处理。
背景技术：
通常，在话音信号产生和处理中，话音信号不仅传达讲话内容，而且还透露有关讲话人身份的一些信息。在这方面，通过分析话音信号波形，人们可以将话音信号归类为各种类别，例如，讲话人ID、语言ID、激烈的话音音调以及话题。
按照惯例，话音分析是直接根据话音信号波形进行的。例如，对于诸如图1中所示的常规的讲话人ID验证系统来说，首先将话音输入102傅里叶变换到频域中。在经过频谱能量计算106和预加重(pre-emphasis)处理(108)之后，频率参数接着经过一组梅尔刻度式(mel-Scale)对数滤波器(110)。在进行余弦变换114以获取“倒频谱(cepstra)”之前，每个单独的滤波器的输出能量都是对数标度的(例如，通过对数能量滤波器112)。该组“倒频谱”然后充当向量分类算法的特征向量，例如用于讲话人ID验证的GMM-UBM(高斯混合模型-通用背景模型)(116)。对诸如图1中所说明的算法使用的例子可以在以下文献中找到DouglasReynolds，et.al.，“Robust Text-Independent Speaker Identification UsingGaussian Mixture Speaker Models”，IEEE Transactions on Speech andaudio processing，Vol.3，No.1，Jan.1995。
然而，在常规装置中，一旦开始VoIP(基于互联网协议的话音)，话音就被压缩和被分组化，并且被在因特网内传输。常规的方法是将话音分组解压缩成话音信号波形，然后进行通过图1所描述的分析过程。如果丢失了分组，例如由于网络拥塞，则图1中所示的方法便会失效。特别地，如果丢失了分组，那么解压缩的波形将会失真，所得到的特征向量会是不正确的，并且分析会显著下降。此外，获取用于分析的特征向量的时间会由于解压缩-FFT-梅尔刻度式滤波器-余弦变换而非常长(参见Reynolds等人的上述内容)。这将使实时话音分析变得非常困难。
鉴于上述情况，人们已经意识到需要关注并改善常规装置所出现的缺点和劣势。

发明内容
依照本发明的至少一个当前优选的实施例，在此大致设想了一种用于直接从压缩域实施话音分析(例如，讲话人ID验证)的机制。优选地，基于特征向量对应的物理意义，直接从压缩比特流对其进行分段。这将消除消耗在“解压缩-FFT-梅尔刻度式滤波器-余弦变换”过程的时间，从而使得能够直接从压缩比特流进行实时话音分析。此外，话音分组可能由于因特网网络拥塞而漏失。另外，如果该系统必须分析每个压缩话音分组，则计算能力要求是相当高的。然而，如果所述压缩话音分组中的一些被漏失或被二次抽样，则解压缩的话音会由于话音波形中的压缩分组的相关性而变得高度失真，并且会明显丢失其用于分析的性质。因此，依照本发明的至少一个当前优选的实施例，可以直接从所述压缩话音分组进行分析。这将允许在时间上以某个固定的(例如10％)或可变的速率对所述压缩话音数据分组进行二次抽样。这会节省所述计算能力要求，并且还会保留可能需要分析的、感兴趣的话音分组性质。
总之，本发明的一个方面提供了一种用于话音信号分析的设备，所述设备包括用于接受以压缩形式传送的话音信号的装置；以及用于直接从所述压缩形式的话音信号实施话音分析的装置。
在优选实施例中，以分组传送所述话音信号。这可以通过因特网来实现。
在优选实施例中，以分组流传送所述分组，并且以固定的或可变的速率对所述分组流进行抽样，以便在向前发送所述分组用于话音分组分析之前降低所述分组传输速率。
在优选实施例中，有可能识别所述话音信号中与讲话人身份关联的至少一个特性。
在优选实施例中，接受与所述话音信号关联的特征向量。在该实施例中，通过从所述压缩形式的话音信号的比特流对所述特征向量进行分段，实施话音分析。
在优选实施例中，基于相应的物理意义对所述特征向量进行分段。
在优选实施例中，已经通过CELP算法压缩了所述压缩形式的话音信号。这样的CELP算法的例子是G729算法。
本发明的另一方面提供了一种话音信号分析的方法，所述方法包括以下步骤接受以压缩形式传送的话音信号；以及直接从所述压缩形式的话音信号实施话音分析。
在优选实施例中，基于CELP压缩参数进行话音分组识别。
此外，本发明的又一方面提供了一种机器可读的程序存储设备，确实可执行一种可由所述机器执行的指令的程序，以便进行用于话音信号分析的方法步骤，所述方法包括以下步骤接受以压缩形式传送的话音信号；以及直接从所述压缩形式的话音信号实施话音分析。

现在将仅通过实例的方式，并且参照以下附图来描述本发明的优选实施例，其中图1是描述了常规的讲话人ID分析的框图；图2是依照本发明的优选实施例，描述了CELP G729算法的应用的框图；
图3依照本发明的优选实施例，以表格形式描述了G729比特流格式；图4依照本发明的优选实施例，阐述了压缩流中的抽样特征向量。
具体实施例方式
尽管依照本发明的至少一个目前优选的实施例，大致设想了一种用于通常从其压缩域实施话音信号分析的装置，然而，在分析通过CELP算法压缩的信号方面得到了特别有利的结果。
实际上，现代话音压缩常常是基于CELP算法的，例如，G723、G729、GSM。(参见例如，Lajos Hanzo，et.al.“Voice Compression andCommunications”John Wiley & Sons，Inc.，Publication，ISBN0-471-15039-8。)基本上，该算法将人的声道(vocal tract)建模为一组滤波器系数，并且发声是一组激励穿过已建模的声道的结果。话音中的音调也被捕获。依照本发明的至少一个目前优选的实施例，分析通过CELP算法压缩的分组具有非常有利的结果。
借由说明性和非限制性的例子，图2中示出了可能的G729压缩算法的框图。如所示出的，在预处理(218)话音输入202之后，优选地采用LSF频率变换(220)。在221处计算来自220与来自块228的输出之间的差(参见以下)。使用自适应密码本222来建模长期的音调延迟信息，并且使用固定密码本224来建模人类语音的短期激励。增益块226是用于捕获语音幅度的参数，并且块220用于建模讲话人的声道，而块228在数学上是块220的倒置。
压缩流将在比特流的不同字段明确地携带这组重要的话音特性。例如，图3中示出了可以想到的G729比特流。如所示出的，通过阴影以及单下划线和双下划线描述了每个字段对应的物理意义。
如图3中所示，对于话音分析(例如，讲话人ID验证)重要的话音特性(例如，声道滤波器模型参数、音调延迟、幅度、话音残余(voice residue)的激励脉冲位置)都进行了描述。因此，依照本发明的至少一个目前优选的实施例，大致设想了诸如图4中所示的话音特征向量，基于其相应的物理意义对其进行分段，用于直接在压缩流中进行话音分析。L0、L1、L2和L3捕获讲话人的声道模型；P1、P0、GA1、GB1、P2、GA2和GB2捕获讲话人的长期音调信息；并且C1、S1、C2和S2捕获所探讨的语音的短期激励。
应当理解，依照至少一个目前优选的实施例，本发明包括用于接受以压缩形式传送的话音信号的装置，以及用于直接从压缩形式的话音信号实施话音分析的装置。同时，可以在运行适合的软件程序的至少一个通用计算机上实现这些元件。还可以在至少一个集成电路或至少一个集成电路的一部分上实现这些。因而，应当理解本发明可以以硬件、软件或二者的组合来实现。
如果文中没有用别的方式进行陈述，则假定特此通过引用的方式将文中所提及和引用的所有专利、专利申请、专利公布和其它公布(包括基于网络的公布)完全纳入本说明书，视同在此陈述其全部内容。
虽然在此已经参照附图描述了本发明的说明性实施例，但是应该理解到，本发明并不限于那些明确的实施例，并且在不背离本发明的范围和精神的情况下，本领域的技术人员可以对其进行各种其它的改变和修改。
权利要求
1.一种用于话音信号分析的设备，所述设备包括用于接受以压缩形式传送的话音信号的装置；以及用于直接从所述压缩形式的话音信号实施话音分析的装置。
2.根据权利要求1的设备，其中所述话音信号以分组传送。
3.根据权利要求2的设备，其中所述话音信号通过因特网以分组传送。
4.根据权利要求3的设备，其中所述分组以分组流传送，并且以固定的或可变的速率对所述分组流抽样，以便在向前发送所述分组用于话音分组分析之前降低所述分组传输速率。
5.根据前述权利要求中任何一项的设备，其进一步包括用于识别所述话音信号中与讲话人身份关联的至少一个特性的装置。
6.根据前述权利要求中任何一项的设备，其中所述接受装置适于接受与所述话音信号关联的特征向量；所述用于实施话音分析的装置适于从所述压缩形式的话音信号的比特流对所述特征向量进行分段。
7.根据权利要求6的设备，其中所述用于实施话音分析的装置适于基于相应的物理意义对所述特征向量进行分段。
8.根据前述权利要求中任何一项的设备，其中已经通过CELP算法对所述压缩形式的话音信号进行了压缩。
9.根据权利要求8的设备，其中所述CELP算法包括G729算法。
10.一种话音信号分析的方法，所述方法包括以下步骤接受以压缩形式传送的话音信号；以及直接从所述压缩形式的话音信号实施话音分析。
11.根据权利要求10的方法，其中所述话音信号以分组传送。
12.根据权利要求11的方法，其中所述话音信号通过因特网以分组传送。
13.根据权利要求12的方法，其中所述分组以分组流传送，并且以固定的或可变的速率对所述分组流抽样，以便在向前发送所述分组用于话音分组分析之前降低所述分组传输速率。
14.根据权利要求10至13中任何一项的方法，其进一步包括步骤识别所述话音信号中与讲话人身份关联的至少一个特性。
15.根据权利要求10至14中任何一项的方法，其中所述接受步骤包括接受与所述话音信号关联的特征向量；所述实施话音分析的步骤包括从所述压缩形式的话音信号的比特流对所述特征向量进行分段。
16.根据权利要求15的方法，其中所述实施话音分析的步骤包括基于相应的物理意义对所述特征向量进行分段。
17.根据权利要求10至16中任何一项的方法，其中已经通过CELP算法对所述压缩形式的话音信号进行了压缩。
18.根据权利要求17的方法，其中所述CELP算法包括G729算法。
19.一种机器可读的程序存储设备，确实可执行一种可由所述机器执行的指令的程序，以便进行用于话音信号分析的方法步骤，所述方法包括以下步骤接受以压缩形式传送的话音信号；以及直接从所述压缩形式的话音信号实施话音分析。
20.一种计算机程序，所述计算机程序包括当所述程序在计算机上运行时，适于实现权利要求10至18中任何一项的方法的程序代码装置。
全文摘要
用于直接从话音信号的压缩域实施话音分析(例如，讲话人ID验证)的机制以及相关的方法。优选地，基于特征向量相应的物理意义，直接从压缩比特流对所述特征向量进行分段。
文档编号G10L17/00GK101053015SQ200580037390
公开日2007年10月10日申请日期2005年10月26日优先权日2004年10月30日
发明者D·萨哈, Z-Y·谢申请人:国际商业机器公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：D.萨哈;Z-Y.谢
技术所有人：国际商业机器公司
我是此专利的发明人

上一篇：信息管理方法、信息管理程序以及信息管理设备的制作方法
上一篇：可扩展解码装置及可扩展编码装置的制作方法