特征提取装置和特征提取方法

文档序号：2831063阅读：198来源：国知局

专利名称：特征提取装置和特征提取方法
技术领域：
本发明涉及特征提取装置和特征提取方法。
背景技术：
构成语音的韵律信息的元素之一是基频模式信息。基频模式信息用于获得关于重音、音调或者有声或无声的信息。基频模式信息用于语音识别装置、语音端点检测装置、基音提取装置、说话人识别装置等。为了获得
基频模式信息，基音提取需要使用如在Sadaoki Furui所著的 "Digital speech processing" (Tokai University Press, pp. 57 to 59， 1985 )等中描述的技术执行。
曰本专利第2940835号提出了一种方法，其将在某一时刻(帧)t的语音的预测残量的自相关函数与在另一时刻(帧)s的语音的预测残量的自相关函数之间的互相关函数作为基音-频率差分特征。根据该方法，减少了基音提取错误的影响，从而考虑多个基音频率候选获得基音-频率差分信息。
然而，由于日本专利第2940835号提出的方法依赖于语音的预测残量，因此，特征由于背景噪声的影响而容易恶化。预测残量的自相关函数具有多个在与基音周期的整数倍对应的位置出现的峰值。当使用在基音周期的整数倍的位置处的峰值时，差分值变为整数倍。因此，为了获得正确的基音频率差分信息，用于获得互相关函数的预测残量的自相关函数的范围需要限定在正确的基音周期的附近。为此，基音周期需要事先获得，或者基音周期的范围需要根据说话人的声音高度而正确地限定。

发明内容
根据本发明的一个方面，特征提取装置包括频语计算器，其计算帧的对数频镨，所述对数频语包括在对数频率轴上等间隔地从输入语音信号中获得的频率分量；函数计算器，其根据在每个时刻计算的对数频i普的序列，计算在该时刻的对数频谱与在该时刻的前后某一时间宽度中包括的一个或者多个时刻的对数频傳之间的互相关函数；以及特征提取器，其提取互相关函数的集合，作为该帧的局部相对基频模式特征。
根据本发明的另一个方面，特征提取方法包括计算帧的对数频镨，其包括在对数频率轴上等间隔地从输入语音信号中获得的频率分量；才艮据在每个时刻计算的对数频i普的序列，计算在该时刻的对数频镨与在该时刻的前后某一时间宽度中包括的一个或者多个时刻的对数频语之间的互相关函数；以及提取互相关函数的集合，作为该帧的局部相对基频模式特征。

图1是根据本发明的第一实施例的语音识别装置的硬件结构的框图2是特征提取装置的功能性结构的框图3是在纯净语音的有声片段中包括的五个帧的对数频谱的图4是对数频i普的互相关函数的图5是从包括噪声的语音中获得的对数频i普的图6是图5的对数频谱的互相关函数的图7是根据本发明的第二实施例的特征提取装置的功能性结构的框
图8是根据本发明的第三实施例的特征提取装置的功能性结构的框
图9是部分地示出对数频i普的互相关函数的图IO是通过近似图9的互相关函数而获得的结果的图11是根据本发明的第四实施例的特征提取装置的功能性结构的框
图12是无声片段中的互相关函数的例子的图。
具体实施例方式
参照图1至图6说明本发明的第一实施例。第一实施例是在语音识别装置中包括的特征提取装置的应用实例。
图1是根据第一实施例的语音识别装置1的硬件结构的框图。根据第一实施例的语音识别装置1通常执行用计算机自动识别人的语音的语音识别过程。
如图1所示，语音识别装置1例如是个人计算机。语音识别装置1包括中央处理单元(CPU)2，其是计算机的主要部分，集中控制计算机的元件。存储基本输入/输出系统(BIOS)等的只读存储器(ROM) 3和可重写地存储各种数据的随M取存储器(RAM ) 4通过总线5与CPU 2连接。
存储各种程序的硬盘驱动器(HDD) 6、读取作为用于读取作为分布式程序的计算机软件的机构的CD (光盘)-ROM 7的CD-ROM驱动器8、控制语音识别装置1和网络9之间的通信的通信控制器10、执行诸如键盘和鼠标的各种操作指令的输入装置11和显示各种类型的信息的诸如阴极射线管(CRT)和液晶显示器(LCD )的显示装置12通过输^/输出(I/O ) (未示出)连接到总线5。
因为RAM4能够可重写地存储各种数据，所以，RAM 4具有CPU 2 的工作区域的功能，并且充当緩沖器等。
在图1中示出的CD-ROM 7实现根据本发明的存储介质，并存储操作系统(OS )和各种程序。CPU 2通过光盘驱动器8读取存储在CD-ROM 7中的程序，并将程序安装在HDD 6中。
各种类型的介质，例如，诸如数字通用磁盘(DVD)的各种光盘，诸如磁光盘和软盘的各种磁盘以及半导体存储器可用作存储介质，CD-ROM 7也可以。程序可以经由通信控制器10从诸如因特网的网络9下载，并且安装在HDD6中。在这种情况下，在发送端的服务器中存储程序的存储设
备是根据本发明的存储介质。程序可以在预定的os上运行。在这种情况下，各种处理(后面说明)的一部分可以被os接管，或者可以被包含为
配置预定的应用禾呈序软件或者OS的一组程序文件的一部分。
控制整个系统的操作的CPU 2基于在用作该系统的主存储器的HDD 6上装载的程序，执行各种处理。
下面对由CPU 2根据安装在语音识别装置1的HDD 6中的各种程序执行的功能中的根据第一实施例的语音识别装置1的特性功能进行说明。
图2是在语音识别装置1中包括的特征提取装置100的功能性结构的框图。如图2所示，语音识别装置1包括特征提取装置100，其根据程序提取局部相对基频模式特征。局部相对基频模式特征是构成语音的韵律信息的元素之一，用于语音识别处理。这是能够获取关于重音、语调或者有声/无声的信息的基频模式信息。
如图2所示，根据第一实施例的特征提取装置100包括对数频镨计算器101、互相关函数计算器102和特征提取器103。对数频镨计算器101 用作频镨计算单元。对数频谱计算器101对于每个预定间隔的时刻(帧) 计算包括在对数频率轴上等间隔地从输入语音信号中获得的频率分量的对数频谱。互相关函数计算器102用作函数计算单元。互相关函数计算器102 根据对数频镨计算器101在每个时刻计算的对数频i普的序列，计算在每个时刻的对数频谱与在该时刻的前后某一时间宽度中包括的一个或者多个时刻的对数频镨之间的互相关函数。特征提取器103用作特征提取单元，并提取互相关函数计算器102计算的互相关函数的集合，作为帧的局部相对基频模式特征。以下详细说明对数频镨计算器101、互相关函数计算器102 和特征提取器103。
首先说明对数频i普计算器101。对数频镨计算器101从输入语音信号中对每一帧(例如，10毫秒)获得对数频镨St(w)，其包括在对数频率轴上等间隔设置的频率点处获得的频率分量。在此，t表示帧号码，w(05w <\￥)表示频率点号码。具体地，对数频镨St(w)通过线性频语的频率轴变换而获得，其中线性频谱根据基于在对数频率轴上等间隔的频率点的傅里
叶变换、小波变换或者基于在对数频率轴上等间隔的频率点的傅里叶变换等获得。
可选地，可使用已执行振幅标准化的对数频镨。具体地，振幅标准化
通过使用将对数频i普的振幅的平均值设置为恒定值(例如，O)的方法、将方差设置为恒定值(例如，l)的方法、将最小值和最大值设置为恒定值(例如，0和1)的方法、将用于获得对数频谱的语音波形的振幅的方差设置为恒定值(例如，1)的方法等来执4亍。
可选地，可以采用通过消除频镨包络而获得的残余分量的对数频镨。残余分量的对数频谱可以从通过线性预测分析等获得的残留信号中获得，或者通过倒频语的高阶次分量的傅里叶变换而获得。振幅标准化可以对残余分量的对数频镨执行。
在计算对数频谱时，当用于获得频率分量的范围被设置在例如语音能量相对大的200赫兹到1600赫兹时，可以获得几乎不受背景噪声影响的对数频谦。
下面说明互相关函数计算器102。互相关函数计算器102对于每个帧t 计算该帧t的对数频谱St(w)和在该帧t的前后某一时间宽度(邻域N)中包含的帧t+t的对数频语S^(w)之间的互相关函数Ct(t， n)。在此，n表示在对数频率轴上偏差(滞后)的大小，它的值由包含在从-(W-l)到(W-l) 中的一定的整数的集合L给出。互相关函数Ct(t，n)通过下面的公式(1) 计算。
<formula>formula see original document page 8</formula> ( 1 )

其中St(w) = 0 (w<0，w^W)
公式(1)的右侧的项1/(W-lnl)补偿由于滞后的绝对值的增加而导致的用于计算互相关函数的频率分量的数量的减少，但并不总是必要的。当使用关系Ct(t， n) = Ct+t(-t， -n)时，可减少公式(1)的计算量。
特征提取器103提取如上所述获得的互相关函数的集合，即，CtCr，n) (t G N, n 6 L)，作为该帧t的局部相对基频模式特征。
图3至图6示出了对数频镨和互相关函数的例子。
图3是在纯净语音的有声片段中包括的五个帧的对数频i普的图。在图 3中，横轴表示频率点号码，纵轴表示帧号码。图3中的对数频镨包括在从200赫兹到1600赫兹的频带中在对数频率轴上等间隔设置的256个点的频率分量。振幅被标准化为具有平均值0和方差1。
图4是对数频语的互相关函数的图。图4描述了通过将图3中的帧77 设置为基准帧而获得的对数频谱。在图4中，横轴表示滞后，纵轴上的刻度表示基准帧与用于获得互相关函数的帧之间的帧号码的差。例如，差为 -2表示帧77和帧75之间的互相关函数。差为O等于自相关函数。与每个帧对应的方框的纵轴表示互相关函数的从-1到1的值，在方框中心的水平虛线表示O(零)。
也就是说，图4中的互相关函数的集合是在邻域N ={-2， -1， 0， 1， 2}的情况下帧77的局部相对基频;f莫式特征。
四个或者五个峰值出现在图3所示的对数频镨中，每一个对应于在基频的整数倍的位置的谐波分量。当帧号码增大时，对数频i普的峰值向右移动。这对应于增大基频。在图4中，当帧号码增大时，接近滞后O的峰值向右移动。这对应于对数频谱的峰值的移动。也就是说，接近互相关函数的滞后0的峰值的波动对应于基频的波动。
图3中的图表明了由于基频波动而导致的对数频镨的任何峰值(谐波分量)的移动量都相同。即，4壬何《%值(谐波分量)都具有相同的移动量。
根据第一实施例，局部相对基频模式特征是基于对数频语的互相关函数而获得的。因此，由于基频的波动而导致的对数频语的任何峰值(谐波分量)都具有相同的移动量，以使接近互相关函数的滞后0的峰值的波动对应于基频的波动。因此，基频模式信息可以无需基音提取或者基音周期的范围规定而获得。也就是说，无需选择特定的谐波分量来使用，并且局部相对基频模式特征可无需预先获得基频或者规定说话人的基频的范围而获得。
图5描述了从通过将10分贝的白噪声添加到图3所使用的语音中而得
到的语音中获得的对数频语。图6描述了从图5的对数频镨中获得的互相关函数。比较图3和图5，可以发现相似的对数频i普特别在较低的频带中获得。这是因为在接近从200赫兹到1600赫兹的频带中，语音能量相对大。在图6中，接近滞后O的峰值以与图4中相同的方式变化，il^明获得了与图4类似的局部相对基频模式特征。
如上所述，第一实施例能够防止特征容易受到背景噪声的影响。因此，可以获得稳定的局部相对基频模式特征而不过多受到噪声的影响。
下面参照图7说明本发明的第二实施例。与第一实施例相同或者对应的部分用相同的参考标记表示，并省略其说明。
图7是才艮据第二实施例的特征提取装置100的功能性结构的框图。如图7所示，才艮据第二实施例的特征提取装置100与第一实施例的不同在于其包括互相关函数递归计算器104,其根据互相关函数计算器102在每个时刻计算的互相关函数，在每个时刻递归地计算互相关函数。
互相关函数递归计算器104用作递归计算单元。互相关函数递归计算器104假定Ct(i)(t，n)-Ct(t，n)，并且根据下面的公式(2 )，递归地计算在每个帧t的互相关函数的集合Ct(")(t， n) (tGN， n6L)与在该帧t的前后某一时间宽度(邻域N )中包括的帧t+T的互相关函数的集合Ct+T ("5
O，n) (XGN，neL)之间的互相关函数Ct (i) (t， n)。
c SW-Vj)《')(H,j + n)(i^2) (2)
u j
用于根据用于计算互相关函数的分量的数量来补偿波动的项可以如公
式(1) 一样添加到公式(2)的右侧。与对数频镨类似的，可以执行互相关函数Ct(")(t，n) (t6N，i^L)的振幅的标准化。
特征提取器103提取这样计算的互相关函数的集合Ct(i)(t， n)( t 6 N， n G L)，作为该帧t的局部相对基频模式特征。
根据第二实施例，还考虑了除对象帧之外的帧之间的互相关性。因此，与只考虑对象帧和其它帧之间的互相关性的情况相比，能够获得更稳定的局部相对基频纟莫式特征。
下面参照图8到图10说明本发明的第三实施例。与第一实施例相同或
者对应的部分由相同的参考标记表示，并省略其iJL明。
图8是根据第三实施例的特征提取装置100的功能性结构的框图。如图8所示，根据第三实施例的特征^l:取装置100与第一实施例的不同之处在于其包括次元压缩器105，其在每个时刻压缩由互相关函数计算器102 在每个时刻计算的互相关函数的次元。
次元压缩器105用作次元压缩单元。次元压缩器105在每个帧t 4吏用离散余弦变换或者主成分分析来压缩由互相关函数计算器102计算的互相关函数Ct(T， n) ( n 6 L )的次元的数量。
图9是从图4所示的互相关函数取出的一部分的图，其中，滞后的范围是从-30到30。互相关函数Ct(T， n) ( -30 S n $30 )的次元的数量是61。
图10分别描述了用五次元离散余弦变换系数近似的图9所示的互相关函数。图IO表明即使执行了次元压缩也能获得与原始互相关函数几乎相同的模式。
特征提取器103提取通过次元压缩获得的互相关函数的集合，作为局部相对基频纟莫式特征。
根据第三实施例，可以获得用较少数量的次元有效表示的局部相对基频才莫式特征。
在根据第三实施例的特征提取装置100中，由互相关函数计算器102 在每个时刻计算的互相关函数^f皮次元压缩器105在每个时刻进行次元压缩。然而，本发明并不限于此。例如，次元压缩器105可以在如第二实施例所述的互相关函数递归计算器104根据由互相关函数计算器102在每个时刻计算的互相关函数在每个时刻递归地计算互相关函数之后，在每个时刻执4于次元压缩。
下面参照图11和图12说明本发明的第四实施例。与第一实施例相同或者对应的部分由相同的参考标记表示，并省略其说明。
图11是根据第四实施例的特征提取装置100的功能性结构的框图。如图11所示，根据第四实施例的特征提取装置100与第一实施例的不同之处
在于其包括近似函数计算器106和可靠性计算器107，其中，近似函数计算器106根据互相关函数计算器102在每个时刻计算的互相关函数，在每个时刻获得基频模式近似函数；可靠性计算器107根据互相关函数计算器 102在每个时刻计算的互相关函数和近似函数计算器106在每个时刻计算的基频模式近似函数，在每个时刻计算基频模式近似函数的可靠性。
近似函数计算器106用作近似函数计算单元。近似函数计算器106在每个帧t根据互相关函数计算器102计算的互相关函数的集合Ct(t， n) (t GN，neL)获得局部相对基频模式近似函数Ft (T)。当例如采用最小均方差标准时，近似函数Ft(T)可通过最小化由下面的公式(3)给出的误差 Et获得。
E'= Z SCt(r,n){Ft(r)-n}2 (3)
可靠性计算器107用作可靠性计算单元。可靠性计算器107在每个帧 t根据互相关函数计算器102计算的互相关函数的集合Ct(T， n) (i: G N， n G L)和近似函数计算器106计算的局部相对基频模式近似函数Ft(i:),获得
近似函数Ft(T)的可靠性。该可靠性通过基于近似函数Ft(T)的互相关函数的
值的集合Ct(i:， Ft(i:)) (t6N),或者诸如其平均值、方差和最大值的统计量给出。
特征提取器103提取局部相对基频模式近似函数Ft(T)和由此获得的可靠性，作为该帧t的局部相对基频模式特征。
图12是无声片段中的互相关函数的图。如图12所示，因为无声片段不包括基频，所以互相关函数除了滞后O (零)的自相关函数之外不包括清楚的峰值。然而，根据公式(3)，在这样的情况下，也可以获得近似函数。
当如图12所示的不包括基频时，互相关函数的值通常很小。因此，基于局部相对基频模式近似函数的互相关函数的值也很小。当如图4所示的包括基频且互相关函数包括清楚的峰值时，基于局部相对基频模式近似函数的互相关函数的值很大。也就是说，基于局部相对基频模式近似函数的
互相关函数的值表示基频的存在概率。
根据第四实施例，可获得局部相对基频模式近似函数，因此，即使在通常不包括基频的无声片段中，也可以获得局部相对基频模式特征。还可获得局部相对基频模式近似函数的可靠性，从而获得包括基频的存在概率的局部相对基频模式特征。
在根据第四实施例的特征提取装置ioo中，基频模式近似函数由近似
函数计算器106在每个时刻根据互相关函数计算器102在每个时刻计算的互相关函数获得，基频模式近似函数的可靠性根据互相关函数计算器102 在每个时刻计算的互相关函数和近似函数计算器106在每个时刻计算的基频模式近似函数而在每个时刻计算。然而，本发明并不限制于此。例如，近似函数计算器106可以在如第二实施例所述的互相关函数递归计算器 104根据互相关函数计算器102在每个时刻计算的互相关函数而在每个时刻递归地计算互相关函数之后，在每个时刻获得基频模式近似函数。
本发明不局限于上述的实施例。事实上，在不脱离本发明的精神的情况下可以修改构成元件。在实施例中公开的多个元件的适当组合可以构成各种发明。例如，一些构成元件可以从实施例中所描述的构成元件中除去。应用于不同实施例的构成元件可以适当地组合。
所述实施例已经描述了语音识别装置所包括的特征提取装置的应用实例。然而，本发明并不限于此。本发明可以应用于需要基频模式信息的语音周期检测装置、基音提取装置、说话人识别装置等所包括的特征提取装置。
权利要求
1.一种特征提取装置，包括频谱计算器，其计算帧的对数频谱，所述对数频谱包括在对数频率轴上等间隔地从输入语音信号中获得的频率分量；函数计算器，其根据在每个时刻计算的所述对数频谱的序列，计算在该时刻的对数频谱和在该时刻的前后某一时间宽度中包括的一个或多个时刻的对数频谱之间的互相关函数；以及特征提取器，其提取所述互相关函数的集合，作为该帧的局部相对基频模式特征。
2. ^M'J要求1所述的装置，其中，由所 ^#算器计算的对 ^普是通过消ftH^普包络而^^得的残^^i:的对Mi普。
3. 如权利要求l所述的装置，其中，所it^ifi十算器对所ii^^语的振幅进蹄准化。
4. 如权舰求1所述的装置，还包括递归计算器，期^L^在每个时刻计算的^f目关函数的序列，在每个时刻递归和重复地计算在该时刻的互相关函数和在该时刻的前后某一时间宽度中包括的一个或者多个时刻的^f目关函数之间的^目关函数；其中，所述特 €取器提取由所祖归计算器递归和重复地计算的^目关函数的条合，作为该帧的局部相对^^频^^式特征。
5. :M5L利要求1所述的装置，还包括^L压缩器，其在每个时刻压缩所i^X^目关函数的次元；其中，所述特4it^取器提赠i^斤ii^L压缩器的紋压缩的^目关函数的 #，作为该帧的局部相对1^频才莫式特征。
6. 如权顺求1所述的装置，还包拾近似函数计算器，其在每个时刻4Nt所^f目关函Ml得近似函数；其中，所述特4iE^取器提取由所^it似函数计算器获得的近似函数，作为该帧的局部相^"l^频才莫式4t征。
7. 如权利要求6所述的装置，还^:可靠性计算器，其获得基于所iiii似函数的a目关函数值的序列g计量，作为所idi^似函数的可靠性；其中，所述特4iE^取器提取由所述可靠性计算器获得的可靠性，作为该帧的局部相对基频模式特征。
8. —种特;^取方法，包括计算帧的对l!tM镨，所ii^t^Mi普^^^t数频率轴上等间隔i4A^r入^" 信号中获得的频率^J:;才娥在每个时刻计算的所it^^M镨的序列，计算在该时刻的对額淋在该时刻的前后某一时间宽度中包括的一个或者多个时刻的对，i瞽之间的W目关函数；以及提^^斤ii^相关函数的^，作为该帧的局部相对J^频才莫式特征。
全文摘要
本发明涉及一种特征提取装置，其包括频谱计算器，其计算帧的对数频谱，所述对数频谱包括在对数频率轴上等间隔地从输入语音信号中获得的频率分量；函数计算器，其根据在每个时刻计算的所述对数频谱的序列，计算在该时刻的对数频谱和在该时刻的前后某一时间宽度中包括的一个或者多个时刻的对数频谱之间的互相关函数；以及特征提取器，其提取所述互相关函数的集合，作为该帧的局部相对基频模式特征。
文档编号G10L15/00GK101369424SQ20081017146
公开日2009年2月18日申请日期2008年8月15日优先权日2007年8月17日
发明者益子贵史申请人:株式会社东芝

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：益子贵史
技术所有人：株式会社东芝
我是此专利的发明人

上一篇：高频带信号的编解码方法及装置的制作方法
上一篇：键盘乐器用白键的制作方法