用于特征提取的装置、方法以及计算机程序产品的制作方法

文档序号:2832206阅读:225来源:国知局
专利名称:用于特征提取的装置、方法以及计算机程序产品的制作方法
技术领域
本发明涉及用于特征提取的装置、方法以及计算机程序产品,其从输 入语音信号中计算基音频率(pitch frequency )之间的差异。
背景技术
每单位时间的差分基音频率是语音韵律信息的一个要素。通过差分基 音频率信息,可以获得重音、语调的信息,以及语音是发音还是未发音的 声音。因此,在语音识别设备、话音活动检测器、基音频率估计设备、说 话人识别设备等等中采用差分基音频率信息。例如,在Sadaoki Furui发 表在Tokai University Press, pp. 57-59 (1985)上的"Dijitaru onsei Shori (Digital Speech Processing)"中描述了 一种获得差分基音频率信息的方法。 根据在该文献中的方法,首先估计基因频率,然后计算基音频率随时间改 变的量以获得差分基音频率信息。
然而,采用上述文献中的方法,却估计了错误的基音频率,因此从这 些基音频率获得的差分基音频率也是错误的。最近,提出了较不易受到基 音频率估计中的误差影响的获得差分基音频率信息的方法。在 JP-A2940835 (KOKAI)中描述了一种这样的方法。根据该文献,计算了 在时间(帧)t和s处的语音的预测残差的自相关函数之间的互相关函数。 然后,提取该互相关函数的峰以便获得差分基音频率信息,在差分基音频 率信息中由于考虑了多个基音频率选择而减小了在基音频率估计中的误差的影响。
然而,采用4艮据JP-A 2940835 (KOKAI)的方法,基音频率估计基 于语音的预测残差。这意味着,当提取互相关函数的峰值时,在背景噪声 的影响下估计了不对应差分基音频率的峰值,这使得难以获得精确的差分 基音频率信息。此外,在预测残差的自相关函数中,在整数倍的基音周期 处出现了多个峰。如果纳入在整数倍处的峰,差分的量也要乘以该整数。 出于该原因,为了获得精确的差分基音频率信息,用于获得互相关函数的 预测残差的自相关函数的范围要窄到接近精确的基音频率。那么,必须提 前计算基音频率,并且必须根据说话人的话音基音适宜地确定基音频率的 范围。然而,技术上难以适宜地确定基音频率的范围。出于该原因,寻找 这样一种获得差分基音频率信息的技术,其中减小背景噪声的影响,而不 需缩小基音频率的范围。

发明内容
根据本发明的一个方面, 一种特征提取装置包括谱计算单元,被配 置为基于输入语音信号为以规则时间间隔限定的帧中的每一个帧计算具有 在对数频率尺度上规则间隔处获得的频率分量的频率i普,并由此产生所述 频率镨的时间序列;互相关系数计算单元,被配置为对于所述帧中的每一 个目标帧计算为邻近所述目标帧并彼此间隔预定帧宽度的两个不同的帧而 计算的频率谱之间的互相关系数;以及移动量预测单元,-故配置为使用所 述互相关系数来预测在对数频率尺度上所述频率谱相对于所述预定帧宽度 的移动量。
根据本发明的另一方面, 一种在包括谱计算单元、互相关系数计算单 元和移动量预测单元的特征提取装置中执行的特征提取方法,所述方法包 括通过所述谱计算单元,基于输入语音信号,为以规则时间间隔限定的 帧中的每一个帧计算具有在对数频率尺度上规则间隔处获得的频率分量的 频率谱,并由此产生所述频率谱的时间序列;通过互相关系数计算单元, 对于所述帧中的每一个目标帧计算为邻近所述目标帧并彼此间隔预定帧宽度的两个不同的帧而计算的频率i普之间的互相关系数;以及通过移动量预
所述预定帧宽度的移动量。
根据本发明的又一方面的计算机程序产品使计算机执行根据本发明的 方法。


图1是示出了根据笫一实施例的语音识别设备21的硬件结构的图; 图2是详细示出了根据实施例的特征提取函数的框图; 图3是示出了根据实施例由特征提取装置100执行的特征提取方法的 过程的流程图4是示出了根据实施例在步骤S300中由互相关系数计算单元102 执行的计算互相关系数的操作的详细过程的流程图5是示出了根据实施例由移动量预测单元103执行的预测移动量的 操作的详细过程的流程图6的示图示出了对于清洁话音的发声段中包括的两个邻近的帧,由 根据实施例的谱计算单元01计算的示例性频率谱;
图7的示图示出了在频率谱的帧t与t-l之间的由根据实施例的互相关 系数计算单元102计算的示例性互相关系数;
图8的示图通iti文大图7中的-100与100之间的移动量的范围示出了 互相关系数具有其峰值处的移动量的位置。应该注意,图6的水平轴指示 频率谦中的移动量,竖直轴指示互相关系数;
图9的示图示出了互相关函数具有其峰值处的移动量与计算该互相关 系数所采用的频率谱之间的关系;
图10的流程图示出了根据第二实施例互相关系数计算单元102计算互 相关系数的操作的详细过程;
图11的流程图示出了根据第三实施例互相关系数计算单元102计算互 相关系数的操作的详细过程;图12的流程图示出了根据第四实施例互相关系数计算单元102计算互
相关系数的操作的详细过程;
图13的流程图示出了根据第五实施例互相关系数计算单元102计算互
相关系数的操作的详细过程;
图14的流程图示出了才艮据第五实施例移动量预测单元103预测移动量
的操作的详细过程。
具体实施例方式
根椐本实施例,解释了并入在语音识别设备中的特征提取装置。简单 而言,语音识别设备执行语音识别方法以通过计算机自动识别人类语音。
图1是语音识别设备21的硬件结构的图。语音识别设备21可以为个人计 算机,包括中央处理单元(CPU) 22、只读存储器(ROM) 23、随机存取 存储器(RAM) 24、硬盘驱动器(HDD) 26、压缩盘ROM (CD-ROM) 驱动器28,通信控制设备30、输入设备31、显示设备32,以及将这些单 元连接到彼此的总线25。
CPU 22是计算机中枢控制其他单元的主要单元。ROM 23是在其中存 储例如BIOS的各种程序和各种数据的只读存储器。RAM 24是在其中以 可重写的方式存储各种数据的存储器。RAM 24作为CPU 22的工作区域 并起到緩沖的作用。通信控制设备30控制语音识别设备21与网络29之间 的通信。输入设备31可以是键盘和鼠标,并接受用户输入的各种操作指令。 显示设备32可以为阴极射线管(CRT)或液晶显示器(LCD)并显示各 种类型的信息。
HDD 26是在其中存储各种程序和各种类型的数据的主存储设备。 CD-ROM驱动器28读取存储在CD-ROM 27中的各种类型的数据和程序。 根据该实施方式,CD-ROM 27在其中存储操作系统(OS )和各种程序。 CPU 22通过CD-ROM驱动器28读取存储在CD-ROM 27中的程序,并 将其安装到HDD26,执行安装的程序,并实现各种功能。
在当CPU 22执行HDD 26上安装的各种程序时语音识别设备21上实
8现的各种功能中,下面将解释根据本实施例的提取特征的功能。图2是详 细示出特征提取功能的框图。特征提取功能意义为从输入的语音信号获得 基音频率移动特征的功能。基音频率移动特征是指示了基音频率改变了多 少的信息。采用该信息以获得关于重音、语调以及语音毛良音还是未发音 的声音的信息。他们用作为语音识别所需要的韵律信息的要素。在图2中 示出的特征提取装置100对应于特征提取功能。该特征提取装置100包括 i普计算单元101,互相关系数计算单元102以及移动量预测单元103。
谱计算单元i01接收以规则的间隔(例如,10毫秒)划分为预定长度 (例如,25毫秒)的语音信号。预定的长度称为帧。谱计算单元101对于 输入语音信号的每一个帧计算在对数频率尺度上规则间隔处获得的频率分 量的频率镨。通过以对数的形式转变频率(线性频率)来获得对数频率。 语计算单元101基于对数频率尺度上规则间隔处的频率点执行傅里叶变换 和小波变换以计算频率i普。可选地,语计算单元101通过对线性频率谞进 行频率尺度变换计算频率谱,该线性频率谱通过对线性频率尺度上规则间 隔处的频率点进行傅里叶变换而获得。
互相关系数计算单元102为每一个帧计算由谱计算单元101计算的这 样的两个帧的频率谱之间的互相关系数,该两个帧邻近目标帧并彼此分开 预定数目的帧。移动量预测单元103预测该预定数目的帧的宽度的频率语 在对数频率尺度上的移动量,并输出该量作为基音频率移动特征。
下面将参考图3解释根据本实施例的特征提取装置100执行的特征提 取方法的过程。当在步骤S100输入目标语音信号时,特征提取装置100 将语音信号划分为帧,并将语音信号的帧输入到镨计算单元IOI以对每一 个帧执行下列过程。这里假设,信号包括数目T的帧。每一个目标帧被标 号为t,其中t (lSt^T)。
在步骤S200,谱计算单元101从输入语音信号中计算具有对数频率尺 度上规则间隔处的频率分量的频率镨的时间序列。对任一帧a的频率谱被 表示为Sa (w)。频率点-故标号为w (0^w<W)。如上所述,Sa (w)是 通过傅里叶变换、小波变换、频率尺度变换等等而获得。应该将频率分量的范围限定在声音能量相对高的范围,例如,100至 2000 Hz。在该范围,可以获得较不易受到背景噪声影响的谱。
在步骤S300,互相关系数计算单元102基于在步骤S200获得的频率 谱来计算互相关系数。首先,解释任意两个帧的频率谱之间的互相关系数 的计算。对于帧a和b (1^a、 b^T)的频率镨Sa (w)和Sb (w),由 公式l计算互相关系数CS(a,b) (n)。从-(W-l)与W-l之间的一组特定 整数中给出值n。
CS"一2X(w)A(w+n) Osw<W …(1)
为了才艮据移动量的绝对值的增加补偿在计算互相关系数时使用的频率 分量数目的减小,公式的右侧可以乘以项1/(W-|n|)。此外,可以归一化 互相关系数的幅度。
下面将参考图4详细地解释才艮据本实施在步骤S300中互相关系数计 算单元102计算互相关系数的方法的过程。在步骤S311,互相关系数计算 单元102计算为这样的两个帧而计算的频率谱之间的互相关系数,所述两 个帧邻近目标帧并彼此分开预定数目的帧。换言之,互相关系数计算单元 102计算邻近目标帧t的帧a的频率谱Sa (w)和与帧a间隔k个帧的帧 a-k的频率谱Sa-k (w)之间的互相关系数CS(a, a—k) (n) (k^l,并且, l芸a、 a-k^T)。
例如,当a=t和k=l时,对于每一个帧获得目标帧t与邻近帧t的帧 t-1的频率i普之间的互相关系数。
当a=t+l和k=2时,对于每一个帧获得邻近帧t的帧t-1与同样邻近 帧t的帧t+1的频率谱之间的互相关系数。
应该注意,没有具体限定k的值,并且对于每一个帧值k可以变化。
然后,互相关系数计算单元102输出获得的互相关系数CS(a, a.k) (n) 作为互相关系数Ct(k) (n),其中C/k) (n) =CS(aa—k) (n)。
在图3的步骤S400,移动量预测单元103通过使用在步骤S300输出 的互相关系数Ct(k) (n)预测频率谱在对数频率尺度上的移动量。图5是示出了在步骤S400中预测移动量的操作的详细过程的流程图。在步骤 S411,移动量预测单元103预测对于k个帧宽度的移动量。更具体而言, 移动量预测单元103使用在步骤S300获得的互相关系数Ct(k) ( n )根据 公式2计算移动量dt(k),并由此预测关于k个帧的宽度的频率谱的移动量。
d(t) = arg丽C, (ii) …(2〉
可以根据公式3计算移动量dt(k)。在该公式中,e是关于互相关系数
的预定的阈值,E[
是计算要素的平均值的操作。
d'°°:=E[ri!C/fc>(ii)>, -"(3〉
可以限制用于预测移动量的范围。由此可以减少预测移动量所需要的 计算量。
在步骤S412,基于在步骤S411为k个帧的宽度预测的频率镨的移动 量dt(k),移动量预测单元103根据公式4计算关于一个帧的宽度的移动量
dt("。
1 fc
在图3中的步骤S500,特征提取装置100输出在步骤S400为一个帧 的宽度计算的移动量d/"作为基音移动特征。结果,获得了对应于差分基 音频率信息的基音频率移动特征作为指示基音频率改变了多少的基音频率 移动信息的一个项。
可选地,在步骤S500,特征提取装置100可以根据^^式5基于移动量 d/"计算对于一个帧的基音频率的改变的比率Dt,并输出该比率作为基音 频率移动特征。在该7>式中,Fmax表示线性频率尺度上的最大频率(例如, 4000 Hz),而F她表示线性频率尺度上的最小频率(例如,100 Hz)。
D, ,p。。U;10 …(5)
下面参考图6到9讨论对数频率尺度上的频率谱和互相关系数的实例,
ii图6是示出了谦计算单元101为两个帧计算的示例性频率镨的图。该两个 帧彼此相邻并包括在清洁语音的发声段中。图6中的图的水平轴指示频率 点数目,竖直轴指示帧数目。假设,F岭为100 Hz, F咖x为2000 Hz, W 为2048。图7是示出了互相关系数计算单元102为帧t和帧t-l的频率谱 计算的互相关系数的实例的图。该图的水平轴表示频率谱的移动量,而竖 直轴表示互相关系数。图8示出了在图7中的-100与IOO之间的移动量范 围的放大视图中互相关系数达到其峰值的移动量的位置。该图的水平轴指 示频率i普的移动量,而竖直轴指示互相关系数。竖直虚线示出了互相关系 数达到最大值时的移动量的位置。根据该图,当互相关系数达到其最大值 时,移动宽度为-23。
图9的图示出了互相关系数达到最大值的移动量与在计算该互相关系 数时使用的频率谱之间的相互关系。在该图中,帧t-l的频率谗的频率点 数目沿使互相关系数达到最大值的偏移量方向滑动(即,向左23的宽度), 以《更在帧t的频率i普之上显示该谱。因为移动帧产生了空白,所以帧t-l 的频率语右端下降到0。如图9所示,在帧t-l的频率谱的频率点数目在图 上向左移动23之后,在对数频率尺度上帧t和t-l的频率i普的峰(谐波分 量)的位置基本上彼此重合。
通过计算具有对数频率尺度上规则间隔处的频率分量的频率谱,移动 量对于根据基音频率移动的频率镨的任何峰(谐波分量)是相同的,由此 该移动量对应于具有互相关系数中的较大的互相关系数的移动量。通过由 互相关系数预测对应于差分基音频率的移动量,可以获得差分基音频率信 息作为基音频率移动信息,而不会限制基音预测和基音频率的范围。显著 地减小了背景噪音对最终信息的影响。
现在描述根据第二实施例的特征提取装置。与第 一 实施例的单元相同 的单元具有相同的参考标号,并略去了对其的解释。
根据第二实施例的特征提取装置100与根据第一实施例的特征提取装 置100的区别在于下列方面。根据第二实施例的特征提取装置100的互相 关系数计算单元102为邻近目标帧的两个或更多个不同的帧中的每一个帧计算由语计算单元101为邻近的帧计算的频率谱之间的互相关系数,该邻
系数计算单元102将计算的互相关系数整合为一个互相关系数。
下面解释根据本实施例的特征提取装置100所执行的特征提取方法的 过程。总的特征提取方法与图3所示例的方法相同。才艮据第二实施例的方 法的过程与第一实施例中对应部分的不同在于其中互相关系数计算单元 102计算互相关系数的步骤300的操作。图10是互相关系数计算单元102 计算互相关系数的操作的详细过程的流程图。在步骤S321,互相关系数计 算单元102为邻近目标帧的两个或更多个帧中的每一个帧计算在步骤S200 为邻近的帧中的一个帧和与邻近的帧间隔预定数目帧的帧计算的频率谙之 间的互相关系数。换言之,互相关系数计算单元102为邻近目标帧t的数 目为I的帧u(i) (l-i芸I,以及1^2)中的每一个帧计算帧u (i)的语 SuU) (w)与与帧u (i)间隔k个帧的帧u (i) -k的谱Suu)-k (w)之间 的互相关系数CS(uw, u(i)—k〕 (n) (k〇l,并且l^u(i)、 u(i)-k^T)。 例如,当u (1) =t-l, u ( 2 ) =t, u ( 3 ) =t+l以及k=l时,为邻近帧 t的三个帧中的每一个帧获得邻近的帧的频率谱之间的互相关系数。
在步骤S322,互相关系数计算单元102将在步骤S321中计算的多个 互相关系数整合为互相关系数Ct(" (n),并输出最终的互相关系数。更 具体而言,互相关系数计算单元102根据公式6整合互相关系数。
在步骤S322 ,互相关系数计算单元102可根据公式7进行互相关系数 的整合。
C,V),n;cS(。,w(n) '-'(7) 可选地,互相关系数计算单元102可根据公式8进行互相关系数的整合。C)k>(n) = inaACS(,.B-k>(n) …(8)
由计算的邻近目标帧的多个帧中的一个帧和与该邻近帧间隔预定数目 帧的帧的频率镨来计算每一个互相关,并且为邻近目标帧的帧中的每一个 帧计算互相关系数。然后,将互相关系数整合为一个互相关系数。由此可 以以比仅仅计算一个互相关系数更稳定的方式获得基音频率移动信息。
接下来,解释根据第三实施例的特征提取装置。与第一或第二实施例 相同的元件具有相同的参考标号,并略去了对其的解释。
根据笫三实施例的特征提取装置100与根据第一实施例的特征提取装 置100的区别在于下列方面。特征提取装置100的互相关系数计算单元102 基于谱计算单元101计算的频率谱的时间序列,产生频率镨段的时间序列, 该频率i普段通过连接沿时间方向连续的两个或更多个频率i瞽获得。对于每 一个帧,互相关系数计算单元102还计算分别为邻近目标帧并彼此间隔预 定数目帧的两个帧产生的频率谦段之间的互相关系数。
下面解释根据本实施例的特征提取装置100所实施的特征提取方法的
过程。特征提取方法的总过程与图3中的相同。本实施例与笫一实施例的 区别在于步骤S300中互相关系数计算单元102计算互相关系数的操作。 图ll是详细示出了该操作的流程图,其中在步骤S300互相关系数计算单 元102计算互相关系数。在步骤S331,互相关系数计算单元102使用在步 骤S200中计算的频率谱的时间序列,并由此计算连接沿时间方向连续的 两个或更多个频率谱获得的频率谱段的时间序列。更具体而言,当目标帧 t的频率谱为S产(St (0) , St(l),…,St(W-l))时,互相关系数计 算单元102根据公式9通过连接沿时间方向连续的数目为J的帧v (i)的
谱Su(i)产生频率谱段。
S邻,=(S,A{ ,..,SttW):(S。w(0),Su(!>(l),--,,S8(,)(W-1),"',S柳(0)'Su。)①,…,S⑧《W-i》
…(9)
例如,当v(l)4-l, v(2)=t, v (3) =t+l以及J=3时,通过连接 邻近帧t的三个帧来为每一个帧产生频率谱段。在步骤S332,互相关系数计算单元102计算单独为邻近目标帧t并彼 此间隔预定数目帧的两个帧产生的频率镨段之间的互相关系数。更具体而 言,互相关系数计算单元102根据公式10计算邻近帧t的帧a的频率傳段 Sega ( o ) ( 0^o<J W )和与帧a间隔k个帧的帧a-k的频率语段Sega.k (p)之间的互相关系数Ct(k) (n)。值o由在-(J W-l )与J W-l之 间的 一組确定的整数给出。
C =》eg,(w)-Seg,—k(w+n) 0-w<J-W …(10)
通过连接沿时间方向连续的两个或更多个频率i普产生频率谗段的时间
序列,并为每一个目标帧计算邻近目标帧的两个频率镨段之间的互相关系
数。以该方式,可以比计算单独帧的频率语之间的互相关系数更可靠地获
得基音频率移动信息。
现在解释根据第四实施例的特征提取装置。与第一到第三实施例相同
的元件具有相同的参考标号,并略去了对其的解释。
根据第四实施例的特征提取装置100与根据第一实施例的特征提取装
置100的区别在于下列方面。特征提取装置100的互相关系数计算单元102 通过使用镨计算单元101计算的频率谱的时间序列,来计算每一个帧与作 为参考帧的目标帧的相关系数的时间序列。然后,互相关系数计算单元102 递归更新相关系数的时间序列。当符合结束递归过程的条件时,互相关系 数计算单元102通过使用递归计算的相关系数的时间序列来计算目标帧的 互相关系数。
下面解释根据本实施例的特征提取装置100所实施的特征提取方法的 过程。该特征提取方法的总过程与图3中的相同。根据第四实施例,其中 步骤S300中互相关系数计算单元102计算互相关系数的操作的过程与第 一实施的对应部分不同。图12是示出了在步骤S300中的操作过程的流程 图,在其中互相关系数计算单元102计算互相关系数。在步骤S341,互相 关系数计算单元102使用在步骤S200计算的频率谱的时间序列并利用目 标帧作为参考帧来计算相关系数的时间序列。更具体而言,互相关系数计算单元102使用频率谱的时间序列以帧t作为参考帧来计算相关系数的时 间序列CS(y, t) (n) (l^y<T),并输出时间序列为CSW (y, t) ( n )。应 该注意,CS{0}(y't) (n) =CS(y, t) (n)。
在步骤S342,互相关系数计算单元102确定是否满足终结递归过程的 条件。终结递归过程的条件的意义为相关系数的递归计算是否达到预定的 次数。换言之,互相关系数计算单元102对步骤S343中进行的相关系数 的更新进行计数,并确定计数x是否达到目标计数X。当x达到X (步骤 S342的是),系统进行到步骤S344。如果x没有达到X(步骤S342的否), 系统进行到步骤S343。
在步骤S343,基于互相关系数的时间序列,互相关系数计算单元102 更新其中目标帧作为参考帧的相关系数的时间序列。也就是,互相关系数
计算单元102从根据公式11的互相关系数的时间序列CS{X—1} (y, t) ( n )递 归更新通过使用目标帧t作为参考帧计算的相关系数的时间序列CSw(y, t) (n)。
<formula>formula see original document page 16</formula>以与公式"i相似的方式,项1/ (W-|n|)可被添加到公式11的右边以 根据移动量的绝对值的增加补偿在计算互相关系数时使用的频率分量数目 的减小。此外,可以归一化互相关系数的幅度。
在步骤S344,互相关系数计算单元102计算这样的相关系数的时间序 列之间的互相关系数作为帧t的互相关系数,该相关系数的时间序列是分 别为邻近目标帧t (参考帧)并彼此间隔预定数目帧的两个帧而计算的。 换言之,互相关系数计算单元102基于使用目标帧t作为参考帧计算的相 关系数的时间序列CSW(V, t) (n),根据公式12来计算邻近目标帧t的帧 a的相关系数CSW(a, t) (n)和与帧a间隔k个帧的帧a-k (k^l,并且 l刍a、 a-k芸T)的相关系数CSW(a.k, t) ( n )之间的互相关系数Ct(k) ( n ), 并输出该互相关系数。<formula>formula see original document page 16</formula>通过递归地获得相关系数,对应于基音频率的变化的镨峰(谐波分量)
的移动量出现在相关系数的非常尖的峰的位置处。因此,获得的基音频率
移动信息是抗噪声的。
接下来解释才艮据第五实施例的特征拔一取装置。与第 一到第四实施例相
同的元件具有相同的参考标号,并略去了对其的解释。
根据笫五实施例的特征提取装置100与根据第一实施例的特征提取装 置100的区别在于以下方面。对于每一个帧,特征提取装置100的互相关 系数计算单元102通过采用预定的不同的帧宽度来计算这样的频率语之间 的互相关系数,该频率镨是由谱计算单元101分别为邻近目标帧并彼此间 隔预定数目帧的两个帧计算的。移动量预测单元103预测对应于互相关系 数计算单元102计算的两个或更多个互相关系数的两个或更多个移动量, 并将这些移动量整合为一个移动量。
下面解释根据本实施例的特征提取装置100所实施的特征提取方法的
过程。特征提取方法的总的过程与在图3中示例的方法相同。根据本实施 例的过程与图3的对应部分的区别在于步骤S300的互相关系数计算单元 102计算互相关系数的操作和步骤S400中的移动量预测单元103预测移动 量的操作。
首先解释步骤S300的方法。图13是在步骤S300中互相关系数计算 单元102计算互相关系数的操作的流程图。在步骤S351,互相关系数计算 单元102通过采用预定的不同的帧宽度为每一个帧计算在步骤S200中分 别为邻近目标帧并彼此间隔预定数目帧的两个帧计算的频率镨之间的互相 关系数。换言之,当帧宽度的数目K净錄示为k(O (2SKI,并且Ig2) 时,互相关系数计算单元102对于两个或更多个宽度k (i)中的每一个计 算邻近帧t的帧a (i) (l〇a (i) ST)的谱Sa(i) (w)和与帧a (i)间 隔k (i)个帧的帧a (i) -k (i)的谱Saw-k(i) (w)之间的互相关系数 CS (a (i) , a (i) -k (i) ) ( D ),并输出该互相关系数为ct(k(i" (n)。应该注意 Ct(k(1)) ( n ) = CS (a (i) , a (i) .k (i) ) ( n )。
例如,当k ( 1) =2, k ( 2 ) =4, a (1 ) =t+l以及a ( 2 ) =t+2时,互
17相关系数计算单元102对于每一帧输出相对目标帧彼此间隔两个帧的帧的 频率i普之间的互相关系数Ct (2) (ii)和相对目标帧彼此间隔四个帧的帧的 频率语之间的互相关系数(V" (n)。
首先,解释步骤S400中的操作的过程。图14是在步骤S400中移动 量预测单元103预测移动量的操作的流程图。在步骤S451,移动量预测单 元103预测其每一个对应于多个互相关系数的多个移动量。换言之,移动 量预测单元103预测对应于在步骤S351中计算的每一个互相关系数
Ct(k(i)) (II)的移动量dt("i"。
例如,当k (1) =2, k (2) =4时,可以预测2-帧-宽度移动量dta) 和4-帧-宽度移动量d/"。
在步骤S452,移动量预测单元103将多个移动量整合为一个移动量。 更具体而言,移动量预测单元103根据公式13将在步骤S451中预测的移
动量dt(k"))整合为移动量C
d
l k(;)
移动量预测单元103可以在步骤S452中根据公式14整合移动量。这 里假设,1 (0 =k 0) /2 (k (i)总为偶数)。
2j柳
根据本实施例,为每一个帧计算对应于两个或更多个帧宽度的两个或 更多个互相关系数,并预测对应于这些互相关系数的两个或更多个移动量, 并将这些移动量整合为一个移动量。出于该原因,即使存在不能由其以高 精确度获得频率分量的帧时,也可以减小这样的帧的影响。由此,可以以 可靠的方式获得基音频率移动信息。
根据上述实施例在步骤S200计算的频率谱可以为幅值被归一化了的 频率镨。更具体而言,可以通过确定频率谱的幅值的平均值作为特定值(例 如,0)、确定变化作为特定值(例如,1)、确定最小值和最大值作为特定值(例如,0和1)以及确定从其获得频率谱的语音波形的幅值的变化作
为特定值(例如,1)的方法中的任何一种来进行幅值的归一化。
在步骤S200计算的频率谱可能为去除了i普包络分量之后的剩余分量 的镨。可以从通过线性预测分析等获得的剩余信号(residual signal)、或 通过倒镨(cepstrum)的较高阶分量的傅立叶变换来计算剩余分量语。此 外,可以对剩余分量的镨进行幅值归一化。
在步骤S200计算的频率i普可以为倒语。此外,可以对倒语进行幅值 归一化。
在步骤S200计算的频率语可以为自相关系数。此外,可以对自相关 系数进行幅值归一化。
根据上述实施例,采用CD-ROM 27用于在其中存储各种程序和各种 类型的数据的计算机可读介质。然而,可以采用各种光盘例如DVD、各种 磁光盘、各种磁盘例如柔性盘、半导体存储器以及其他存储介质。此外, 可以通过通信控制设备30从网络29例如互联网下载程序并安装到HDD 26中。传输服务器中的在其中存储程序的存储设备也被认为是计算机可读 介质。在语音识别设备21上执行的程序可以为在操作系统(OS)上运行 的程序。操作的一部分可以在OS上卸载,或被包括作为构成了特定应用 或OS的程序文件的一部分。
在根据上述实施例的实例中,讨论了将特征提取装置应用到语音识别 设备。然而,应用并不局限于此。具有上述功能的特征提取装置可以被应 用到需要基音频率移动信息的语音段检测设备、基音估计设备以及说话人 识别i殳备。
本领域的技术人员容易想到附加的优点和修改。因此,本发明在其较
因此,可以做出各种修改而不背离所附权利要求及其等价物所限定的一般 性发明构想的精神或范围。
权利要求
1. 一种特征提取装置,包括谱计算单元,被配置为基于输入语音信号,为以规则时间间隔限定的帧中的每一个帧计算具有在对数频率尺度上的规则间隔处获得的频率分量的频率谱,并由此产生所述频率谱的时间序列;互相关系数计算单元,被配置为对于所述帧中的每一个目标帧计算为邻近所述目标帧并彼此间隔预定帧宽度的两个不同的帧而计算的频率谱之间的互相关系数;以及移动量预测单元,被配置为使用所述互相关系数来预测在所述对数频率尺度上所述频率谱相对于预定帧宽度的移动量。
2. 根据权利要求l的装置,其中所述互相关系数计算单元对于所述帧 中的每一个帧计算为这样的两个或更多个不同的帧计算的频率语之间的互 相关系数,所述两个或更多个不同的帧包括邻近所述目标帧的邻近帧和与 所述邻近帧间隔预定帧宽度的帧,并将计算的两个或更多个互相关系数整 合为一个互相关系数。
3. 根据权利要求l的装置,其中所述互相关系数计算单元通过使用所 述频率谱的时间序列产生在其中沿时间方向连续的两个或更多个频率谱被 连接的频率镨段的时间序列,并对于所述帧中的每一个目标帧计算为这样 的两个帧而产生的频率谱段之间的互相关系数,所述两个帧邻近所述目标 帧并彼此间隔预定帧宽度。
4. 根据权利要求l的装置,其中所述互相关系数计算单元对于所述帧 中的每一个帧通过使用所述频率谱的时间序列以所述目标帧作为参考帧来 计算相关系数的时间序列,递归地更新所述相关系数的时间序列,并当满 足递归更新所述相关系数的时间序列的操作的终结条件时,通过使用递归 更新的所述相关系数的时间序列来计算所述参考帧的互相关系数。
5. 根据权利要求4的装置,其中当满足所述终结条件时所述互相关系 数计算单元计算分别为邻近所述参考帧并彼此间隔预定帧宽度的两个帧计数。
6. 根据权利要求1的装置,其中所述互相关系数计算单元通过使用不同的帧宽度为所述帧中的每一个帧计算为邻近所述目标帧并彼此间隔所述不同的帧宽度中的一个帧宽度的 两个帧而计算的频率镨之间的互相关系数;以及所述移动量预测单元预测对应于通过使用所述不同的帧宽度计算的互 相关系数的移动量,并将预测的两个或更多个移动量整合为一个移动量。
7. 根据权利要求l的装置,其中所述镨计算单元通过计算去除了镨包 络分量之后留下的剩余分量的频率镨来产生所述频率谱的时间序列。
8. 根据权利要求l的装置,其中所述i普计算单元包括归一化单元,其 归一化所述频率i瞽的幅度。
9. 根据权利要求l的装置,其中 对于每一个帧,所述预定帧宽度是可变化的;以及 对于所述帧中的每一个帧,所述互相关系数计算单元计算为这样的两个帧而计算的频率谱之间的互相关系数,所述两个帧邻近所述目标帧并彼 此间隔对应于所述目标帧的预定帧宽度。
10. —种在包括谱计算单元、互相关系数计算单元和移动量预测单元 的特征提取装置中执行的特征提取方法,所述方法包括通过所述谱计算单元基于输入语音信号为以规则时间间隔限定的帧中 的每一个帧计算具有在对数频率尺度上的规则间隔处获得的频率分量的频 率谱,并由此产生所述频率谱的时间序列;通过互相关系数计算单元对于所述帧中的每一个目标帧计算为邻近所 述目标帧并彼此间隔预定帧宽度的两个不同的帧而计算的频率谱之间的互 相关系数;以及通过移动量预测单元使用所述互相关系数来预测在对数频率尺度上所 述频率谱相对于所述预定帧宽度的移动量。
11. 一种计算机程序产品,具有包括编程的指令的计算机可读介质,当由^:置在包括-潜计算单元、互相关系数计算单元和移动量预测单元的特 征提取装置中的计算机执行时,其中所述指令使所述计算机执行通过所述镨计算单元基于输入语音信号为以规则时间间隔限定的帧中 的每一个帧计算具有在对数频率尺度上的规则间隔处获得的频率分量的频 率语,并由此产生所述频率语的时间序列;通过互相关系数计算单元对于所述帧中的每一个目标帧计算为邻近所 述目标帧并彼此间隔预定帧宽度的两个不同的帧而计算的频率语之间的互 相关系数;以及通过移动量预测单元使用所述互相关系数来预测在对数频率尺度上所 述频率谱相对于所述预定帧宽度的移动量。
全文摘要
一种特征提取装置,包括谱计算单元,其基于输入语音信号为以规则时间间隔限定的帧中的每一个帧计算具有在对数频率尺度上的规则间隔处获得的频率分量的频率谱,并由此产生所述频率谱的时间序列;互相关系数计算单元,其对于所述帧中的每一个目标帧计算为邻近所述目标帧并彼此间隔预定帧宽度的两个不同的帧而计算的频率谱之间的互相关系数;以及移动量预测单元,其使用所述互相关系数来预测在对数频率尺度上所述频率谱相对于所述预定帧宽度的移动量。
文档编号G10L15/10GK101521009SQ200910118520
公开日2009年9月2日 申请日期2009年2月26日 优先权日2008年2月29日
发明者木田祐介, 益子贵史 申请人:株式会社东芝
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1