基于基音同步频谱参数的语音识别系统和方法

文档序号:9218165阅读:326来源:国知局
基于基音同步频谱参数的语音识别系统和方法
【专利说明】
[0001] 本专利申请是题为"语音合成系统和方法"的美国专利8719030的部分延续。
技术领域
[0002] 本发明总体上涉及用基音同步频谱参数自动语音识别,特别是基于音色矢量的方 法。
【背景技术】
[0003] 语音识别是一个把语音信号转换成文本的自动过程,其中有三个步骤。第一步骤, 声学处理,把语音信号转换成某种参数。第二步骤是要从语音信号参数化表示中找到最可 能的音素序列。第三步是从可能的音素序列和语言模型找到最可能的单词序列。本发明涉 及一种新类型的语音信号参数的化表示和把语音信号转换成这种参数化表示的过程。
[0004] 在目前的语音识别系统中,语音信号首先被乘以一个移动的处理窗,通常为 Hamming窗,其持续时间约25毫秒,每次移位大约10毫秒,以形成一个帧,见图2 (A)。从每 个帧的语音信号产生一组参数。因此,每10毫秒,有一组代表在25毫秒窗口的持续时间 的声音信号的参数产生。最广泛使用的参数表示是线性预测系数(LPC)和Mel倒谱系数 (MFCC)。这种方法具有的缺陷:首先,处理窗口的位置与基音周期是无关的。因此,基音信 息和频谱信息不能清晰地划分开。第二,因为窗口的持续时间大约是位移时间的2. 5倍,一 个音素边界总是由两个或三个连接的窗口交叉。换句话说,大量的帧包含有音素边界,见图 2(A) 〇
[0005] 很多年来,人们知道,基音同步的语音信号参数化是更好的方法。首先把语音信号 分割成和基音周期同步而且互不重叠的帧,见图2(B)。对于浊音211,每个帧是单个的基音 周期,213。对于清音212,帧214是等分的。为方便起见,对于清音,每帧的时间约等于浊音 段的平均基音周期。基音同步参数的优点是:首先,一个单一的帧的语音信号只表示该语音 的频谱或音色,从音高脱钩。因此,音色信息和基音信息被干净地分开。第二,因为一个音 素边界必须是一个浊音和清音之间边界,或是两个基音周期之间的边界,每个帧的音素是 独特的。因此,每一组参数都代表独特的音素。语音识别的准确性可以得到改善。(详细内 容见 Springer Handbook of Speech Processing, Part E, Springer Verlag2008) 〇

【发明内容】

[0006] 本发明定义了一种基音同步的语音信号参数化表示,并公开了从语音信号生成的 上述基音同步参数化表示的方法,特别是音色矢量和产生音色矢量的方法。
[0007] 本发明的示例性的实施方案参见图1。语音信号首先经过一个确定基音周期标志 的程序,来标定浊音音段中每一个基音周期的起点。这些基音周期的起点标志被送到一个 处理单元,以对整个的语音信号产生出一组完整的分割点。根据所述分割点,语音信号被分 割成与基音同步的而且互不重叠的帧。每一个帧的两个端点的数值可能不同。一个程序把 每一帧的两个端点的数值做成等值。使用傅立叶分析,每个帧中的语音信号被转换为基音 同步振幅频谱,然后用Laguerre函数把上述基音同步振幅频谱转换成一个代表瞬时音色 的单位矢量,称为音色矢量。音色矢量的总和构成语音信号的参数化表示。
[0008] 语音数据库的形成,是通过一个说话人或者一组说话人朗读一组包含目标语言的 所有音素的文本,录制而成。然后把语音信号库转换成音色矢量库。每个音色矢量的音素 标识由相关的文本来确定。把平均音色矢量和方差与单独的音素配对起来,形成一个语音 数据库。
[0009] 在语音识别过程中,流入的语音信号首先被转换成音色矢量序列。这些音色矢量 然后与数据库中的音色矢量相比,找到最可能的音素序列。然后最可能的音素序列被送到 语言解码器,找出最可能的文本。
【附图说明】
[0010] 图1是使用基音同步频谱参数的语音识别系统的方框图。
[0011] 图2阐明了使用重叠和移位处理窗口的现有技术方法与本发明的基音同步信号 处理方法之间的根本区别。
[0012]图3是用不对称窗查找基音周期标志的实例。
[0013]图4是确定基音周期标志的轮廓函数的例子。
[0014]图5是一个基音周期标志数目和不对称窗长度的函数关系,用来优化不对称窗口 的尺度。
[0015] 图6是一个均衡基音周期波形两端值的程序。
[0016] 图7是一个基音周期的振幅频谱,包括原始数据,内插后的数据,与用Laguerre函 数展开后再恢复的例子。
[0017] 图8是的Laguerre函数的曲线图。
[0018] 图9是接近指数的一个例子。
【具体实施方式】
[0019] 下面结合说明书附图与【具体实施方式】对本发明做进一步的详细说明。
[0020] 本发明可以在一个或多个处理器和一个或多个存储器单元的计算机系统中实现。 根据示例性实施方案,在一个或多个计算机处理器根据编码在计算机中存储的指令执行。
[0021] 图1是根据本发明的自动语音识别系统的示例性的实例的方框图。输入信号102, 通常用PCM(脉码调制)格式,首先与非对称窗101卷积,以产生一个轮廓函数104。如果轮 廓函数的峰值105比阈值更大时,其位置就定为一个基音周期标志。这个基音周期标志是 对输入语音信号102的浊音部分的帧的端点106。用程序107,这些帧的端点延伸到PCM信 号的清音区段和无声区段。一般说来,清音区段和无声区段是以一个恒定的时间间隔来划 分,大致等于浊音区段的平均基音周期。由此生成一套完整的帧端点108。用上述帧的端点 通过分割器109,PCM信号102被分段成原始帧110。一般情况下,一个原始帧的两端的PCM 值不匹配。如果用傅里叶分析这些原始帧,将产生问题。现在,用一个端部匹配过程111施 加于每个原始帧,使其两端相等,成为一个连续周期函数的样本,或者说周期帧112。然后, 傅立叶分析113被施加到每个周期帧112,以产生振幅傅立叶系数114。根据采样定理,振 幅频谱的点的数目是每一帧的点的数目的二分之一。因此,它是一个离散的振幅频谱。使 用内插过程115,离散振幅频谱被扩展到全部频率轴上,通常成为512点或1024点,成为一 个实际上连续的频谱函数。然后,这个连续谱函数用Laguerre函数117展开,产生一组展 开系数。Laguerre展开系数构成这个帧112的音色矢量118。音色矢量118包含该帧的音 色的精确信息。通过这述音色矢量,两帧之间的音色距离可以精确地确定。
[0022] 然后,这些音色矢量118送到语音识别引擎的剩余部分,从119到124。在语音解 码器119中,这些音色矢量与包含音素或亚音素单元的相关表的音色矢量数据库相比较。 生成一个最可能的音素序列121。最可能的音素序列121被送到语言解码器123,运用语言 模型122,以找到最可能的输出文本124。
[0023] 与现有技术中相比,本发明的根本新颖点在语音信号分成的帧的方式,参考图 2(A)。根据现有技术的语音识别系统,语音信号201和202被首先乘以处理窗203。通常 为Hamming窗,它的持续时间约25毫秒,每一个移位大约10毫秒,以形成一个帧。从每个 窗的语音信号产生的一组参数。因此,对于每个10毫秒,一组代表在25毫秒窗口的持续时 间的声音信号的参数产生出来。最广泛使用的参数表示是线性预测系数(LPC)和Mel频率 倒谱系数(MFCC)。这种方法具有的缺陷。首先,处理窗口的位置与基音周期是无关的。因 此,基音信息和频谱信息不能清晰地划分开。第二,因为窗口的持续时间大约是位移时间的 2. 5倍,一个音素边界总是由两个或三个连接的窗口交叉。换句话说,大量的帧包含有音素 边界,见图2(A)。
[0024] 本发明开始于一个不同的分割方法。很多年来,人们知道,基音同步的语音信号 参数化是更好的方法。首先把语音信号分割成和基音周期同步的帧,见图2(B)。对于浊音 211,每个帧是单个的基频周期,213。对于清音212,帧214是等分的。为方便起见,每帧的 时间约等于浊音段的平均基因周期。基音同步参数的优点是:首先,一个单一的帧的语音信 号只表示该语音的频谱或音色,从音高脱钩。因此,音色信息和基频信息被干净地分开。第 二,因为一个音素边界必须是一个浊音和清音之间边界,或是一个基频周期边界,每个帧的 音素是独特的。因此,每一个参数都代表独特的音素。语音识别的准确性可以得到改善。(详 细内容见 Springer Handbook of Speech Processing, Part E, Springer Verlag 2008)。
[0025] 为了把语音信号分割成基音同步的帧,一种已知的方法是依赖于同时采集的电子 声门仪(EGG)信号102。但是,语音识别,绝大多数情况下是没有电子声门仪。然而,为了把 语音信号分割成基音同步的帧,并不要求准确的声门闭合瞬间。它仅需要在一个基音周期 中找出其中的变化最弱的区段。基于对于波形的观察,我们发现了一种确定在一个音调周 期的变化最弱部分的方法。它是基于这样的事实,在一个音调周期的开始时刻,信号的变化 是最大的。因此,通过用非对称窗函数w(n)卷积语音信号,见图3,最弱变化的位置可以找 到。的非对称窗函数的一个例子是在一个时间间隔中(_N〈n〈N)由以下公式定义
[0027] 其中的土符号用于配合PCM信号的极性。如果取正号,则当0〈n〈N,该值为正。在 n= N,变为零。如果取负号,-N〈n〈0,在n = -N,再次变为零。把PCM信号表示为p(n),卷 积后就生成一个轮廓函数
[0029] 典型的结果示于图4。这里,401是声音信号。402表示每一个基音周期的起点,此 处信号变化最强。403是使用非对称窗函数w(n)的所产生的轮廓函数。如图所示,轮廓函 数的极大值的位置404就是信号变化最弱之处405。每个音调周期开始于402大的变化的 pcm信号的变化逐渐减小,变弱靠近每个基音周期的结束。
[0030] 为了产生精确的结果,非对称窗函数的尺度N应该被适当地选择。这可以用一个 简单的测试来完成:对于一个给定的发言者的一个句子,执行基音周期标志的标定程序。找 出基音周期标志的总数与非对称窗函数的尺度N的关系。如果极性
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1