使用经修改的Baum-Welch算法的语音识别的制作方法

文档序号：9402040阅读：537来源：国知局

使用经修改的Baum-Welch算法的语音识别的制作方法
【专利说明】使用经修改的Baum-Welch算法的语音识别
【背景技术】
[0001] 典型的语音识别系统包括从音频生成文本的软件。语音识别软件通常使用训练以调谐其从音频到文本的转录。在一些情况中，用户可以读取通过语音识别软件知悉的预确定文本，因此语音识别软件可以精细调谐该人员的语音的识别。在许多实例中，用户可能无法读取预确定文本的简短段落以精细调谐语音识别软件。例如，对于语音识别服务而言，接收大型音频文件以用于转录并不罕见。可以提供非常长的电视广播以用于转录并且该大型音频文件成为训练材料。
【附图说明】
[0002] 在以下描述中参考附图中所示的示例详细描述实施例。
[0003] 图1图示了语音识别系统。
[0004] 图2图示了可以用于语音识别系统的计算机系统。
[0005] 图3-4图示了方'法。
[0006] 图5图示了语音训练数据中的中断时段的示例并且图示了计算针对不同中断时段的概率。
【具体实施方式】
[0007] 出于简化和说明性目的，通过主要参考其示例来描述实施例的原理。在以下描述中，阐述大量特定细节以便提供实施例的全面理解。显而易见的是，可以在不限制于所有特定细节的情况下实践实施例。而且，实施例可以以各种组合一起使用。
[0008] 根据实施例，语音识别系统利用训练功能来生成用于将音频转录成文本的隐马尔可夫模型（HMM)。训练功能在性质上是统计性的，并且语音识别系统声学模型可以从提供在要转录的大型音频文件中的口述词语和句子训练。
[0009] 语音识别系统可以使用大型音频文件以用于在不将大型音频文件拆分成多个较小音频文件的情况下进行训练。一些语音识别系统将大型音频文件拆分成较小音频文件以得到可管理性。例如，由于有限量的存储器和其他计算机资源，大型音频文件可以被拆分成 3-5分钟组块以用于训练。然而，由于音频文件被拆分，因此相关联的文本文件被拆分，使得它们形成多个音频转录文本对。拆分音频文件并且创建对应文本对可能是易出现错误且耗时的，并且可能要求专业人员。根据实施例的语音识别系统可以使用大型音频文件，其在长度上可以大于5分钟或者大于10分钟或者甚至大于30分钟以用于训练而不拆分文件。
[0010] 语音识别系统可以生成HMM以用于将音频转录成文本。语音识别系统通过训练来生成并且精炼HMM，并且使用HMM以用于转录。HMM利用概率密度函数（pdf)，其涉及由涉及词语或词语的部分的声学向量表不的观测的概率。一般地，概率分布在η维空间中为高斯分布。高斯分布的形状和位置由其平均值和方差定义。这些参数在训练期间确定并且是用于HMM的模型参数。一旦用于HMM的模型参数已经确定，HMM可以用于确定对应于词语的序列或词语的部分的观测序列的可能性。方法适用于离散概率HMM以及连续概率密度HMM 二者，特别是混合高斯HMM。以下描述一般涉及连续概率密度高斯HMM，但是应当理解的是，离散概率HMM以及连续概率混合高斯HMM也在本公开的范围内。
[0011] HMM可以输出η维实数值向量的序列（其中η为小整数，诸如10)，诸如对于被转录的语音的每10毫秒（ms)。向量包括倒谱系数，其可以通过进行语音的短时间窗口（例如 IOms)的傅里叶变换并且使用余弦变换对频谱去相关，然后取第一(最高有效）系数来获取。 HMM往往在每一个状态中具有作为对角协方差高斯的统计分布，其将给出针对每一个观测向量的可能性。每一个词语或每一个音素具有不同的输出分布。用于词语或音素序列的 HMM可以通过序连用于词语和音素的各个经训练的HMM来生成。因此，HMM可以预测当前状态以估计用于语音的音素或词语。
[0012] 用于语音识别系统的训练功能训练HMM。训练函数可以执行以下各项：（1)为包括语音在内的训练数据计算向前概率和向后概率；（2)基于向前概率和向后概率为训练数据计算针对HMM参数的累计值；以及（3)在每次迭代的结尾重估计用于每一个模型参数的值。 Baum-Welch算法一般描述（1)- (3)。然而，根据实施例，对于（1)，其包括为训练数据计算向前和向后概率，计算针对中断时段的概率，这不由Baum-Welch算法完成。而且，在训练数据中确定收敛时间，这同样不在Baum-Welch算法中完成。
[0013] 从大型音频文件中的训练数据计算向前和向后概率可以在不将音频文件拆分成较小音频文件的情况下执行。例如，在音频文件中选择相继中断点。每一个中断点之间的时间段被称为中断时段。作为示例，中断时段在长度上可以如3-5分钟那样长或者如3-5 秒那样短。可以使用其他长度。针对中断时段，计算向前概率直至中断点并且从中断点开始并且基于所计算的向前概率向后移动来计算经缩放的向后概率。
[0014] 基于针对中断时段中的至少一些所计算的向前和经缩放的向后概率，确定音频训练数据中的收敛时间。收敛时间可以包括当针对一些中断时段计算的经缩放的向后概率停止改变时音频文件中的时间点。一旦标识收敛时间，针对将来中断时段的将来中断传递不需要处理超出收敛时间，这节省处理时间和存储器。可以在音频文件中标识多个收敛时间。
[0015] 图1图示了语音识别系统100。系统100包括训练引擎101、转录引擎102和声学模型103。对语音识别系统100的输入是语音。可以在音频文件110中提供语音。可以以诸如.WAV、. MP3等之类的格式提供音频文件110。音频文件110可以是大型音频文件，其可以包括在长度上超过30分钟的语音。在一个示例中，音频文件110可以包括在长度上大于或等于1小时的语音。
[0016] 训练引擎101将音频文件110中的语音用作训练数据并且使用训练功能120来生成声学模型103。声学模型103例如包括HMM。例如，作为语言中的声音的音素通过HMM来建模。训练引擎101通过使用训练功能120从训练数据生成HMM。以下详细描述的实施例描述由训练引擎101运行以生成包括HMM的声学模型103的训练功能120。
[0017] 训练引擎101估计用于HMM的模型参数以训练HMM，其可以是持续性的。经训练的 HMM由转录引擎102使用以确定哪些语音成分存在于语音中以将语音转录成文本。从音频文件110中的语音转录的文本在图1中被示出为111。
[0018] 图2图示了可以用作用于系统100的平台的计算机系统200。计算机系统200可以通过一个或多个处理器或其他硬件处理电路运行本文所描述的方法、功能和其他过程。这些方法、功能和其他过程可以体现为存储在计算机可读介质上的机器可读指令，所述计算机可读介质可以是非暂时性的，诸如硬件存储设备(例如RAM (随机存取存储器)，ROM (只读存储器)，EPROM (可擦除可编程ROM)，EEPROM (电可擦除可编程ROM)，硬件驱动器和闪速存储器)。
[0019] 计算机系统200包括处理器202,其可以实现或运行执行本文所描述的方法、功能和其他过程中的一些或全部的机器可读指令。来自处理器202的命令和数据通过通信总线 213传送。计算机系统200还包括数据储存器以存储机器可读指令和数据。数据储存器可以包括易失性和/或非易失性数据储存器。例如，计算机系统200包括存储在运行时

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M.卡迪尔卡马纳桑;
技术所有人：朗桑有限公司;
我是此专利的发明人