一种非汉语语音识别方法、系统及其构造方法与流程

文档序号：15618879发布日期：2018-10-09 21:52阅读：167来源：国知局

本发明涉及语音识别技术领域，尤其涉及一种非汉语语音识别方法、系统及其构造方法。

背景技术：

语音识别是将声音转换成文本的技术。语音识别需要大量预先进行精确标注过的语音数据资源进行模型训练，否则很难达到较高识别率的实用化的效果。语音数据的采集以及正确标注需要大量人力物力和时间成本，很难在短期积累大量数据。对汉语语音识别而言，可以通过向专业的数据公司购买或线上数据外包标注的方法，从而高效地实现资源数据的积累；然而，当构造不同与汉语的一种语言的语音识别系统时，必须重新积累该语言的数据，带来巨大的成本和时间开销。

技术实现要素：

本发明所要解决的技术问题是针对现有技术的不足，提供一种非汉语语音识别方法、系统及其构造方法。

本发明解决上述技术问题的技术方案如下：一种非汉语语音识别系统的构造方法，包括以下步骤：

步骤1、利用汉语特征提取模型从汉语语料库的汉语语音数据中提取语音特征；

步骤2、根据提取的所述语音特征建立汉语声学模型；

步骤3、对所述汉语声学模型进行处理，得到的非汉语声学模型；

步骤4、对所述汉语特征提取模型进行处理，得到非汉语特征提取模型；

步骤5、根据所述非汉语特征提取模型和所述非汉语声学模型构建非汉语语音识别系统。

本发明的有益效果是：通过对汉语声学模型和汉语特征提取模型处理，得到非汉语特征提取模型和非汉语声学模型，并根据该非汉语特征提取模型和该非汉语声学模型构建非汉语语音识别系统，从而利用既有的汉语语音资源及其训练出的模型，以及少量必须的语言数据资源就可以快捷地构造出有效的非汉语语音识别系统，有效的降低了成本和时间开销。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步地，在步骤5之前，还包括：步骤6、利用跨语言因子增强所述非汉语声学模型，其中，所述跨语言因子为语言无关因子，包括：环境因子、信道因子和说话人因子。

进一步地，所述汉语特征提取模型和所述非汉语特征提取模型分别由深度神经网络dnn或卷积神经网络cnn构成，所述汉语声学模型和所述非汉语声学模型分别由循环神经网络rnn构成。

进一步地，步骤3包括：

步骤3.1、采用i-vector算法对所述汉语声学模型进行处理，得到非汉语声学模型；或者，

步骤3.2、采用基于cnn或rnn的自动编码器对所述汉语声学模型进行处理，得到非汉语声学模型。

进一步地，步骤4包括：

步骤4.1、直接复制所述汉语特征提取模型，并将其作为所述非汉语特征提取模型；或者，

步骤4.2、根据目标函数约束法对所述汉语特征提取模型进行处理，得到的非汉语特征提取模型。

进一步地，所述目标函数为：

l(x；w)＝h(x；w)+∑x||hc(x)-hj(x)||²

其中，h(x；w)为传统神经网络训练的目标函数；hc(x)和hj(x)分别为训练样本x在汉语和非汉语两个特征提取网络中所有隐藏结点的激发值向量。

本发明解决上述技术问题的另一种技术方案如下：一种非汉语语音识别系统，所述非汉语语音识别系统通过如上述实施例中任一实施例所述的一种非汉语语音识别系统的构造方法构造得到。

本发明解决上述技术问题的另一种技术方案如下：一种非汉语语音识别方法，包括：

步骤1、获取待识别语音信号；

步骤2、利用上述实施例中的一种非汉语语音识别系统来确定所述待识别语音信号是否为非汉语语音信号；

步骤3、输出语音识别结果。

本发明的有益效果是：利用非汉语语音识别系统可以更加方便的确定获取的待识别语音信号是否为非汉语语音信号。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步地，步骤2包括：

步骤2.1、从所述待识别语音信号中提取语音特征；

步骤2.2、将提取的所述语音特征输入至所述非汉语语音识别系统，并将其与非汉语语音识别的解码图进行比对，确定所述待识别语音信号是否为非汉语语音信号。

本发明解决上述技术问题的另一种技术方案如下：一种非汉语语音识别装置，其特征在于，包括：

获取模块，用于获取待识别语音信号；

语音识别模块，用于利用上述实施例中的一种非汉语语音识别系统确定所述获取模块获取的所述待识别语音信号是否为非汉语语音信号；

输出模块，用于输出所述语音识别模块确定的语音识别结果。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种非汉语语音识别系统的构造方法的示意性流程图；

图2为本发明另一实施例提供的一种非汉语语音识别系统的构造方法的示意性流程图；

图3为本发明实施例提供的一种非汉语语音识别方法的示意性流程图；

图4为本发明另一实施例提供的一种非汉语语音识别方法的示意性流程图；

图5为本发明实施例提供的一种非汉语语音识别装置的示意性结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

如图1所示的一种非汉语语音识别系统的构造方法100包括：

110、利用汉语特征提取模型从汉语语料库的汉语语音数据中提取语音特征。

具体的，在该实施例中，语音特征说是指一个语音物理信号的频谱和信号特征，语音特征的类型可以包括mfcc、plp、fbank等，但本发明实施例并不局限于此。

120、根据提取的语音特征建立汉语声学模型。

130、对汉语声学模型进行处理，得到的非汉语声学模型。

具体的，在该实施例中，非汉语可以包括日语、韩语、英语等，本发明实施例对此并不做任何限定。

140、对汉语特征提取模型进行处理，得到非汉语特征提取模型。

具体的，在该实施例中，可以将汉语声学模型的部分结构通过裁剪整理后，用于非汉语声学模型的初始结构。这里的裁剪是指由于语言模型来自于大量自然语言文本的原始语料，形成了很大的统计和分布空间，耗费大量的计算机计算资源，例如：内存，cpu，gpu等，以及时间消耗，而这类消耗是实时运行的。那么，语音识别应用程序需要对这个大容量的语言模型进行裁剪。也就是说，将语言模型空间中的那些统计上出现很稀少的资源直接删除拿掉，从而换来更快速的响应。这样做尽管会牺牲一些很少出现的单词发音的识别率，但是节约了很多的计算机运算资源。

150、根据非汉语特征提取模型和非汉语声学模型构建非汉语语音识别系统。

具体的，在该实施例中，汉语特征提取模型和非汉语特征提取模型分别由深度神经网络dnn或卷积神经网络cnn构成，汉语声学模型和非汉语声学模型分别由循环神经网络rnn构成。

上述实施例中提供的一种非汉语语音识别系统的构造方法，通过对汉语声学模型和汉语特征提取模型处理，得到非汉语特征提取模型和非汉语声学模型，并根据该非汉语特征提取模型和该非汉语声学模型构建非汉语语音识别系统，从而利用既有的汉语语音资源及其训练出的模型，以及少量必须的语言数据资源就可以快捷地构造出有效的非汉语语音识别系统，有效的降低了成本和时间开销。

具体的，在该实施例中，步骤130中可以采用i-vector算法对汉语声学模型进行处理，得到非汉语声学模型。

i-vector算法可将所有与语音长时特性相关的因子表征成一个低维特征向量。因为发音内容具有短时特性，因此该因子中不包含发音内容信息，具有语言无关性。其中，语音长时特征是用一个长时窗口对已经过短时分帧处理的语音帧重新进行分割，然后分析重新分割后的语音特性。

或者，步骤130中可以采用基于cnn或rnn的自动编码器对汉语声学模型进行处理，得到非汉语声学模型。

基于cnn或rnn的自动编码器将语音信号表达成一串特征序列，用cnn或rnn压缩成一个低维特征向量，再通过cnn或rnn重新生成原始特征序列。同i-vector算法类似，cnn或rnn压缩成的低维特征向量不表达短时发音特征，因此具有语言无关性。

在从语音信号到文本的转换过程(即：识别过程)中，信号的层次是分级展开的，越是低维越是接近语音原始来源，越是高维越是接近识别的最后结果，即：文本。由于原始的非汉语语音语料不足，需要借助于汉语的语音识别技术和资源积累，就可以复用汉语的技术特征，而这类技术特征相对地是反映人类进行语音发声的共性特征，不依赖于语种而发生变化的成分，因而可以深入到非汉语语音发声体系中来。

另外，在该实施例中，步骤140中可以通过直接复制汉语特征提取模型，并将复制的汉语特征提取模型作为非汉语特征提取模型。或者，

步骤140中可以根据目标函数约束法对汉语特征提取模型进行处理，得到的非汉语特征提取模型。其中，目标函数为：

l(x；w)＝h(x；w)+σx||hc(x)-hj(x)||²

其中，h(x；w)为传统神经网络训练的目标函数，hc(x)和hj(x)分别为训练样本x在汉语和非汉语两个特征提取网络中所有隐藏结点的激发值向量。

需要说明书的是，在该实施例中，将非汉语训练数据同时经过汉语特征提取模型和非汉语特征提取模型，并训练过程中将两者在神经网络中各个隐层节点上的偏差作为约束项加入训练的目标函数。也就是说，当训练非汉语声学模型时不仅考虑到声学模型输出目标的最优化(即h(x；w))，还考虑特征提取结果尽可能接近汉语特征提取模型的输出结果。这意味着汉语中学到的特征提取知识以约束项的方式传递给了非汉语特征提取模型。这一方法比直接替换法更能平衡模型分类误差最小化的要求和向汉语学习的要求。

可选地，在一个实施例中，如图2所示，在步骤150之前，方法100还包括：

160、利用跨语言因子增强所述非汉语声学模型。

其中，跨语言因子为语言无关因子，包括：环境因子、信道因子和说话人因子，但本发明实施例并不局限于此。

因为汉语有大量训练语料，包含了信道、说话人、口音等多种复杂性，因此，汉语特征提取模型对这些语言无关因子有极强的鲁棒性。在该实施例中，可以采用汉语特征提取模型得到的跨语言因子来增强非汉语声学模型的能力。

具体的，对汉语语音数据训练得到语言无关因子的因子模型。再利用该因子模型在非汉语识别系统的训练和解码过程中生成语言无关因子。

应理解，在该实施例中，步骤160与步骤140没有严格是执行顺序，可以是并列执行可以是先后执行，本发明实施例对此并不做任何限定。

应理解，在本发明各实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

另外，本发明还提供一种非汉语语音识别系统，该非汉语语音识别系统通过如上述图1和图2所示的一种非汉语语音识别系统的构造方法构造得到。

上文结合图1和图2，对本发明实施例提供的一种非汉语语音识别系统的构造方法进行了详细的描述，下面结合图3和图4对本发明实施例提供的一种非汉语语音识别方法进行详细的描述。

如图3所示的一种非汉语语音识别方法300包括：

310、获取待识别语音信号。

320、利用非汉语语音识别系统来确定待识别语音信号是否为非汉语语音信号。

具体的，在该实施例中，非汉语语音识别系统为通过如上述图1和图2所示的一种非汉语语音识别系统的构造方法构造得到一种非汉语语音识别系统。另外，非汉语可以包括日语、韩语、英语等，本发明实施例对此并不做任何限定。

330、输出语音识别结果。

上述实施例中提供的一种非汉语语音识别方法，利用非汉语语音识别系统可以更加方便的确定获取的待识别语音信号是否为非汉语语音信号。

可选地，在一个实施例中，如图4所示，步骤320包括：

321、从待识别语音信号中提取语音特征。

322、将提取的语音特征输入至非汉语语音识别系统，并将其与非汉语语音识别的解码图进行比对，确定待识别语音信号是否为非汉语语音信号。

具体的，在该实施例中，通过对于大量进行过精确标注的原始语音资源进行各种技术手段的训乱产生声学模型，对大量原始文本语料进行训练产生语言模型，再结合发音词典，组合生成一个用于识别的解码图。

对等待识别的语音进行特征抽取，对照解码图进行分析比对，形成识别结果。具体的：语音信号经过前端信号处理、端点检测等处理后，逐帧提取语音特征，语音特征类型包括mfcc、plp、fbank等，提取好的特征送至解码器，在声学模型、语言模型以及发音词典的共同指导下，找到最为匹配的词序列作为识别结果输出。

上文结合图3和图4，对本发明实施例提供的一种非汉语语音识别方法进行了详细的描述，下面结合图5对本发明实施例提供的一种非汉语语音识别装置进行详细的描述。

如图5所示的一种非汉语语音识别装置500，包括：获取模块510、语音识别模块520和输出模块530。其中，

获取模块510用于获取待识别语音信号。

语音识别模块520用于利用非汉语语音识别系统确定获取模块510获取的待识别语音信号是否为非汉语语音信号。其中，非汉语语音识别系统为通过如上述图1和图2所示的一种非汉语语音识别系统的构造方法构造得到一种非汉语语音识别系统。

输出模块530用于输出语音识别模块520确定的语音识别结果。

应理解，在本发明实施例中，根据本发明实施例的非汉语语音识别装置500，可对应于根据本发明实施例的非汉语语音识别方法300的执行主体，且该非汉语语音识别500中的各个模块的上述和其它操作和/或功能分别为了实现图3和图4中的各个方法的相应流程，为了简洁，在此不再赘述。

具体的，在该实施例中，语音识别模块520具体可以用于从获取模块510获取的待识别语音信号中提取语音特征，将提取的语音特征输入至非汉语语音识别系统，并将其与非汉语语音识别的解码图进行比对，确定待识别语音信号是否为非汉语语音信号。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王东;张之勇;赵梦原;黄伟明;李国强
技术所有人：清华大学;同方鼎欣科技股份有限公司
我是此专利的发明人

上一篇：一种自动清洗装置的制作方法
上一篇：车辆全景环视系统及全景环视图像生成方法与流程