一种语言模型训练方法、系统和语音识别系统的制作方法

文档序号：10657695阅读：353来源：国知局

一种语言模型训练方法、系统和语音识别系统的制作方法
【专利摘要】本发明提供了一种语言模型训练方法、系统和一种语音识别系统，该方法和系统应用于语音识别系统。具体为首先获取常用语种在预设应用场景下的语料，然后利用机器翻译装置将所述常用语种的语料翻译成目标语种的语料，最后根据目标语种的语料建立目标语料库。由于本技术方案是利用容易得到的常用语种的语料经过翻译最终建立目标语种的目标语料库，而无需通过人工标注的方式建立相应的语料库，因此所需花费较少，时间周期也较短，从而能够解决解决人工标注建立语料库耗时耗力的问题。
【专利说明】
一种语言模型训练方法、系统和语音识别系统
技术领域
[0001]本发明涉及语音设备技术领域，特别是涉及一种语言模型训练方法、系统以及语音识别系统。
【背景技术】
[0002]语音识别是一种利用机器模拟人类的识别和理解过程、把人类的语音信号转变为相应的文本或命令的技术。语音识别的根本目的是研究出一种具有听觉功能的机器，能直接接受人的语音，理解人的意图，并做出相应的反应。从技术上看，它属于多维模式识别和智能接口的范畴。
[0003]在语音识别技术中，最简单的是对特定人、小词汇量、孤立词的语音识别，最复杂、最难的是对非特定人、大词汇量、连续语音的语音识别。目前主要采用的主流算法是隐马尔可夫模型方法。
[0004]语音识别系统在本质上是一种模式识别系统，通常包括特征提取、模式匹配和参考模式库等基本单元，如图1所示。语音信号先经过特征提取后形成特征矢量，并利用词典和子词模型集合串接成的词模型进行识别，然后根据语言模型的句法限制在句子级进行输入语音与参考模板间的匹配，最后识别出相应的句子。因此，语言模型的确定对于语音识别系统至关重要。
[0005]现有技术中，语言模型一般是直接利用大型语料库进行训练得到的，但是对于特定语种或者特定领域，我们没有相关的语料库，根本无法训练得到语言模型。目前一般的做法是跨地区甚至跨国抓取HTML语料，从而得到相应语种的语料库，以利用得到的语料库对语言模型进行训练。但是通过抓取HTML语料的做法是比较困难的，且得到的语料质量较差不一定好，特别是对于特定的领域，例如电话客服领域，根本无法得到相应的语料。这种使用就必须采用人工标注的方法建立相应的语料库，这种办法需要很多会该语种的人录制并制作语料库，周期长且花费较大。

【发明内容】

[0006]有鉴于此，本发明提供一种语言模型训练方法，以解决人工标注建立语料库耗时耗力的问题。
[0007]为了实现上述目的，本发明公开了一种语言模型训练方法，应用于语音识别系统，其特征在于，包括步骤:
[0008]获取常用语种在预设应用场景下的语料；
[0009]利用机器翻译装置将所述常用语种在所述预设应用场景下的语料翻译成目标语种的语料；
[0010]根据所述目标语种的语料建立目标语料库。
[0011]可选的，所述获取常用语种在预设应用场景下的语料，包括:
[0012]获取中文普通话在预设应用场景下的语言材料；
[0013]根据所述语言材料获取所述中文普通话的语料。
[0014]可选的，所述目标应用场景包括电话客服场景。
[0015]可选的，所述利用机器翻译装置将所述常用语种的语料翻译成目标语种的语料，包括:
[0016]利用所述机器翻译装置将所述常用语种的语料翻译成小语种的语料。
[0017]可选的，还包括:
[0018]利用所述目标语料库进行语言模型训练，得到目标语言模型。
[0019]相应地，还提供了一种语言模型训练系统，应用于语音识别系统，用以保证上述方法的实施例，包括:
[0020]语料获取模块，用于获取常用语种在预设应用场景下的语料；
[0021 ]翻译模块，用于利用机器翻译装置将所述常用语种在所述预设应用场景下的语料翻译成目标语种的语料；
[0022]语料库建立模块，用于根据所述目标语种的语料建立目标语料库。
[0023]可选的，所述语料获取模块包括:
[0024]语言材料获取单元，用于获取中文普通话在目标应用场景下的语言材料；
[0025]语料获取单元，用于根据所述语言材料获取所述中文普通话的语料。
[0026]可选的，所述目标应用场景包括电话客服场景。
[0027]可选的，所述翻译模块用于利用所述机器翻译装置将所述常用语种的语料翻译成小语种的语料。
[0028]可选的，还包括:
[0029]训练模块，用于所述目标语料库进行语言模型训练，得到目标语言模型。
[0030]还提供了一种语音识别系统，包括如上面所述的语言模型训练系统。
[0031]从上述技术方案可以看出，本发明提供了一种语言模型训练方法、系统和一种语音识别系统，该方法和系统应用于语音识别系统。具体为首先获取常用语种在预设应用场景下的语料，然后利用机器翻译装置将所述常用语种的语料翻译成目标语种的语料，最后根据目标语种的语料建立目标语料库。由于本技术方案是利用容易得到的常用语种的语料经过翻译最终建立目标语种的目标语料库，而无需通过人工标注的方式建立相应的语料库，因此所需花费较少，时间周期也较短，从而能够解决解决人工标注建立语料库耗时耗力的问题。
【附图说明】
[0032]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0033]图1是本发明提供的一种模式识别系统的结构框图；
[0034]图2是本发明提供的一种语言模型训练方法实施例的步骤流程图；
[0035]图3为本发明提供的另一种语言模型训练方法实施例的步骤流程图；
[0036]图4为本发明提供的一种语言模型训练系统实施例的结构框图；
[0037]图5为本发明提供的另一种语言模型训练系统实施例的结构框图；
[0038]图6为本发明提供的一种语言识别系统的结构框图。
【具体实施方式】
[0039]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0040]实施例一
[0041 ]图2为本发明提供的一种语言模型训练方法实施例的步骤流程图。
[0042]参照图2所示，本实施例提供的语言模型训练方法具体可以包括如下步骤:
[0043]SlOl:获取常用语种在预设应用场景下的语料。
[0044]对于任何语言来说，任何国家的母语时最容易获得的语料，通过对母语的广播、电影、演讲、出版期刊等材料的整理挖掘，很容易得到某个领域或应用场景的大量的标准的语料，例如想要获取汉语普通话在电话客服领域的语料，只需对通过对大量的汉语普通话的电话客服录音进行整理即可得到。
[0045]因此，本方法首先是获取常用语种在预设应用场景下的语料，因为汉语普通话与英语、法语、汉语中的粵语都能够直接相关联，因此首先获取汉语普通话的语言材料，然后根据该语言材料得到中文普通话的语料，最后根据中文普通话的语料、通过一定的媒介就能得到相应语种的语料。本处的预设应用场景选取电话客服领域。
[0046]S102:将常用语种的语料翻译成目标语种的语料。
[0047]对于目前的常用语种来说，借助较为成熟的机器翻译技术可以得到大多数语种的语言文本。因此可以通过机器翻译技术将常用语种在上述应用场景下的语料翻译成目标语种的语料，目标语种可以是其他较为常用但不易得到语料的语种，也可以是小语种的语料，如韩语、爪哇语等。
[0048]因此，当需要对汉语普通话的语料进行处理时，可以利用机器翻译装置进行翻译，得到其他所需要的目标语种的语料，例如将汉语普通话的语料翻译成英语的语料、法语的语料、甚至是汉语的粵语的语料，等等不一而足。
[0049]S103:根据目标语种的语料建立目标语料库。
[0050]在得到目标语种的语料后，即可根据得到的语料建立相应目标语种的高质量的语料库
[0051]从上述技术方案可以看出，本实施例提供了一种语言模型训练方法，该方法应用于语音识别系统。具体为首先获取常用语种在预设应用场景下的语料，然后利用机器翻译装置将所述常用语种的语料翻译成目标语种的语料，最后根据目标语种的语料建立目标语料库。由于本技术方案是利用容易得到的常用语种的语料经过翻译最终建立目标语种的目标语料库，而无需通过人工标注的方式建立相应的语料库，因此所需花费较少，时间周期也较短，从而能够解决解决人工标注建立语料库耗时耗力的问题。
[0052]实施例二
[0053]图3为本发明提供的另一种语言模型训练方法实施例的步骤流程图。
[0054]参照图3所示，本实施例提供的语言模型训练方法是在上一实施例的基础上进行了局部的改进，具体可以包括如下步骤:
[0055]S201:获取常用语种在预设应用场景下的语料。
[0056]对于任何语言来说，任何国家的母语时最容易获得的语料，通过对母语的广播、电影、演讲、出版期刊等材料的整理挖掘，很容易得到某个领域或应用场景的大量的标准的语料，例如想要获取汉语普通话在电话客服领域的语料，只需对通过对大量的汉语普通话的电话客服录音进行整理即可得到。
[0057]因此，本方法首先是获取常用语种在预设应用场景下的语料，因为汉语普通话与英语、法语、汉语中的粵语都能够直接相关联，因此首先获取汉语普通话的语言材料，然后根据该语言材料得到中文普通话的语料，最后根据中文普通话的语料、通过一定的媒介就能得到相应语种的语料。本处的预设应用场景选取电话客服领域。
[0058]S202:将常用语种的语料翻译成目标语种的语料。
[0059]对于目前的常用语种来说，借助较为成熟的机器翻译技术可以得到大多数语种的语言文本。因此可以通过机器翻译技术将常用语种在所述预设应用场景下的语料翻译成目标语种的语料，目标语种可以是其他较为常用但不易得到语料的语种，也可以是小语种的语料，如韩语、爪哇语等。
[0060]因此，当需要对汉语普通话的语料进行处理时，可以利用机器翻译装置进行翻译，得到其他所需要的目标语种的语料，例如将汉语普通话的语料翻译成英语的语料、法语的语料、甚至是汉语的粵语的语料，等等不一而足。
[0061 ] S203:根据目标语种的语料建立目标语料库。
[0062]在得到目标语种的语料后，即可根据得到的语料建立相应目标语种的高质量的语料库，例如英语、法语或汉语中的粵语的语料库。
[0063]S204:利用目标语料库进行语言模型训练。
[0064]在得到目标语种的语料，并建立相应的语料库、如英语、法语或汉语中的粵语的语料库后，即可根据该语料库对该语种进行语言模型进行训练，最终得到该目标语种在特定应用场景、如电话客服领域的目标语言模型。
[0065]通过这种方法建立目标语言模型后，即可根据该目标语言模型应用于特定的语音识别系统中，从而为人们提供较为满意的语音识别结果，如文本识别、控制指令识别等，并最终将该识别结果应用到语音识别、机器人控制等具体领域。
[0066]需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。
[0067]实施例三
[0068]图4为本发明提供的一种语言模型训练系统实施例的结构框图。
[0069]参照图4所示，本实施例提供的语言模型训练系统具体可以包括语料获取模块10、翻译模块20和语料库建立模块30。
[0070]获取模块10用于获取常用语种在预设应用场景下的语料。[0071 ]对于任何语言来说，任何国家的母语时最容易获得的语料，通过对母语的广播、电影、演讲、出版期刊等材料的整理挖掘，很容易得到某个领域或应用场景的大量的标准的语料，例如想要获取汉语普通话在电话客服领域的语料，只需对通过对大量的汉语普通话的电话客服录音进行整理即可得到。
[0072]因此，本系统首先利用语料获取模块10获取常用语种在预设应用场景下的语料，因为汉语普通话与英语、法语、汉语中的粵语都能够直接相关联，因此首先利用其中的语言材料获取单元11获取汉语普通话的语言材料，然后利用语料获取单元12根据该语言材料得到中文普通话的语料，最后根据中文普通话的语料、通过一定的媒介就能得到相应语种的语料。本处的预设应用场景选取电话客服领域。
[0073]翻译模块20用于将常用语种的语料翻译成目标语种的语料。
[0074]对于目前的常用语种来说，借助较为成熟的机器翻译技术可以得到大多数语种的语言文本。因此可以通过机器翻译技术将常用语种在所述预设应用场景下的语料翻译成目标语种的语料，目标语种可以是其他较为常用但不易得到语料的语种，也可以是小语种的语料，如韩语、爪哇语等。
[0075]因此，当需要对汉语普通话的语料进行处理时，可以利用机器翻译装置进行翻译，得到其他所需要的目标语种的语料，例如将汉语普通话的语料翻译成英语的语料、法语的语料、甚至是汉语的粵语的语料，等等不一而足。
[0076]语料库建立模块30用于根据目标语种的语料建立目标语料库。
[0077]在翻译模块20通过机器翻译的方法从常用语种的语料得到目标语种的语料后，SP可根据得到的语料建立相应目标语种的高质量的语料库
[0078]从上述技术方案可以看出，本实施例提供了一种语言模型训练系统，该系统应用于语音识别系统。具体为首先获取常用语种在预设应用场景下的语料，然后利用机器翻译装置将所述常用语种的语料翻译成目标语种的语料，最后根据目标语种的语料建立目标语料库。由于本技术方案是利用容易得到的常用语种的语料经过翻译最终建立目标语种的目标语料库，而无需通过人工标注的方式建立相应的语料库，因此所需花费较少，时间周期也较短，从而能够解决解决人工标注建立语料库耗时耗力的问题。
[0079]实施例四
[0080]图5为本发明提供的另一种语言模型训练系统实施例的结构框图。
[0081]参照图5所示，本实施例提供的语言模型训练系统是在上一实施例的基础上增加了训练模块40。
[0082]训练模块40用于利用语料库建立模块30建立的目标语料库进行语言模型训练。
[0083]例如在得到目标语种的语料，并建立相应的语料库、如英语、法语或汉语中的粵语的语料库后，即可根据该语料库对该语种进行语言模型进行训练，最终得到该目标语种在特定应用场景、如电话客服领域的目标语言模型。
[0084]通过这种方法建立目标语言模型后，即可根据该目标语言模型应用于特定的语音识别系统中，从而为人们提供较为满意的语音识别结果，如文本识别、控制指令识别等，并最终将该识别结果应用到语音识别、机器人控制等具体领域。
[0085]实施例五
[0086]图6为本发明提供的一种语音识别系统的结构框图。
[0087]参照图6所示，本发明提供的语音识别系统包括特征提取模块50、匹配模块60、词模型模块70、语言模型模块80和语音模型训练系统100。
[0088]特征提取模块60首先对语音信号进行分析，然后形成特征矢量;匹配模块70用于将特征矢量并按词典要求和子词模型集合串接成的词模型模块70中的词模型进行识别，然后根据语言模型模块80的句法限制在句子级将进行输入语音的特征矢量与语言模型进行匹配，最后识别出相应的句子。
[0089]语音模型训练系统100用于对所需的特定语种在特定应用场景下的语言模型进行训练，具体训练过程是首先获取常用语种在预设应用场景下的语料，然后利用机器翻译装置将常用语种的语料翻译成目标语种的语料，根据目标语种的语料建立目标语料库，最后利用目标语料库进行语言模型训练，得到目标语言模型。
[0090]从而能够使本语音识别系统能够对不常用的语种在特殊应用场景下进行语言识另Ij，并得到良好的识别效果。
[0091]对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0092]本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
[0093]本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0094]所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0095]在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0096]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0097]另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
[0098]所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0099]以上所述，仅为本发明的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。
【主权项】
1.一种语言模型训练方法，应用于语音识别系统，其特征在于，包括步骤: 获取常用语种在预设应用场景下的语料；利用机器翻译装置将所述常用语种在所述预设应用场景下的语料翻译成目标语种的语料；根据所述目标语种的语料建立目标语料库。2.如权利要求1所述的语种模型训练方法，其特征在于，所述获取常用语种在预设应用场景下的语料，包括: 获取中文普通话在预设应用场景下的语言材料；根据所述语言材料获取所述中文普通话的语料。3.如权利要求2所述的语种模型训练方法，其特征在于，所述目标应用场景包括电话客服场景。4.如权利要求1所述的语种模型训练方法，其特征在于，所述利用机器翻译装置将所述常用语种的语料翻译成目标语种的语料，包括: 利用所述机器翻译装置将所述常用语种的语料翻译成小语种的语料。5.如权利要求1?4任一项所述的语种模型训练方法，其特征在于，还包括: 利用所述目标语料库进行语言模型训练，得到目标语言模型。6.一种语言模型训练系统，应用于语音识别系统，其特征在于，包括: 语料获取模块，用于获取常用语种在预设应用场景下的语料；翻译模块，用于利用机器翻译装置将所述常用语种在所述预设应用场景下的语料翻译成目标语种的语料；语料库建立模块，用于根据所述目标语种的语料建立目标语料库。7.如权利要求6所述的语言模型训练系统，其特征在于，所述语料获取模块包括: 语言材料获取单元，用于获取中文普通话在目标应用场景下的语言材料；语料获取单元，用于根据所述语言材料获取所述中文普通话的语料。8.如权利要求7所述的语言模型训练系统，其特征在于，所述目标应用场景包括电话客服场景。9.如权利要求6所述的语言模型训练系统，其特征在于，所述翻译模块用于利用所述机器翻译装置将所述常用语种的语料翻译成小语种的语料。10.如权利要求6?9任一项所述的语言模型训练系统，其特征在于，还包括: 训练模块，用于所述目标语料库进行语言模型训练，得到目标语言模型。11.一种语音识别系统，其特征在于，包括如权利要求6?10任一项所述的语言模型训练系统。
【文档编号】G10L15/06GK106023985SQ201610339429
【公开日】2016年10月12日
【申请日】2016年5月19日
【发明人】李健, 韩振龙, 郑晓明, 张连毅, 武卫东
【申请人】北京捷通华声科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李健;韩振龙;郑晓明;张连毅;武卫东;
技术所有人：北京捷通华声科技股份有限公司;
我是此专利的发明人

上一篇：一种基于声效模式检测的语音识别方法
上一篇：基于车联网的语音识别方法