一种语言模型的训练方法及系统的制作方法

文档序号：8258505阅读：135来源：国知局

一种语言模型的训练方法及系统的制作方法
【技术领域】
[0001] 本发明涉及自然语言处理技术领域，特别是涉及一种语言模型的训练方法及系统。
【背景技术】
[0002] 在自然语言处理技术领域，语音识别是机器通过识别和理解过程将语音信号转变为相应的文本或命令的技术。
[0003] 语音识别系统在本质上是一种模式识别系统，通常包括特征提取、模式匹配和参考模型等基本单元。参照图1，示出了现有一种语言识别系统的结构示意图，其中，输入的语音信号先经过特征提取单元分析后形成特征矢量，然后进入词级匹配单元，由所述词级匹配单元按照字典和子词模型集合串接成的词模型对所述特征矢量进行识别，所述词级匹配单元输出的词汇进入句子级匹配单元，由所述句子级匹配单元根据语言模型的句法限制在句子级进行输入语音与语言模型间的匹配，最后识别得到相应的句子。其中，语言模型是描述词汇概率分布的模型，一个能可靠反映语言识别时用词的概率分布的模型，是语音识别系统取得可靠结果的关键。而语言模型中词汇的概率分布取决于训练该语言模型时使用的语料。
[0004]目前，大数据的出现使更真实的语言模型的训练成为可能，其中，大数据可以通过互联网等方式获取。现有语言模型的训练方法通常直接对大数据进行训练得到语言模型，然而，由于大数据的尺寸和规模庞大，直接对其进行训练，不仅需要占用更多的硬盘和内存消耗，而且需要长的训练时间，也即现有语言模型的训练方法具有占用的计算资源量大、耗时等问题。
[0005]为了克服上述占用的计算资源量大、耗时等问题，还有一些语言模型的训练方法会对大数据进行一些裁剪，然后对裁剪后的大数据进行训练，然而，上述训练得到的语言模型容易失去大数据的原始统计分布，从而导致语言识别率降低。

【发明内容】

[0006]本发明实施例所要解决的技术问题是提供一种语言模型的训练方法及系统，能够在减小运算量和省时的前提下，提高语言模型参数的合理性。
[0007]为了解决上述问题，本发明公开了一种语言模型的训练方法，包括：
[0008] 获取各领域的种子语料；
[0009]依据各领域的种子语料的向量空间模型对大数据语料进行筛选，得到相应领域的种子筛选语料；
[0010] 分别利用各领域的种子筛选语料训练得到相应领域的筛选模型；
[0011] 对所有领域的筛选模型进行融合，得到相应的筛选融合模型。
[0012] 优选的，所述依据各领域的种子语料的向量空间模型，得到相应领域的种子筛选语料的步骤，包括：
[0013] 计算所述大数据语料中句子与某领域的向量空间模型之间的内容相关度；
[0014] 依据所述内容相关度对大数据语料进行筛选，得到相应领域的种子筛选语料。
[0015] 优选的，所述对所有领域的筛选模型进行融合，得到相应的筛选融合模型的步骤，包括：
[0016] 分别计算各领域的筛选模型在通用测试集之上的第一困惑度；
[0017] 依据各领域的筛选模型的第一困惑度确定其在筛选融合模型中的第一权重；
[0018] 依据所述第一权重对所有领域的筛选模型进行融合，得到相应的筛选融合模型。
[0019] 优选的，所述方法还包括：
[0020] 依据所述各领域的种子语料训练相应领域的种子模型；
[0021] 对所有领域的种子模型进行融合，得到相应的种子融合模型；
[0022] 对所述筛选融合模块和所述种子融合模型进行融合，得到相应的通用模型。
[0023] 优选的，所述依据所述第一权重对所有领域的筛选模型进行融合，得到相应的筛选融合模型的步骤，包括：
[0024] 采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型；其中，插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
[0025] 另一方面，本发明还公开了一种语言模型的训练系统，包括：
[0026] 获取模块，用于获取各领域的种子语料；
[0027] 筛选模块，用于依据各领域的种子语料的向量空间模型对大数据语料进行筛选，得到相应领域的种子筛选语料；
[0028]训练模块，用于分别利用各领域的种子筛选语料训练得到相应领域的筛选模型；及
[0029] 第一融合模块，用于对所有领域的筛选模型进行融合，得到相应的筛选融合模型。
[0030] 优选的，所述筛选模块包括：
[0031] 第一计算子模块，用于计算所述大数据语料中句子与某领域的向量空间模型之间的内容相关度；
[0032] 选取子模块，用于依据所述内容相关度对大数据语料进行筛选，得到相应领域的种子筛选语料。
[0033] 优选的，所述第一融合模块包括：
[0034] 第二计算子模块，用于分别计算各领域的筛选模型在通用测试集之上的第一困惑度；
[0035] 确定子模块，用于依据各领域的筛选模型的第一困惑度确定其在筛选融合模型中的第一权重；
[0036] 权重融合子模块，用于依据所述第一权重对所有领域的筛选模型进行融合，得到相应的筛选融合模型。
[0037] 优选的，所述系统还包括：
[0038] 种子模型训练模块，用于依据所述各领域的种子语料训练相应领域的种子模型；
[0039] 第二融合模块，用于对所有领域的种子模型进行融合，得到相应的种子融合模型；
[0040] 第三融合模块，用于对所述筛选融合模块和所述种子融合模型进行融合，得到相应的通用模型。
[0041] 优选的，所述权重融合子模块，具体用于采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型；其中，插值系数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
[0042] 与现有技术相比，本发明实施例包括以下优点：
[0043] 本发明实施例提供了一种语言模型训练的方案，该方案依据各领域的种子语料的向量空间模型对大数据语料进行筛选，得到相应领域的种子筛选语料，得到相应领域的种子筛选语料，并分别利用各领域的种子筛选语料训练得到相应领域的筛选模型，且对所有领域的筛选模型进行融合，得到相应的筛选融合模型；
[0044] 首先，由于上述种子筛选语料相对于原始的大数据语料而言，规模大小会变成几十分之一或者更小，因此，能够大大减小训练的数据规模较小，从而大大减小训练的计算资源量；
[0045] 其次，在训练数据减少的情况下，训练过程耗时减少；
[0046] 再者，筛选模型是依据与各领域相匹配的筛选语料数据训练得到的，而不是裁剪后的大数据训练得到的，因此语言模型估计得到的参数更合理、更科学；
[0047] 进一步，由于由筛选模型的筛选融合模型作为通用模型能够覆盖通用领域，而筛选模型是依据与各领域相匹配的筛选语料数据训练得到的，而不是裁剪后的大数据训练得到的，因此筛选融合模型在数据分布和模型性能上之间能达到最优，因此，能够提高语音识别率。
【附图说明】
[0048] 图1是现有一种语言识别系统的结构示意图；
[0049] 图2是本发明的一种语言模型的训练方法实施例一的步骤流程图；
[0050] 图3是本发明的一种语言模型的训练方法实施例二的步骤流程图；以及
[0051] 图4是本发明的一种语言模型的训练系统实施例的结构框图。
【具体实施方式】
[0052] 为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。
[0053] 实施例一
[0054] 参照图2,示出了本发明的一种语言模型的训练方法实施例一的步骤流程图，具体可以包括如下步骤：
[0055] 步骤201、获取各领域的种子语料；
[0056] 本发明实施例中，领域可以指数据的应用场景，如新闻、地名、网址、人名、地图导航、聊天、短信、问答、微博等为常见的领域。在实际应用中，可针对特定的领域，通过专业的抓取、合作等途径获得对应的种子语料，其中的合作可以与网站运营商合作，通过网站的日志文件来获取相应的种子语料，如通过微博网站的日志文件获取相应的种子语料等，本发明实施例对具体的获取各领域的种子语料的具体方法不加以限制。
[0057] 本发明实施例中，种子模型、筛选模型、筛选融合模型等模型在本质上均隶属于语言模型。故可以采用语言模型的训练方法利用语料数据训练上述种子模型、筛选模型和筛选融合模型等模型，其中在训练前应对语料数据进行相应的分词处理。
[0058] 语言模型是描述词汇概率分布的模型，利用语言模型，可以确定哪个词序列或句子的可能性更大，或者给定若干个词，可以预测下一个最可能出现的词语。假设，在语音识别过程中，输入拼音串为"nixianzaiganshenme"，对应的输出可以有多种形式，如你现在干什么、你先在赶什么，等等；利用语言模型，可以得知前者的概率大于后者，因此将上述拼音串识别成前者在多数情况下比较合理。
[0059] N-Gram(N元文法）语言模型是最常见的一种语言模型，该N-Gram语言模型基于这样一种假设，即第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑晓明;李健;张连毅;武卫东;
技术所有人：北京捷通华声语音技术有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。