一种语言模型的训练方法及系统的制作方法

文档序号:8258505阅读:135来源:国知局
一种语言模型的训练方法及系统的制作方法
【技术领域】
[0001] 本发明涉及自然语言处理技术领域,特别是涉及一种语言模型的训练方法及系 统。
【背景技术】
[0002] 在自然语言处理技术领域,语音识别是机器通过识别和理解过程将语音信号转变 为相应的文本或命令的技术。
[0003] 语音识别系统在本质上是一种模式识别系统,通常包括特征提取、模式匹配和参 考模型等基本单元。参照图1,示出了现有一种语言识别系统的结构示意图,其中,输入的语 音信号先经过特征提取单元分析后形成特征矢量,然后进入词级匹配单元,由所述词级匹 配单元按照字典和子词模型集合串接成的词模型对所述特征矢量进行识别,所述词级匹配 单元输出的词汇进入句子级匹配单元,由所述句子级匹配单元根据语言模型的句法限制在 句子级进行输入语音与语言模型间的匹配,最后识别得到相应的句子。其中,语言模型是描 述词汇概率分布的模型,一个能可靠反映语言识别时用词的概率分布的模型,是语音识别 系统取得可靠结果的关键。而语言模型中词汇的概率分布取决于训练该语言模型时使用的 语料。
[0004]目前,大数据的出现使更真实的语言模型的训练成为可能,其中,大数据可以通过 互联网等方式获取。现有语言模型的训练方法通常直接对大数据进行训练得到语言模型, 然而,由于大数据的尺寸和规模庞大,直接对其进行训练,不仅需要占用更多的硬盘和内存 消耗,而且需要长的训练时间,也即现有语言模型的训练方法具有占用的计算资源量大、耗 时等问题。
[0005]为了克服上述占用的计算资源量大、耗时等问题,还有一些语言模型的训练方法 会对大数据进行一些裁剪,然后对裁剪后的大数据进行训练,然而,上述训练得到的语言模 型容易失去大数据的原始统计分布,从而导致语言识别率降低。

【发明内容】

[0006]本发明实施例所要解决的技术问题是提供一种语言模型的训练方法及系统,能够 在减小运算量和省时的前提下,提高语言模型参数的合理性。
[0007]为了解决上述问题,本发明公开了一种语言模型的训练方法,包括:
[0008] 获取各领域的种子语料;
[0009]依据各领域的种子语料的向量空间模型对大数据语料进行筛选,得到相应领域的 种子筛选语料;
[0010] 分别利用各领域的种子筛选语料训练得到相应领域的筛选模型;
[0011] 对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
[0012] 优选的,所述依据各领域的种子语料的向量空间模型,得到相应领域的种子筛选 语料的步骤,包括:
[0013] 计算所述大数据语料中句子与某领域的向量空间模型之间的内容相关度;
[0014] 依据所述内容相关度对大数据语料进行筛选,得到相应领域的种子筛选语料。
[0015] 优选的,所述对所有领域的筛选模型进行融合,得到相应的筛选融合模型的步骤, 包括:
[0016] 分别计算各领域的筛选模型在通用测试集之上的第一困惑度;
[0017] 依据各领域的筛选模型的第一困惑度确定其在筛选融合模型中的第一权重;
[0018] 依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
[0019] 优选的,所述方法还包括:
[0020] 依据所述各领域的种子语料训练相应领域的种子模型;
[0021] 对所有领域的种子模型进行融合,得到相应的种子融合模型;
[0022] 对所述筛选融合模块和所述种子融合模型进行融合,得到相应的通用模型。
[0023] 优选的,所述依据所述第一权重对所有领域的筛选模型进行融合,得到相应的筛 选融合模型的步骤,包括:
[0024] 采用线性插值的方式将所有领域的筛选模型融合成筛选融合模型;其中,插值系 数用于调节各领域的筛选模型在筛选融合模型中的第一权重。
[0025] 另一方面,本发明还公开了一种语言模型的训练系统,包括:
[0026] 获取模块,用于获取各领域的种子语料;
[0027] 筛选模块,用于依据各领域的种子语料的向量空间模型对大数据语料进行筛选, 得到相应领域的种子筛选语料;
[0028]训练模块,用于分别利用各领域的种子筛选语料训练得到相应领域的筛选模型; 及
[0029] 第一融合模块,用于对所有领域的筛选模型进行融合,得到相应的筛选融合模型。
[0030] 优选的,所述筛选模块包括:
[0031] 第一计算子模块,用于计算所述大数据语料中句子与某领域的向量空间模型之间 的内容相关度;
[0032] 选取子模块,用于依据所述内容相关度对大数据语料进行筛选,得到相应领域的 种子筛选语料。
[0033] 优选的,所述第一融合模块包括:
[0034] 第二计算子模块,用于分别计算各领域的筛选模型在通用测试集之上的第一困惑 度;
[0035] 确定子模块,用于依据各领域的筛选模型的第一困惑度确定其在筛选融合模型中 的第一权重;
[0036] 权重融合子模块,用于依据所述第一权重对所有领域的筛选模型进行融合,得到 相应的筛选融合模型。
[0037] 优选的,所述系统还包括:
[0038] 种子模型训练模块,用于依据所述各领域的种子语料训练相应领域的种子模型;
[0039] 第二融合模块,用于对所有领域的种子模型进行融合,得到相应的种子融合模 型;
[0040] 第三融合模块,用于对所述筛选融合模块和所述种子融合模型进行融合,得到相 应的通用模型。
[0041] 优选的,所述权重融合子模块,具体用于采用线性插值的方式将所有领域的筛选 模型融合成筛选融合模型;其中,插值系数用于调节各领域的筛选模型在筛选融合模型中 的第一权重。
[0042] 与现有技术相比,本发明实施例包括以下优点:
[0043] 本发明实施例提供了一种语言模型训练的方案,该方案依据各领域的种子语料的 向量空间模型对大数据语料进行筛选,得到相应领域的种子筛选语料,得到相应领域的种 子筛选语料,并分别利用各领域的种子筛选语料训练得到相应领域的筛选模型,且对所有 领域的筛选模型进行融合,得到相应的筛选融合模型;
[0044] 首先,由于上述种子筛选语料相对于原始的大数据语料而言,规模大小会变成几 十分之一或者更小,因此,能够大大减小训练的数据规模较小,从而大大减小训练的计算资 源量;
[0045] 其次,在训练数据减少的情况下,训练过程耗时减少;
[0046] 再者,筛选模型是依据与各领域相匹配的筛选语料数据训练得到的,而不是裁剪 后的大数据训练得到的,因此语言模型估计得到的参数更合理、更科学;
[0047] 进一步,由于由筛选模型的筛选融合模型作为通用模型能够覆盖通用领域,而筛 选模型是依据与各领域相匹配的筛选语料数据训练得到的,而不是裁剪后的大数据训练得 到的,因此筛选融合模型在数据分布和模型性能上之间能达到最优,因此,能够提高语音识 别率。
【附图说明】
[0048] 图1是现有一种语言识别系统的结构示意图;
[0049] 图2是本发明的一种语言模型的训练方法实施例一的步骤流程图;
[0050] 图3是本发明的一种语言模型的训练方法实施例二的步骤流程图;以及
[0051] 图4是本发明的一种语言模型的训练系统实施例的结构框图。
【具体实施方式】
[0052] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本发明作进一步详细的说明。
[0053] 实施例一
[0054] 参照图2,示出了本发明的一种语言模型的训练方法实施例一的步骤流程图,具体 可以包括如下步骤:
[0055] 步骤201、获取各领域的种子语料;
[0056] 本发明实施例中,领域可以指数据的应用场景,如新闻、地名、网址、人名、地图导 航、聊天、短信、问答、微博等为常见的领域。在实际应用中,可针对特定的领域,通过专业的 抓取、合作等途径获得对应的种子语料,其中的合作可以与网站运营商合作,通过网站的日 志文件来获取相应的种子语料,如通过微博网站的日志文件获取相应的种子语料等,本发 明实施例对具体的获取各领域的种子语料的具体方法不加以限制。
[0057] 本发明实施例中,种子模型、筛选模型、筛选融合模型等模型在本质上均隶属于语 言模型。故可以采用语言模型的训练方法利用语料数据训练上述种子模型、筛选模型和筛 选融合模型等模型,其中在训练前应对语料数据进行相应的分词处理。
[0058] 语言模型是描述词汇概率分布的模型,利用语言模型,可以确定哪个词序列或句 子的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。假设,在语音识 别过程中,输入拼音串为"nixianzaiganshenme",对应的输出可以有多种形式,如你现在干 什么、你先在赶什么,等等;利用语言模型,可以得知前者的概率大于后者,因此将上述拼音 串识别成前者在多数情况下比较合理。
[0059] N-Gram(N元文法)语言模型是最常见的一种语言模型,该N-Gram语言模型基于这 样一种假设,即第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的 概率就是各个词出
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1