一种语言建模方法及语言建模装置的制作方法

文档序号：6560444阅读：183来源：国知局

专利名称：一种语言建模方法及语言建模装置的制作方法
技术领域：
本发明涉及语言识别技术，特别涉及一种语言建模方法及语言建模装置。
背景技术：
随着计算机硬件性能的不断提升和软件智能的不断提高，人们越来越期望计算机能够提供更加自然的人机交互方式，主要表现在(I)提供更加智能的汉语输入法；(2)提供语音识别功能；(3)提供手写字符识别功能。而这三种交互方式的实现，底层都需要有语言建模技术的支持。因而，语言建模方法的优劣，直接决定了语言模型性能的高低，也决定了上述人机交互软件效果的好坏。目前最常用的语言建模方法包括统计语言模型建模方法以及Ngram语言模型建模方法，下面进行简要说明。统计语言模型以概率论和数理统计理论为基础，用来计算汉语语句的概率，使得输出的正确语句的概率大于错误语句的概率。例如，对于汉语输入的汉语语句“说明此处汉语语句的概率”，在统计语言模型中，该汉语语句可以分解为若干个词语，如说明\此处...，对于一个包含m (m为自然数)个词的汉语语句S = W1W2K Wm,根据Bayes理论,该汉语语句概率(输出正确的概率)可以分解为包含多个词语的条件概率的乘积，即
权利要求
1.一种语言建模方法,其特征在于,该方法包括根据预先建立的标准Ngram语言模型，分别计算用户输入中各词语的标准条件概率；按照预先设置的基于缓存的语言建模策略，根据所述用户输入以及预先缓存的用户输入，分别计算所述用户输入中各词语的缓存条件概率；根据各词语的标准条件概率以及缓存条件概率计算融合条件概率，基于融合条件概率获取各输出语句的语句概率；选择概率最大的输出语句输出并缓存该输出语句。
2.如权利要求I所述的方法，其特征在于，计算用户输入中第i个词语的缓存条件概率包括获取包含该第i个词语及该第i个词语之前预设常数个词语的词语序列在缓存的训练语料中出现的次数ki; 获取包含该第i个词语之前预设常数个词语的词语序列在缓存的训练语料中出现的次数I^1 ；获取该第i个词语的时间函数值；计算次数匕与次数I^1的比值，将计算得到的比值与该第i个词语的时间函数值相乘，得到所述用户输入中第i个词语的缓存条件概率。
3.如权利要求2所述的方法，其特征在于，将预先设置的常数与第i个词语进入缓存区中的时间点与当前用户输入语句的时间点之间的时间间隔进行相比得到所述时间函数值。
4.如权利要求3所述的方法，其特征在于，计算用户输入中第i个词语的标准条件概率包括获取包含该第i个词语及该第i个词语之前预设常数个词语的词语序列在标准Ngram语言模型的训练语料中出现的次数k' i；获取包含该第i个词语之前预设常数个词语的词语序列在标准Ngram语言模型的训练语料中出现的次数k'卜1; 计算次数k' i与次数k' η的比值，将计算得到的比值作为所述用户输入中第i个词语的标准条件概率。
5.如权利要求4所述的方法，其特征在于，计算第i个词语的融合条件概率包括 Al、确定取值在O至I之间的插值系数； A2、计算该插值系数与第i个词语的标准条件概率的乘积； A3、计算I与该插值系数的差与第i个词语的缓存条件概率的乘积； A4、计算步骤A2、A3得到的乘积的和，作为第i个词语的融合条件概率。
6.如权利要求5所述的方法，其特征在于，计算输出语句的语句概率包括分别获取语句包含的各词语的融合条件概率；将获取的各词语的融合条件概率依次相乘得到输出语句的语句概率。
7.如权利要求6所述的方法，其特征在于，所述缓存的用户输入采用队列的数据结构，所述第i个词语的时间间隔的取值为第i个词语在缓存队列中的位置。
8.如权利要求I至7中任一项所述的方法，其特征在于，在所述选择概率最大的输出语句输出后，缓存该输出语句前，进一步包括对输出语句进行修正。
9.如权利要求8所述的方法，其特征在于，所述用户输入包括输入法输入、手写识别输入以及语音识别输入。
10.如权利要求I所述的方法，其特征在于，在所述预先缓存的用户输入为空时，所述用户输入中各词语的缓存条件概率等于该词语的标准条件概率。
11.一种语言建模装置，其特征在于，该装置包括标准Ngram语言模型模块、缓存模块、基于缓存的语言建模模块以及混合模型模块，其中，标准Ngram语言模型模块，用于接收用户的输入，分别计算用户输入中各词语的标准条件概率，输出至混合模型模块；缓存模块，用于缓存混合模型模块输出的语句；基于缓存的语言建模模块，用于按照预先设置的基于缓存的语言建模策略，根据用户的输入以及缓存模块缓存的语句，分别计算用户输入中各词语的缓存条件概率，输出至混合模型模块；混合模型模块，用于根据各词语的标准条件概率以及缓存条件概率计算融合条件概率，基于融合条件概率获取各输出语句的语句概率，选择概率最大的输出语句输出。
12.如权利要求11所述的装置，其特征在于，所述标准Ngram语言模型模块包括第一词语序列频次计数单元、第二词语序列频次计数单元以及标准条件概率计算单元，其中，第一词语序列频次计数单元，用于获取包含该第i个词语及该第i个词语之前预设常数个词语的词语序列在标准Ngram语言模型的训练语料中出现的次数k' i，输出至标准条件概率计算单元；第二词语序列频次计数单元，用于获取包含该第i个词语之前预设常数个词语的词语序列在标准Ngram语言模型的训练语料中出现的次数k' ^1,输出至标准条件概率计算单元; 标准条件概率计算单元，用于计算次数k' i与次数k' η的比值，将计算得到的比值作为所述用户输入中第i个词语的标准条件概率。
13.如权利要求12所述的装置，其特征在于，所述基于缓存的语言建模模块包括第三词语序列频次计数单元、第四词语序列频次计数单元、时间函数值获取单元以及缓存条件概率计算单元，其中，第三词语序列频次计数单元，用于获取包含该第i个词语及该第i个词语之前预设常数个词语的词语序列在缓存的训练语料中出现的次数ki;输出至缓存条件概率计算单元；第四词语序列频次计数单元，用于获取包含该第i个词语之前预设常数个词语的词语序列在缓存的训练语料中出现的次数Iv1，输出至缓存条件概率计算单元；时间函数值获取单元，用于获取该第i个词语的时间函数值，输出至缓存条件概率计算单元；缓存条件概率计算单元，用于计算次数h与次数I^1的比值，将计算得到的比值与该第i个词语的时间函数值相乘，得到所述用户输入中第i个词语的缓存条件概率。
14.如权利要求13所述的装置，其特征在于，所述混合模型模块包括插值系数存储单元、第一乘积单元、第二乘积单元、融合条件概率计算单元、语句概率计算单元以及输出语句选择单元，其中，插值系数存储单元，用于存储预先设置在O至I之间的插值系数；第一乘积单元，用于根据插值系数存储单元存储的插值系数，计算该插值系数与第i个词语的标准条件概率的乘积，输出至融合条件概率计算单元；第二乘积单元，用于计算I与该插值系数的差与第i个词语的缓存条件概率的乘积，输出至融合条件概率计算单元；融合条件概率计算单元，用于将接收的与第i个词语相关的乘积进行相加，作为第i个词语的融合条件概率；语句概率计算单元，用于将融合条件概率计算单元获取的各词语的融合条件概率依次相乘得到输出语句的语句概率；输出语句选择单元，用于选择语句概率计算单元计算得到的最大语句概率，将该最大语句概率对应的输出语句输出。
全文摘要
本发明公开了一种语言建模方法及语言建模装置。该方法包括根据预先建立的标准Ngram语言模型，分别计算用户输入中各词语的标准条件概率；按照预先设置的基于缓存的语言建模策略，根据用户的输入以及预先缓存的用户输入，分别计算用户输入中各词语的缓存条件概率；根据各词语的标准条件概率以及缓存条件概率计算融合条件概率，基于融合条件概率获取各输出语句的语句概率；选择概率最大的输出语句输出并缓存该输出语句。应用本发明，可以满足不同用户对汉语输入的需求、提高识别准确率。
文档编号G06F17/30GK102880611SQ20111019706
公开日2013年1月16日申请日期2011年7月14日优先权日2011年7月14日
发明者肖镜辉申请人:腾讯科技(深圳)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：肖镜辉
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：无源标签后向散射参数的测试系统和测试方法
上一篇：适用于汽车辅助驾驶系统的彩色夜视图像亮度增强方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。