语言模型训练系统、语音识别系统及相应方法

文档序号:2825547阅读:486来源:国知局
语言模型训练系统、语音识别系统及相应方法
【专利摘要】本发明提供了语言模型训练系统、语音识别系统及相应方法,涉及语音识别领域,用以解决现有语言模型训练技术及语音识别技术的识别准确率不够高的问题。语言模型训练系统包括:第一收集单元用于收集语音搜索的标注结果日志;第一训练单元用于对标注结果日志进行训练,并生成标注结果语言模型;第一语言模型库用于存储所述标注结果语言模型;第二收集单元用于收集文本搜索的检索日志;第二训练单元用于对检索日志进行训练,并生成检索日志语言模型;第二语言模型库用于存储所述检索日志语言模型;结合单元用于通过插值法,将标注结果语言模型以及检索日志语言模型相结合;第三语言模型库用于存储结合后得到的语言模型。
【专利说明】语言模型训练系统、语音识别系统及相应方法
【【技术领域】】
[0001]本发明涉及语音识别领域,特别是涉及一种语言模型训练系统及方法,以及一种语音识别系统及方法。
【【背景技术】】
[0002]语言模型建模是语音识别技术中的组成部分,主要是通过统计文本语料中的文法分布,获得对于语言的统计模型,用于描述一个文本串成为自然语言的概率。语言模型建模的关键在于,用于训练的文本语料和需要识别的语音分布相近,基于此,训练得到的语言模型才能更好地描述用户语音输入,进而实现语音搜索等实际操作。
[0003]但是,现有的语言模型训练技术基于文本检索日志,但文本检索与语音检索在表达上毕竟存在一定差异,在此基础上进行的语音识别技术的识别准确率不够高,存在一定的失配情况。【
【发明内容】

[0004]本发明提供了一种语言模型训练系统及方法,以及一种语音识别系统及方法,用以解决基于现有语言模型训练技术的语音识别技术的识别准确率不够高,存在一定失配情况的问题。
[0005]具体技术方案如下:
[0006]一种语言模型训练系统,包括:第一收集单元,用于收集语音搜索的标注结果日志;第一训练单元,用于对标注结果日志进行训练,并生成标注结果语言模型;第一语言模型库,用于存储所述标注结果语言模型;第二收集单元,用于收集文本搜索的检索日志;第二训练单元,用于对检索日志进行训练,并生成检索日志语言模型;第二语言模型库,用于存储所述检索日志语言模型;结合单元,用于将第一语言模型库中存储的所述标注结果语言模型以及第二语言模型库中存储的所述检索日志语言模型相结合;第三语言模型库,用于存储结合后得到的语言模型。
[0007]根据本发明一优选实施例,还包括:第一日志预处理单元,用于预处理所述第一收集单元收集的标注结果日志,以及将预处理后的标注结果日志交由第一训练单元进行训练;第二日志预处理单元,用于预处理第二收集单元收集的检索日志,以及将预处理后的检索日志交由第二训练单元进行训练。
[0008]根据本发明一优选实施例,所述第一语言模型库存储的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出:
Pa\wn Iw1M-V-M^1)= ( "--其中 PjwnIw1W2...W^1)为词语 WpW2、…、Wn 按顺序
UAHiwI
出现之后文法接续词语Wn的条件概率;C(WlW2...Wn)为在标注结果文本中,词语Wpw2、…、Wlri按顺序出现之后文法接续词语Wn的次数;Σ wC(Wl...WlriW)为在标注结果文本中,词语W1^ W2,…、Wlri按顺序出现之后文法接续任一词语的次数之和;n为预设的大于I的正整数;所述第二语言模型库存储的检索日志语言模型中包括:各词语在检索日志文本中的文
法概率关系,所述文法概率关系通过下述公式得出:
【权利要求】
1.一种语言模型训练系统,其特征在于,包括: 第一收集单元,用于收集语音搜索的标注结果日志; 第一训练单元,用于对标注结果日志进行训练,并生成标注结果语言模型; 第一语言模型库,用于存储所述标注结果语言模型; 第二收集单元,用于收集文本搜索的检索日志; 第二训练单元,用于对检索日志进行训练,并生成检索日志语言模型; 第二语言模型库,用于存储所述检索日志语言模型; 结合单元,用于将第一语言模型库中存储的所述标注结果语言模型以及第二语言模型库中存储的所述检索日志语言模型相结合; 第三语言模型库,用于存储结合后得到的语言模型。
2.根据权利要求1所述的系统,其特征在于,还包括: 第一日志预处理单元,用于预处理所述第一收集单元收集的标注结果日志,以及将预处理后的标注结果日志交由第一训练单元进行训练; 第二日志预处理单元,用于预处理第二收集单元收集的检索日志,以及将预处理后的检索日志交由第二训练单元进行训练。
3.根据权利要求1所述的系统,其特征在于,所述第一语言模型库存储的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出感丨 W1W2...^)=`; 其中Pa(Wnl W1W2...Wn-1)为词语^h、免2、*..>?η-1按顺序出现之后文法接续词语Wn的条件概率;C(WlW2...Wn)为在标注结果文本中,词语Wp W2,…、Wlrf按顺序出现之后文法接续词语'的次数;Σ WC (W1...Wn^1W)为在标注结果文本中,词语Wp W2、…、Wlri按顺序出现之后文法接续任一词语的次数之和;n为预设的大于I的正整数; 所述第二语言模型库存储的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出-Aiw,,丨W1H1)=; 其中Pb(Wnl W1W2...Wn-1)为词语^h、免2、*..>?η-1按顺序出现之后文法接续词语Wn的条件概率;C(WlW2...Wn)为在检索日志文本中,词语Wp W2,…、Wlrf按顺序出现之后文法接续词语Wn的次数;Σ WC (W1...WlriW)为在检索日志文本中,词语Wp W2 >…、Wlri按顺序出现之后文法接续任一词语的次数之和;n为预设的大于I的正整数。
4.根据权利要求3所述的系统,其特征在于,所述第三语言模型库存储的结合后得到的语言模型中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:
Pc (Wn I W1W2...Wn^1) = λ JPa (Wn I W1W2...Wn^1) + λ 2Pb (Wn I W1W2...Wn^1); 其中PJwnIw1W2...Wlri)为词语WpW2'…、Wlri按顺序出现之后文法接续词语Wn的条件概率;λ i和λ 2为插值系数。
5.根据权利要求4所述的系统,其特征在于,所述入2大于所述λ1()
6.一种语言模型训练方法,其特征在于,包括下列步骤: S1、收集语音搜索的标注结果日志,对标注结果日志进行训练,生成并存储标注结果语言模型;以及,收集文本搜索的检索日志,对检索日志进行训练,生成并存储检索日志语言模型; S2、将存储的所述标注结果语言模型以及所述检索日志语言模型相结合,存储结合后得到的语言模型。
7.根据权利要求6所述的方法,其特征在于,还包括: 步骤SI中,收集语音搜索的标注结果日志之后,对标注结果日志进行训练之前,预处理所述收集的标注结果日志;以及训练所述预处理后的标注结果日志; 步骤SI中,收集文本搜索的检索日志之后,对检索日志进行训练之前,预处理所述的检索日志;以及训练所述预处理后的检索日志。
8.根据权利要求6所述的方法,其特征在于,所述的标注结果语言模型中包括:各词语在标注结果文本中的文法概率关系,所述文法概率关系通过下述公式得出:
其中Pa(Wnl W1W2...Wn-1)为词语^h、免2、*..>?η-1按顺序出现之后文法接续词语Wn的条件概率;C(WlW2...Wn)为在标注结果文本中,词语Wp W2,…、Wlrf按顺序出现之后文法接续词语'的次数;Σ WC (W1...Wn^1W)为在标注结果文本中,词语Wp W2、…、Wlri按顺序出现之后文法接续任一词语的次数之和;n为预设的大于I的正整数; 所述的检索日志语言模型中包括:各词语在检索日志文本中的文法概率关系,所述文法概率关系通过下述公式得出Iw1W2--^i)=;` 其中Pb(Wnl W1W2...Wn-1)为词语^h、免2、*..>?η-1按顺序出现之后文法接续词语Wn的条件概率;C(WlW2...Wn)为在检索日志文本中,词语Wp W2,…、Wlrf按顺序出现之后文法接续词语Wn的次数;Σ WC (W1...WlriW)为在检索日志文本中,词语Wp W2 >…、Wlri按顺序出现之后文法接续任一词语的次数之和;n为预设的大于I的正整数。
9.根据权利要求8所述的方法,其特征在于,步骤S2中所述的结合后得到的语言模型中包括:各词语的文法概率关系,各词语的文法概率关系通过下述公式得出:
Pc (Wn IW1W2...Wlri) = λ JPa (Wn IW1W2...Wn^1) + λ 2Pb (Wn IW1W2...Wlri); 其中PJwnIw1W2...Wlri)为词语WpW2'…、Wlri按顺序出现之后文法接续词语Wn的条件概率;λ i和λ 2为插值系数。
10.根据权利要求9所述的方法,其特征在于,所述入2大于所述λ1()
11.一种语音识别系统,其特征在于,包括:客户端和服务器; 所述客户端,用于接收用户发起的语音请求,将该语音请求发送给所述服务器; 所述服务器,用于利用语言模型对所述语音请求进行识别,得到语音识别结果; 其中,所述语言模型为权利要求1至5任一项训练出的所述结合后得到的语言模型。
12.—种语音识别方法,其特征在于,包括下列步骤: 接收用户发起的语音请求;根据语言模型对所述语音请求进行识别,得出识别结果; 其中,所述语言模型为权利要求6至10任一项训练出的所述结合后得到的语言模型。
【文档编号】G10L15/30GK103871402SQ201210533887
【公开日】2014年6月18日 申请日期:2012年12月11日 优先权日:2012年12月11日
【发明者】曹立新, 万广鲁 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1