一种语音识别方法及装置与流程

文档序号:13737736阅读:229来源:国知局
一种语音识别方法及装置与流程

本发明涉及语音识别技术领域,包括一种语音识别方法及装置。



背景技术:

语音识别(automaticspeechrecognition,asr)是一项研究如何将人类说话的声音识别转换为文本的技术,可应用于语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等服务中。

语音识别系统训练时建网的过程中涉及多音字问题,现有的建网技术无法做到多音字的消歧,例如,对于如下一句话“有什么理由不是生命的栖息地呢”与“有什么理由不是生命的气息的呢”他们的发音分别然后通过发音字典进行映射为:

youshenmeliyoubushishengmingdeqixidine(第一句)

youshenmeliyoubushishengmingdeqixidine(第二句)

所以,在很多情况下,由于未考虑多音字问题,当声音的发音是“youshenmeliyoubushishengmingdeqixidine”时,就有可能会识别为“有什么理由不是生命的气息的呢”,但是在这个语境下,“的”不会发“di”的音,识别为这个结果是不应该的,诸如类似情况会给用户带来诸多不便。



技术实现要素:

有鉴于此,本发明旨在提出一种语音识别方法及装置,以解决现有技术中由于未考虑语音识别中多音字问题,从而导致语音识别错误的问题。

为达到上述目的,本发明的技术方案是这样实现的:

一种语音识别方法,该方法包括:将预置语料库中进行预处理;所述预处理至少包括:多音字语音标注;根据所述预处理后的所述预置语料库进行语言模型训练;将所述多音字语音标注的多音字词条加入预置字典,生成发音字典;根据所述语言模型和所述发音字典进行语音识别建网后,生成声学模型构图。解决了现有的建网技术无法做到多音字的消歧,而导致的语音识别存在误差的问题。

进一步的,所述将预置语料库中进行预处理的步骤,包括:根据预设词表对预置预料库中的中文语料进行分词;将可确定读音的多音字进行语音标记。

进一步的,还包括:根据收集的中文语料数据建立预置语料库;所述中文语料提取自相同的语言领域。

进一步的,所述将所述多音字语音标注的多音字词条加入预置字典,生成发音字典的步骤,包括:根据所述语言模型中标记为多音字的字生成多音字词条;将所述多音字词条加入预置字典生成发音字典。

进一步的,所述根据所述语言模型和所述发音字典进行语音识别建网后,生成声学模型构图的步骤,包括:将所述语言模型和所述发音字典与预置声学模型构建有限状态转换器;所述预置声学模型为隐马尔可夫模型;通过所述有限状态转换器进行语音识别建网后,生成声学模型构图。

本发明具有以下优势:本发明技术在语音识别建网过程中对语料库引入多音字标注,对原技术中存在的多音字路径进行纠正,从而保证最终的语音识别网络中多音字词不存在冗余路径,具备保证语音识别的准确性的有益效果。

本发明的另一目的在于提出一种语音识别装置,为达到上述目的,本发明的技术方案是这样实现的:语料库预处理模块,用于将预置语料库中进行预处理;所述预处理至少包括:多音字语音标注;语言模型训练模块,用于根据所述预处理后的所述预置语料库进行语言模型训练;发音字典生成模块,用于将所述多音字语音标注的多音字词条加入预置字典,生成发音字典;声学模型构图生成模块,用于根据所述语言模型和所述发音字典进行语音识别建网后,生成声学模型构图。

进一步的,所述语料库预处理模块,包括:分词子模块,用于根据预设词表对预置预料库中的中文语料进行分词;语音标记子模块,用于将可确定读音的多音字进行语音标记。

进一步的,还包括:根据收集的中文语料数据建立预置语料库;所述中文语料提取自相同的语言领域。

进一步的,所述将所述多音字语音标注的多音字词条加入预置字典,生成发音字典的步骤,包括:根据所述语言模型中标记为多音字的字生成多音字词条;将所述多音字词条加入预置字典生成发音字典。

进一步的,所述根据所述语言模型和所述发音字典进行语音识别建网后,生成声学模型构图的步骤,包括:将所述语言模型和所述发音字典与预置声学模型构建有限状态转换器;所述预置声学模型为隐马尔可夫模型;通过所述有限状态转换器进行语音识别建网后,生成声学模型构图。

所述一种语音识别装置与上述一种语音识别方法相对于现有技术所具有的优势相同,在此不再赘述。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为本发明实施例一所述的一种语音识别方法的流程图;

图1a为本发明实施例语料中多音字标注示意图;

图2为本发明实施例二所述的一种语音识别方法的流程图;

图2a为本发明实施例的中文分词结果示意图;

图2b为本发明实施例语料中多音字音标标注示意图;

图2c为本发明实施例语音识别框架示意图;

图2d为本发明实施例马尔科夫模型状态转换概率示意图;

图2e为本发明实施例的马尔科夫模型状态转换示意图;

图2f为本发明实施例的另一马尔科夫模型状态转换示意图;

图3为本发明实施例三所述的一种语音识别装置的结构框图;

图4为本发明实施例三所述的一种语音识别装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

下面将参考附图并结合实施例来详细说明本发明。

名词解释:

语音识别:英文称为automaticspeechrecognition,简称asr,将语音识别成文字,让机器轻松听懂人类的语言;

声学模型:英文称为acousticmodel,简称am。声学模型是对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示;

语言模型:英文称为languagemodel,简称lm。语言模型是对一组字(词)序列构成的知识表示;n-gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item可以是音素(语音识别应用)、字符(输入法应用)、词(分词应用)。一般来讲,可以从大规模文本或音频语料库生成n-gram模型。习惯上,1-gram叫unigram,2-gram称为bigram,3-gram是trigram。还有four-gram、five-gram等,不过大于n>5的应用很少见。n-gram语言模型的思想,可以追溯到信息论大师香农的研究工作,他提出一个问题:给定一串字母,如”forex”,下一个最大可能性出现的字母是什么。从训练语料数据中,我们可以通过极大似然估计的方法,得到n个概率分布:是a的概率是0.4,是b的概率是0.0001,是c的概率是…,当然,所有的n个概率分布的总和为1。

音素:单词的发音由音素构成。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调;

发音字典:英文称为lexicon。将字或词映射到音素,即用声母和韵母来表示字(词)。

fst:finite-statetransducer,有限状态转换器;

wfst:weightedfinite-statetransducer,加权有限状态转换器;

hclg:将语言模型(g),词汇表(l),上下文相关信息(c),隐马尔可夫模型(h)四个部分分别构建为标准的有限状态转换器,再通过标准的有限状态转换器操作将他们组合起来,构建一个从上下文相关音素子状态到词的转换器;

分词:将句子切分为词的组合的过程,词的长度可以为单字或多字。

语音识别建网:用wfst来表征asr中的模型(hclg),可以更方便的对这些模型进行融合和优化。语音识别建网即利用wfst,将lexicon,languagemodels等模型结合起来,生成searchgraph的过程。

通过上述方法在语音识别技术中的融合,可解决语音识别建网过程中对多音字的识别错误的问题,从而实现语音识别系统识别准确性的提升。可应用于语音识别及以语音识别为依托的语音导航、语音质检等含有语音识别需求的商业服务中。

实施例一

参照图1,为本发明实施例所述的一种语音识别方法的流程图,具体可以包括如下步骤:

步骤101,将预置语料库中进行预处理;所述预处理至少包括:多音字语音标注。

本发明实施例中,当得到一个语料库后,对预料库中的数据进行清洗、分词等预处理后,得到以词组为单位的预料数据,而其中很多词组中出现的多音字,根据词组的不同而发音不同,如图1a描述的,其中“的#1”表示“的”字为多音字,在气息后面只有一种标音“de”,如下4-gram:“生命的气息的”修改为“生命的气息的#1”,将预料库中所有可以确定读音的多音字进行人工标注后,进行下一步处理。

步骤102,根据所述预处理后的所述预置语料库进行语言模型训练。

本发明实施例中,在上下文相关语义研究中,n-gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item,给定一串字母,如”forex”,下一个最大可能性出现的字母是什么。从训练语料数据中,我们可以通过极大似然估计的方法,得到n个概率分布:是a的概率是0.4,是b的概率是0.0001,是c的概率是…,所有的n个概率分布的总和为1,拿一个应用来讲,假设t是由词序列a1,a2,a3,…an组成的,那么p(t)=p(a1a2a3…an)=p(a1)p(a2|a1)p(a3|a1a2)…p(an|a1a2…an-1),如果直接这么计算,是有很大困难的,需要引入马尔科夫假设,即:一个item的出现概率,只与其前m个items有关,当m=0时,就是unigram,m=1时,是bigram模型。因此,p(t)可以求得,例如,当利用bigram模型时,p(t)=p(a1)p(a2|a1)p(a3|a2)…p(an|an-1),而p(an|an-1)条件概率可以通过极大似然估计求得,等于count(an-1,an)/count(an-1)。当通过工具在搜集特定领域的语料并进行预处理后,生成一个基于特定领域信息的语料库,利用n-gram只把需要的信息存储下来,其中,n-gram数据格式是这样的:

1.272437阿拉善

1.37447阿拉伯贵族

1.122427阿拉伯人

1.373596阿拉伯数

0.9671616阿拉伯语

其中各数字表示的是个名词元组在语料库中出现的概率。

在实际应用中,n-gram模型在训练后的数据表达形式根据用户的不同需求而不同,并不局限于上述描述,本发明实施例对此不加以限制。

在实际应用中,将通过多音字语音标注的语料库使用n-gram模型进行训练,得到一个多音字语言模型。

步骤103,将所述多音字语音标注的多音字词条加入预置字典,生成发音字典。

本发明实施例中,当根据上述步骤确定语料库中的多音字后,其中,多音字引入了“#”号,故可以通过规则提取出需要特殊标音的多音字,并对这些多音字进行标音,例如“的#1”代表“de”的音,“的#2”代表“di”的音,标注后生成各个多音字词条,并将这些词条加入到预置字典中,其中,预置字典为语料库对应语种的语言字典,其中包含的该语种所有常用字词,将这些多音字词条加入到当前语种的预置字典中生成发音字典。例如图1a中的描述的,词典中的“的”后面加上“#1”标记,即可以在训练中识别该字的确切发音为“de”。

步骤104,根据所述语言模型和所述发音字典进行语音识别建网后,生成声学模型构图。

本发明实施例中,结合步骤102中新生成的语言模型和步骤103中新生成的发音字典进行语音识别建网。建网之后生成的声学模型构图,即为hclg:将语言模型(g),可以通过n-gram构建得到,用于对语法grammar或者languagemodel语言模型进行编码;词汇表(l)即把语音转换成字或词,其输出符号symbol是文字words,输入符号symbol是语音phones;上下文相关信息(c)context-dependency其输出符号symbol是语音phones,其输入符号symbol为表示上下文相关的语音context-dependencyphones,利用转换成的字扩展到上下文相关的信息,例如:vector<int32>ctx_window={12,15,21};含义:id=15的phone为中心phone,leftphoneid=12,rightphoneid=21;最后(h)包括hmmdefinitions,其输出symbol为context-dependencyphones,其输入symbol为transitions-ids(即对pdf-id和其它信息编码后的id),四个部分分别构建为标准的有限状态转换器,在构建的过程中,因为训练模型使用的预料已经确切的知道了每个多音字的发音,所以在构建有限状态转换器时,就可以将多音字其他发音的路径消除,所构建的hclg生成转换器即可准确识别多音字。

在本发明实施例中,将预置语料库中进行预处理;所述预处理至少包括:多音字语音标注;根据所述预处理后的所述预置语料库进行语言模型训练;将所述多音字语音标注的多音字词条加入预置字典,生成发音字典;根据所述语言模型和所述发音字典进行语音识别建网后,生成声学模型构图,实现了hclg网络中去除多音字词冗余路径,进而保证语音识别的准确性的有益效果。

实施例二

参照图2,为本发明实施例所述的一种语音识别方法的流程图,具体可以包括如下步骤:

步骤201,根据收集的中文语料数据建立预置语料库;所述中文语料提取自相同的语言领域。

本发明实施例中,语料库,通俗意义上指的是语言材料库。严格意义上的语料库(corpus)是指按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片断而建成的具有一定容量的大型电子文本库。针对建立语料库的目的是语音识别的信息领域,选取针对这一特定领域的语言文本,并进行抽样等预处理后,生成针对该领域的语料库。

需要说明的是,为了更为准确的识别同一领域的语音内容,在语料库的选取上往往更倾向于提取同一领域的电子文本库,例如,计算机语言类、现代文学类、法律类等语料库。

步骤202,根据预设词表对预置预料库中的中文语料进行分词。

本发明实施例中,将语料分词是训练n-gram语言模型的一特定前提,中文分词(chinesewordsegmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。常用的中文分词工具有crf和stanford分词工具,如图2a描述的,上半部分是一个关于消费电子展的短新闻,下半部分是针对该短新闻的分词结果,可以看出,分词后的结果是将原文中长句分成一个一个短的字或词,且分词后的数据仍然可以清晰的表达出数据的层次和结构,便于进一步的语言处理。分词方法有多种,例如词表里的词最长有五个字的,就从句子当前位置开始,读取五个字,看是否在词表里面,如果在,就分词,不在,再看四个字的,以此类推,都找不到,则把开始位置向右移动一位,对有权重的词表,可以用最小权值来找最优的分词,对于分词的方法和所用的词表不在本发明实施例的保护范围。

步骤203,将可确定读音的多音字进行语音标记。

本发明实施例中,在现代汉语词典中,共收录多音字1000多个,其中常用的前180个多音字的累积使用频率超过95%,可以提取其中最长见的76个多音字进行处理,而多音字在语料中的出现主要分为两种情况,一种是在多字词中出现,比如“行”,可以作为出现在“银行”,“人行道”这样固定词中间,另一种情况是多音字单独出现,比如“为人民服务”的“为”,在分词结果中就是单独作为一个词出现的,在计算机处理过程中,因为作为多字词出现的多音字基本上读音是固定的,大部分情况下,以多字词形式出现的多音字的读音可以认为不会出错,所以讲这些经过分词并且确定读音的多音字在语料库中进行语音标记,如图2b描述的,需要额外对“的#1”“什#1”进行标音,其中的1、2、3、4标记的是多音字的不同发音,例如,“的#1”表示“的de”,而“的#2”表示“的di”。

步骤204,根据所述预处理后的所述预置语料库进行语言模型训练。

本发明实施例中,在将经过分词和多音字标注等预处理后的语料库,输入预设的语言模型训练算法,进行语言模型训练,具体的,本领域最常用的n-gram语言模型训练方法,可以先训练一个3gram(tri-gram)的语言模型,先对语料中出现的1gram,2gram,3gram进行统计,然后可以使用插值平滑和knesey-neydiscount两种平滑方法,当语料比较小时,knesey-neydiscount平滑并不适用,平滑后得到训练后的语言模型。

步骤205,根据所述语言模型中标记为多音字的字生成多音字词条。

本发明实施例中,在标记当前语料库中的多音字时,将每个标记过的多音字及其发音,以及上下文相关信息组成一个多音字词条。

步骤206,将所述多音字词条加入预置字典生成发音字典。

本发明实施例中,将各个标记的多音字,及其多音字生成逐个的多音字词条,添加到预置字典中,生成针对当前语料库的多音字字典。

步骤207,将所述语言模型和所述发音字典与预置声学模型构建有限状态转换器;所述预置声学模型为隐马尔可夫模型。

本发明实施例中,如图2c描述的语音识别基本框架图中,抽取语音中最重要的特征,将语音信号转换为特征矢量序列。现行语音识别系统中常用的声学特征有线性预测编码(linearpredictivecoding,lpc),梅尔频率倒谱系数(mel-frequencycepstrumcoefficients,mfcc),梅尔标度滤波器组(mel-scalefilterbank,fbank)等。解码器(decoder)根据声学模型和语言模型,将输入的语音特征矢量序列转化为字符序列。声学模型是对声学、语音学、环境的变量,以及说话人性别、口音的差异等的知识表示。语言模型则是对一组字序列构成的知识表示。语音识别中的声学模型充分利用了声学、语音学、环境特性以及说话人性别口音等信息,对语音进行建模。目前的语音识别系统往往采用隐含马尔科夫模型(hiddenmarkovmodel,hmm)建模,表示某一语音特征矢量序列对某一状态序列的后验概率。隐含马尔科夫模型是一种概率图模型,可以用来表示序列之间的相关关系,常常被用来对时序数据建模。隐含马尔科夫模型是一种带权有向图,如图2d上每一个节点称为状态。每一时刻,隐含马尔科夫模型都有一定概率从一个状态跳转到另一个状态,并有一定概率发射一个观测符号,跳转的概率用边上的权重表示,如图所示,s0和s1表示状态,a和b是可能发射的观测符号。隐含马尔科夫模型假定,每一次状态的转移,只和前一个状态有关,而与之前之后的其它状态无关,即马尔科夫假设;在每一个状态下发射的符号,只与当前状态有关,与其它状态和其它符号没有关系,即独立输出假设。隐含马尔科夫模型一般用三元组λ=(a,b,π)表示,其中a为状态转移概率矩阵,表示在某一状态下转移到另一状态的概率;b为符号概率矩阵,表示在某一状态下发射某一符号的概率;π为初始状态概率矢量,表示初始时处在某一状态的概率。

隐含马尔科夫模型可以产生两个随机的序列,一个是状态序列,一个是观测符号序列,所以是一个双重随机过程,但外界只能观测到观测符号序列,不能观测到状态序列。可以利用维特比算法(viterbialgorithm)找出在给定观测符号序列的条件下,发生概率最大的状态序列。对于某一观测符号序列的概率,可以通过前向后向算法(forward-backwardalgorithm)高效地求得。每一个状态的转移概率和观测符号发射概率可以通过鲍姆—韦尔奇算法(baum-welchalgorithm)计算得到。语音识别中一般使用隐含马尔科夫模型对声学单元和语音特征序列之间的关系建模。一般来说,声学单元级别较小,其数量就少,但对上下文的敏感性则会大。大词汇量连续语音识别系统中一般采用子词(sub-word)作为声学单元,如在英语中采用音素,汉语中采用声韵母等。声学模型中隐含马尔科夫模型的拓扑结构一般采用从左向右的三状态结构,每一个状态上都有一个指向自身的弧,如图2e所示,表示利用三状态模型对音素/t/的建模,生成的即是有限状态转换器。

在这个过程中,每一个字的识别过程中都有一个路径,而经过多音字标注的字避免了同时对于一个字存在多个冗余路径的情况,从而避免了错误识别多音字的情况。

步骤208,通过所述有限状态转换器进行语音识别建网后,生成声学模型构图。

本发明实施例中,通过上述描述的方法建立有限状态转换器进一步的解码,语音识别中的“解码”问题可以表示为如下过程:对于一个长度为t的给定的声学观测(acousticobservation)序列x=(x1,x2,x3,...,xt),求出一个长度为u的对应的字(word)序列w=(w1,w2,w3,...,wu),使得后验概率p(w|x)最大化,即求得字序列w,有后验概率p(w│x)不易直接求得。根据贝叶斯公式可得公式(1):

由于声学观测序列已经给定,所以声学观测的概率是常数,故可以归约为如下形式:

目前一般采用的大词汇量语音识别技术,会将声学、语音学以及语言学的知识引入进系统中去。用h表示隐含马尔科夫模型的状态序列,c表示上下文相关的音素序列,l表示音素序列,并假设声学特征序列、隐含马尔科夫模型的状态序列、音素序列、字序列之间是独立的,可以将式子展开,得:w=argmax∑h∑c∑lp(x|h)p(h|c)p(c|l)p(l|w)p(w),其中p(x|h)称为声学模型,表示声学特征序列对隐马尔科夫状态序列的后验概率;p(h│c)、p(c│l)、p(l│w)分别表示状态序列对上下文相关的音素序列、上下文相关的音素序列对音素序列,以及音素序列对字序列的后验概率;p(w)表示句子发生的概率,称为语言模型。这些概率都是由前面的“训练”过程得到的。目前,语音识别的解码一般基于加权有限状态转换器(weightedfinitestatetransducer)进行。加权有限状态转换器是一种赋权有向图,其每一个节点表示一个“状态”,当接受到一个输入符号以后,就会由对应的弧跳转到另一个“状态”,并“发射”一个输出符号,弧上还可以赋予权值。其形式化描述如下:半环k上的加权有限状态转换器t是一个八元组t=(σ,δ,q,i,f,e,λ,ρ),其中σ为输入符号集合,δ为输出符号集合,q为状态集合,i,q为初始状态集合,f,q为终止状态集合,五元关系表示转移函数,映射λ:i→k表示初始状态的权值,映射ρ:f→k表示终止状态的权值。为了扩大加权有限转换器的适用范围,将“权重”的含义推广到更一般的代数结构——半环上去。给定集合k及其上的两种运算如果为带有单位元的交换幺半群,为带有单位元的幺半群,且运算对于运算具有分配性,对于运算为零化子,即对于任意的于是,由首状态到末状态“路径”上各个弧的总权重,可以由运算求“积”得到,而多条路径的总权重,则可以由求和得到。下图表示了一个简单的加权有限状态转换器。其输入符号集为{a,b,c},在图中表示为弧上冒号前的符号,输出符号集为{x,y,z},在图2f中表示为弧上冒号后的符号,半环为实数域,在图中表示为斜线后的数,双圆圈表示终止状态。

在语音识别中,路径的总权重可以看作在输入序列的条件下,输出序列的联合概率,又因为马尔科夫链的无后效性假设,所以总权重可以看作路径上权重的乘积。由于计算机运算,需要防止浮点数的下溢,这些概率常常取对数,即表中对数半环,其中运算的定义为又由于语音识别中常需要在加权有限状态转换器上寻找权值最优的路径,故定义了热带半环。可以利用加权有限状态转换器的组合(composition)操作,将不同层次的加权有限状态转换器合并起来。比如,在实际的语音识别系统中,一般会构建四个加权有限状态转换器:表示隐含马尔科夫模型状态序列到上下文相关音素序列映射的h,表示上下文相关音素序列到音素序列映射的c,表示音素序列到字序列的l,以及语言模型g,将此四个加权有限状态转换器组合,形成hclg,其对应着语音学和语言学的知识,其上弧的权重,可以看作输入隐含马尔科夫模型状态,输出对应的字发生的概率,声学模型p(x|h)根据训练得出。将一句语音输入训练好的网络前馈以后,得到一个矩阵,其列表示帧数,行表示此帧对隐含马尔科夫模型状态的概率分布,即一个某帧对某隐含马尔科夫状态的概率查询表。通过上述方法建立识别网络,应用到语音识别系统。

在本发明实施例中,主要是通过将预置语料库中进行多音字语音标注;根据所述预处理后的语料库通过n-gram进行语言模型训练;将所述多音字语音标注的多音字词条加入预置字典,生成发音字典;根据所述语言模型和所述发音字典进行语音识别建网后,生成声学模型构图,实现了hclg网络中去除多音字词冗余路径,进而保证语音识别的准确性的有益效果。

实施例三

参照图3,为本发明实施例所述的一种语音识别装置的结构框图。

语料库预处理模块301,用于将预置语料库中进行预处理;所述预处理至少包括:多音字语音标注;

语言模型训练模块302,用于根据所述预处理后的所述预置语料库进行语言模型训练;

发音字典生成模块303,用于将所述多音字语音标注的多音字词条加入预置字典,生成发音字典;

声学模型构图生成模块304,用于根据所述语言模型和所述发音字典进行语音识别建网后,生成声学模型构图。

参照图4,为本发明实施例中各模块之间的关系示意图,具体如下:

所述语料库预处理模块301,包括:

分词子模块3011,用于根据预设词表对预置预料库中的中文语料进行分词;

语音标记子模块3012,用于将可确定读音的多音字进行语音标记。

优选的,还包括:

预置语料库建立模块305,用于根据收集的中文语料数据建立预置语料库;所述中文语料提取自相同的语言领域。

所述发音字典生成模块303,包括:

词条生成子模块3031,用于根据所述语言模型中标记为多音字的字生成多音字词条;

发音字典生成子模块3032,用于将所述多音字词条加入预置字典生成发音字典。

所述声学模型构图生成模块304,包括:

有限状态转换器构建子模块3041,用于将所述语言模型和所述发音字典与预置声学模型构建有限状态转换器;所述预置声学模型为隐马尔可夫模型;

声学模型构图生成子模块3042,用于通过所述有限状态转换器进行语音识别建网后,生成声学模型构图。

在本发明实施例中,主要是通过将预置语料库中进行多音字语音标注;根据所述预处理后的语料库通过n-gram进行语言模型训练;将所述多音字语音标注的多音字词条加入预置字典,生成发音字典;根据所述语言模型和所述发音字典进行语音识别建网后,生成声学模型构图,实现了hclg网络中去除多音字词冗余路径,进而保证语音识别的准确性的有益效果。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1