语音识别方法、装置及电子设备的制作方法

文档序号：2825993阅读：135来源：国知局

语音识别方法、装置及电子设备的制作方法
【专利摘要】本发明公开了一种语音识别方法、装置及电子设备，属于音视频处理领域。所述方法包括：从获取到的语音信号中提取音频特征；根据所述音频特征识别出音节混淆网络；根据所述音节混淆网络和预设的标音词表生成词语网格；在所述词语网格中计算最优文字序列作为识别结果。本发明通过以音节而非词语作为基本识别单位，并根据音节混淆网络和词语网格来识别出最优文字序列，解决了现有语音识别方法在词表发生变化时，需要重新构造解码搜索空间，整个技术方案的灵活性较低的问题；达到了即便词表发生变化，但是作为基本识别单位的音节并不会发生改变，无需重新构造解码搜索空间的效果。
【专利说明】语音识别方法、装置及电子设备

【技术领域】
[0001] 本发明涉及音视频处理领域，特别涉及一种语音识别方法、装置及电子设备。

【背景技术】
[0002] 语音识别是将语音信号识别为对应的文字序列的一种技术，广泛应用于人机交互、首视频检索等等领域。
[0003] 现有的语音识别方法大多以词语或者句子作为基本识别单位，大概包括如下步骤：第一，首先提取语音信号中的音频特征；第二，通过维特比解码计算该音频特征在预设的解码搜索网络中的最优文字序列，并将该最优文字序列作为识别结果。具体来讲，该预设的解码搜索网络中通常包括声学模型、词典和语言模型，声学模型通常为基于单音素或者三音素的隐马尔可夫模型，词典包括词语与音素之间的对应关系，语言模型则包括词语与词语之间组合成文字序列时的概率关系。在音频特征输入解码搜索网络后，通过声学模型可以识别出与该音频特征对应的音素序列，通过该音素序列又可以在词典中查询出若干个候选词语，最后通过语言模型中的概率关系选择出具有最大概率的几个候选词语所构成的顺序组合作为最优文本序列。
[0004] 在实现本发明的过程中，发明人发现现有技术至少存在以下问题：由于上述解码搜索网络是由词语直接参与构造的，一旦词表(也即所有可识别词语的集合）发生变化，就需要重新构造解码搜索空间，整个技术方案的灵活性较低。

【发明内容】

[0005] 为了解决现有语音识别方法在词表发生变化时，需要重新构造解码搜索空间，整个技术方案的灵活性较低的问题，本发明实施例提供了一种语音识别方法、装置及电子设备。所述技术方案如下：
[0006] 第一方面，提供了一种语音识别方法，所述方法包括：
[0007] 从获取到的语音信号中提取音频特征；
[0008] 根据所述音频特征识别出音节混淆网络；
[0009] 根据所述音节混淆网络和预设的标音词表生成词语网格；
[0010] 在所述词语网格中计算最优文字序列作为识别结果。
[0011] 第二方面，提供了一种语音识别装置，所述装置包括：
[0012] 特征提取模块，用于从获取到的语音信号中提取音频特征；
[0013] 音节识别模块，用于根据所述音频特征识别出音节混淆网络；
[0014] 网格生成模块，用于根据所述音节混淆网络和预设的标音词表生成词语网格；
[0015] 文字识别模块，用于在所述词语网格中计算最优文字序列作为识别结果。
[0016] 第三方面，提供了一种电子设备，所述终端包括如第二方面所述的语音识别装置。
[0017] 本发明实施例提供的技术方案带来的有益效果是：
[0018] 通过以音节而非词语作为基本识别单位，并根据音节混淆网络和词语网格来识别出最优文字序列，解决了现有语音识别方法在词表发生变化时，需要重新构造解码搜索空间，整个技术方案的灵活性较低的问题；达到了即便词表发生变化，但是作为基本识别单位的音节并不会发生改变，无需重新构造解码搜索空间的效果。

【专利附图】

【附图说明】
[0019] 为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0020] 图1是本发明实施例一提供的语音识别方法的方法流程图；
[0021] 图2A是本发明实施例二提供的语音识别方法的方法流程图；
[0022] 图2B是本发明实施例二所涉及的音节混淆网络的结构示意图；
[0023] 图2C是本发明实施例二所涉及的生成词语网格过程的方法流程图；
[0024] 图2D是本发明实施例二所涉及的词语网格的结构示意图；
[0025] 图2E是本发明实施例二所涉及的在词语网格中计算最优文字序列过程的方法流程图；
[0026] 图3是本发明实施例三提供的语音识别装置的结构示意图；
[0027] 图4是本发明实施例四提供的语音识别装置的结构示意图。

【具体实施方式】
[0028] 为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。
[0029] 本发明实施例涉及的若干术语如下：
[0030] 音素：根据语音的自然属性划分出的最小语音单位，比如在汉语中，声母y、l、k之类的均为一个音素，韵母i、〇、e之类的也均为一个音素。在汉语中，拥有35个音素。
[0031] 音节：由一个或者几个音素按照一定规则组合成的语音单位，汉语音节以韵母为中心，由声母、韵母和声调三部分组成；英语音节则以元音音素为中心，配合一个或多个辅音音素组成。汉语通常包括22个声母与38个韵母，400多个无调音节和1300个左右的有调音节。比如，"yu"、"xiao"等即为无调音节。
[0032] 音节混淆网络：由一组有序的节点组成的网络结构，只有两个相邻的节点之间存在边(也称"弧")，且两个相邻节点之间存在一条或者多条边。其中，两个节点之间的部分可以称之为一个切片，每个切片包含一组音节，一组音节包括至少一个音节，每个音节与该两个节点之间的一条边对应，同时每个音节还对应有一个得分。
[0033] 标音词表：对词表中的每个字或者词语给出其对应的发音音节序列和音素序列。
[0034] 语言模型：描述词语之间统计特性的数学模型，通常包括词语与词语之间组合成文字序列时的概率关系。
[0035] 令牌：用于控制网格遍历状态的特殊数据结构，可以记录遍历过程中走过的路径。
[0036] 实施例一
[0037] 请参考图1，其示出了本发明实施例一提供的语音识别方法的方法流程图。该语音识别方法可以用于电子设备中，该电子设备可以是智能手机、智能电视、平板电脑或者电子书阅读器之类的终端；该电子设备也可以是服务器，该服务器属于提供语音识别功能的电子系统，该电子系统不仅包括服务器，还包括至少一个位于前端的终端，终端与服务器之间通过有线或者无线网络相连。该语音识别方法，包括：
[0038] 步骤102,从获取到的语音信号中提取音频特征；
[0039] 音频特征可以采用PLP (Perceptual Linear Predictive,感知线性预测）特征、LPCC (Linear Prediction Cepstrum Coefficient，线性预测倒谱系数）与 MFCC (MelFrequency Cepstrum Coefficient,美尔频率倒谱系数）中的任意一种。
[0040] 步骤104,根据音频特征识别出音节混淆网络；
[0041] 步骤106,根据音节混淆网络和预设的标音词表生成词语网格；
[0042] 步骤108,在词语网格中计算最优文字序列作为识别结果。
[0043] 综上所述，本实施例的语音识别方法，通过以音节而非词语作为基本识别单位，并根据音节混淆网络和词语网格来识别出最优文字序列，解决了现有语音识别方法在词表发生变化时，需要重新构造解码搜索空间，整个技术方案的灵活性较低的问题；达到了即便词表发生变化，但是作为基本识别单位的音节并不会发生改变，无需重新构造解码搜索空间的效果。
[0044] 实施例二
[0045] 请参考图2A，其示出了本发明实施例二提供的语音识别方法的方法流程图。该语音识别方法可以用于电子设备中，该电子设备可以是智能手机、智能电视、平板电脑或者电子书阅读器之类的终端；该电子设备也可以是服务器，该服务器属于提供语音识别功能的电子系统，该电子系统不仅包括服务器，还包括至少一个位于前端的终端，终端与服务器之间通过有线或者无线网络相连。该语音识别方法，包括：
[0046] 步骤201，获取语音信号；
[0047] 电子设备获取语音信号。具体来讲，电子设备通常通过如下三种方式获取语音信号：读取预先存储的语音信号、通过内置或者外置麦克风采集语音信号、和/或，通过网络接收其他设备传输的语音信号。当然，电子设备也可能采取其他方式获取语音信号，其他方式可以是蓝牙、红外之类的近距离通信技术等等。
[0048] 比如：电子设备是终端，则终端可以获取预先存储的语音信号，也可以通过内置或者外置麦克风采集用户实时输入的语音信号。
[0049] 又比如：电子设备是电子系统中的服务器，则服务器可以通过网络接收来自电子系统中的终端的语音信号，终端的语音信号可以是终端采集到的用户实时输入的语音信号。
[0050] 步骤202,从获取到的语音信号中提取音频特征；
[0051] 在电子设备获取到语音信号之后，电子设备从获取到的语音信号中提取音频特征。音频特征可以采用PLP (Perceptual Linear Predictive,感知线性预测）特征、LPCC (Linear Prediction Cepstrum Coefficient，线性预测倒谱系数）与 MFCC(Mel Frequency Cepstrum Coefficient,美尔频率倒谱系数）中的任意一种。
[0052] 本实施例中以音频特征为PLP特征为例来举例说明。提取PLP特征的过程可以包括：
[0053] 1)对语音信号进行预处理，预处理包括：预加重、分帧及加窗；
[0054] 2)对预处理后的语音信号进行离散傅里叶变换，得到短时频率谱；
[0055] 3)对短时频率谱进行临界频带分析，得到临时带宽听觉谱；
[0056] 4)对临时带宽听觉谱用模拟人耳的等响度曲线进行等响度曲线预加重；
[0057] 5)对预加重后的频谱进行强度-响度转换；
[0058] 6)对转换后的频谱做离散傅里叶反变换，并用德宾算法计算出全极点模型；
[0059] 7)根据全极点模型进行倒谱计算，并最终输出PLP特征。
[0060] 当然，其它实施例中，也可以采用其它提取音频特征的方法，本文对此不作限定。
[0061] 步骤203,根据音频特征识别出音节混淆网络；
[0062] 电子设备可以根据音频特征识别出音节混淆网络。一种实现下，电子设备可以根据音频特征识别出包括至少两条音节路径的音节混淆网络；另一种实现下，电子设备可以根据音频特征识别出只包括最优音节路径的音节混淆网络。
[0063] 其中，包括至少两条音节路径的音节混淆网络可以认为是普通的音节混淆网络，而只包括最优音节路径的音节混淆网络可以认为是普通的音节混淆网络中的一种特例。 [0064] 以电子设备根据音频特征识别出的包括至少两条音节路径的音节混淆网络为例，整个音节混淆网络的识别过程可以利用SRILM (Stanford Research Institute Language Modeling Toolkit，斯坦福研究所语言建模工具包)中相关的音节混淆网络工具来实现。其主要步骤包括：
[0065] 1)根据音频特征和声学模型识别出相应的音节网格lattice，该声学模型可以是预设的隐马尔科夫模型；
[0066] 2)在音节网格lattice上利用前向、后向算法计算节点的后验概率，每个节点的后验概率=前向概率*后向概率；
[0067] 3)对音节网格lattice进行概率剪枝，剪枝后重新计算每个节点的后验概率；
[0068] 4)在音节网格lattice上寻找概率最大的节点，利用维特比算法生成一条包含起始和结束节点的最优音节路径，作为构建音节混淆网络的参照路径；
[0069] 5)在音节网格lattice的剩余弧中寻找一个概率最大的节点，利用维特比算法生成一条最佳路径；
[0070] 6)对于最佳路径中的所有弧节点，与音节混淆网络的每个切片进行比较，计算删除、插入、替代三种代价，取代价最小的一种方式将弧作为音节混淆网络中的一条边引入到参照路径中；
[0071] 7)迭代执行5和6,直至所有弧都加入到音节混淆网络中。
[0072] 当然，其它实施例中，也可以采用其它生成音节混淆网络的方法，本文对此不作限定。
[0073] 在一个具体的例子中，假设语音信号的内容是"你知道了吧"，则识别出的音节混淆网络可以参考图2B所示。该音节混淆网络包括首节点0、第一节点1、第二节点2、第三节点3、第四节点4、第五节点5、第六节点6和尾节点7共8个节点。除首尾节点之外的每两个相邻节点之间可以认为是一个切片（也称混淆集合)，每个切片包括一组音节，每组音节包括1至多个音节，每个音节对应有一个得分，一组切片中的所有音节的得分相加结果为 1。具体来讲，第一节点1和第二节点2之间是第一切片，该第一切片包括3个音节，分别是 ni3、yi3和li4,各自对应的得分是0. 9、0. 07和0. 03 ;第二节点2和第三节点之间是第二切片，该第二切片包括2个音节，分别是zhil和chi2,各自对应的得分是0. 95和0. 05 ;、、、，依次类推，第五节点5和第六节点6之间是第五切片，第五切片包括2个音节，分别是ba4 和mal，各自对应的得分为0· 8和0· 2。
[0074] 步骤204,根据音节混淆网络和预设的标音词表生成词语网格；
[0075] 电子设备可以根据音节混淆网络和预设的标音词表生成词语网格。具体来讲，本步骤可以包括如下几个子步骤，如图2C所示：
[0076] 204a，遍历音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字；
[0077] 音节混淆网络包括按序排列的至少一个切片，每个切片包含一组音节，每个音节对应有一个得分。电子设备需要遍历音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字。标音词表对词表中的每个字或者词语给出其对应的发音音节序列和音素序列，比如"你"对应的发音音节序列是"ni3"，"你好"对应的发音音节序列是"ni3ha 〇3"。
[0078] 在遍历到音节混淆网络中每个切片中的一个音节时，可以根据该音节在预设的标音词表中查询出所对应的候选文字。根据相邻切片间所对应的音节是否能够组成词语，分为如下204b和204c两种不同的处理操作：
[0079] 204b，若当前切片中的音节与当前切片之后的切片中的音节各自所对应的候选文字组合后是一个词语，则将该词语生成为一个网格节点，并将当前切片中的音节与当前切片之后的切片中的音节各自所对应的得分的乘积作为网格节点的得分；
[0080] 结合参考图2B和图2D，假设当前切片为第二切片，当前切片中的音节为"zhil"，当前切片之后的切片为第三切片，当前切片之后的切片中的音节为"da 〇4"，这两个音节 "zhil"和"da〇4"各自在标音词表中所对应的候选文字组合后是一个词语"知道"，则将该词语"知道"生成为图2D所示的词语网格中的一个网格节点21，同时将音节"zhil"所对应的得分"〇. 95"和音节"da〇4"所对应的得分"0. 7"的乘积"0. 665"作为网格节点21的得分。
[0081] 采用类似的处理，还可以生成图2D所示的词语"迟到"、"已知"和"荔枝"所对应的三个网格节点。
[0082] 204c，若当前切片中的音节与当前切片之后的切片中的音节各自所对应的候选文字组合后不是一个词语，则将当前切片中的音节所对应的候选文字单独生成为一个网格节点，并将当前切片中的音节所对应的得分作为网格节点的得分；
[0083] 继续参考图2B和图2D，假设当前切片是第一切片，当前切片中的音节为"ni3"，音节"ni3"在标音词表中所对应的候选文字"你"不能与当前切片之后的切片中的音节 "zhil"和"chi2"所对应的候选文字组合成为一个词语，则将当前切片中的音节所对应的候选文字"你"单独生成为一个网格节点，并将当前切片中的音节所对应的得分0. 9作为这个网格节点的得分。
[0084] 采用类似的处理，还可以生成图2D所示的候选文字"以"、"蚁"、"利"、"持"、"达"、 "妖"、"套"、"到"、" 了"、"吧"、"吗"和"爸"等等所对应的多个网格节点。
[0085] 204d，将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接，并与开始网格节点和结束网格节点一起生成为词语网格。
[0086] 由于各个切片中的音节存在前后顺序，对应地，可以将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接，并与开始网格节点22和结束网格节点23 一起生成为词语网格，该词语网格可以是图2D所示出的词语网格。
[0087] 但需要说明的是，词语网格的生成过程可能还会结合其他的子步骤，而不局限于上述的子步骤。在其它一些实施例中，可能还在构建词语网格时考虑插入错误、删除错误及替换错误所带来的影响而进行优化，比如一个音节为"zhoul"，所对应的候选文字为"周"，考虑可能由方言发音不准引起的替换错误，而将"走"也作为一个网格节点。在另外一些实施例中，还可能预先为网格节点的得分设置惩罚因子，对由音节的得分直接计算出的网格节点的得分用惩罚因子做一定调整，而获得更优的网格节点的得分以便后续计算过程中使用。
[0088] 步骤205,在词语网格中计算最优文字序列作为识别结果。
[0089] 在生成词语网格后，词语网格包括有开始网格节点、结束网格节点和位于开始网格节点和结束网格节点之间的至少一条节点路径，电子设备在词语网格中计算最优文字序列作为识别结果。具体来讲，本步骤可以包括如下子步骤，如图2E所示：
[0090] 205a，在开始网格节点和结束网格节点之间的各条节点路径上分别设置一令牌，并将各个令牌从开始网格节点开始向结束网格节点逐步移动；
[0091] 具体实现时，可以先在开始网格节点22设置一个初始活跃令牌，并将初始活跃令牌的得分设为1。然后将初始活跃令牌向下一级网格节点移动，若下一级网格节点为两个或者两个以上，则将初始活跃令牌按照与下一级节点路径一一对应的关系复制为多个令牌来向下一级网格节点移动，后续逐步移动过程时的操作可以依次类推。
[0092] 205b，在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分；
[0093] 设令牌Tp上的路径为Sp(lSplS p2…Sp3，网格节点Spi上的词语为Wpi，那么令牌T p的得分可用如下公式计算：
[0094]

【权利要求】
1. 一种语音识别方法，其特征在于，所述方法包括：从获取到的语音信号中提取音频特征；根据所述音频特征识别出音节混淆网络；根据所述音节混淆网络和预设的标音词表生成词语网格；在所述词语网格中计算最优文字序列作为识别结果。
2. 根据权利要求1所述的语音识别方法，其特征在于，所述根据所述音频特征识别出音节混淆网络，包括：根据所述音频特征识别出包括至少两条音节路径的音节混淆网络；或者，根据所述音频特征识别出只包括最优音节路径的音节混淆网络。
3. 根据权利要求1所述的语音识别方法，其特征在于，所述音节混淆网络包括按序排列的至少一个切片，每个切片包含一组音节，每个音节对应有一个得分，所述根据所述音频混淆网络和预设的标音词表生成词语网格，包括：遍历所述音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字；若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后是一个词语，则将所述词语生成为一个网格节点，并将所述当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的得分的乘积作为所述网格节点的得分；若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后不是一个词语，则将所述当前切片中的音节所对应的候选文字单独生成为一个网格节点，并将所述当前切片中的音节所对应的得分作为所述网格节点的得分；将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接，并与开始网格节点和结束网格节点一起生成为词语网格。
4. 根据权利要求1所述的语音识别方法，其特征在于，所述词语网格包括开始网格节点、结束网格节点和位于所述开始网格节点和所述结束网格节点之间的至少一条节点路径，所述在所述词语网格中计算最优文字序列作为识别结果，包括：在所述开始网格节点和所述结束网格节点之间的各条节点路径上分别设置一令牌，并将各个令牌从所述开始网格节点开始向所述结束网格节点逐步移动；在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分；在抵达所述结束网格节点的各个令牌中选择得分最高的一个令牌所对应的节点路径上的各个网格节点所对应的候选文字组合作为所述最优文字序列。
5. 根据权利要求4所述的语音识别方法，其特征在于，所述在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分，包括：对于每一个令牌，根据当前途经网格节点的得分和预设的语言模型的概率计算所述令牌的得分；检测所述令牌的得分是否小于预设阈值；若检测结果为所述令牌的得分不小于所述预设阈值，则将所述令牌移动到下一个网格节点并重复上述步骤。
6. 根据权利要求4或5任一所述的语音识别方法，其特征在于，所述在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分之前，还包括：根据不同的词表生成并保存至少一个语言模型；若增加一个词表，则根据增加的所述词表生成新的语言模型，并增加入所述至少一个语目模型中；若删除一个所述词表，则根据删除的所述词表从所述至少一个语言模型中删除相应的语目模型；若修改一个所述词表，则根据修改的所述词表生成新的语言模型，并增加入所述至少一个语言模型中，或者，根据修改的所述词表从所述至少一个语言模型中修改相应的语言模型。
7. -种语音识别装置，其特征在于，所述装置包括：特征提取模块，用于从获取到的语音信号中提取音频特征；音节识别模块，用于根据所述音频特征识别出音节混淆网络；网格生成模块，用于根据所述音节混淆网络和预设的标音词表生成词语网格；文字识别模块，用于在所述词语网格中计算最优文字序列作为识别结果。
8. 根据权利要求7所述的装置，其特征在于，所述音节识别模块，用于根据所述音频特征识别出包括至少两条音节路径的音节混淆网络；或者，所述音节识别模块，用于根据所述音频特征识别出只包括最优音节路径的音节混淆网络。
9. 根据权利要求7所述的装置，其特征在于，所述音节混淆网络包括按序排列的至少一个切片，每个切片包含一组音节，每个音节对应有一个得分，所述网格生成模块，包括：网络遍历单元、第一生成单元、第二生成单元和网格生成单元；所述网络遍历单元，用于遍历所述音节混淆网络中的每个切片在预设的标音词表中所对应的候选文字；所述第一生成单元，用于若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后是一个词语，则将所述词语生成为一个网格节点，并将所述当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的得分的乘积作为所述网格节点的得分；所述第二生成单元，用于若当前切片中的音节与所述当前切片之后的切片中的音节各自所对应的候选文字组合后不是一个词语，则将所述当前切片中的音节所对应的候选文字单独生成为一个网格节点，并将所述当前切片中的音节所对应的得分作为所述网格节点的得分；所述网格生成单元，用于将生成的各个网格节点按照各自对应的音节所处的顺序进行相对应的连接，并与开始网格节点和结束网格节点一起生成为词语网格。
10. 根据权利要求7所述的装置，其特征在于，所述词语网格包括开始网格节点、结束网格节点和位于所述开始网格节点和所述结束网格节点之间的至少一条节点路径，所述文字识别模块，包括：令牌移动单元、得分计算单元和最优选择单元；所述令牌移动单元，用于在所述开始网格节点和所述结束网格节点之间的各条节点路径上分别设置一令牌，并将各个令牌从所述开始网格节点开始向所述结束网格节点逐步移动；所述得分计算单元，用于在逐步移动过程中根据途经网格节点的得分和预设的语言模型的概率计算各个令牌的得分；所述最优选择单元，用于在抵达所述结束网格节点的各个令牌中选择得分最高的一个令牌所对应的节点路径上的各个网格节点所对应的候选文字组合作为所述最优文字序列。
11. 根据权利要求10所述的装置，其特征在于，所述得分计算单元，包括：计算子单元、检测子单元和移动子单元；所述计算子单元，用于对于每一个令牌，根据当前途经网格节点的得分和预设的语言模型的概率计算所述令牌的得分；所述检测子单元，用于检测所述令牌的得分是否小于预设阈值；所述移动子单元，用于若检测结果为所述令牌的得分不小于所述预设阈值，则将所述令牌移动到下一个网格节点并重复上述步骤。
12. 根据权利要求10或11任一所述的装置，其特征在于，所述文字识别模块，还包括：模型生成单元、模型增加单元、模型删除单元和模型修改单元；所述模型生成单元，用于根据不同的词表生成并保存至少一个语言模型；所述模型增加单元，用于若增加一个词表，则根据增加的所述词表生成新的语言模型，并增加入所述至少一个语言模型中；所述模型删除单元，用于若删除一个所述词表，则根据删除的所述词表从所述至少一个语言模型中删除相应的语言模型；所述模型修改单元，用于若修改一个所述词表，则根据修改的所述词表生成新的语言模型，并增加入所述至少一个语言模型中，或者，根据修改的所述词表从所述至少一个语言模型中修改相应的语言模型。
13. -种电子设备，其特征在于，所述终端包括如权利要求6至12任一所述的语音识别装直。
【文档编号】G10L15/02GK104157285SQ201310177246
【公开日】2014年11月19日申请日期:2013年5月14日优先权日:2013年5月14日
【发明者】李露, 卢鲤, 张翔, 饶丰, 岳帅, 陈波, 马建雄, 刘海波申请人:腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李露;卢鲤;张翔;饶丰;岳帅;陈波;马建雄;刘海波
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人