语音识别后处理方法及系统的制作方法_2

文档序号:9490330阅读:来源:国知局
是本发明实施语音识别后处理方法的流程图;
[0068]图2是本发明实施例语音识别后处理方法中生成错词对集合的一种流程图;[0069]图3是本发明实施例中两个词拼音元素最小编辑距离路径示意图;
[0070] 图4是本发明实施例中每个聚类中词与词之间的关系象限图;
[0071]图5是本发明实施例中利用错词对集合构建错词检测模型的流程图;
[0072] 图6是本发明实施例语音识别后处理系统的结构示意图;
[0073]图7是本发明实施例中错词对集合生成模块的结构示意图;
[0074]图8是本发明实施例中模型构建模块的结构示意图。
【具体实施方式】
[0075] 为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施 方式对本发明实施例作进一步的详细说明。
[0076] 如图1所示,是本发明实施例语音识别后处理方法的流程图,包括以下步骤:
[0077] 步骤101,预先利用语音识别容易出错的词对构建错词检测模型。
[0078] 错词检测模型的构建可以首先确定语音识别容易出错的词对,得到错词对集合, 然后利用所述错词对集合构建错词检测模型,具体构建过程将在后面详细描述。
[0079] 步骤102,在接收到待识别语音数据后,对所述语音数据进行语音识别,得到识别 结果。
[0080] 具体的语音识别方法可以采用现有技术,对此本发明实施例不做限定。
[0081] 步骤103,依次将所述识别结果中的各词与通用词典中的每个词组成词对,并提取 词对中所述识别结果中各词的语义特征及声学特征,以及词典词的声学特征。
[0082] 所述语义特征包括所述词的上下文相关环境特征、所述词的识别词向量及通用词 向量;其中,所述上下文相关环境特征包括:当前词前后邻接词的词性、当前词在句中的位 置等信息;所述识别词向量是指根据识别文本训练得到的词向量;所述通用词向量是指根 据通用文本训练得到的词向量。词向量的具体训练过程将在后面详细说明。所述声学特征 可以为每个词的拼音信息,或者为:基频特征、和/或频谱特征等,基频特征如H),频谱特征 如MFCC(MelFrequencyCepstrumCoefficient,梅尔频率倒谱系数)特征等。至此,可以 得到每个词对中识别结果中词的语义特征及声学特征,以及词典词的声学特征,将这些特 征作为该词对的特征,利用错词检测模型对该词对进行检测;需要说明的是,所述词典词的 通用语义向量和识别词向量也可以根据通用文本训练得到,也可以将所述词典词的通用语 义向量和识别词向量作为词典词的语义特征,加入到词对特征中。
[0083] 步骤104,利用所述词对的语义特征和声学特征、以及所述错词检测模型,依次检 测所述识别结果中的各词,并且如果检测得到的对应当前词的词对为正确词对的概率大于 设定阈值,则将所述词对中的词典词替换所述当前词。
[0084] 具体地,对于识别结果中的各词,依次将对应该词的每个词对的特征作为错词检 测模型的输入,得到该词对为正确词对的概率,当所述概率大于预先设定的阈值时,则将词 对中识别正确词替换识别结果中相应词,即将该词对中的词典词替换识别结果中相应词, 从而得到修正后的识别结果。如识别结果中词"查循"与词典中词"查询"组成词对,提取 该词对的特征作为错词检测模型的输入,得到该词对为正确词对的概率〇. 89,超过预先设 定的阈值0. 8,则在识别结果中,将"查循"替换为"查询"。
[0085] 需要说明的是,当有多个词对的概率大于预先设定的阈值时,则选择概率最大的 词对中词典词替换识别结果中相应词。
[0086] 步骤105,检测完成后,输出修正后的识别结果。
[0087]本发明实施例提供的语音识别后处理方法,预先利用语音识别容易出错的词对构 建错词检测模型,也就是说,将语音识别中的错误聚集到一起,从错误中自动学习到其中识 别错误的规律性,在对待识别语音数据进行语音识别后,将得到的识别文本利用该错词检 测模型对其进行修正,也就是说,利用这种识别错误的规律性,"反向"发现识别中的错误, 从而可以提高语音识别结果后处理效果,准确修正语音识别结果中错误词,提升用户体验 度。
[0088] 在实际应用中,可以通过聚类方式确定语音识别容易出错的词对,得到错词对集 合。
[0089] 如图2所示,是本发明实施例语音识别后处理方法中生成错词对集合的一种流程 图,包括以下步骤:
[0090] 步骤201,获取训练语音数据。
[0091] 步骤202,对所述训练语音数据进行语音识别,得到识别文本。
[0092]具体地,可以预先收集大量语音数据,并利用现有的语音识别系统对这些语音数 据进行识别,得到大量识别文本。所述语音数据可以是所有领域的语音数据,也可以是根据 用户实际需求定制的相应领域的语音数据。
[0093] 步骤203,获取包含所述识别文本中各词的通用文本。
[0094] 比如,可以利用现有识别系统中语言模型的训练文本作为所述通用文本,当然,所 述训练文本需要包含上述识别文本中的所有词。
[0095] 步骤204,利用所述识别文本训练得到所述识别文本中各词的词向量,并将其作为 所述词的识别词向量,并利用所述通用文本训练得到所述通用文本中各词的词向量,并将 其作为所述词的通用词向量。
[0096]识别词向量的训练过程如下:首先对所述识别文本包含的词进行去重,即去除其 中重复的词,将去重后的各词进行向量初始化,得到各词的初始词向量,然后利用神经网络 对各词的初始词向量进行训练,得到所述识别文本中各词的词向量。
[0097] 所述通用词向量是指利用收集的大量通用文本,训练得到的各词的词向量。
[0098] 通用词向量的训练过程与识别词向量的训练过程相同,首先对所述通用文本包含 的词进行去重,即去除其中重复的词,将去重后的各词进行向量初始化,得到各词的初始词 向量,然后利用神经网络对各词的初始词向量进行训练,得到所述通用文本中各词的词向 量。
[0099] 步骤205,对所述识别文本中各词的识别词向量进行聚类,得到各词的类别。
[0100] 比如,可以利用各词的识别词向量之间的距离进行聚类,得到各识别词向量的类 另IJ,该类别即为所述识别词向量对应的词的类别。
[0101] 识别词向量之间的距离具体可以是余弦距离、欧式距离、马式距离等,以余弦距离 为例,如公式(1)所示:
[0103] 其中,Ο(?,.?')为识别词向量无和多的余弦距离,Xl...Xn为识别词向量f的值, y:...yn为识别词向量.·?的值。
[0104] 余弦距离越小,两个识别词向量越接近,越容易被聚到同一类中。具体聚类算法可 以采用κ-means算法、KD-Tree算法等。
[0105] 如表1所示为聚类后部分识别词向量表示的词及其所属类别。
[0106] 表 1 :

[0109] 步骤206,根据所述通用词向量计算每个类别中两个词之间的通用语义相似度。
[0110] 两个词之间的通用语义相似度可以根据两个词的通用词向量之间的距离来确定, 两个词之间的通用词向量距离越近,则两个词的通用语义相似度越高。当然,两个词之间的 通用语义相似度也可以直接使用两个词的通用词向量之间的距离表示,如余弦距离等,具 体计算公式可参照前述公式(1)。
[0111] 步骤207,计算每个类别中两个词之间的声学相似度。
[0112] 两个词之间的声学相似度可以根据两个词的声学距离来确定,两个词之间的声学 距离越近,则两个词的声学相似度越高。当然,两个词之间的声学相似度也可以直接使用两 个词的声学距离表示。声学距离的计算可以通过两个词拼音中每个字符转换距离来计算, 即根据字符转换混淆矩阵中两个字符的转换距离来计算;当然,也可以提取两词对应语音 数据的基频、频谱特征计算声学距离。以根据两词拼音字符转换距离计算声学距离为例,如 表2为部分字符转换混淆矩阵,其中,第一行和第一列为相互转换的字符,两个字符相交处 为转换距离。
[0113]表2:
[0114]
[0115] 根据两个词拼音的字符转换距离计算两个词的声学距离,具体的计算公式如下式 (2)所示:
[0117] 其中,为两个词的声学距离,Dedlt(ai,a2)为两个词拼音字符的转换距 离,该距离可以根据动态规划方法,查找两个词字符转换距离表中的最小编辑距离路径,将 所述路径上的字符转换距离融合后即可得到,具体融合方法可以是取平均或加权组合等。
[0118]例如根据表2混淆矩阵中的字符转换距离,对"报案"和"备菜"的声学距离计算 过程如下:
[0119] 1)将每个词转换成拼音
[0120] 报案_>baoan
[0121] 备菜_>beicai
[0122] 2)根据字符转换混淆矩阵,查表得到每个拼音字符的转换距离如表3所示:
[0123]表3:
[0124]
[0125] 3)利用动态规划方法,计算两词拼音字符转换距离。
[0126] 具体计算时,利用动态规划方法查找字符转换距离表,找到最小编辑距离路径, 将该路径上的字符转换距离融合后即可得到两词的最小编辑距离,如图3所示,可以将最 小编辑距离路径上的转换距离直接累加,将累加得到的值作为两个词的最小编辑距离,即 0+0+0. 976+1+0. 699 = 2. 675〇
[0127] 步骤208,如果计算得到的两个词的通用语义相似度低于设定的第一阈值,并且声 学相似度高于设定的第二阈值,则将所述两个词作为错词对加入到错词对集合中。
[0128] 在根据计算得到的通用语义相似度及声学相似度确定语音识别
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1