语音识别后处理方法及系统的制作方法_2

文档序号：9490330阅读：来源：国知局

是本发明实施语音识别后处理方法的流程图；
[0068]图2是本发明实施例语音识别后处理方法中生成错词对集合的一种流程图；[0069]图3是本发明实施例中两个词拼音元素最小编辑距离路径示意图；
[0070] 图4是本发明实施例中每个聚类中词与词之间的关系象限图；
[0071]图5是本发明实施例中利用错词对集合构建错词检测模型的流程图；
[0072] 图6是本发明实施例语音识别后处理系统的结构示意图；
[0073]图7是本发明实施例中错词对集合生成模块的结构示意图；
[0074]图8是本发明实施例中模型构建模块的结构示意图。
【具体实施方式】
[0075] 为了使本技术领域的人员更好地理解本发明实施例的方案，下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0076] 如图1所示，是本发明实施例语音识别后处理方法的流程图，包括以下步骤：
[0077] 步骤101，预先利用语音识别容易出错的词对构建错词检测模型。
[0078] 错词检测模型的构建可以首先确定语音识别容易出错的词对，得到错词对集合，然后利用所述错词对集合构建错词检测模型，具体构建过程将在后面详细描述。
[0079] 步骤102,在接收到待识别语音数据后，对所述语音数据进行语音识别，得到识别结果。
[0080] 具体的语音识别方法可以采用现有技术，对此本发明实施例不做限定。
[0081] 步骤103,依次将所述识别结果中的各词与通用词典中的每个词组成词对，并提取词对中所述识别结果中各词的语义特征及声学特征，以及词典词的声学特征。
[0082] 所述语义特征包括所述词的上下文相关环境特征、所述词的识别词向量及通用词向量；其中，所述上下文相关环境特征包括：当前词前后邻接词的词性、当前词在句中的位置等信息；所述识别词向量是指根据识别文本训练得到的词向量；所述通用词向量是指根据通用文本训练得到的词向量。词向量的具体训练过程将在后面详细说明。所述声学特征可以为每个词的拼音信息，或者为：基频特征、和/或频谱特征等，基频特征如H)，频谱特征如MFCC(MelFrequencyCepstrumCoefficient，梅尔频率倒谱系数）特征等。至此，可以得到每个词对中识别结果中词的语义特征及声学特征，以及词典词的声学特征，将这些特征作为该词对的特征，利用错词检测模型对该词对进行检测；需要说明的是，所述词典词的通用语义向量和识别词向量也可以根据通用文本训练得到，也可以将所述词典词的通用语义向量和识别词向量作为词典词的语义特征，加入到词对特征中。
[0083] 步骤104,利用所述词对的语义特征和声学特征、以及所述错词检测模型，依次检测所述识别结果中的各词，并且如果检测得到的对应当前词的词对为正确词对的概率大于设定阈值，则将所述词对中的词典词替换所述当前词。
[0084] 具体地，对于识别结果中的各词，依次将对应该词的每个词对的特征作为错词检测模型的输入，得到该词对为正确词对的概率，当所述概率大于预先设定的阈值时，则将词对中识别正确词替换识别结果中相应词，即将该词对中的词典词替换识别结果中相应词，从而得到修正后的识别结果。如识别结果中词"查循"与词典中词"查询"组成词对，提取该词对的特征作为错词检测模型的输入，得到该词对为正确词对的概率〇. 89,超过预先设定的阈值0. 8,则在识别结果中，将"查循"替换为"查询"。
[0085] 需要说明的是，当有多个词对的概率大于预先设定的阈值时，则选择概率最大的词对中词典词替换识别结果中相应词。
[0086] 步骤105,检测完成后，输出修正后的识别结果。
[0087]本发明实施例提供的语音识别后处理方法，预先利用语音识别容易出错的词对构建错词检测模型，也就是说，将语音识别中的错误聚集到一起，从错误中自动学习到其中识别错误的规律性，在对待识别语音数据进行语音识别后，将得到的识别文本利用该错词检测模型对其进行修正，也就是说，利用这种识别错误的规律性，"反向"发现识别中的错误，从而可以提高语音识别结果后处理效果，准确修正语音识别结果中错误词，提升用户体验度。
[0088] 在实际应用中，可以通过聚类方式确定语音识别容易出错的词对，得到错词对集合。
[0089] 如图2所示，是本发明实施例语音识别后处理方法中生成错词对集合的一种流程图，包括以下步骤：
[0090] 步骤201，获取训练语音数据。
[0091] 步骤202,对所述训练语音数据进行语音识别，得到识别文本。
[0092]具体地，可以预先收集大量语音数据，并利用现有的语音识别系统对这些语音数据进行识别，得到大量识别文本。所述语音数据可以是所有领域的语音数据，也可以是根据用户实际需求定制的相应领域的语音数据。
[0093] 步骤203,获取包含所述识别文本中各词的通用文本。
[0094] 比如，可以利用现有识别系统中语言模型的训练文本作为所述通用文本，当然，所述训练文本需要包含上述识别文本中的所有词。
[0095] 步骤204,利用所述识别文本训练得到所述识别文本中各词的词向量，并将其作为所述词的识别词向量，并利用所述通用文本训练得到所述通用文本中各词的词向量，并将其作为所述词的通用词向量。
[0096]识别词向量的训练过程如下：首先对所述识别文本包含的词进行去重，即去除其中重复的词，将去重后的各词进行向量初始化，得到各词的初始词向量，然后利用神经网络对各词的初始词向量进行训练，得到所述识别文本中各词的词向量。
[0097] 所述通用词向量是指利用收集的大量通用文本，训练得到的各词的词向量。
[0098] 通用词向量的训练过程与识别词向量的训练过程相同，首先对所述通用文本包含的词进行去重，即去除其中重复的词，将去重后的各词进行向量初始化，得到各词的初始词向量，然后利用神经网络对各词的初始词向量进行训练，得到所述通用文本中各词的词向量。
[0099] 步骤205,对所述识别文本中各词的识别词向量进行聚类，得到各词的类别。
[0100] 比如，可以利用各词的识别词向量之间的距离进行聚类，得到各识别词向量的类另IJ，该类别即为所述识别词向量对应的词的类别。
[0101] 识别词向量之间的距离具体可以是余弦距离、欧式距离、马式距离等，以余弦距离为例，如公式（1)所示：
[0103] 其中，Ο(?,.?'）为识别词向量无和多的余弦距离，Xl...Xn为识别词向量f的值， y:...yn为识别词向量.·?的值。
[0104] 余弦距离越小，两个识别词向量越接近，越容易被聚到同一类中。具体聚类算法可以采用κ-means算法、KD-Tree算法等。
[0105] 如表1所示为聚类后部分识别词向量表示的词及其所属类别。
[0106] 表 1 :

[0109] 步骤206,根据所述通用词向量计算每个类别中两个词之间的通用语义相似度。
[0110] 两个词之间的通用语义相似度可以根据两个词的通用词向量之间的距离来确定，两个词之间的通用词向量距离越近，则两个词的通用语义相似度越高。当然，两个词之间的通用语义相似度也可以直接使用两个词的通用词向量之间的距离表示，如余弦距离等，具体计算公式可参照前述公式（1)。
[0111] 步骤207,计算每个类别中两个词之间的声学相似度。
[0112] 两个词之间的声学相似度可以根据两个词的声学距离来确定，两个词之间的声学距离越近，则两个词的声学相似度越高。当然，两个词之间的声学相似度也可以直接使用两个词的声学距离表示。声学距离的计算可以通过两个词拼音中每个字符转换距离来计算，即根据字符转换混淆矩阵中两个字符的转换距离来计算；当然，也可以提取两词对应语音数据的基频、频谱特征计算声学距离。以根据两词拼音字符转换距离计算声学距离为例，如表2为部分字符转换混淆矩阵，其中，第一行和第一列为相互转换的字符，两个字符相交处为转换距离。
[0113]表2:
[0114]
[0115] 根据两个词拼音的字符转换距离计算两个词的声学距离，具体的计算公式如下式 (2)所示：
[0117] 其中，为两个词的声学距离，Dedlt(ai，a2)为两个词拼音字符的转换距离，该距离可以根据动态规划方法，查找两个词字符转换距离表中的最小编辑距离路径，将所述路径上的字符转换距离融合后即可得到，具体融合方法可以是取平均或加权组合等。
[0118]例如根据表2混淆矩阵中的字符转换距离，对"报案"和"备菜"的声学距离计算过程如下：
[0119] 1)将每个词转换成拼音
[0120] 报案_>baoan
[0121] 备菜_>beicai
[0122] 2)根据字符转换混淆矩阵，查表得到每个拼音字符的转换距离如表3所示：
[0123]表3:
[0124]
[0125] 3)利用动态规划方法，计算两词拼音字符转换距离。
[0126] 具体计算时，利用动态规划方法查找字符转换距离表，找到最小编辑距离路径，将该路径上的字符转换距离融合后即可得到两词的最小编辑距离，如图3所示，可以将最小编辑距离路径上的转换距离直接累加，将累加得到的值作为两个词的最小编辑距离，即 0+0+0. 976+1+0. 699 = 2. 675〇
[0127] 步骤208,如果计算得到的两个词的通用语义相似度低于设定的第一阈值，并且声学相似度高于设定的第二阈值，则将所述两个词作为错词对加入到错词对集合中。
[0128] 在根据计算得到的通用语义相似度及声学相似度确定语音识别

完整全部详细技术资料下载

当前第2页1 2 3 4