语音识别后处理方法及系统的制作方法

文档序号：9490330阅读：580来源：国知局

语音识别后处理方法及系统的制作方法
【技术领域】
[0001] 本发明涉及自然语言处理领域，具体涉及一种语音识别后处理方法及系统。
【背景技术】
[0002] 随着人机交互的广泛应用，人们对人机交互的准确度要求越来越高。语音识别作为人机交互中的重要环节，直接影响人机交互的体验。然而，现有的语音识别系统经常会由于语音数据的不理想、声学模型或语言模型的不完美而出现识别错误的结果，增加了语义理解的难度，并降低了用户体验度。因此，需要对语音识别结果进行后处理，即对错误的识别结果修正，将修正后的识别结果反馈给用户。
[0003] 现有的语音识别后处理方法主要是首先通过领域专家构建语义知识库，给出具体的词法规则、句法规则及语义规则，构建语义模板；然后将语音识别结果同语义知识库中的模板进行匹配，发现识别错误的词；最后根据语义知识库模板将识别错误的词进行修正，得到修正后结果。这种方法需要大量领域专家对知识库中词法规则、句法规则及语义规则进行归纳和整理构建语义知识库模板，如果语义知识库构建的不完整或冗余较多时，后处理效果较差。此外，这种方法需要大量的领域专家进行标注，成本较高，花费时间较长。因此，如何提高语音识别结果进行后处理的效果，准确修正语音识别结果中错误词具有重大的意义。

【发明内容】

[0004] 本发明提供一种语音识别后处理方法及系统，以提高语音识别结果后处理的效果，准确的修正语音识别结果中错误词。
[0005] 为此，本发明提供如下技术方案：
[0006] 一种语音识别后处理方法，包括：
[0007] 预先利用语音识别容易出错的词对构建错词检测模型；
[0008] 在接收到待识别语音数据后，对所述语音数据进行语音识别，得到识别结果；
[0009] 依次将所述识别结果中的各词与通用词典中的每个词组成词对，并提取词对中所述识别结果中各词的语义特征及声学特征，以及词典词的声学特征；
[0010] 利用所述词对的语义特征和声学特征、以及所述错词检测模型，依次检测所述识别结果中的各词，并且如果检测得到的对应当前词的词对为正确词对的概率大于设定阈值，则将所述词对中的词典词替换所述当前词；
[0011] 检测完成后，输出修正后的识别结果。
[0012] 优选地，所述利用语音识别容易出错的词对构建错词检测模型包括：
[0013] 通过聚类方式确定语音识别容易出错的词对，得到错词对集合；
[0014] 利用所述错词对集合构建错词检测模型。
[0015] 优选地，所述通过聚类方式确定语音识别容易出错的词对，得到错词对集合包括：
[0016] 获取训练语音数据；
[0017] 对所述训练语音数据进行语音识别，得到识别文本；
[0018] 获取包含所述识别文本中各词的通用文本；
[0019] 利用所述识别文本训练得到所述识别文本中各词的词向量，并将其作为所述词的识别词向量，并利用所述通用文本训练得到所述通用文本中各词的词向量，并将其作为所述词的通用词向量；
[0020] 对所述识别文本中各词的识别词向量进行聚类，得到各词的类别；
[0021] 根据所述通用词向量计算每个类别中两个词之间的通用语义相似度；
[0022] 计算每个类别中两个词之间的声学相似度；
[0023] 如果计算得到的两个词的通用语义相似度低于设定的第一阈值，并且声学相似度高于设定的第二阈值，则将所述两个词作为错词对加入到错词对集合中。
[0024] 优选地，所述利用所述识别文本训练得到所述识别文本中各词的词向量包括：
[0025] 对所述识别文本中的各词进行向量初始化，得到各词的初始词向量；
[0026] 利用神经网络对各词的初始词向量进行训练，得到所述识别文本中各词的词向量。
[0027] 优选地，所述根据所述通用词向量计算每个类别中两个词之间的通用语义相似度包括：
[0028] 计算每个类别中两个词的通用词向量之间的距离；
[0029] 根据计算得到的两个词的通用词向量之间的距离确定所述两个词之间的通用语义相似度。
[0030] 优选地，所述计算每个类别中两个词之间的声学相似度包括：
[0031] 计算每个类别中两个词的声学距离；
[0032] 根据计算得到的两个词的声学距离确定所述两个词之间的声学相似度。
[0033] 优选地，所述利用所述错词对集合构建错词检测模型包括：
[0034] 提取所述错词对集合中每个错词对的标注信息，所述标注信息用于表示所述错词对中其中一个词是否应该识别为其中另一个词；
[0035] 提取所述错词对集合中识别错误词的语义特征，所述语义特征包括；错词的上下文相关环境特征、错词的识别词向量、错词的通用词向量；
[0036] 提取所述错词对集合中每个词所对应语音数据的声学特征；
[0037] 利用提取的错词对的标注信息、语义特征及声学特征，构建错词检测模型。
[0038] 一种语音识别后处理系统，包括：
[0039] 检测模型构建模块，用于预先利用语音识别容易出错的词对构建错词检测模型；
[0040] 接收模块，用于接收待识别语音数据；
[0041] 语音识别模块，用于对所述接收模块接收的语音数据进行语音识别，得到识别结果；
[0042] 特征提取模块，用于依次将所述识别结果中的各词与通用词典中的每个词组成词对，并提取词对中所述识别结果中各词的语义特征及声学特征，以及词典词的声学特征；[0043] 修正模块，用于利用所述词对的语义特征和声学特征、以及所述错词检测模型，依次检测所述识别结果中的各词，并且如果检测得到的对应当前词的词对为正确词对的概率大于设定阈值，则将所述词对中的词典词替换所述当前词；
[0044] 输出模块，用于在所述修正模块对所述识别结果中的各词检测完成后，输出修正后的识别结果。
[0045] 优选地，所述检测模型构建模块包括：
[0046] 错词对集合生成模块，用于通过聚类方式确定语音识别容易出错的词对，得到错词对集合；
[0047] 模型构建模块，用于利用所述错词对集合构建错词检测模型。
[0048] 优选地，所述错词对集合生成模块包括：
[0049] 训练数据获取单元，用于获取训练语音数据；
[0050] 识别文本获取单元，用于调用所述语音识别模块对所述训练语音数据进行语音识另IJ，得到识别文本；
[0051] 通用文本获取单元，用于获取包含所述识别文本中各词的通用文本；
[0052] 词向量训练单元，用于利用所述识别文本训练得到所述识别文本中各词的词向量，并将其作为所述词的识别词向量，并利用所述通用文本训练得到所述通用文本中各词的词向量，并将其作为所述词的通用词向量；
[0053] 聚类单元，用于对所述识别文本中各词的识别词向量进行聚类，得到各词的类别；
[0054] 通用语义相似度计算单元，用于根据所述通用词向量计算每个类别中两个词之间的通用语义相似度；
[0055] 声学相似度计算单元，用于计算每个类别中两个词之间的声学相似度；
[0056] 判断单元，用于判断每个类别中两个词的通用语义相似度是否低于设定的第一阈值，并且所述两个词的声学相似度是否高于设定的第二阈值，如果是，则将所述两个词作为错词对加入到错词对集合中。
[0057] 优选地，所述通用语义相似度计算单元，具体用于计算每个类别中两个词的通用词向量之间的距离，并根据计算得到两个词的通用词向量之间的距离确定所述两个词之间的通用语义相似度。
[0058] 优选地，所述声学相似度计算单元，具体用于计算每个类别中两个词的声学距离，并根据计算得到的两个词的声学距离确定所述两个词之间的声学相似度。
[0059] 优选地，所述模型构建模块包括：
[0060] 标注信息提取单元，用于提取所述错词对集合中每个错词对的标注信息，所述标注信息用于表示所述错词对中其中一个词是否应该识别为其中另一个词；
[0061] 语义特征提取单元，用于提取所述错词对集合中识别错误词的语义特征，所述语义特征包括；错词的上下文相关环境特征、错词的识别词向量、错词的通用词向量；
[0062] 声学特征提取单元，用于提取所述错词对集合中每个词所对应语音数据的声学特征；
[0063] 模型生成单元，用于利用提取的错词对的标注信息、语义特征及声学特征，构建错词检测模型。
[0064] 本发明实施例提供的语音识别后处理方法及系统，预先利用语音识别容易出错的词对构建错词检测模型，在对待识别语音数据进行语音识别后，将得到的识别结果利用该错词检测模型对其进行修正，从而可以提高语音识别结果后处理效果，准确修正语音识别结果中的错误词，提升用户体验度。
[0065] 进一步地，由于错词检测模型的构建是通过预先收集大量语音数据，并进行语音识别，根据识别文本发现语音识别容易出错的词，得到错词对集合，然后根据该错词对集合中的各词与语音识别相关的一些特征来构建的，从而使后续对语音识别结果进行后处理的过程不依赖于由专家构建的语义知识库，有效地避免了语音识别后处理过程受人为因素的影响，进一步提高了处理效果。
【附图说明】
[0066] 为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。
[0067]图1

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金重九;胡加学;赵乾;王道广;于振华;孙昌年;
技术所有人：科大讯飞股份有限公司;
我是此专利的发明人

上一篇：一种文件加密方法和电子设备的制造方法
上一篇：车内音乐开启方法