语音识别后处理方法及系统的制作方法_4

文档序号：9490330阅读：来源：国知局

对应语音数据的声学特征；
[0176] 模型生成单元84,用于利用提取的错词对的标注信息、语义特征及声学特征，构建错词检测模型。
[0177] 所述错词检测模型可以采用统计学中常用的分类模型，如支持向量机模型、神经网络模型等。模型的输入为当前词对的标注信息、语义特征及声学特征，其中标注信息可以作为错词检测模型的分类标签；模型的输出为当前词对为正确词对的概率。
[0178] 进一步地，当前词对的语义特征还可以包括词对中非识别结果中词的识别语义向量和通用语义向量，所述识别语义向量和通用语义向量在前面已有详细说明，在此不再赘述。
[0179] 本发明实施例提供的语音识别后处理系统，预先利用语音识别容易出错的词对构建错词检测模型，也就是说，将语音识别中的错误聚集到一起，从错误中自动学习到其中识别错误的规律性，在对待识别语音数据进行语音识别后，将得到的识别文本利用该错词检测模型对其进行修正，也就是说，利用这种识别错误的规律性，"反向"发现识别中的错误，从而可以提高语音识别结果后处理效果，准确修正语音识别结果中错误词，提升用户体验度。
[0180] 进一步地，由于错词检测模型的构建是通过预先收集大量语音数据，并进行语音识别，根据识别结果发现语音识别容易出错的词，得到错词集合，然后根据该错词集合中的各词与语音识别相关的一些特征来构建的，从而使后续对语音识别结果进行后处理的过程不依赖于由专家构建的语义知识库，有效地避免了语音识别后处理过程受人为因素的影响，进一步提高了处理效果。
[0181] 本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0182] 以上对本发明实施例进行了详细介绍，本文中应用了【具体实施方式】对本发明进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及系统；同时，对于本领域的一般技术人员，依据本发明的思想，在【具体实施方式】及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。
【主权项】
1. 一种语音识别后处理方法，其特征在于，包括：预先利用语音识别容易出错的词对构建错词检测模型；在接收到待识别语音数据后，对所述语音数据进行语音识别，得到识别结果；依次将所述识别结果中的各词与通用词典中的每个词组成词对，并提取词对中所述识别结果中各词的语义特征及声学特征，以及词典词的声学特征；利用所述词对的语义特征和声学特征、以及所述错词检测模型，依次检测所述识别结果中的各词，并且如果检测得到的对应当前词的词对为正确词对的概率大于设定阈值，则将所述词对中的词典词替换所述当前词；检测完成后，输出修正后的识别结果。2. 根据权利要求1所述的方法，其特征在于，所述利用语音识别容易出错的词对构建错词检测模型包括：通过聚类方式确定语音识别容易出错的词对，得到错词对集合；利用所述错词对集合构建错词检测模型。3. 根据权利要求2所述的方法，其特征在于，所述通过聚类方式确定语音识别容易出错的词对，得到错词对集合包括：获取训练语音数据；对所述训练语音数据进行语音识别，得到识别文本；获取包含所述识别文本中各词的通用文本；利用所述识别文本训练得到所述识别文本中各词的词向量，并将其作为所述词的识别词向量，并利用所述通用文本训练得到所述通用文本中各词的词向量，并将其作为所述词的通用词向量；对所述识别文本中各词的识别词向量进行聚类，得到各词的类别；根据所述通用词向量计算每个类别中两个词之间的通用语义相似度；计算每个类别中两个词之间的声学相似度；如果计算得到的两个词的通用语义相似度低于设定的第一阈值，并且声学相似度高于设定的第二阈值，则将所述两个词作为错词对加入到错词对集合中。4. 根据权利要求3所述的方法，其特征在于，所述利用所述识别文本训练得到所述识别文本中各词的词向量包括：对所述识别文本中的各词进行向量初始化，得到各词的初始词向量；利用神经网络对各词的初始词向量进行训练，得到所述识别文本中各词的词向量。5. 根据权利要求3所述的方法，其特征在于，所述根据所述通用词向量计算每个类别中两个词之间的通用语义相似度包括：计算每个类别中两个词的通用词向量之间的距离；根据计算得到的两个词的通用词向量之间的距离确定所述两个词之间的通用语义相似度。6. 根据权利要求3所述的方法，其特征在于，所述计算每个类别中两个词之间的声学相似度包括：计算每个类别中两个词的声学距离；根据计算得到的两个词的声学距离确定所述两个词之间的声学相似度。7. 根据权利要求2所述的方法，其特征在于，所述利用所述错词对集合构建错词检测模型包括：提取所述错词对集合中每个错词对的标注信息，所述标注信息用于表示所述错词对中其中一个词是否应该识别为其中另一个词；提取所述错词对集合中识别错误词的语义特征，所述语义特征包括；错词的上下文相关环境特征、错词的识别词向量、错词的通用词向量；提取所述错词对集合中每个词所对应语音数据的声学特征；利用提取的错词对的标注信息、语义特征及声学特征，构建错词检测模型。8. -种语音识别后处理系统，其特征在于，包括：检测模型构建模块，用于预先利用语音识别容易出错的词对构建错词检测模型；接收模块，用于接收待识别语音数据；语音识别模块，用于对所述接收模块接收的语音数据进行语音识别，得到识别结果；特征提取模块，用于依次将所述识别结果中的各词与通用词典中的每个词组成词对，并提取词对中所述识别结果中各词的语义特征及声学特征，以及词典词的声学特征；修正模块，用于利用所述词对的语义特征和声学特征、以及所述错词检测模型，依次检测所述识别结果中的各词，并且如果检测得到的对应当前词的词对为正确词对的概率大于设定阈值，则将所述词对中的词典词替换所述当前词；输出模块，用于在所述修正模块对所述识别结果中的各词检测完成后，输出修正后的识别结果。9. 根据权利要求8所述的系统，其特征在于，所述检测模型构建模块包括：错词对集合生成模块，用于通过聚类方式确定语音识别容易出错的词对，得到错词对集合；模型构建模块，用于利用所述错词对集合构建错词检测模型。10. 根据权利要求9所述的系统，其特征在于，所述错词对集合生成模块包括：训练数据获取单元，用于获取训练语音数据；识别文本获取单元，用于调用所述语音识别模块对所述训练语音数据进行语音识别，得到识别文本；通用文本获取单元，用于获取包含所述识别文本中各词的通用文本；词向量训练单元，用于利用所述识别文本训练得到所述识别文本中各词的词向量，并将其作为所述词的识别词向量，并利用所述通用文本训练得到所述通用文本中各词的词向量，并将其作为所述词的通用词向量；聚类单元，用于对所述识别文本中各词的识别词向量进行聚类，得到各词的类别；通用语义相似度计算单元，用于根据所述通用词向量计算每个类别中两个词之间的通用语义相似度；声学相似度计算单元，用于计算每个类别中两个词之间的声学相似度；判断单元，用于判断每个类别中两个词的通用语义相似度是否低于设定的第一阈值，并且所述两个词的声学相似度是否高于设定的第二阈值，如果是，则将所述两个词作为错词对加入到错词对集合中。11. 根据权利要求10所述的系统，其特征在于，所述通用语义相似度计算单元，具体用于计算每个类别中两个词的通用词向量之间的距离，并根据计算得到两个词的通用词向量之间的距离确定所述两个词之间的通用语义相似度。12. 根据权利要求10所述的系统，其特征在于，所述声学相似度计算单元，具体用于计算每个类别中两个词的声学距离，并根据计算得到的两个词的声学距离确定所述两个词之间的声学相似度。13. 根据权利要求9所述的系统，其特征在于，所述模型构建模块包括：标注信息提取单元，用于提取所述错词对集合中每个错词对的标注信息，所述标注信息用于表示所述错词对中其中一个词是否应该识别为其中另一个词；语义特征提取单元，用于提取所述错词对集合中识别错误词的语义特征，所述语义特征包括；错词的上下文相关环境特征、错词的识别词向量、错词的通用词向量；声学特征提取单元，用于提取所述错词对集合中每个词所对应语音数据的声学特征；模型生成单元，用于利用提取的错词对的标注信息、语义特征及声学特征，构建错词检测模型。
【专利摘要】本发明公开了一种语音识别后处理方法及系统，该方法包括：预先利用语音识别容易出错的词对构建错词检测模型；在接收到待识别语音数据后，对所述语音数据进行语音识别，得到识别结果；依次将所述识别结果中的各词与通用词典中的每个词组成词对，并提取词对中所述识别结果中各词的语义特征及声学特征，以及词典词的声学特征；利用所述词对的语义特征和声学特征、以及所述错词检测模型，依次检测所述识别结果中的各词，得到修正后的识别结果。利用本发明，可以提高语音识别结果后处理的效果，准确修正识别结果中错误词。
【IPC分类】G10L15/26, G10L15/06
【公开号】CN105244029
【申请号】CN201510560841
【发明人】金重九, 胡加学, 赵乾, 王道广, 于振华, 孙昌年
【申请人】科大讯飞股份有限公司
【公开日】2016年1月13日
【申请日】2015年8月28日

完整全部详细技术资料下载

当前第4页1 2 3 4