一种融合用户反馈的汉语语音识别方法及系统的制作方法

文档序号：8224539阅读：322来源：国知局

一种融合用户反馈的汉语语音识别方法及系统的制作方法
【技术领域】
[0001]本发明涉及语音识别技术领域，特别涉及一种融合用户反馈的汉语语音识别方法及系统。
【背景技术】
[0002]近年来，计算机自动语音识别技术取得了长足的进展，涌现出了一批代表性的应用，但是，由于当前语音识别技术自身的限制，识别错误仍然不可避免，而很多情况下少数几个错字就能改变整个句子的语义，因而大大影响了用户的体验和对语音识别技术的热
1同O
[0003]为解决当前语音识别技术与实际应用需求之间的矛盾，一些研宄者将语音识别和人机交互技术相结合，提出了融合用户反馈的语音识别错误修正方法，其主要特点是提供便捷的交互界面辅助用户对识别结果进行反馈和修正，以得到高准确率的识别文本。这些反馈方式包括结合键盘输入、语音重新输入(re-speaking)、手写输入等的多通道输入和候选选择。近年来，以词为单位的候选选择受到了研宄者的重视，该方式下系统不仅显示每句话的识别结果，而且为识别结果中的每个词同时提供多个候选，当第一候选识别错误时，用户可通过选择其它候选词来纠正识别错误，这种方法可将相当一部分错误修正工作以点击或触摸的形式实现，用户界面友好、操作效率较高，但是，当识别错误较多时，用户需要查看各候选列并进行选择，还需要采用键盘等设备输入不在候选列表中的字词，人工操作负担仍然相对较重，因此，提高语音识别结果的正确率，减少所需的修正操作，特别是键盘输入操作，仍然是当前研宄的重点，而在提高语音识别正确率方面，除了提高通用识别引擎的性能外，针对用户正在输入的语音，自动学习用户反馈中的包含的隐含信息，快速调整识别结果，对于提高识别性能、提升用户体验，也具有重要作用。

【发明内容】

[0004]针对现有技术的不足，本发明提出一种融合用户反馈的汉语语音识别方法及系统。
[0005]本发明提出一种融合用户反馈的汉语语音识别方法，包括:
[0006]步骤1，获取输入语音，根据所述输入语音，生成词网格，并将所述词网格转换为字的候选列表；
[0007]步骤2，获取用户对所述候选列表中的所述用户反馈，所述用户反馈包括:所述用户选择所述候选列表中与所述输入语音相对应的正确字，或输入与所述输入语音相对应的所述正确字；
[0008]步骤3，，将所述正确字以及所述正确字对应的候选列之前的各候选列的第一个候选字作为已确定文字，并以所述已确定文字为约束和指导，调整未确定文字对应的所述候选列表，生成新的候选列表；
[0009]步骤4，重复所述步骤2、3，直到正确识别所述输入语音或所述用户输入新输入语音，以完成语音识别。
[0010]所述的融合用户反馈的汉语语音识别方法，所述步骤3包括:
[0011]步骤31，对于所述已确定文字，创建只包括正确字/词的精简词网格；
[0012]步骤32，将未确定文字对应的所述候选列表进行词网格扩充，生成与未确定文字对应的所述候选列表中候选列中字/词发音相近的字/词，并创建对应的词网格节点；
[0013]步骤33，将所述精简词网格与所述用户反馈前的所述词网格中对应未确定文字的部分相连，并将所述词网格节点加入所述词网格，生成新词网格；
[0014]步骤34，对所述新词网格进行概率重估，计算所述新词网格中各路径的概率；
[0015]步骤35，根据所述新词网格与所述概率，生成新候选列表。
[0016]所述的融合用户反馈的汉语语音识别方法，所述步骤31包括:将所述已确定文字切分为新词，为每个新词建立词网格节点，并在相邻新词之间创建弧进行连接。
[0017]所述的融合用户反馈的汉语语音识别方法，所述步骤32包括:生成所述用户反馈的候选列的下一候选列中的候选字的混淆音字；生成第一候选字与所述正确字相同，第二候选字与所述下一候选列中的候选字发音相近的混淆音词。
[0018]本发明还提出一种融合用户反馈的汉语语音识别系统，包括:
[0019]自动语音识别模块，用于获取输入语音，根据所述输入语音，生成词网格，并将所述词网格转换为字的候选列表；
[0020]获取用户反馈模块，用于获取用户对所述候选列表中的所述用户反馈，所述用户反馈包括:所述用户选择所述候选列表中与所述输入语音相对应的正确字，或输入与所述输入语音相对应的所述正确字；
[0021]调整候选列表模块，用于将所述正确字以及所述正确字对应的候选列之前的各候选列的第一个候选字作为已确定文字，并以所述已确定文字为约束和指导，调整未确定文字对应的所述候选列表，生成新的候选列表；
[0022]识别模块，用于重复运行所述获取用户反馈模块、所述调整候选列表模块，直到正确识别所述输入语音或所述用户输入新输入语音，以完成语音识别。
[0023]所述的融合用户反馈的汉语语音识别系统，所述调整候选列表模块包括:精简模块，用于对于所述已确定文字，创建只包括正确字/词的精简词网格；
[0024]扩充模块，用于将未确定文字对应的所述候选列表进行词网格扩充，生成与未确定文字对应的所述候选列表中候选列中字/词发音相近的字/词，并创建对应的词网格节占.V，
[0025]词网格连接模块，用于将所述精简词网格与所述用户反馈前的所述词网格中对应未确定文字的部分相连，并将所述词网格节点加入所述词网格，生成新词网格；
[0026]词网格重估模块，对所述新词网格进行概率重估，计算所述新词网格中各路径的概率；
[0027]新候选列表生成模块，根据所述新词网格与所述概率，生成新候选列表。
[0028]所述的融合用户反馈的汉语语音识别系统，所述精简模块包括，用于将所述已确定文字切分为新词，为每个新词建立词网格节点，并在相邻新词之间创建弧进行连接。
[0029]所述的融合用户反馈的汉语语音识别系统，所述扩充模块包括:用于生成所述用户反馈的候选列的下一候选列中的候选字的混淆音字；生成第一候选字与所述正确字相同，第二候选字与所述下一候选列中的候选字发音相近的混淆音词。
[0030]由以上方案可知，本发明的优点在于:
[0031]本发明不同于已有的融合用户反馈的语音识别系统只能被动地接收用户修正，本发明提供的融合用户反馈的汉语语音识别方法及系统，可以利用用户反馈的信息动态调整候选列表，使得每当用户反馈后，都能自动提高后续候选列表的准确率，从而可以减少用户的修正操作，从而节省人力。
【附图说明】
[0032]图1为融合用户反馈的汉语语音识别方法的流程和步骤图；
[0033]图2为词网格示例图；
[0034]图3为候选列表不例图；
[0035]图4为显示候选列表和获取用户反馈的界面图；
[0036]图5为基于用户反馈的候选列表动态调整示例图；
[0037]图6为基于词网格增减和重估的候选列表调整方法的流程和步骤图；
[0038]图7为精简词网格不例图；
[0039]图8为词网格连接示例图。
【具体实施方式】
[0040]本发明的目的是解决上述现有的融入用户反馈的语音识别系统只能被动接收用户修正，需要耗费大量的人力才能得到正确语音识别结果，无法利用用户反馈提高候选列表的准确率的问题。本发明提供了一种融合用户反馈的汉语语音识别方法和系统。该方法和系统将语音识别结果表示为以汉字为单位的候选列表显示在屏幕上，然后接收用户以候选选择和输入方式进行的修正反馈操作，每次反馈后，自动调整候选列表，以提高用户尚未反馈的候选列表的正确率。
[0041]如图1所示，以下为本发明的流程和步骤:
[0042]步骤I，采用自动语音识别模块，对输入语音进行自动识别。对于每一句语音，保存其中间识别结果N-best词网格，并将词网格转换为以汉字为单位的候选列表，显示在屏幕上。词网格(word lattice)是语音识别领域常用的数据结构，也称为词图，本质上是一个有向无环图，词网格中的每个结点对应一个词，每条弧为从一个结点指向另一个结点的有向连接。如果词网格中存在从结点NI到结点N2的弧，则称NI为N2的前驱结点，N2为NI的后继结点，语音识别本质上是在词网格上寻找一条概率最高的路径的过程，N-best词网格为概率最高的前N条识别结果对应的结点和弧构成的词网格；所述候选列表包含若干列，每列中的字为具有竞争关系的候选字，所有列的第一个字组成的句子为语音识别系统的默认识别结果。汉字候选列表的生成可采用当前已有方法，如采用专利ZL201010269306.9( —种交互式语音识别系统和方法)中的“候选生成与错误修正模块”从词网格生成候选列表；
[0043]步骤2，对于当前显示的汉字候选列表，采用用户反馈获取界面获取用户反馈，所述用户反馈获取界面可支持的反馈方式包括:
[0044]候选

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王向东;杨阳;钱跃良;刘宏;
技术所有人：中国科学院计算技术研究所;
我是此专利的发明人

上一篇：基于嵌入式gpu系统的并行化语音识别系统及方法
上一篇：智能语音服务开发云平台及方法