一种融合非确定性反馈的语音识别错误修正方法及系统的制作方法

文档序号：9454213阅读：242来源：国知局

一种融合非确定性反馈的语音识别错误修正方法及系统的制作方法
【技术领域】
[0001]本发明涉及语音识别技术领域，特别涉及语音识别中融合用户反馈结果提高语音输入效率的领域。
【背景技术】
[0002]近年来，计算机自动语音识别技术取得了长足的进展，涌现出了一批代表性的应用。但是，由于当前语音识别技术自身的限制，识别错误仍然不可避免，而很多情况下少数几个错字就能改变整个句子的语义，因而大大影响了用户的体验和对语音识别技术的热
*卜主1同O
[0003]为解决当前语音识别技术与实际应用需求之间的矛盾，一些研究者将语音识别和人机交互技术相结合，提出了融合用户反馈的语音识别错误修正方法，其主要特点是提供便捷的交互界面辅助用户对识别结果进行反馈和修正，以较高的效率得到高准确率的识别结果。候选选择方法作为其中常见的一种修正方法，对待识别的每句语音，不仅显示语音识别结果，而且同时为识别结果中的每个字提供多个候选。当第一候选(即语音识别结果)识别错误时，用户可通过选择其它候选字来纠正该错误，例如以点击或触摸的形式完成。
[0004]然而，由于系统性能的限制，候选选择方法并不能修正所有识别错误，实际应用中经常出现正确的字不在候选列表中的情况。此时，需要用户反馈正确的字来修正错误。反馈的方式主要有键盘输入、手写输入以及语音重新输入等。对于汉语来说，用户的这种反馈在很多情况下是非确定性的，即反馈的结果并非对应唯一的字，而是可能对应多个字。非确定性反馈又分成两种情况:第一种是反馈本质上就是非确定性的，例如用键盘输入拼音，该拼音可能对应多个汉字(或简称为字)，需要经过用户进一步的确认才能对应到唯一的反馈结果；另一种是反馈主观上是确定性的，但由于当前技术的限制而变成非确定性的，例如手写输入某个字(因为对于用户手写输入的字，当前的手写识别程序未必能直接给出正确的结果，有可能会给出几个可能的结果)和语音重新输入某个字。对于上述第一种情况，需要人工从可能大量的对应汉字中进行确认和选择，例如在拼音输入法中选择正确的字，效率较低。对于上述第二种情况的用户反馈，现有方法中有些只采用手写识别或语音识别结果的唯一结果，即可能性最大的结果，而这种处理有可能因为识别结果不正确而导致错误无法修正；有些方法则提供多个可能的结果由用户从中进行确认和选择，效率较低。
[0005]综上，对于非确定性反馈，现有方法或者仍然需要额外低效的人工确认，或者可能导致错误无法修正。

【发明内容】

[0006]为解决上述现有技术中存在的问题。根据本发明的一个实施例，提供一种融合非确定性反馈的语音识别错误修正方法，包括:
[0007]步骤I)、接收用户的非确定性反馈，获得所述非确定性反馈对应的所有字；
[0008]步骤2)、计算所述非确定性反馈对应的所有字在用户已确认文字的约束下出现的概率；
[0009]步骤3)、根据计算的概率，将所述非确定性反馈对应的所有字的全部或部分按顺序显示给用户。
[0010]上述方法中，在步骤I)之前还包括:
[0011]步骤O)、接收用户的确定性反馈，从而得到在非确定性反馈对应的字之前的用户已确认文字。
[0012]上述方法中，步骤I)包括:
[0013]对于用户反馈的拼音，通过查询拼音字典获得所述非确定性反馈对应的所有字；
[0014]对于用户的语音反馈，通过语音识别获得所述非确定性反馈对应的所有字；
[0015]对于用户通过手写反馈的字，通过手写识别获得所述非确定性反馈对应的所有字。
[0016]上述方法中，步骤2)包括:将所述非确定性反馈对应的所有字中的每个字作为词，基于η元语法模型，计算该词在该词之前的用户已确认文字之后出现的第一概率P"可包括以下步骤:
[0017]步骤21)、对所述非确定性反馈对应的字之前的用户已确认文字进行分词，得到词序列〈S〉, W1, W2,...,Wk，其中，〈S〉表示句子的开始，W1, W2,...，W1^示分词后得到的每个词；
[0018]步骤22)、基于三元语法模型，对所述非确定性反馈对应的所有字中的每个字Cl，通过下式计算该字(^对应的第一概率P 1:
[0019]P1= P(c i Iwk !, wk) P (wk wk 2, wk i)...P (w21 <s>, W1) P (W1 <s>) 0
[0020]上述方法中，步骤2)还包括:
[0021]对于在所述非确定性反馈对应的所有字中，能够与其前面的用户已确认文字组成词的字，基于η元语法模型，计算该词在该词之前的用户已确认文字之后出现的第二概率P3;如果第二概率大于第一概率，则将第二概率作为对应的字的概率。包括以下步骤:
[0022]步骤23)、在所述非确定性反馈对应的所有字中，对于能够与词序列Wk j, wk j+1,...，wjfi成新词w的字c i，其中O < j〈k，基于三元语法模型，通过下式计算该字(^对应的第二概率P3:
[0023]P2= P (w I w k j 2, wk j i)...P (w2 <s>, W1) P (W11 <s>)
[0024]P3= aP 2
[0025]其中，a大于等于I;
[0026]步骤24)、对于计算了第一概率P1和第二概率P 3的字c i，取PjP P 3中的较大值作为字C1的概率。
[0027]上述方法中，在计算字(^对应的第二概率P 3时，如果字c i与其前面的一个词w ,组成新词W，则a = 2 ;如果字Ci与其前面的两个词w k:和w k共同组成新词W，则a = 5 ;如果字(^与其前面的三个或更多的词共同组成新词W，则a = 10 ;其中，对于aP 2>1的情况，令P3=I。
[0028]上述方法中，步骤3)包括:
[0029]将所述非确定性反馈对应的所有t个字按概率从大到小进行排序；取前P个字，其中P ( t，并且按概率从大到小的顺序显示给用户。
[0030]上述方法中，在步骤O)之前还包括:
[0031]以候选列表的形式向用户显示待确认的语音识别结果，其中，所述候选列表融合了用户反馈界面。
[0032]上述方法中，所述非确定性反馈可包括拼音输入、语音输入和手写文字输入。
[0033]根据本发明的一个实施例，还提供一种融合非确定性反馈的语音识别错误修正系统，包括:
[0034]用于接收用户的非确定性反馈，获得所述非确定性反馈对应的所有字的装置；
[0035]用于计算所述非确定性反馈对应的所有字在用户已确认文字的约束下出现的概率的装置；
[0036]用于根据计算的概率将所述非确定性反馈对应的所有字的全部或部分按顺序显示给用户的装置。
[0037]本发明具备如下的有益效果:
[0038]1.利用已确认正确的文字作为上下文约束，调整非确定性反馈对应的候选列(其中提高了正确的字出现的位置)，从而解决了现有技术中错误可能无法修正的问题并提高了修正的准确率，相应减

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王向东;蔡佳;钱跃良;刘宏;
技术所有人：中国科学院计算技术研究所;
我是此专利的发明人

上一篇：非特定人外语语音遥控汽车驾驶的控制器装置的制造方法
上一篇：基于用户意图猜测的车载语音控制系统及方法