语音识别处理方法和装置的制造方法

文档序号：9766612阅读：575来源：国知局

语音识别处理方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音识别技术领域，尤其涉及一种语音识别处理方法和装置。
【背景技术】
[0002]在人机语音交互中，语音识别系统需要处理多种多样的语音请求，而语音识别系统的目标就是反馈给用户最合理舒适的反馈结果。然而由于语音信号和外界环境的多样性，语音识别系统的反馈方式也需要因时而定。
[0003]目前，语音识别系统在接收到用户的语音请求后，通常会对该语音请求进行相应的语音和语义的识别，当识别用户意图后，根据语音请求进行相应的操作。然而，目前存在的问题是，如果语音识别系统并没有根据用户的语音请求识别出用户意图，需要用户进行操作后重新输入语音请求，导致用户使用语音识别系统时操作繁琐，语音识别的准确率低，语音交互过程不够平滑，用户的使用体验并不好。

【发明内容】

[0004]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
[0005]为此，本发明的第一个目的在于提出一种语音识别处理方法，该语音识别处理方法可以提高语音识别的准确率，提高用户和语音识别系统进行语音交互时的平滑度，提升了用户的使用体验。
[0006]本发明的第二个目的在于提出一种语音识别处理装置。
[0007]为达上述目的，本发明第一方面实施例提出了一种语音识别处理方法，包括以下步骤:接收语音信号;提取所述语音信号中的多个特征信息;根据所述语音信号中的多个特征信息计算反馈函数;以及根据所述反馈函数建立语音识别的决策模型。
[0008]本发明实施例的语音识别处理方法，针对接收到的语音信号，提取语音信号的识别结果、语音分析结果、对话状态等信息构造拒识规则，使用数据驱动的方法进行决策模型的训练，使得语音识别系统在进行语音识别时，可以根据决策模型处理后的反馈期望进行相应的反馈交互，对于经过决策模型处理后认定的有效输入，均给予明确的反馈，而不是理解为噪音，从而可以提高语音识别的准确率，提高用户和语音识别系统进行语音交互时的平滑度，提升了用户的使用体验。
[0009]为达上述目的，本发明第二方面实施例提出了一种语音识别处理装置，包括:接收模块，用于接收语音信号;提取模块，用于提取所述语音信号中的多个特征信息;计算模块，用于根据所述语音信号中的多个特征信息计算反馈函数；以及建立模块，用于根据所述反馈函数建立语音识别的决策模型。
[0010]本发明实施例的语音识别处理装置，针对接收到的语音信号，提取语音信号的识别结果、语音分析结果、对话状态等信息构造拒识规则，使用数据驱动的方法进行决策模型的训练，使得语音识别系统在进行语音识别时，可以根据决策模型处理后的反馈期望进行相应的反馈交互，对于经过决策模型处理后认定的有效输入，均给予明确的反馈，而不是理解为噪音，从而可以提高语音识别的准确率，提高用户和语音识别系统进行语音交互时的平滑度，提升了用户的使用体验。
[0011]本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
【附图说明】
[0012]本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中:
[0013]图1是本发明一个实施例的语音识别处理方法的流程图；
[0014]图2是本发明另一个实施例的语音识别处理方法的流程图；
[0015]图3是本发明一个实施例的语音识别处理装置的结构示意图；以及
[0016]图4是本发明另一个实施例的语音识别处理装置的结构示意图。
【具体实施方式】
[0017]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
[0018]此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。
[0019]流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。
[0020]下面参考附图描述根据本发明实施例的语音识别处理方法和装置。
[0021]图1是本发明一个实施例的语音识别处理方法的流程图。
[0022]如图1所示，语音识别处理方法包括:
[0023]SlOl，接收语音信号。
[0024]具体地，接收用户输入的语音信号，其中，用户可以通过麦克风等设备发送语音信号。
[0025]S102，提取语音信号中的多个特征信息。
[0026]其中，多个特征信息包括拒识标识、语义解析结果、语义解析置信度和语言模型置信度。
[0027]具体地，先将用户输入的语音信号分割成多个短语音，并去除这些短语音中的静音，再将多个短语音分别输入至语音识别引擎。语音识别引擎根据语音交互对话的上下文动态选择语言模型对短语音进行处理，得到对应的识别结果或者拒识标识，进而，识别结果会输入至语义分析器进行上下文相关的语义解析，获得对应的语义解析结果。同时，在对语音信号处理完成后，还获取语音解析时的语音解析置信度和语言模型置信度等特征信息。
[0028]S103，根据语音信号中的多个特征信息计算反馈函数。
[0029]在本发明的一个实施例中，根据以下公式计算反馈函数:
[0030]R — _(Wini+Wene+Wfnf+Wrejnrej+Wsinsem+Ws2f sem+Wlmf lm)，其中，反 1?? 函数，Hi 表对话轮次，Iie3表示错误数，nf表示已知的槽位数量，nre3j表示拒识标识，nS(3m表示语义解析结果，fse*表示语义解析置信度，fV表示语言模型置信度，w表示参数。
[0031]具体地，结合所有可以利用的特征信息计算反馈函数，也就是说，在语音识别系统对用户输入的语音信号进行识别的过程中进行用户反馈标注，对于用户的交互输入进行判断，例如，交互对话完成程度，用户是否提供配合的表达信息进行标注等。
[0032]在语音识别系统对用户输入的语音信号进行识别的过程中，为了能够准确抓住用户给予的反馈信息，其中反馈信息包括积极反馈和消极反馈，因此需要设计合理的反馈函数，例如上述所示的反馈函数的计算公式。其中，表示错误数，是语音识别系统中默认的。
为拒识标识，可以是I或者-1，η%为I代表语音信号被正常识别，而为-1代表语音信号被拒识。η.为语义解析结果，η.可以是1、-1或者-2，η.为I代表对语音信号进行语义解析后得到符合上下文的正确解析，nsemS-l代表对语音信号进行语义解析后得到正确解析但不符合上下文，而nse?为-2代表对语音信号进行语义解析的解析失败。由此，根据拒识标识n%、语义解析结果nse?、语义解析置信度和语言模型置信度flm等参数参照上述公式可以计算出反馈函数，根据反馈函数R可以判断出用户的反馈是积极反馈或者是消极反馈。
[0033]S104，根据反馈函数建立语音识别的决策模型。
[0034]在本发明的一个实施例中，根据以下公式建立语音识别的决策模型:
[0035]Q(s ,a) =R(s ,a)+r Zs7PCs7 | s,a)maxd/ Q(s/，a,)，
[0036]其中，Q表示反馈期望，表示系统状态节点，a和a'表示决策动作，P表示状态间决策动作上的跳转概率。
[0037]具体地，根据用户提供的反馈计算出反馈函数后，对用户的积极反馈进行加分，对用户的消极反馈进行减分，进而，使用马尔可夫决策算法，即根据上述的公式建立决策模型。针对目标函数，可以使用标准的价值迭代(vaIue iterat1n)算法进行参数求解，经过训练可以得到反馈函数的参数和状态的跳转概率。
[0038]本发明实施例的语音

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴世伟;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：自动语音的通信方法及装置的制造方法
上一篇：音频控制装置、耳机以及便携式设备的制造方法