用于语音识别的方法、语音识别装置和电子设备的制作方法

文档序号：2827216研发日期：2014年阅读：269来源：国知局

技术简介：
本专利针对语音识别中因命令词差异及网络状况导致的置信度阈值设置不合理问题，提出动态调整阈值的解决方案。通过预设多组阈值（如针对不同命令词及网络状态），结合识别内容与网络状态智能选择阈值，提升识别准确性。当本地识别失败时，自动切换至云端设备二次识别，并在超时后降低阈值保障基础识别能力，形成多级容错机制。
关键词：置信度阈值动态调整,多设备协同识别,语音识别准确性提升

用于语音识别的方法、语音识别装置和电子设备的制作方法
【专利摘要】提供了一种用于语音识别的方法、语音识别装置和电子设备，所述方法包括：接收一语音输入，并获得与该语音输入对应的音频信号；利用所述第一语音识别装置对所述音频信号进行识别处理而得到一识别结果，该识别结果包括识别内容和置信度，该置信度用于确定该识别内容的可靠程度；预先设置至少两个置信度阈值，各个置信度阈值彼此不同；从所述至少两个置信度阈值中选择一置信度阈值；基于所述识别结果中的置信度和所述选择的置信度阈值来判断所述识别内容是否准确。在根据本发明实施例的技术方案中，能够在不同的情况下采用不同的置信度阈值以兼顾语音识别的识别率和稳健性，从而提高了用户的使用体验。
【专利说明】用于语音识别的方法、语音识别装置和电子设备
【技术领域】
[0001]本发明涉及信息【技术领域】，更具体地，涉及一种用于语音识别的方法、语音识别装置和电子设备。
【背景技术】
[0002]语音识别技术是通过识别和理解而将语音转变为相应的文本或命令的技术。在语音识别技术中，通过对语音进行特征提取、模式匹配、模型训练等处理，而获得电子设备能够响应的指令、在电子设备中记录的文本等，从而用户能够利用语言来与电子设备进行交互。
[0003]在真实的语音环境中通常存在噪音，而且真实的口语中会参杂停顿、咳嗽声等干扰音，这都影响现有的语音识别系统的识别准确度。另外，如果用户说的词汇不在语音识别系统预先设定的领域范围内，也较容易造成识别错误。因此，对于商业化的语音识别系统，期望拒绝错误的语音。相应地，置信度评价被用于确保所识别的内容的准确性，并拒绝被错误识别的语音。
[0004]置信度评价可以对语音识别装置的识别结果进行假设检验，通过事先设定的置信度阈值对识别结果的可靠性进行评价，定位结果中的错误，从而提高识别系统的识别率和稳健性。因此，合理地设置置信度阈值是非常关键的，这已经成为当前的技术难题。

【发明内容】

[0005]本发明实施例提供了一种用于语音识别的方法、语音识别装置和电子设备，其使得能够在不同的情况下采用不同的置信度阈值以兼顾语音识别的识别率和稳健性，从而提高了用户的使用体验。
[0006]第一方面，提供了一种用于语音识别的方法，应用于一包括第一语音识别装置的电子设备，所述方法可包括:接收一语音输入，并获得与该语音输入对应的音频信号；利用所述第一语音识别装置对所述音频信号进行识别处理而得到一识别结果，该识别结果包括识别内容和置信度，该置信度用于确定该识别内容的可靠程度；预先设置至少两个置信度阈值，各个置信度阈值彼此不同；从所述至少两个置信度阈值中选择一置信度阈值；基于所述识别结果中的置信度和所述选择的置信度阈值来判断所述识别内容是否准确。
[0007]在所述用于语音识别的方法中，所述预先设置至少两个置信度阈值可包括:根据所述第一语音识别装置能够识别的识别内容和其网络状况中的至少一个来预先设置至少两个置信度阈值。
[0008]在所述用于语音识别的方法中，所述第一语音识别装置能够识别的内容可包括多个命令词，所述根据所述第一语音识别装置能够识别的识别内容和其网络状况中的至少一个来预先设置至少两个置信度阈值可包括:针对所述多个命令词中的第一命令词设置第一置信度阈值；针对所述多个命令词中的第二命令词设置第二置信度阈值，该第二命令词不同于所述第一命令词。[0009]在所述用于语音识别的方法中，根据所述第一语音识别装置能够识别的识别内容和其网络状况中的至少一个来预先设置至少两个置信度阈值可包括:针对所述第一语音识别装置具有网络连接的情况而设置第三置信度阈值；针对所述第一语音识别装置不具有网络连接的情况而设置第四置信度阈值。
[0010]在所述用于语音识别的方法中，所述从所述至少两个置信度阈值中选择一置信度阈值可包括:确定所述识别结果中的识别内容是否对应于所述第二命令词；当所述识别内容对应于所述第二命令词时，选择第二置信度阈值；当所述识别内容不对应于所述第二命令词时，确定所述第一语音识别装置是否具有网络连接；当所述第一语音识别装置具有网络连接时，选择第三置信度阈值；当所述第一语音识别装置不具有网络连接时，选择第四置信度阈值。
[0011]在所述用于语音识别的方法中，所述基于所述识别结果中的置信度和所述选择的置信度阈值来判断所述识别内容是否准确可包括:将所述识别结果中的置信度与所选择的第二置信度阈值或所选择的第三置信度阈值相比较，而得到一比较结果；根据所述比较结果判断所述识别内容是否准确。
[0012]在所述用于语音识别的方法中，还可包括:当判断所述识别内容不准确时，将所述音频信号传送到与所述电子设备网络连接的第二语音识别装置，该第二语音识别装置能够对所述音频信号进行识别处理而获得第二识别内容；从所述第二语音识别装置接收所述第二识别内容，并将该第二识别内容作为最终的识别内容。
[0013]在所述用于语音识别的方法中，还可包括:将所述音频信号传送到与所述电子设备网络连接的第二语音识别装置，该第二语音识别装置能够对所述音频信号进行识别处理而获得第二识别内容；当在所述判断操作中判断所述识别内容不准确时，在一预设时间段中从所述第二语音识别装置接收所述第二识别内容。
[0014]在所述用于语音识别的方法中，还可包括:当在所述预设时间段中未接收到所述第二识别内容时，获得小于所选择的置信度阈值的一低置信度阈值；和基于该低置信度阈值判断所述识别内容是否准确。
[0015]第二方面，提供了一种语音识别装置，应用于一电子设备，该语音识别装置可包括:音频输入单元，用于接收一语音输入，并获得与该语音输入对应的音频信号；识别单元，用于对所述音频信号进行识别处理而得到一识别结果，该识别结果包括识别内容和置信度，该置信度用于确定该识别内容的可靠程度；阈值设置单元，用于预先设置至少两个置信度阈值，各个置信度阈值彼此不同；阈值获取单元，用于从所述至少两个置信度阈值中选择一置信度阈值；判断单元，用于基于所述识别结果中的置信度和所述选择的置信度阈值来判断所述识别内容是否准确。
[0016]在所述语音识别装置中，所述阈值设置单元可根据所述识别单元能够识别的识别内容和其网络状况中的至少一个来预先设置至少两个置信度阈值。
[0017]在所述语音识别装置中，所述语音识别装置能够识别的内容可包括多个命令词，所述阈值设置单元可如下地预先设置至少两个置信度阈值:针对所述多个命令词中的第一命令词设置第一置信度阈值；针对所述多个命令词中的第二命令词设置第二置信度阈值，该第二命令词不同于所述第一命令词。
[0018]在所述语音识别装置中，所述阈值设置单元可如下地预先设置至少两个置信度阈值:针对所述语音识别装置具有网络连接的情况而设置第三置信度阈值；针对所述语音识别装置不具有网络连接的情况而设置第四置信度阈值。
[0019]在所述语音识别装置中，所述阈值获取单元可包括:确定部件，用于确定所述识别结果中的识别内容是否对应于所述第二命令词，并且在所述识别内容不对应于所述第二命令词时，确定所述第一语音识别装置是否具有网络连接；选择部件，用于在所述确定部件确定所述识别内容对应于所述第二命令词时，选择第二置信度阈值，在所述确定部件确定所述语音识别装置具有网络连接时，选择第三置信度阈值，在所述确定部件确定所述语音识别装置不具有网络连接时，选择第四置信度阈值。
[0020]在所述语音识别装置中，所述判断单元可如下地判断所述识别内容是否准确:将所述识别结果中的置信度与所选择的第二置信度阈值或所选择的第三置信度阈值相比较，而得到一比较结果；根据所述比较结果判断所述识别内容是否准确。
[0021]在所述语音识别装置中，还可包括:发送单元，用于当所述判断单元判断所述识别内容不准确时，将所述音频信号传送到与所述语音识别装置网络连接的另一语音识别装置，该另一语音识别装置能够对所述音频信号进行识别处理而获得第二识别内容；接收单元，用于从所述另一语音识别装置接收所述第二识别内容，并将该第二识别内容作为最终的识别内容。
[0022]在所述语音识别装置中，还可包括:发送单元，用于将所述音频信号传送到与所述电子设备网络连接的另一语音识别装置，该另一语音识别装置能够对所述音频信号进行识别处理而获得第二识别内容；接收单元，用于在所述判断操作中判断所述识别内容不准确时，在一预设时间段中从所述另一语音识别装置接收所述第二识别内容，以将该第二识别内容作为最终的识别内容。
[0023]在所述语音识别装置中，如果所述接收单元在所述预设时间段中未接收到所述第二识别内容，所述阈值获取单元可获得小于所选择的置信度阈值的一低置信度阈值，所述判断单元基于该低置信度阈值来判断所述识别内容是否准确。
[0024]第三方面，提供了一种电子设备，包括如上所述的语音识别装置。
[0025]在根据本发明实施例的上述用于语音识别的方法、语音识别装置和电子设备的技术方案中，通过预先设置多个置信度阈值并从中选择置信度阈值来判断识别内容的准确性，使能够可变地采用置信度阈值来判断识别内容以兼顾语音识别的识别率和稳健性，从而提高了用户的使用体验。
【专利附图】

【附图说明】
[0026]为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。
[0027]图1是图示了根据本发明实施例的进行语音识别的装置的架构图；
[0028]图2是示意性图示了根据本发明实施例的用于语音识别的方法的流程图；
[0029]图3是示意性图示了根据本发明实施例的所述用于语音识别的方法中的置信度阈值设置的流程图；[0030]图4是示意性图示了根据本发明实施例的所述用于语音识别的方法中的选择置信度阈值的流程图；
[0031]图5是示意性图示了根据本发明另一实施例的用于语音识别的方法的流程图；
[0032]图6是示意性图示了根据本发明实施例的语音识别装置的框图；
[0033]图7是示意性图示了根据本发明另一实施例的语音识别装置的框图。
【具体实施方式】
[0034]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。
[0035]图1是图示了进行语音识别的各个装置的通信的架构图。
[0036]如图1所示，第一语音识别装置10从用户接收语音，然后对所接收的语音进行识另IJ，如果能够成功地对所接收的语音进行识别，则得到相应的识别内容；如果未能成功地对所接收的语音进行识别，则无法得到识别内容。该第一语音识别装置10可以是单独的语音识别装置，也可以被集成在诸如移动电话机、笔记本计算机、平板计算机等电子设备中。
[0037]利用当前的网络互连技术，所述第一语音识别装置10还可能例如经由网络与第二语音识别装置20连接，该第二语音识别装置20通常可利用强大的网络资源而实现更为准确的语音识别，所以可能与所述第一语音识别装置10共享语音识别结果。该第二语音识别装置20可以是单独的语音识别装置，也可以被集成在其他电子设备，例如，被集成在网络服务器、笔记本计算机等电子设备中。第一语音识别装置10可以将所述接收的语音传送给第二语音识别装置20，并且从第二语音识别装置20接收所识别的内容。
[0038]图1所示的各个语音识别装置仅仅是示意性的。第一语音识别装置10和第二语音识别装置20处于对等的地位。例如，第二语音识别装置20可以接收语音，将所述接收的语音传送给第一语音识别装置10，并且从第一语音识别装置10接收所识别的内容。
[0039]在根据本发明的各个实施例中，将描述在单个语音识别装置中(例如第一语音识别装置10中)进行语音识别的方案，以及不同的语音识别装置共享语音识别结果，以兼顾语音识别的识别率和稳健性，从而提高了用户的使用体验。
[0040]图2是示意性图示了根据本发明实施例的用于语音识别的方法200的流程图。该用于语音识别的方法200可应用于如图1所示的语音识别装置、或者包括所述语音识别装置的电子设备中。
[0041]如图2所示，该用于语音识别的方法200可包括:接收一语音输入，并获得与该语音输入对应的音频信号(S210);利用所述第一语音识别装置对所述音频信号进行识别处理而得到一识别结果，该识别结果包括识别内容和置信度，该置信度用于确定该识别内容的可靠程度(S220);预先设置至少两个置信度阈值，各个置信度阈值彼此不同(S230);从所述至少两个置信度阈值中选择一置信度阈值(S240);基于所述识别结果中的置信度和所述选择的置信度阈值来判断所述识别内容是否准确(S250 )。
[0042]在S210中，可利用例如麦克风、录音器等的录音器件接收语音输入，所述录音器件将所接收语音转换成电子信号，即与所述语音输入对应的音频信号，从而进行识别。所接收的语音可以是以各种语言(例如汉语、英语、德语等)发出的声音，也可以是混合语言表达的声音，例如在汉语中混合有英文词语。所接收的语音的发出方式、以及接收语音的具体方式不构成对本发明的限制。
[0043]在S220中，所述第一语音识别装置可以采用现有的将来出现的任何语音识别技术来对所述音频信号进行识别处理而得到一识别结果，所述识别结果包括识别内容和置信度，该置信度用于确定该识别内容的可靠程度。以模式匹配方式的语音识别为例，在训练阶段，用户将词汇表中的每一词依次说一遍，并且将其特征矢量作为模板存入模板库；然后，在识别阶段，从原始语音(即上述音频信号)中提取特征矢量，并将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度(即置信度)最高者作为识别结果输出。
[0044]实际上，难以准确地进行语音，这是因为以下原因，例如，语音模式不仅对不同的说话人不同，甚至对同一说话人也是不同的，譬如一个说话人在随意说话和认真说话时的语音信息是不同的；语音本身具有模糊性、并且受上下文的影响会改变了重音、音调、音量和发音速度等；环境噪声和干扰对语音识别有严重影响。因此，对于同一语音输入，在不同环境、或背景下的识别结果中的置信度也变化很大。
[0045]在设置单个置信度阈值来判断识别内容是否准确的情况，如果该置信度阈值设置的高则可能导致不能获得识别内容(识别失败)的概率太大，如果该置信度阈值设置的低则可能导致识别结果中的较多识别内容不准确。例如，如果语音输入是混合语言表达的声音，例如在汉语中混合有英文词语的“打开filefox”，则识别结果中的置信度通常较低，此时如果利用通常的置信度阈值则可能导致识别失败。
[0046]在S230中，预先设置至少两个置信度阈值,各个置信度阈值彼此不同。相对于仅设置一个置信度阈值来判断识别内容是否准确，本发明的实施例预先设置至少两个置信度阈值，并且此后根据不同的情况选取不同的置信度阈值进行判断。作为示例，可以根据所述第一语音识别装置能够识别的识别内容和其网络状况中的至少一个来预先设置至少两个置信度阈值。
[0047]图3是示意性图示了根据本发明实施例的所述用于语音识别的方法中的置信度阈值设置230的流程图。如图3所示，在所述第一语音识别装置能够识别的内容包括多个命令词的情况下，可以针对所述多个命令词中的第一命令词设置第一置信度阈值(S231)；针对所述多个命令词中的第二命令词设置第二置信度阈值，该第二命令词不同于所述第一命令词(S232);针对所述第一语音识别装置具有网络连接的情况而设置第三置信度阈值(S233);针对所述第一语音识别装置不具有网络连接的情况而设置第四置信度阈值(S234)。
[0048]在S231和S232中，针对不同的命令词来设置不同的置信度阈值。例如，如果第一语音识别装置识别汉语语音的准确率高，则可以针对汉语的命令词设置较高的置信度阈值；如果第一语音识别装置识别英语语音的准确率低，则可以针对英语的命令词设置较低的置信度阈值。此外，在S230中，还可以针对第三命令词设置其它置信度阈值，基于命令词设置的置信度阈值的个数不构成对本发明实施例的限制。所述第一命令词可以是一个特定的命令词，也可以是包括多个命令词的一类命令词，例如是多个汉语命令词。所述第二命令词可以是一个特定的命令词，也可以是包括多个命令词的一类命令词，例如可以针对难以理解的命令词“FileFox”而设置一个专用的置信度阈值。[0049]在S233和S234中，针对所述第一语音识别装置是否具有网络连接来设置不同的置信度阈值，所述第三置信度阈值可高于所述第四置信度阈值。当第一语音识别装置具有网络连接时，如果第一语音识别装置利用第三置信度阈值而识别失败，则可以请求网络连接的第二语音识别装置对语音输入进行语音识别，并将第二语音识别装置所获取的识别内容作为最终的识别内容，从而可以在保证较高识别准确度的情况下具有较高识别率。然而，如果第一语音识别装置不具有网络连接，则适当地降低置信度阈值，从而保证对用户而言更重要的识别率。
[0050]可以根据需要来采取合适的置信度阈值设置步骤，例如，可以仅仅采用上述的S231和S232，或者仅仅采用上述的S233和S234。也可以在其它场景下采取其它的置信度阈值设置步骤。此外，尽管在图1中将S230图示为在所述S220之后，但是可以在S210之前(即预先)执行该S230而设置各个置信度阈值。
[0051]在S240中，可以根据第一语音识别装置的当前场景来从所述至少两个置信度阈值中选择一置信度阈值，例如可以根据与语音输入对应的识别内容和第一语音识别装置的网络连接状况来选择置信度阈值。在实践中可以根据需要来调整选择的依据。
[0052]图4是示意性图示了根据本发明实施例的所述用于语音识别的方法中的选择置信度阈值的流程图。下面结合图4进行示例性描述。
[0053]如图4所示，在S220中得到识别结果之后，确定所述识别结果中的识别内容是否对应于所述第二命令词(S241);当所述识别内容对应于所述第二命令词时(S241中的是)，选择第二置信度阈值(S242);当所述识别内容不对应于所述第二命令词时(S241中的否)，确定所述第一语音识别装置是否具有网络连接(S243);当所述第一语音识别装置具有网络连接时(S243中的是)，选择第三置信度阈值；当所述第一语音识别装置不具有网络连接时(S243中的否)，选择第四置信度阈值。
[0054]在图4的示例中，结合两个不同的因素(即识别内容和网络连接)来选择置信度阈值。在实践中，可以仅根据识别内容来选择置信度阈值，则当所述识别内容不对应于所述第二命令词时，可以选择一默认的置信度阈值，或者还可以确定所述识别内容是否对应于所述第一命令词，当所述识别内容对应于所述第三命令词时，选择其它的置信度阈值。总之，要考虑当前的语音识别场景和各个置信度阈值的设置基础二者来选择置信度阈值。
[0055]在S250中，基于所述识别结果中的置信度和所述选择的置信度阈值来判断所述识别内容是否准确。作为示例，可以将所述识别结果中的置信度与所选择的第二置信度阈值或所选择的第三置信度阈值相比较，而得到一比较结果；根据所述比较结果判断所述识别内容是否准确。例如，当所述识别结果中的置信度大于等于所选择的置信度阈值时，判断识别结果中的识别内容准确，从而将识别结果中的识别内容作为最终的识别内容；当所述识别结果中的置信度小于所选择的置信度阈值时，判断识别结果中的识别内容不准确，从而识别失败。
[0056]在根据本发明实施例的上述用于语音识别的方法的技术方案中，通过预先设置多个置信度阈值并从中选择置信度阈值来判断识别内容的准确性，使能够可变地采用置信度阈值来判断识别内容，以兼顾语音识别的识别率和稳健性，从而提高了用户的使用体验。
[0057]在上述的用于语音识别的方法中，利用第一语音识别装置来进行语音识别。如结合图1所描述的，第一语音识别装置还可以与网络连接的第二语音识别装置共享语音识别结果，下面将结合图5进行描述。
[0058]图5是示意性图示了根据本发明另一实施例的用于语音识别的方法500的流程图。该用于语音识别的方法500也包括上面描述的用于语音识别的方法200中的步骤S210 - S250，与用于语音识别的方法200不同的是，在S250中识别失败之后，还包括如下的步骤 S251 — S254。
[0059]当在S250中判断所述识别结果中的识别内容不准确时，将所述音频信号传送到与所述电子设备网络连接的第二语音识别装置(例如，图1中的第二语音识别装置20)，该第二语音识别装置能够对所述音频信号进行识别处理而获得第二识别内容(S251);并等待从所述第二语音识别装置接收所述第二识别内容(S252)，如果从第二语音识别装置接收到所述第二识别内容(S252中的是)，则将该第二识别内容作为最终的识别内容而结束；如果未能从第二语音识别装置接收到所述第二识别内容(S252中的否)，则获得小于所选择的置信度阈值的一低置信度阈值(S253);和基于该低置信度阈值判断所述识别内容是否准确(S254)以结束识别。
[0060]在图5的示例中，当在S250中判断所述识别结果中的识别内容不准确时，将所述音频信号传送到与所述电子设备网络连接的第二语音识别装置(S251)。但并不限于此，还可以在S210中获得音频信号之后，立即将所述音频信号传送到与所述电子设备网络连接的第二语音识别装置(S252)，从而当在所述S250中判断所述识别内容不准确时，能够尽快从所述第二语音识别装置接收所述第二识别内容。
[0061]在S252中等待从所述第二语音识别装置接收所述第二识别内容时，如果网络拥堵、或者中断，则可能导致不能接收到所述第二识别内容，此时如果等待时间过长，则会极大地降低用户的使用体验。因此，可以在S252中设置一等待时间(例如预设时间段)，从而如果在该预设时间段中未接收到所述第二识别内容，就不再等待接收。
[0062]在从第二语音识别装置没有接收到所述第二识别内容(S252中的否)时，为了向用户提供识别内容，可以重新考察在第一语音识别装置中的识别结果，以争取提高识别率。如果用户对识别的准确度要求很高，则无需执行该SS253和S254而直接结束识别。在S253中，可通过将在S240中选择的置信度阈值减去一预定值来获取所述低置信度阈值，还可以对在S230中设置的置信度阈值之中进行重新选择来获取所述低置信度阈值。
[0063]S254中的判断操作与S250类似，基于该低置信度阈值判断所述识别内容是否准确(S254)以结束识别。例如，可以将所述识别结果中的置信度与所述低置信度阈值相比较，当所述识别结果中的置信度大于等于所述低置信度阈值时，判断识别结果中的识别内容准确，从而将识别结果中的识别内容作为最终的识别内容；当所述识别结果中的置信度小于所述低置信度阈值时，判断识别结果中的识别内容不准确，即识别失败。
[0064]因此，在由于网络超时、服务器繁忙等原因无法及时获取利用第二语音识别装置进行的网络识别结果时，通过降低置信度阈值，重新使用第一语音识别装置的本地结果代替服务器忙、网络超时等反馈，从而使得用户可以在网络和服务器条件恶劣的条件下，获得识别结果，提升用户体验。如果在S240中直接选择所述低置信度阈值，会导致在网络条件良好的条件下，采用大量的在本地利用第一语音识别装置进行的不太可靠的识别结果。通过在S240和S253中两次设置置信度阈值而避免了该问题，其只在没有及时获得网络结果时才降低置信度阈值。[0065]因此，在结合图5描述的用于语音识别的方法500的技术方案中，能够进一步灵活地采用置信度阈值来判断识别内容，充分利用各个语音识别装置的优势来兼顾语音识别的识别率和稳健性，从而提高了用户的使用体验。
[0066]图6是示意性图示了根据本发明实施例的语音识别装置600的框图。该语音识别装置600可应用于如图1所示的语音识别装置、或者包括所述语音识别装置的电子设备中。
[0067]该语音识别装置600可包括:音频输入单元610，用于接收一语音输入，并获得与该语音输入对应的音频信号；识别单元620，用于对所述音频信号进行识别处理而得到一识别结果，该识别结果包括识别内容和置信度，该置信度用于确定该识别内容的可靠程度；阈值设置单元630，用于预先设置至少两个置信度阈值，各个置信度阈值彼此不同；阈值获取单元640，用于从所述至少两个置信度阈值中选择一置信度阈值；判断单元650，用于基于所述识别结果中的置信度和所述选择的置信度阈值来判断所述识别内容是否准确。
[0068]所述音频输入单元610例如为麦克风、录音器等的录音器件，其接收语音输入，将所接收语音转换成电子信号，即与所述语音输入对应的音频信号，从而进行识别。所接收的语音可以是以各种语言发出的声音，也可以是混合语言表达的声音。所接收的语音的发出方式、以及接收语音的具体方式不构成对本发明的限制。
[0069]所述识别单元620可以采用现有的将来出现的任何语音识别技术来对所述音频信号进行识别处理而得到一识别结果。以模式匹配方式的语音识别为例，在训练阶段，用户将词汇表中的每一词依次说一遍，并且将其特征矢量作为模板存入模板库；然后，在识别阶段，从语音输入的音频信号中提取特征矢量，并将该特征矢量依次与模板库中的每个模板进行相似度比较，将相似度(即置信度)最高者作为识别结果输出。
[0070]在固定地利用单个置信度阈值来判断识别内容是否准确的情况，如果该置信度阈值设置的高则可能导致不能获得识别内容(识别失败)的概率太大，如果该置信度阈值设置的低则可能导致识别结果中的较多识别内容不准确。
[0071]所述阈值设置单元630预先设置至少两个置信度阈值，以便此后根据不同的情况选取不同的置信度阈值进行判断。作为示例，所述阈值设置单元630可以根据所述识别单元能够识别的识别内容和其网络状况中的至少一个来预先设置至少两个置信度阈值。所述阈值设置单元630可以根据需要来设置合适的置信度阈值，也可以在其它场景下采取其它的置信度阈值设置步骤。
[0072]在所述语音识别装置能够识别的内容包括多个命令词，所述阈值设置单元630可针对不同的命令词来设置不同的置信度阈值，例如，针对所述多个命令词中的第一命令词设置第一置信度阈值；针对所述多个命令词中的第二命令词设置第二置信度阈值，该第二命令词不同于所述第一命令词。此外，所述阈值设置单元630还可以针对第三命令词设置其它置信度阈值。例如，如果所述语音识别装置识别汉语语音的准确率高，则可以针对汉语的命令词设置较高的置信度阈值；如果所述语音识别装置识别英语语音的准确率低，则可以针对英语的命令词设置较低的置信度阈值。所述第一命令词和第二命令词的每个可以是一个特定的命令词，也可以是包括多个命令词的一类命令词。
[0073]所述阈值设置单元630还可以针对所述语音识别装置是否具有网络连接来设置不同的置信度阈值，例如，所述阈值设置单元630可以针对所述语音识别装置具有网络连接的情况而设置第三置信度阈值；针对所述语音识别装置不具有网络连接的情况而设置第四置信度阈值，所述第三置信度阈值可高于所述第四置信度阈值。当语音识别装置具有网络连接时，如果语音识别装置利用第三置信度阈值而识别失败，则可以请求网络连接的另一语音识别装置对语音输入进行语音识别，并将另一语音识别装置所获取的识别内容作为最终的识别内容，从而可以在保证较高识别准确度的情况下具有较高识别率。然而，如果语音识别装置不具有网络连接，则适当地降低置信度阈值，从而保证对用户而言更重要的识别率。
[0074]所述阈值获取单元640可以根据语音识别装置的当前场景来从所述至少两个置信度阈值中选择一置信度阈值，例如可以根据与语音输入对应的识别内容和语音识别装置的网络连接状况来选择置信度阈值。在实践中可以根据需要来调整选择的依据。
[0075]例如，所述阈值获取单元640可包括:确定部件，用于确定所述识别结果中的识别内容是否对应于所述第二命令词，并且在所述识别内容不对应于所述第二命令词时，确定所述第一语音识别装置是否具有网络连接；选择部件，用于在所述确定部件确定所述识别内容对应于所述第二命令词时，选择第二置信度阈值，在所述确定部件确定所述语音识别装置具有网络连接时，选择第三置信度阈值，在所述确定部件确定所述语音识别装置不具有网络连接时，选择第四置信度阈值。
[0076]此外，所述阈值获取单元640可以仅根据识别内容来选择置信度阈值，当确定部件确定所述识别内容不对应于所述第二命令词时，选择部件可以选择一默认的置信度阈值，或者确定部件还可以确定所述识别内容是否对应于所述第一命令词、第三命令词等时，以选择其它的置信度阈值。总之，所述阈值获取单元640要考虑当前的语音识别场景和各个置信度阈值的设置基础二者来选择置信度阈值。
[0077]所述判断单元650基于所述识别结果中的置信度和所述选择的置信度阈值来判断所述识别内容是否准确。作为示例，所述判断单元650可以将所述识别结果中的置信度与所选择的置信度阈值相比较，而得到一比较结果；根据所述比较结果判断所述识别内容是否准确。当所述识别结果中的置信度大于等于所选择的置信度阈值时，所述判断单元650判断识别结果中的识别内容准确，从而将识别结果中的识别内容作为最终的识别内容；当所述识别结果中的置信度小于所选择的置信度阈值时，所述判断单元650判断识别结果中的识别内容不准确，从而识别失败。
[0078]可选地，所述语音识别装置还可包括发送单元660和接收单元670，如图6中的虚线框所示。例如，当所述判断单元650判断所述识别内容不准确时，所述发送单元660可以将所述音频信号传送到与所述语音识别装置网络连接的另一语音识别装置，该另一语音识别装置能够对所述音频信号进行识别处理而获得第二识别内容；所述接收单元670可以从所述另一语音识别装置接收所述第二识别内容，并将该第二识别内容作为最终的识别内容。在图5的示例中，当在S250中判断所述识别结果中的识别内容不准确时，将所述音频信号传送到与所述电子设备网络连接的另一语音识别装置。
[0079]此外，所述发送单元660还可以在所述音频输入单元610获得音频信号之后，立即将所述音频信号传送到与所述电子设备网络连接的另一语音识别装置，从而所述接收单元660能够在判断单元650判断所述识别内容不准确时尽快从所述另一语音识别装置接收所述第二识别内容。
[0080]如果网络拥堵、或者中断，则可能导致所述接收单元670不能接收到所述第二识别内容，此时如果等待时间过长，则会极大地降低用户的使用体验。因此，可以设置一等待时间(例如预设时间段)，从而如果接收单元670在该预设时间段中未接收到所述第二识别内容，所述语音识别装置就不再接收。此时，所述阈值获取单元640可以获得小于所选择的置信度阈值的一低置信度阈值，所述判断单元650基于该低置信度阈值来判断所述识别内容是否准确。
[0081]在接收单元670从另一语音识别装置没有接收到所述第二识别内容时，为了向用户提供识别内容，可以重新考察在语音识别装置中的识别结果，以争取提高识别率。因此，所述阈值获取单元640获得低置信度阈值,该阈值获取单元640可通过将当前选择的置信度阈值减去一预定值来获取所述低置信度阈值，还可以在所设置的各个置信度阈值之中进行重新选择来获取所述低置信度阈值。随后，所述判断单元650基于该低置信度阈值来判断所述识别内容是否准确。
[0082]因此，在由于网络超时、服务器繁忙等原因无法及时获取利用另一语音识别装置进行的网络识别结果时，通过降低置信度阈值，重新使用语音识别装置的本地结果代替服务器忙、网络超时等反馈，从而使得用户可以在网络和服务器条件恶劣的条件下，获得识别结果，提升用户体验。如果所述阈值获取单元640直接选择所述低置信度阈值，会导致在网络条件良好的条件下，采用大量的在本地利用语音识别装置进行的不太可靠的识别结果。通过两次设置置信度阈值而避免了该问题，其只在没有及时获得网络结果时才降低置信度阈值。
[0083]在根据本发明实施例的上述语音识别装置的技术方案中，使能够可变地采用置信度阈值来判断识别内容，并充分利用各个语音识别装置的优势来兼顾语音识别的识别率和稳健性，从而提高了用户的使用体验。
[0084]图7是示意性图示了根据本发明另一实施例的语音识别装置700的框图。该语音识别装置700能够与其它语音识别装置通信耦接，该语音识别装置700包括:存储器710，用于存储程序代码；处理器720，用于执行所述程序代码以实现结合图2 - 5描述的方法。
[0085]存储器710可以包括只读存储器和随机存取存储器中的至少一个，并向处理器720提供指令和数据。存储器710的一部分还可以包括非易失行随机存取存储器(NVRAM)。
[0086]处理器720可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者任何常规的处理器等。
[0087]结合本发明实施例所公开的方法的步骤可以直接体现为由处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器710中，处理器720读取存储器710中的信息，结合其硬件完成上述方法的步骤。
[0088]在上面结合图6 - 7公开了根据本发明实施例的语音识别装置的情况下，所有包括所述语音识别装置的电子设备也都处于本发明实施例的公开范围。
[0089]本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0090]所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0091]在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。
[0092]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0093]所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
[0094]以上所述，仅为本发明的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。
【权利要求】
1.一种用于语音识别的方法，应用于一包括第一语音识别装置的电子设备，所述方法包括:接收一语音输入，并获得与该语音输入对应的音频信号；利用所述第一语音识别装置对所述音频信号进行识别处理而得到一识别结果，该识别结果包括识别内容和置信度，该置信度用于确定该识别内容的可靠程度；预先设置至少两个置信度阈值，各个置信度阈值彼此不同；从所述至少两个置信度阈值中选择一置信度阈值；基于所述识别结果中的置信度和所述选择的置信度阈值来判断所述识别内容是否准确。
2.根据权利要求1的方法，其中，所述预先设置至少两个置信度阈值包括:根据所述第一语音识别装置能够识别的识别内容和其网络状况中的至少一个来预先设置至少两个置信度阈值。
3.根据权利要求2的方法，其中，所述第一语音识别装置能够识别的内容包括多个命令词，所述根据所述第一语音识别装置能够识别的识别内容和其网络状况中的至少一个来预先设置至少两个置信度阈值包括:针对所述多个命令词中的第一命令词设置第一置信度阈值；针对所述多个命令词中的第二命令词设置第二置信度阈值，该第二命令词不同于所述第一命令词。
4.根据权利要求2或3的方法，其中，所述根据所述第一语音识别装置能够识别的识别内容和其网络状况中的至少一个来预先设置至少两个置信度阈值包括:针对所述第一语音识别装置具有网络连接的情况而设置第三置信度阈值；针对所述第一语音识别装置不具有网络连接的情况而设置第四置信度阈值。
5.根据权利要求4的方法，其中，所述从所述至少两个置信度阈值中选择一置信度阈值包括:确定所述识别结果中的识别内容是否对应于所述第二命令词；当所述识别内容对应于所述第二命令词时，选择第二置信度阈值；当所述识别内容不对应于所述第二命令词时，确定所述第一语音识别装置是否具有网络连接；当所述第一语音识别装置具有网络连接时，选择第三置信度阈值；当所述第一语音识别装置不具有网络连接时，选择第四置信度阈值。
6.根据权利要求5的方法，其中，所述基于所述识别结果中的置信度和所述选择的置信度阈值来判断所述识别内容是否准确包括:将所述识别结果中的置信度与所选择的第二置信度阈值或所选择的第三置信度阈值相比较，而得到一比较结果；根据所述比较结果判断所述识别内容是否准确。
7.根据权利要求1的方法，还包括:当判断所述识别内容不准确时，将所述音频信号传送到与所述电子设备网络连接的第二语音识别装置，该第二语音识别装置能够对所述音频信号进行识别处理而获得第二识别内容；从所述第二语音识别装置接收所述第二识别内容，并将该第二识别内容作为最终的识别内容。
8.根据权利要求1的方法，还包括:将所述音频信号传送到与所述电子设备网络连接的第二语音识别装置，该第二语音识别装置能够对所述音频信号进行识别处理而获得第二识别内容；当在所述判断操作中判断所述识别内容不准确时，在一预设时间段中从所述第二语音识别装置接收所述第二识别内容。
9.根据权利要求8的方法，还包括:当在所述预设时间段中未接收到所述第二识别内容时，获得小于所选择的置信度阈值的一低置信度阈值；和基于该低置信度阈值判断所述识别内容是否准确。
10.一种语音识别装置，应用于一电子设备，该语音识别装置包括:音频输入单元，用于接收一语音输入，并获得与该语音输入对应的音频信号；识别单元，用于对所述音频信号进行识别处理而得到一识别结果，该识别结果包括识别内容和置信度，该置信度用于确定该识别内容的可靠程度；阈值设置单元，用于预先设置至少两个置信度阈值，各个置信度阈值彼此不同；阈值获取单元，用于从所述至少两个置信度阈值中选择一置信度阈值；判断单元，用于基于所述识别结果中的置信度和所述选择的置信度阈值来判断所述识别内容是否准确。
11.根据权利要求10的语音识别装置，其中，所述阈值设置单元根据所述识别单元能够识别的识别内容和其网络状况中的至少一个来预先设置至少两个置信度阈值。
12.根据权利要求11的语音识别装置，其中，所述语音识别装置能够识别的内容包括多个命令词，所述阈值设置单元如下地预先设置至少两个置信度阈值:针对所述多个命令词中的第一命令词设置第一置信度阈值；针对所述多个命令词中的第二命令词设置第二置信度阈值，该第二命令词不同于所述第一命令词。
13.根据权利要求11或12的语音识别装置，其中，所述阈值设置单元如下地预先设置至少两个置信度阈值:针对所述语音识别装置具有网络连接的情况而设置第三置信度阈值；针对所述语音识别装置不具有网络连接的情况而设置第四置信度阈值。
14.根据权利要求13的语音识别装置，其中，所述阈值获取单元包括:确定部件，用于确定所述识别结果中的识别内容是否对应于所述第二命令词，并且在所述识别内容不对应于所述第二命令词时，确定所述第一语音识别装置是否具有网络连接；选择部件，用于在所述确定部件确定所述识别内容对应于所述第二命令词时，选择第二置信度阈值，在所述确定部件确定所述语音识别装置具有网络连接时，选择第三置信度阈值，在所述确定部件确定所述语音识别装置不具有网络连接时，选择第四置信度阈值。
15.根据权利要求14的语音识别装置，其中，所述判断单元如下地判断所述识别内容是否准确:将所述识别结果中的置信度与所选择的第二置信度阈值或所选择的第三置信度阈值相比较，而得到一比较结果；根据所述比较结果判断所述识别内容是否准确。
16.根据权利要求10的语音识别装置，还包括:发送单元，用于当所述判断单元判断所述识别内容不准确时，将所述音频信号传送到与所述语音识别装置网络连接的另一语音识别装置，该另一语音识别装置能够对所述音频信号进行识别处理而获得第二识别内容；接收单元，用于从所述另一语音识别装置接收所述第二识别内容，并将该第二识别内容作为最终的识别内容。
17.根据权利要求10的语音识别装置，还包括:发送单元，用于将所述音频信号传送到与所述电子设备网络连接的另一语音识别装置，该另一语音识别装置能够对所述音频信号进行识别处理而获得第二识别内容；接收单元，用于在所述判断操作中判断所述识别内容不准确时，在一预设时间段中从所述另一语音识别装置接收所述第二识别内容，以将该第二识别内容作为最终的识别内容。
18.根据权利要求17的语音识别装置，其中，所述接收单元在所述预设时间段中未接收到所述第二识别内容，所述阈值获取单元获得小于所选择的置信度阈值的一低置信度阈值，所述判断单元基于该低置信度阈值来判断所述识别内容是否准确。
19.一种电子设备，包括如权利要求10 - 18中任一项所述的语音识别装置。
【文档编号】G10L15/065GK103700368SQ201410013478
【公开日】2014年4月2日申请日期:2014年1月13日优先权日:2014年1月13日
【发明者】王伟宁, 戴海生, 宫玉强申请人:联想(北京)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王伟宁;戴海生;宫玉强;
技术所有人：联想（北京）有限公司;
我是此专利的发明人

上一篇：一种电子乐器智能学习控制方法
下一篇：一种家庭气氛调节装置及其工作控制方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！