语音识别方法、装置及系统的制作方法

文档序号：2833094阅读：197来源：国知局

专利名称：语音识别方法、装置及系统的制作方法
技术领域：
本发明涉及语音识别技术，尤其涉及一种语音识别方法、装置及系统。
背景技术：
随着计算机与信息技术的持续发展，语音交互已经成为人机交互的必要手段。作为语音交互的重要技术之一，语音识别技术经过近半个世纪的发展，已日趋成熟，并得到广泛的应用。现有技术中语音识别的过程包括接收用户发送的语音信息；与语音识别服务器建立连接；将该语音信息发送至语音识别服务器，使语音识别服务器对该语音信息进行识另O、解析，得到对应的识别结果；接收语音识别服务器返回的识别结果。
由于通过网络侧的语音识别服务器进行语音识别，使得每次语音识别均需要与网络侧进行交互，产生网络延迟；并且，当网络条件较差时，与网络侧进行交互的过程中可能会产生丢包，使得语音识别的准确率较低。

发明内容
本发明的实施例提供一种语音识别方法、装置及系统，能够减少网络延迟，并提高语音识别的准确率。一方面，提供一种语音识别方法，包括接收用户发送的语音信息；通过嵌入式语音识别数据库对所述语音信息进行识别、解析，获取所述语音信息对应的本地识别结果以及所述本地识别结果的可信度值；如果所述本地识别结果的可信度值大于预先设置的可信度门限，输出所述本地识别结果；否则，向云计算平台服务器发送所述语音信息，使所述云计算平台服务器通过远端语音识别数据库对所述语音信息进行识别、解析，获取所述语音信息对应的远端识别结果；输出所述云计算平台服务器返回的远端识别结果。另一方面，提供一种语音识别装置，包括语音接收模块，用于接收用户发送的语音信息；识别模块，用于通过嵌入式语音识别数据库对所述语音信息进行识别、解析，获取所述语音信息对应的本地识别结果以及所述本地识别结果的可信度值；第一输出模块，用于如果所述本地识别结果的可信度值大于预先设置的可信度门限，输出所述本地识别结果；信息发送模块，用于否则，向云计算平台服务器发送所述语音信息，使所述云计算平台服务器通过远端语音识别数据库对所述语音信息进行识别、解析，获取所述语音信息对应的远端识别结果；第二输出模块，用于输出所述云计算平台服务器返回的远端识别结果。又一方面，提供一种语音识别系统，包括语音识别装置，用于接收用户发送的语音信息；通过嵌入式语音识别数据库对所述语音信息进行识别、解析，获取所述语音信息对应的本地识别结果以及所述本地识别结果的可信度值；如果所述本地识别结果的可信度值大于预先设置的可信度门限，输出所述本地识别结果；否则，向云计算平台服务器发送所述语音信息；输出所述云计算平台服务器返回的远端识别结果；所述云计算平台服务器，用于接收所述语音识别装置发送的语音信息；对所述语音信息进行识别、解析，获取所述语音信息对应的远端识别结果；向所述语音识别装置发送所述远端识别结果。本发明实施例提供的语音识别方法、装置及系统，将嵌入式语音识别与云端语音识别结合，如果本地识别结果的可信度值大于预先设置的可信度门限，输出该本地识别结果；否则，向云计算平台服务器发送语音信息并输出其返回的远端识别结果。由于本发明实施例提供的技术方案将嵌入式语音识别与云端语音识别结合，使得无需每次语音识别均与网络侧进行交互，从而在保证语音识别的准确率的前提下，减少了与网络侧的交互过程，减少了网络延迟；并且，当网络条件较差时，可以降低丢包率，从而提高语音识别的准确率；解决了现有技术由于通过网络侧的语音识别服务器进行语音识别，使得每次语音识别均需要与网络侧进行交互，产生网络延迟；并且，当网络条件较差时，与网络侧进行交互的过程中可能会产生丢包，使得语音识别的准确率较低。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。图I为本发明实施例一提供的语音识别方法的流程图；图2为本发明实施例二提供的语音识别方法的流程图一；图3为本发明实施例二提供的语音识别方法的流程图二；图4为本发明实施例三提供的语音识别方法的流程图；图5为本发明实施例四提供的语音识别装置的结构示意图一；图6为本发明实施例四提供的语音识别装置的结构示意图二；图7为本发明实施例四提供的语音识别装置的结构示意图三；图8为本发明实施例五提供的语音识别系统的结构示意图。
具体实施例方式下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。为了解决现有技术产生网络延迟并且语音识别的准确率的问题，本发明实施例提供一种语音识别方法、装置及系统。实施例一如图I所示，本发明实施例提供的语音识别方法，包括
步骤101，接收用户发送的语音信息。在本实施例中，步骤101可以在用户按下语音录入键之后接收用户发送的语音信息，也可以在用户进行其他操作后接收用户发送的语音信息，在此不作限制。其中，用户输入的语音信息可以为简单的语音指令，也可以为包含语音指令的其他信息，再次不再一一赘述。步骤102，通过嵌入式语音识别数据库对该语音信息进行识别、解析，获取语音信息对应的本地识别结果以及该本地识别结果的可信度值。在本实施例中，步骤102中嵌入式语音识别数据库可以用于存储任意语音特征库，为了缩小嵌入式语音识别数据库的规模，优选的，该嵌入式语音识别数据库可以用于存储控制指令。以音乐播放应用为例，嵌入式语音识别数据库可以用于存储播放、暂停、上一首、下一首等控制指令；嵌入式语音识别数据库存储的控制指令包括但不仅限于以上所述，在此不再一一赘述。在本实施例中，步骤102通过嵌入式语音识别数据库对语音信息进行识别、解析，得到本地识别结果的过程，可以为将语音信息与嵌入式语音识别数据库中的语音特征分别进行相似度比较，得到嵌入式语音识别数据库中各个语音特征的可信度值，并将可信度值最高的语音特征作为本地识别结果；步骤102也可以通过其他方式得到本地识别结果，在此不再一一赘述。其中，本地识别结果的可信度值可以通过上述过程确定，也可以通过其他方式确定，在此不作限制。在本实施例中，嵌入式语音识别库可以预先存储几种较典型的语音特征库；也可以预先存储多种广谱语音特征库。需要说明的是，该广谱语音特征库可以通过采集全中国各地、各种人以及这些人在不同环境下(不同噪声背景)的声音后，精粹提取出来的广谱语音特征的集合，该广谱语音特征库只依赖于现有“语音特征库”的信息，而不依赖于某个人的语音特征训练结果。特别的，该广谱语音特征库还可以包括外语库，其中该外语库可以具有英语库、法语库、德语库、日语库等主流国外语言库。步骤103，判断本地识别结果的可信度值是否大于预先设置的可信度门限。在本实施例中，步骤103中可信度门限可以任意设置，也可以根据统计结果设置，在此不作限制。如果通过步骤103确定本地识别结果的可信度值大于预先设置的可信度门限，可以通过步骤104输出本地识别结果；否则，通过步骤105向云计算平台服务器发送语
音信息。步骤104，输出本地识别结果。步骤105，向云计算平台服务器发送语音信息，使云计算平台服务器通过远端识别数据库对语音信息进行识别、解析，获取语音信息对应的远端识别结果。在本实施例中，本地可以预先与云计算平台服务器建立连接，也可以在本地识别结果的可信度值小于预先设置的可信度门限时与云计算平台服务器建立连接，在此不作限制。可以通过如Internet、3G移动网络等多种通信方式与云计算平台服务器建立连接；具体的，可以预先存储云计算平台服务器的网络地址(如统一资源定位符URL)或者呼叫号码，根据网络地址或者呼叫号码通过如Internet、3G移动网络等与云计算平台服务器建立通信连接。
在本实施例中，云计算平台服务器可以预先存储多种广谱语音特征库，例如按照地名设置的广谱语音特征库，按照音视频名称设置的广谱语音特征库以及按照人名设置的广谱语音特征库等。需要说明的是，该广谱语音特征库可以通过采集全中国各地、各种人以及这些人在不同环境下(不同噪声背景)的声音后，精粹提取出来的广谱语音特征的集合，该广谱语音特征库只依赖于现有“语音特征库”的信息，而不依赖于某个人的语音特征训练结果。特别的，该广谱语音特征库还可以包括外语库，其中该外语库可以具有英语库、法语库、德语库、日语库等主流国外语言库。步骤106，输出云计算平台服务器返回的远端识别结果。在本实施例中，可以直接通过步骤106输出云计算平台服务器返回的远端识别结果；也可以在远端识别结果的可信度值高于本地识别结果的可信度值时，通过步骤106输出云计算平台服务器返回的远端识别结果，在此不再一一赘述。本发明实施例提供的语音识别方法，将嵌入式语音识别与云端语音识别结合，如果本地识别结果的可信度值大于预先设置的可信度门限，输出该本地识别结果；否则，向云计算平台服务器发送语音信息并输出其返回的远端识别结果。由于本发明实施例提供的技术方案将嵌入式语音识别与云端语音识别结合，使得无需每次语音识别均与网络侧进行交互，从而在保证语音识别的准确率的前提下，减少了与网络侧的交互过程，减少了网络延迟；并且，当网络条件较差时，可以降低丢包率，从而提高语音识别的准确率；解决了现有技术由于通过网络侧的语音识别服务器进行语音识别，使得每次语音识别均需要与网络侧进行交互，产生网络延迟；并且，当网络条件较差时，与网络侧进行交互的过程中可能会产生丢包，使得语音识别的准确率较低。实施例二如图2所示，本发明实施例提供的语音识别方法，包括步骤201至步骤205，获取本地识别结果以及本地识别结果的可信度值，本地识别结果的可信度值大于预先设置的可信度门限时输出，否则向云计算平台服务器发送语音命令。具体过程与图I所示的步骤101至步骤105相似，在此不再一一赘述。步骤206，向云计算平台服务器发送本地识别结果以及本地识别结果的可信度值。步骤207，判断远端识别结果的可信度值是否大于本地识别结果的可信度值。在本实施例中，如果通过步骤207确定远端识别结果的可信度值小于等于本地识别结果的可信度值时，可以通过步骤208输出本地识别结果。步骤208，根据云计算平台服务器返回的控制命令，输出本地识别结果。在本实施例中，步骤208中控制命令用于指示输出本地识别结果。进一步的，如图3所示，本实施例中语音识别方法，还可以包括步骤209，输出云计算平台服务器返回的远端识别结果。在本实施例中，如果通过步骤207确定远端识别结果的可信度值大于本地识别结果的可信度值，可以通过步骤209输出云计算平台服务器返回的远端识别结果。本发明实施例提供的语音识别方法，将嵌入式语音识别与云端语音识别结合，如果本地识别结果的可信度值大于预先设置的可信度门限，输出该本地识别结果；否则，向云计算平台服务器发送语音信息并输出其返回的远端识别结果。由于本发明实施例提供的技术方案将嵌入式语音识别与云端语音识别结合，使得无需每次语音识别均与网络侧进行交互，从而在保证语音识别的准确率的前提下，减少了与网络侧的交互过程，减少了网络延迟；并且，当网络条件较差时，可以降低丢包率，从而提高语音识别的准确率；解决了现有技术由于通过网络侧的语音识别服务器进行语音识别，使得每次语音识别均需要与网络侧进行交互，产生网络延迟；并且，当网络条件较差时，与网络侧进行交互的过程中可能会产生丢包，使得语音识别的准确率较低。实施例三如图4所示，本发明实施例提供的语音识别方法，该方法与图I所示的语音识别方法相似，区别在于，还包括步骤107，从云计算平台服务器获取数据库更新信息。在本实施例中，通过步骤107从云计算平台服务器获取的数据库更新信息，可以为本地向云计算平台服务器发送数据库更新请求，根据数据库返回的相应的信息获取的；也可以为根据云计算平台服务器返回的信息获取的；还可以为通过其他方式获取的，在此不再一一赘述。其中，本地向云计算平台服务器发送数据更新请求，可以为定时发送，也可以为根据用户指示发送，在此不作限制；云计算平台服务器返回的信息，可以为定时返回的信息，也可以为根据其他设置返回的信息，在此不作限制。在本实施例中，步骤107中数据库更新信息，可以为嵌入式语音识别数据库的语音特征的增加信息，也可以为嵌入式语音识别数据库的语音特征的减少信息，也可以为嵌入式语音识别数据库删除信息，还可以为上述内容的叠加，如嵌入式语音识别数据库的语音特征的增加信息和嵌入式语音识别数据库删除信息等，在此不再一一赘述。步骤108，根据该数据库更新信息更新嵌入式语音识别数据库。在本实施例中，通过步骤107从云计算平台服务器获取数据库更新信息后，可以根据该数据库更新信息对嵌入式语音识别数据库进行相应的更新操作。例如通过步骤107从云计算平台服务器获取嵌入式语音识别数据库删除信息，对嵌入式语音识别数据库进行相应的删除操作，在此不再一一赘述。本发明实施例提供的语音识别方法，将嵌入式语音识别与云端语音识别结合，如果本地识别结果的可信度值大于预先设置的可信度门限，输出该本地识别结果；否则，向云计算平台服务器发送语音信息并输出其返回的远端识别结果。由于本发明实施例提供的技术方案将嵌入式语音识别与云端语音识别结合，使得无需每次语音识别均与网络侧进行交互，从而在保证语音识别的准确率的前提下，减少了与网络侧的交互过程，减少了网络延迟；并且，当网络条件较差时，可以降低丢包率，从而提高语音识别的准确率；解决了现有技术由于通过网络侧的语音识别服务器进行语音识别，使得每次语音识别均需要与网络侧进行交互，产生网络延迟；并且，当网络条件较差时，与网络侧进行交互的过程中可能会产生丢包，使得语音识别的准确率较低。实施例四如图5所示，本发明实施例提供的语音识别装置，包括语音接收模块501，用于接收用户发送的语音信息。在本实施例中，语音接收模块501可以在用户按下语音录入键之后接收用户发送的语音信息，也可以在用户进行其他操作后接收用户发送的语音信息，在此不作限制。其中，用户输入的语音信息可以为简单的语音指令，也可以为包含语音指令的其他信息，再次
不再一一赘述。
识别模块502，用于通过嵌入式语音识别数据库对语音信息进行识别、解析，获取语音信息对应的本地识别结果以及本地识别结果的可信度值。在本实施例中，识别模块502中嵌入式语音识别数据库可以用于存储任意语音特征库，为了缩小嵌入式语音识别数据库的规模，优选的，该嵌入式语音识别数据库可以用于存储控制指令。以音乐播放应用为例，嵌入式语音识别数据库可以用于存储播放、暂停、上一首、下一首等控制指令；嵌入式语音识别数据库存储的控制指令包括但不仅限于以上所述，在此不再一一赘述。在本实施例中，识别模块502通过嵌入式语音识别数据库对语音信息进行识别、解析，得到本地识别结果的过程，可以为将语音信息与嵌入式语音识别数据库中的语音特征分别进行相似度比较，得到嵌入式语音识别数据库中各个语音特征的可信度值，并将可信度值最高的语音特征作为本地识别结果；识别模块502也可以通过其他方式得到本地识别结果，在此不再一一赘述。其中，本地识别结果的可信度值可以通过上述过程确定，也可以通过其他方式确定，在此不作限制。在本实施例中，嵌入式语音识别库可以预先存储几种较典型的语音特征库；也可以预先存储多种广谱语音特征库。需要说明的是，该广谱语音特征库可以通过采集全中国各地、各种人以及这些人在不同环境下(不同噪声背景)的声音后，精粹提取出来的广谱语音特征的集合，该广谱语音特征库只依赖于现有“语音特征库”的信息，而不依赖于某个人的语音特征训练结果。特别的，该广谱语音特征库还可以包括外语库，其中该外语库可以具有英语库、法语库、德语库、日语库等主流国外语言库。第一输出模块503，用于如果本地识别结果的可信度值大于预先设置的可信度门限，输出本地识别结果。信息发送模块504，用于否则，向云计算平台服务器发送语音信息，使云计算平台服务器通过远端语音识别数据库对语音信息进行识别、解析，获取语音信息对应的远端识别结果。在本实施例中，本地可以预先与云计算平台服务器建立连接，也可以在本地识别结果的可信度值小于预先设置的可信度门限时与云计算平台服务器建立连接，在此不作限制。可以通过如Internet、3G移动网络等多种通信方式与云计算平台服务器建立连接；具体的，可以预先存储云计算平台服务器的网络地址(如统一资源定位符URL)或者呼叫号码，根据网络地址或者呼叫号码通过如Internet、3G移动网络等与云计算平台服务器建立通信连接。在本实施例中，云计算平台服务器可以预先存储多种广谱语音特征库，例如按照地名设置的广谱语音特征库，按照音视频名称设置的广谱语音特征库以及按照人名设置的广谱语音特征库等。需要说明的是，该广谱语音特征库可以通过采集全中国各地、各种人以及这些人在不同环境下(不同噪声背景)的声音后，精粹提取出来的广谱语音特征的集合，该广谱语音特征库只依赖于现有“语音特征库”的信息，而不依赖于某个人的语音特征训练结果。特别的，该广谱语音特征库还可以包括外语库，其中该外语库可以具有英语库、法语库、德语库、日语库等主流国外语言库。第二输出模块505，用于输出云计算平台服务器返回的远端识别结果。在本实施例中，可以直接通过第二输出模块505输出云计算平台服务器返回的远端识别结果；也可以在远端识别结果的可信度值高于本地识别结果的可信度值时，通过第二输出模块505输出云计算平台服务器返回的远端识别结果，在此不再一一赘述。进一步的，如图6所示，本实施例提供的语音识别装置，还包括识别结果发送模块506，用于向云计算平台服务器发送本地识别结果以及本地识别结果的可信度值。此时，第二输出模块505，还用于如果远端识别结果的可信度值小于等于本地识别结果的可信度值，根据云计算平台服务器返回的控制命令，输出本地识别结果，控制命令用于指示输出本地识别结果。进一步的，如图7所示，本实施例提供的语音识别装置，还可以包括更新信息获取模块507，用于从云计算平台服务器获取数据库更新信息。在本实施例中，通过更新信息获取模块507从云计算平台服务器获取的数据库更新信息，可以为本地向云计算平台服务器发送数据库更新请求，根据数据库返回的相应的信息获取的；也可以为根据云计算平台服务器返回的信息获取的；还可以为通过其他方式获取的，在此不再一一赘述。其中，本地向云计算平台服务器发送数据更新请求，可以为定时发送，也可以为根据用户指示发送，在此不作限制；云计算平台服务器返回的信息，可以为定时返回的信息，也可以为根据其他设置返回的信息，在此不作限制。在本实施例中，更新信息获取模块507中数据库更新信息，可以为嵌入式语音识别数据库的语音特征的增加信息，也可以为嵌入式语音识别数据库的语音特征的减少信息，也可以为嵌入式语音识别数据库删除信息，还可以为上述内容的叠加，如嵌入式语音识别数据库的语音特征的增加信息和嵌入式语音识别数据库删除信息等，在此不再一一赘述。
更新模块508，用于根据数据库更新信息更新嵌入式语音识别数据库。在本实施例中，通过更新信息获取模块507从云计算平台服务器获取数据库更新信息后，可以根据该数据库更新信息对嵌入式语音识别数据库进行相应的更新操作。例如通过更新信息获取模块507从云计算平台服务器获取嵌入式语音识别数据库删除信息，对嵌入式语音识别数据库进行相应的删除操作，在此不再一一赘述。本发明实施例提供的语音识别装置，将嵌入式语音识别与云端语音识别结合，如果本地识别结果的可信度值大于预先设置的可信度门限，输出该本地识别结果；否则，向云计算平台服务器发送语音信息并输出其返回的远端识别结果。由于本发明实施例提供的技术方案将嵌入式语音识别与云端语音识别结合，使得无需每次语音识别均与网络侧进行交互，从而在保证语音识别的准确率的前提下，减少了与网络侧的交互过程，减少了网络延迟；并且，当网络条件较差时，可以降低丢包率，从而提高语音识别的准确率；解决了现有技术由于通过网络侧的语音识别服务器进行语音识别，使得每次语音识别均需要与网络侧进行交互，产生网络延迟；并且，当网络条件较差时，与网络侧进行交互的过程中可能会产生丢包，使得语音识别的准确率较低。实施例五如图8所示，本发明实施例提供的语音识别系统，包括语音识别装置801，用于接收用户发送的语音信息；通过嵌入式语音识别数据库对语音信息进行识别、解析，获取语音信息对应的本地识别结果以及本地识别结果的可信度值；如果本地识别结果的可信度值大于预先设置的可信度门限，输出本地识别结果；否贝U，向云计算平台服务器发送语音信息；输出云计算平台服务器返回的远端识别结果。在本实施例中，可以在用户按下语音录入键之后接收用户发送的语音信息，也可以在用户进行其他操作后接收用户发送的语音信息，在此不作限制。其中，用户输入的语音信息可以为简单的语音指令，也可以为包含语音指令的其他信息，再次不再一一赘述。在本实施例中，嵌入式语音识别数据库可以用于存储任意语音特征库，为了缩小嵌入式语音识别数据库的规模，优选的，该嵌入式语音识别数据库可以用于存储控制指令。以音乐播放应用为例，嵌入式语音识别数据库可以用于存储播放、暂停、上一首、下一首等控制指令；嵌入式语音识别数据库存储的控制指令包括但不仅限于以上所述，在此不再--赘述。在本实施例中，通过嵌入式语音识别数据库对语音信息进行识别、解析，得到本地识别结果的过程，可以为将语音信息与嵌入式语音识别数据库中的语音特征分别进行相似度比较，得到嵌入式语音识别数据库中各个语音特征的可信度值，并将可信度值最高的语音特征作为本地识别结果；也可以通过其他方式得到本地识别结果，在此不再一一赘述。其中，本地识别结果的可信度值可以通过上述过程确定，也可以通过其他方式确定，在此不作限制。在本实施例中，嵌入式语音识别库可以预先存储几种较典型的语音特征库；也可以预先存储多种广谱语音特征库。需要说明的是，该广谱语音特征库可以通过采集全中国各地、各种人以及这些人在不同环境下(不同噪声背景)的声音后，精粹提取出来的广谱语音特征的集合，该广谱语音特征库只依赖于现有“语音特征库”的信息，而不依赖于某个人的语音特征训练结果。特别的，该广谱语音特征库还可以包括外语库，其中该外语库可以具有英语库、法语库、德语库、日语库等主流国外语言库。在本实施例中，本地可以预先与云计算平台服务器建立连接，也可以在本地识别结果的可信度值小于预先设置的可信度门限时与云计算平台服务器建立连接，在此不作限制。可以通过如Internet、3G移动网络等多种通信方式与云计算平台服务器建立连接；具体的，可以预先存储云计算平台服务器的网络地址(如统一资源定位符URL)或者呼叫号码，根据网络地址或者呼叫号码通过如Internet、3G移动网络等与云计算平台服务器建立通信连接。在本实施例中，可以直接输出云计算平台服务器返回的远端识别结果；也可以在远端识别结果的可信度值高于本地识别结果的可信度值时，输出云计算平台服务器返回的远端识别结果，在此不再一一赘述。云计算平台服务器802，用于接收语音识别装置发送的语音信息；对语音信息进行识别、解析，获取语音信息对应的远端识别结果；向语音识别装置发送远端识别结果。在本实施例中，云计算平台服务器可以预先存储多种广谱语音特征库，例如按照地名设置的广谱语音特征库，按照音视频名称设置的广谱语音特征库以及按照人名设置的广谱语音特征库等。需要说明的是，该广谱语音特征库可以通过采集全中国各地、各种人以及这些人在不同环境下(不同噪声背景)的声音后，精粹提取出来的广谱语音特征的集合，该广谱语音特征库只依赖于现有“语音特征库”的信息，而不依赖于某个人的语音特征训练结果。特别的，该广谱语音特征库还可以包括外语库，其中该外语库可以具有英语库、法语库、德语库、日语库等主流国外语言库。进一步的，本实施例提供的语音识别系统中，语音识别装置801，还用于向云计算平台服务器发送本地识别结果以及本地识别结果的可信度值；根据云计算平台服务器返回的控制命令，输出本地识别结果；云计算平台服务器802，还用于获取远端识别结果的可信度值；如果远端识别结果的可信度值小于等于本地识别结果的可信度值，向语音识别装置发送指示输出本地识别结果的控制命令。本发明实施例提供的语音识别系统，将嵌入式语音识别与云端语音识别结合，如果本地识别结果的可信度值大于预先设置的可信度门限，输出该本地识别结果；否则，向云计算平台服务器发送语音信息并输出其返回的远端识别结果。由于本发明实施例提供的技术方案将嵌入式语音识别与云端语音识别结合，使得无需每次语音识别均与网络侧进行交互，从而在保证语音识别的准确率的前提下，减少了与网络侧的交互过程，减少了网络延迟；并且，当网络条件较差时，可以降低丢包率，从而提高语音识别的准确率；解决了现有技术由于通过网络侧的语音识别服务器进行语音识别，使得每次语音识别均需要与网络侧进行交互，产生网络延迟；并且，当网络条件较差时，与网络侧进行交互的过程中可能会产生丢包，使得语音识别的准确率较低。本发明实施例提供的语音识别方法、装置及系统，可以应用在如导航、点歌以及联系人查询等信息服务系统中。以上所述，仅为本发明的具体实施方式
，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。
权利要求
1.一种语音识别方法，其特征在于，包括接收用户发送的语音信息；通过嵌入式语音识别数据库对所述语音信息进行识别、解析，获取所述语音信息对应的本地识别结果以及所述本地识别结果的可信度值；如果所述本地识别结果的可信度值大于预先设置的可信度门限，输出所述本地识别结果; 否则，向云计算平台服务器发送所述语音信息，使所述云计算平台服务器通过远端语音识别数据库对所述语音信息进行识别、解析，获取所述语音信息对应的远端识别结果；输出所述云计算平台服务器返回的远端识别结果。
2.根据权利要求I所述的语音识别方法，其特征在于，还包括向所述云计算平台服务器发送所述本地识别结果以及本地识别结果的可信度值；则所述输出所述云计算平台服务器返回的远端识别结果替换为如果所述远端识别结果的可信度值小于等于本地识别结果的可信度值，根据云计算平台服务器返回的控制命令，输出本地识别结果，所述控制命令用于指示输出本地识别结果。
3.根据权利要求I所述的语音识别方法，其特征在于，还包括从所述云计算平台服务器获取数据库更新信息；根据所述数据库更新信息更新所述嵌入式语音识别数据库。
4.根据权利要求1-3中任意一项所述的语音识别方法，其特征在于，所述嵌入式语音识别数据库用于存储控制指令。
5.一种语音识别装置，其特征在于，包括语音接收模块，用于接收用户发送的语音信息；识别模块，用于通过嵌入式语音识别数据库对所述语音信息进行识别、解析，获取所述语音信息对应的本地识别结果以及所述本地识别结果的可信度值；第一输出模块，用于如果所述本地识别结果的可信度值大于预先设置的可信度门限，输出所述本地识别结果；信息发送模块，用于否则，向云计算平台服务器发送所述语音信息，使所述云计算平台服务器通过远端语音识别数据库对所述语音信息进行识别、解析，获取所述语音信息对应的远端识别结果；第二输出模块，用于输出所述云计算平台服务器返回的远端识别结果。
6.根据权利要求5所述的语音识别装置，其特征在于，还包括识别结果发送模块，用于向所述云计算平台服务器发送所述本地识别结果以及本地识别结果的可信度值；所述第二输出模块，还用于如果所述远端识别结果的可信度值小于等于本地识别结果的可信度值，根据云计算平台服务器返回的控制命令，输出本地识别结果，所述控制命令用于指示输出本地识别结果。
7.根据权利要求5所述的语音识别装置，其特征在于，还包括更新信息获取模块，用于从所述云计算平台服务器获取数据库更新信息；更新模块，用于根据所述数据库更新信息更新所述嵌入式语音识别数据库。
8.根据权利要求5-7中任意一项所述的语音识别装置，其特征在于，所述嵌入式语音识别数据库用于存储控制指令。
9.一种语音识别系统，其特征在于，包括语音识别装置，用于接收用户发送的语音信息；通过嵌入式语音识别数据库对所述语音信息进行识别、解析，获取所述语音信息对应的本地识别结果以及所述本地识别结果的可信度值；如果所述本地识别结果的可信度值大于预先设置的可信度门限，输出所述本地识别结果；否则，向云计算平台服务器发送所述语音信息；输出所述云计算平台服务器返回的远端识别结果；所述云计算平台服务器，用于接收所述语音识别装置发送的语音信息；对所述语音信息进行识别、解析，获取所述语音信息对应的远端识别结果；向所述语音识别装置发送所述远端识别结果。
10.根据权利要求9所述的语音识别系统，其特征在于，所述语音识别装置，还用于向所述云计算平台服务器发送所述本地识别结果以及本地识别结果的可信度值；根据云计算平台服务器返回的控制命令，输出本地识别结果；所述云计算平台服务器，还用于获取所述远端识别结果的可信度值；如果所述远端识别结果的可信度值小于等于本地识别结果的可信度值，向所述语音识别装置发送指示输出本地识别结果的控制命令。
全文摘要
本发明公开一种语音识别方法、装置及系统，涉及语音识别技术。为了解决现有技术产生网络延迟并且语音识别的准确率的问题而发明。本发明实施例公开的技术方案包括接收用户发送的语音信息；通过嵌入式语音识别数据库对所述语音信息进行识别、解析，获取所述语音信息对应的本地识别结果以及所述本地识别结果的可信度值；如果所述本地识别结果的可信度值大于预先设置的可信度门限，输出所述本地识别结果；否则，向云计算平台服务器发送所述语音信息，使所述云计算平台服务器通过远端语音识别数据库对所述语音信息进行识别、解析，获取所述语音信息对应的远端识别结果；输出所述云计算平台服务器返回的远端识别结果。本发明实施例公开的技术方案可以应用在信息服务系统中。
文档编号G10L15/00GK102708865SQ201210123369
公开日2012年10月3日申请日期2012年4月25日优先权日2012年4月25日
发明者沈嘉鑫, 王力劭, 邵颖申请人:北京车音网科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：沈嘉鑫;王力劭;邵颖
技术所有人：北京车音网科技有限公司
我是此专利的发明人

上一篇：木管乐器及整流部件的制作方法
上一篇：音乐转录的方法，系统和装置的制作方法