一种语音识别方法、装置及终端的制作方法

文档序号：2827393阅读：146来源：国知局

一种语音识别方法、装置及终端的制作方法
【专利摘要】本发明实施例公开了一种语音识别方法，包括：接收语音消息；向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述语音消息匹配的特征模板；接收所述服务器返回的特征模板；执行所述特征模板对应的指令。本发明实施例还公开了一种语音识别装置和终端。采用本发明，当接收到语音消息时，若本地数据库（即语音词库）不存在与该语音消息相匹配的特征模板或者无法正确识别该语音时，通过服务器查找与该语音相匹配的特征模板，可提高语音识别的准确率以及通用性，并且进一步完善用户体验。
【专利说明】一种语音识别方法、装置及终端
【技术领域】
[0001]本发明涉及语音识别【技术领域】，尤其涉及一种语音识别方法、装置及终端。
【背景技术】
[0002]近年来，随着科学技术的快速发展，语音识别技术越来越广泛地被应用于通信、工业、汽车、家用电器等领域。目前的大多数语音系统都是将输入的语音信号与预置的语音词库进行匹配，并根据匹配结果执行相应的操作。由于不同地域的人可能具有不同的口音，当语音系统接收到含有口音的语音信号时，可能出现无法识别语音或者不能正确识别的问题，导致识别准确率的降低。

【发明内容】

[0003]本发明实施例所要解决的技术问题在于，提供一种语音识别方法、装置及终端，可提高语音识别的准确率。
[0004]为了解决上述技术问题，本发明实施例提供了一种语音识别方法，包括:接收语音消息；
[0005]向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述语音消息匹配的特征模板；
[0006]接收所述服务器返回的特征模板；
[0007]执行所述特征模板对应的指令。
[0008]其中，所述向服务器发送查找请求之前，还包括:
[0009]在本地数据库中查找与所述语音消息匹配的特征模板；
[0010]若查找到与所述语音消息匹配的特征模板，则执行所述特征模板对应的指令；
[0011]若查找不到与所述语音消息匹配的特征模板，则执行向服务器发送查找请求的步骤。
[0012]其中，所述在本地数据库中查找与所述语音消息匹配的特征模板，包括:
[0013]提取所述语音消息的特征参数值；
[0014]根据所述特征参数值，在数据库中查找与所述特征参数值匹配的特征模板。
[0015]其中，所述向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述语音消息匹配的特征模板，包括:
[0016]提取所述语音消息的特征参数值；
[0017]向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述特征参数值匹配的特征模板。
[0018]其中，在所述接收所述服务器返回的特征模板之后，还包括:
[0019]存储所述特征参数值和所述特征模板的匹配关系。
[0020]本发明实施例还提供了一种语音识别方法装置，包括:
[0021]语音接收模块，用于接收语音消息；[0022]发送模块，用于向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述语音消息匹配的特征模板；
[0023]特征模板接收模块，用于接收所述服务器返回的特征模板；
[0024]执行模块，用于执行所述特征模板对应的指令。
[0025]其中，所述语音识别方法装置还包括:
[0026]查找模块，用于在本地数据库中查找与所述语音消息匹配的特征模板；
[0027]若查找到与所述语音消息匹配的特征模板，则所述执行模块执行所述特征模板对应的指令；
[0028]若查找不到与所述语音消息匹配的特征模板，则所述发送模块向服务器发送查找请求。
[0029]其中，所述查找模块包括:
[0030]第一提取单元，用于提取所述语音消息的特征参数值；
[0031]查找单元，用于根据所述特征参数值，在数据库中查找与所述特征参数值匹配的特征模板。
[0032]其中，所述发送模块包括:
[0033]第二提取单元，用于提取所述语音消息的特征参数值；
[0034]发送单元，用于向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述特征参数值匹配的特征模板。
[0035]其中，所述语音识别方法装置还包括:
[0036]存储模块，用于存储所述特征参数值和所述特征模板的匹配关系。
[0037]本发明实施例还提供了一种终端，包括如上所述的语音识别装置。
[0038]采用本发明实施例，具有以下有益效果:当接收到语音消息时，若本地数据库(即语音词库)不存在与该语音消息相匹配的特征模板或者无法正确识别该语音时，通过服务器查找与该语音相匹配的特征模板，可提高语音识别的准确率以及通用性，并且进一步完善用户体验。
【专利附图】

【附图说明】
[0039]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0040]图1是本发明实施例提供的一种语音识别方法的流程示意图；
[0041]图2是本发明实施例提供的一种语音识别装置的结构示意图；
[0042]图3是本发明实施例提供的发送模块的结构示意图；
[0043]图4是本发明实施例提供的查找模块的结构示意图。
【具体实施方式】
[0044]下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0045]本发明实施例的语音识别方法可应用于基于Android系统的语音系统，具体的可应用于安装有Android系统的手机、平板电脑等移动终端，当然也可根据实际需要，应用于其他操作系统上。
[0046]请参考图1，为本发明实施例提供的一种语音识别方法的流程示意图，包括步骤S101-S106。
[0047]S101，接收语音消息。
[0048]具体的，通过麦克风等设备采集用户输入的语音消息，并对原始的语音进行处理，消除部分噪声和不同人说话带来的影响，使处理后的语音信号更能反映语音的本质特征。
[0049]S102，在本地数据库中查找与所述语音消息匹配的特征模板，若查找到与所述语音消息匹配的特征模板，则直接执行步骤S106 ;若查找不到与所述语音消息匹配的特征模板，则执行步骤S103。
[0050]在一种实施方式中，所述在本地数据库中查找与所述语音消息匹配的特征模板，包括:提取所述语音消息的特征参数值；根据所述特征参数值，在数据库中查找与所述特征参数值匹配的特征模板。
[0051]语音识别主要通过模式匹配法实现:在训练阶段，用户将词汇表中的每一词依次说一遍，并且将各此对应的特征参数值作为特征模板存入数据库；在识别阶段，提取接收到的语音消息的特征参数值，将特征参数值依次与数据库中的每个特征模板进行相似度比较(即匹配)，将相似度最高者作为识别结果输出。其中，特征参数值是指从输入的语音信号中提取的声学特征，即，提取出语音消息对应的音素信息，并将音素信息转换为计算机可读的输入信息，例如按键、二进制编码或者字符序列。特征模板为数据库中存储的具备一定通用性和准确性的特征参数值，可根据实际情况进行更改。
[0052]然而，由于语音识别的过程和准确性受许多因素的影响，如不同人的发音、说话方式、环境噪音、传输信道等，均可能导致在数据库中查找不到与提取到的特征参数值相匹配的特征模板，或者查找到的特征模板为错误模板的问题。当出现上述问题时，则可执行步骤S103。
[0053]S103，向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述语音消息匹配的特征模板；
[0054]在一种实施方式中，包括:提取所述语音消息的特征参数值；向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述特征参数值匹配的特征模板。
[0055]通过服务器在云端查找与特征参数值匹配的特征模板，可更为准确地对语音消息进行识别。云端上存储的特征模板经过所有用户的使用和不断更新，更具备通用性和准确性，比如各个地域的用户由于具有不同的口音，说出同一词汇时系统提取到的特征参数值也不一致，对于同一词汇提取的特征参数值，云端对其进行归纳总结，由此提高了词汇的识别准确率。
[0056]S104，接收所述服务器返回的特征模板。
[0057]S105，存储所述特征参数值和所述特征模板的匹配关系。
[0058]在一种实施方式中，对于查询次数较多或者近期内查询的特征参数值，可将服务器返回的对应的特征模板进行存储，即在本地数据库中存储特征参数值和特征模板的匹配关系，以进一步完善本地数据库的词汇库，提高语音识别的准确度。当然，对于长时间不用的特征模板，也可对其进行删除，以减少存储空间的占用。
[0059]S106，执行所述特征模板对应的指令。
[0060]需要说明的是，特征模板对应的指令可包括交互指令和非交互指令，在执行特征模板对应的指令时，还应先判断指令的类型，即指令是否为交互指令，若指令为交互指令，则执行该交互指令时对应的操作，如启动应用软件、拨打电话等；若指令为非交互指令，则分析特征模板中包含的用户询问的问题，并在本地或者云端获取相关问题的答案信息后，通过语音输出该答案信息或者在显示屏上显示答案信息。
[0061]进一步的，还可通过记录用户输入的交互指令的时间和次数，分析交互指令中可能包含的用户的生活习惯或者工作流程等，获取用户的操作习惯并进行记录，并根据记录的操作习惯，设置闹钟提醒功能或者消息框窗口弹出，以提醒用户在特定的时间完成特定事务。当然，也可根据用户的实际需要，接收用户的提醒取消命令。
[0062]采用本发明实施例，当接收到语音消息时，若本地数据库(即语音词库)不存在与该语音消息相匹配的特征模板或者无法正确识别该语音时，通过服务器查找与该语音相匹配的特征模板，可提高语音识别的准确率以及通用性，并且进一步完善用户体验。
[0063]请参考图2，为本发明实施例提供的一种语音识别装置的结构示意图，包括语音接收模块21、发送模块22、特征模板接收模块23、执行模块24、查找模块25、存储模块26
[0064]语音接收模块21，用于接收语音消息。
[0065]具体的，语音接收模块21通过麦克风等设备采集用户输入的语音消息，并对原始的语音进行处理，消除部分噪声和不同人说话带来的影响，使处理后的语音信号更能反映语音的本质特征。
[0066]发送模块22，用于向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述语音消息匹配的特征模板；
[0067]在一种实施方式中，请参考图3，发送模块22包括第二提取单元221和发送单元222。
[0068]其中，第二提取单元221，用于提取所述语音消息的特征参数值；发送单元222，用于向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述特征参数值匹配的特征模板。
[0069]通过服务器在云端查找与特征参数值匹配的特征模板，可更为准确地对语音消息进行识别。云端上存储的特征模板经过所有用户的使用和不断更新，更具备通用性和准确性，比如各个地域的用户由于具有不同的口音，说出同一词汇时系统提取到的特征参数值也不一致，对于同一词汇提取的特征参数值，云端对其进行归纳总结，由此提高了词汇的识别准确率。
[0070]特征模板接收模块23，用于接收所述服务器返回的特征模板；
[0071]存储模块26，用于存储所述特征参数值和所述特征模板的匹配关系。
[0072]在一种实施方式中，对于查询次数较多或者近期内查询的特征参数值，可将服务器返回的对应的特征模板进行存储，即在本地数据库中存储特征参数值和特征模板的匹配关系，以进一步完善本地数据库的词汇库，提高语音识别的准确度。当然，对于长时间不用的特征模板，也可对其进行删除，以减少存储空间的占用。
[0073]执行模块24，用于执行所述特征模板对应的指令。
[0074]需要说明的是，特征模板对应的指令可包括交互指令和非交互指令，在执行特征模板对应的指令时，还应先判断指令的类型，即指令是否为交互指令，若指令为交互指令，则执行该交互指令时对应的操作，如启动应用软件、拨打电话等；若指令为非交互指令，则分析特征模板中包含的用户询问的问题，并在本地或者云端获取相关问题的答案信息后，通过语音输出该答案信息或者在显示屏上显示答案信息。
[0075]进一步的，还可通过记录用户输入的交互指令的时间和次数，分析交互指令中可能包含的用户的生活习惯或者工作流程等，获取用户的操作习惯并进行记录，并根据记录的操作习惯，设置闹钟提醒功能或者消息框窗口弹出，以提醒用户在特定的时间完成特定事务。当然，也可根据用户的实际需要，接收用户的提醒取消命令。
[0076]查找模块25，用于在本地数据库中查找与所述语音消息匹配的特征模板；
[0077]若查找到与所述语音消息匹配的特征模板，则所述执行模块执行所述特征模板对应的指令；
[0078]若查找不到与所述语音消息匹配的特征模板，则所述发送模块向服务器发送查找请求。
[0079]在一种实施方式中，请参考图4，查找模块25包括第一提取单元251和查找单元252。
[0080]第一提取单元251，用于提取所述语音消息的特征参数值；
[0081]查找单元252，用于根据所述特征参数值，在数据库中查找与所述特征参数值匹配的特征模板。
[0082]语音识别主要通过模式匹配法实现:在训练阶段，用户将词汇表中的每一词依次说一遍，并且将各此对应的特征参数值作为特征模板存入数据库；在识别阶段，提取接收到的语音消息的特征参数值，将特征参数值依次与数据库中的每个特征模板进行相似度比较(即匹配)，将相似度最高者作为识别结果输出。其中，特征参数值是指从输入的语音信号中提取的声学特征，即，提取出语音消息对应的音素信息，并将音素信息转换为计算机可读的输入信息，例如按键、二进制编码或者字符序列。特征模板为数据库中存储的具备一定通用性和准确性的特征参数值，可根据实际情况进行更改。
[0083]然而，由于语音识别的过程和准确性受许多因素的影响，如不同人的发音、说话方式、环境噪音、传输信道等，均可能导致在数据库中查找不到与提取到的特征参数值相匹配的特征模板，或者查找到的特征模板为错误模板的问题。当出现上述问题时，则通过发送模块22向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述语音消息匹配的特征模板。
[0084]采用本发明实施例，当接收到语音消息时，若本地数据库(即语音词库)不存在与该语音消息相匹配的特征模板或者无法正确识别该语音时，通过服务器查找与该语音相匹配的特征模板，可提高语音识别的准确率以及通用性，并且进一步完善用户体验。
[0085]本发明实施例还提供了一种终端，包括如实施例二所述的语音识别装置。
[0086]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory, RAM)等。
[0087]以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。
【权利要求】
1.一种语音识别方法，其特征在于，包括: 接收语音消息；向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述语音消息匹配的特征模板；接收所述服务器返回的特征模板；执行所述特征模板对应的指令。
2.如权利要求1所述的语音识别方法，其特征在于，所述向服务器发送查找请求之前，还包括: 在本地数据库中查找与所述语音消息匹配的特征模板；若查找到与所述语音消息匹配的特征模板，则执行所述特征模板对应的指令；若查找不到与所述语音消息匹配的特征模板，则执行向服务器发送查找请求的步骤。
3.如权利要求2所述的语音识别方法，其特征在于，所述在本地数据库中查找与所述语音消息匹配的特征模板，包括: 提取所述语音消息的特征参数值；根据所述特征参数值，在数据库中查找与所述特征参数值匹配的特征模板。
4.如权利要求1所述的语音识别方法，其特征在于，所述向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述语音消息匹配的特征模板，包括: 提取所述语音消息的特征参数值；向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述特征参数值匹配的特征模板。
5.如权利要求4所述的语音识别方法，其特征在于，在所述接收所述服务器返回的特征模板之后，还包括: 存储所述特征参数值和所述特征模板的匹配关系。
6.一种语音识别装置，其特征在于，包括: 语音接收模块，用于接收语音消息；发送模块，用于向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述语音消息匹配的特征模板；特征模板接收模块，用于接收所述服务器返回的特征模板；执行模块，用于执行所述特征模板对应的指令。
7.如权利要求6所述的语音识别装置，其特征在于，还包括: 查找模块，用于在本地数据库中查找与所述语音消息匹配的特征模板；若查找到与所述语音消息匹配的特征模板，则所述执行模块执行所述特征模板对应的指令；若查找不到与所述语音消息匹配的特征模板，则所述发送模块向服务器发送查找请求。
8.如权利要求7所述的语音识别方法装置，其特征在于，所述查找模块包括: 第一提取单元，用于提取所述语音消息的特征参数值；查找单元，用于根据所述特征参数值，在数据库中查找与所述特征参数值匹配的特征模板。
9.如权利要求6所述的语音识别装置，其特征在于，所述发送模块包括: 第二提取单元，用于提取所述语音消息的特征参数值；发送单元，用于向服务器发送查找请求，以使所述服务器根据所述查找请求查找与所述特征参数值匹配的特征模板。
10.如权利要求9 所述的语音识别装置，其特征在于，还包括: 存储模块，用于存储所述特征参数值和所述特征模板的匹配关系。
11.一种终端，其特征在于，包括如权利要求6-10任一项所述的语音识别装置。
【文档编号】G10L15/30GK103956168SQ201410124456
【公开日】2014年7月30日申请日期:2014年3月29日优先权日:2014年3月29日
【发明者】林秀发申请人:深圳创维数字技术股份有限公司, 深圳市创维软件有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林秀发
技术所有人：深圳创维数字技术股份有限公司;深圳市创维软件有限公司
我是此专利的发明人

上一篇：一种高斯色噪声环境下的基音周期检测方法
上一篇：一种用于立式钢琴的自动演奏系统及安装方法