一种语音识别方法、装置及终端的制作方法

文档序号：10472269阅读：354来源：国知局

一种语音识别方法、装置及终端的制作方法
【专利摘要】本发明提供了一种语音识别方法、装置及终端，涉及通信技术领域，所述方法包括：接收第一语音信号，获取所述第一语音信号的第一特征参数；判断预设语音识别库是否存在与所述第一特征参数对应的预设执行动作指令；以及若存在，则发出与所述第一特征参数对应的预设执行动作指令，若不存在，则新增与所述第一特征参数对应的第一执行动作指令；从而可以在语音没有得到识别的情况下，进行修正，使语音的识别率得到质的提高，提高用户体验。
【专利说明】
一种语音识别方法、装置及终端
技术领域
[0001]本发明涉及通信技术领域，特别涉及一种语音识别方法、装置及终端。
【背景技术】
[0002]近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术是一门涉及信号处理、模式识别、概率论和信息论、发声听觉机理、人工智能等等的交叉学科，其目标是将人类语音中的词汇内容转换为计算机可读的输入，从而达到更自然地人机交互的目标。
[0003]现有技术中，在进行语音识别时，提取语音特征值，基于建立的语音特征模型库，执行识别出的动作行为。但是，现有技术忽略了提取出的语音中的语音特征参数在建立好的语音特征模型库中不存在的情况，如果不存在的话，则无法识别出用户输入的语音，也就无法执行对应的动作了，影响了用户的体验。同时，因为移动终端的使用群体庞大，世界各地的人们都在使用，语言上的差异也很大，必然导致终端的语音特征模型库不能完全包含用户的语音特征参数，影响了现有技术中的语音识别方法的实用性。并且，现有技术中语音特征模型库比较固定，对应语音能够执行的动作行为，一成不变，影响了用户的体验。

【发明内容】

[0004]针对现有技术不足，本发明的目的在于提供一种语音识别方法、装置及终端，旨在解决运用现有技术无法有效识别所有语音的问题。
[0005]本发明一方面提出了一种语音识别方法，所述方法包括:
[0006]接收第一语音信号，获取所述第一语音信号的第一特征参数；
[0007]判断预设语音识别库是否存在与所述第一特征参数对应的预设执行动作指令；以及
[0008]若存在，则发出与所述第一特征参数对应的预设执行动作指令，若不存在，则新增与所述第一特征参数对应的第一执行动作指令。
[0009]进一步，所述新增与所述第一特征参数对应的第一执行动作指令包括如下步骤:
[0010]新建一第二语音识别库；
[0011]将所述第一特征参数保存到所述第二语音识别库中；以及
[0012]设置与所述第一特征参数相对应的第一执行动作指令。
[0013]进一步，所述新增与所述第一特征参数对应的第一执行动作指令包括如下步骤:
[0014]将所述第一特征参数保存到所述预设语音识别库中；以及
[0015]设置与所述第一特征参数相对应的第一执行动作指令。
[0016]进一步，所述设置与所述第一特征参数相对应的第一执行动作指令包括如下步骤:
[0017]提示用户进行身份验证；
[0018]若所述用户通过身份验证，则终端根据用户指令设置与所述第一特征参数相对应的第一执行动作指令。
[0019]进一步，所述发出与所述第一特征参数对应的预设执行动作指令包括如下步骤:
[0020]提示用户确认与所述第一特征参数对应的预设执行动作指令；
[0021]接收用户输入的确认信息，若用户确认所述预设执行动作指令，则发出与所述第一特征参数对应的预设执行动作指令。
[0022]本发明第二方面提出了一种语音识别装置，所述装置包括:
[0023]接收模块，用于接收第一语音信号，获取所述第一语音信号的第一特征参数；
[0024]判断模块，用于判断预设语音识别库是否存在与所述第一特征参数对应的预设执行动作指令；
[0025]新增模块，用于若所述判断模块判断结果为存在，则发出与所述第一特征参数对应的预设执行动作指令，若所述判断模块判断结果为不存在，则新增与所述第一特征参数对应的第一执行动作指令。
[0026]进一步，所述新增模块包括:
[0027]新建单元，用于新建一第二语音识别库；
[0028]第一保存单元，用于将所述第一特征参数保存到所述第二语音识别库中；
[0029]第一设置单元，用于设置与所述第一特征参数相对应的第一执行动作指令。
[0030]进一步，所述新增模块包括:
[0031]第二保存单元，用于将所述第一特征参数保存到所述预设语音识别库中；
[0032]第二设置单元，用于设置与所述第一特征参数相对应的第一执行动作指令。
[0033]进一步，若所述判断模块判断结果为存在，所述新增模块具体用于:提示用户确认与所述第一特征参数对应的预设执行动作指令；接收用户输入的确认信息，若用户确认所述预设执行动作指令，则发出与所述第一特征参数对应的预设执行动作指令。
[0034]本发明第三方面提出了一种终端，所述终端包括上述技术方案任一项所述的语音识别装置。
[0035]根据上述的技术方案，可以接收第一语音信号，获取所述第一语音信号的第一特征参数；判断预设语音识别库是否存在与所述第一特征参数对应的预设执行动作指令；以及若存在，则发出与所述第一特征参数对应的预设执行动作指令，若不存在，则新增与所述第一特征参数对应的第一执行动作指令；从而可以在语音没有得到识别的情况下，进行修正，使语音的识别率得到质的提高，提高用户体验。
【附图说明】
[0036]为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0037]图1是本发明第一实施例提供的语音识别方法的流程图；
[0038]图2是本发明第二实施例提供的语音识别装置的结构框图。
【具体实施方式】
[0039]为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0040]请参见图1，图1为本发明第一实施例提供的语音识别方法的流程图，所述方法适用于终端，该流程可以包括以下步骤:
[0041]S102、接收第一语音信号，获取所述第一语音信号的第一特征参数。
[0042]在此步骤中，终端接收的第一语音信号，既可以是来自于用户的语音输入也可以是来自于其它终端或者云端中存储的语音信号。
[0043]语音识别过程主要包括语音信号的预处理、特征提取、模式匹配几个部分。预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。语音信号识别最重要的一环就是特征参数提取。提取的特征参数必须满足以下的要求:(1)提取的特征参数能有效地代表语音特征，具有很好的区分性；(2)各阶参数之间有良好的独立性；(3)特征参数要计算方便，最好有高效的算法，以保证语音识别的实时实现。
[0044]特征参数的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，其目的是提取语音中最能代表语音的特征信息，以减少后续进行语音识别时所需要处理的数据量。由于语音的时变特性，语音特征的提取必须在一小段语音上进行，也即进行短时分析，这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。目前，特征参数提取的基础性研究已经比较丰富，现有的终端已经具有较为成熟的解决方案，因此，本发明可采用现有比较成熟的语音特征参数提取方式在接收到第一语音信号后，获取所述第一语音信号的第一特征参数。所述第一特征参数反映了第一语音信号的特征，获取所述第一特征参数的方法有多种，并且现有技术能够保证所述第一特征参数满足上述
(1)-(3)的要求，本发明在此不再赘述。
[0045]优选的，在接收到第一语音信号后，需要先对所述第一语音信号进行处理，消除所述第一语音信号的噪音，以便能够更加准确地获取到所述第一语音信号的第一特征参数。
[0046]S104、判断预设语音识别库是否存在与所述第一特征参数对应的预设执行动作指令。
[0047]所述预设语音识别库中包含至少一个特征参数以及与各个所述特征参数对应的执行动作指令。每一个执行动作指令都对应着一个执行动作，所述执行动作指令是指示终端执行与该执行动作指令对应的执行动作的指令，根据所述执行动作指令可以执行的动作包括终端可以执行的所有动作，例如:打电话、拍照、上网、发微博等。并且一个特征参数并不局限于对应一个执行动作指令，任何一个特征参数都可以对应一个或者多个执行动作指令。
[0048]所述预设语音识别库既可以是存在于终端本地，也可以是存在于云端。优选的，所述预设语音识别库位于云端。所述预设语音识别库位于云端则可以节省终端的存储空间，也可以方便其它终端运用所述预设语音识别库进行语音识别。
[0049]当所述预设语音识别库位于终端本地时，所述预设语音识别库既可以是用户提前预设的，也可以是终端出厂时预置的。
[0050]当终端获取到所述第一特征参数后，就会遍历所述预设语音识别库，在所述预设语音识别库中查找所述第一特征参数，判断所述预设语音识别库是否存在与所述第一特征参数对应的预设执行动作指令。
[0051]S106a、若存在，则发出与所述第一特征参数对应的预设执行动作指令。
[0052]若所述预设语音识别库中存在所述第一特征参数，终端则根据所述第一特征参数获取到所述第一特征参数对应的预设执行动作指令，发出与所述第一特征参数对应的预设执行动作指令。优选的，终端还会根据发出的预设执行动作指令执行所述预设执行动作指令对应的执行动作。当所述第一特征参数对应有多个预设执行动作指令时，终端可以提示用户从所述多个预设执行动作指令中选择一个执行动作指令，并发出所述选中的执行动作指令；或者终端根据用户的使用习惯自动从所述多个预设执行动作指令中选择一个执行动作指令并发出所述选中的执行动作指令。
[0053]可选的，在预设语音识别库中查找所述第一特征参数的过程既可以是精确搜索也可以是模糊搜索，所述精确搜索是指只有当所述预设语音识别库中存在与所述第一特征参数完全一样的特征参数时，才会认为所述预设语音识别库中存在所述第一特征参数；模糊搜索是指如果所述预设语音识别库中存在的某一特征参数与所述第一特征参数之间的相似度达到了预设阈值，则认为所述预设语音识别库中存在所述第一特征参数。
[0054]虽然在所述预设语音识别库中存在所述第一特征参数以及与所述第一特征参数对应的预设执行动作指令，但是由于所述预设语音识别库是提前设置的，所述预设语音识别库中的第一特征参数对应的预设执行动作指令可能并不符合用户当前的意愿，因此，有必要提示用户确认与所述第一特征参数对应的预设执行动作指令。
[0055]优选的，所述发出与所述第一特征参数对应的预设执行动作指令包括如下步骤:
[0056]提示用户确认与所述第一特征参数对应的预设执行动作指令；
[0057]接收用户输入的确认信息，若用户确认所述预设执行动作指令，则发出与所述第一特征参数对应的预设执行动作指令。
[0058]针对所述提示，用户会做出选择，终端此时接收用户输入的确认信息，若用户确认所述预设执行动作指令，则说明所述预设语音识别库中的内容符合用户当前的意愿，终端发出与所述第一特征参数对应的预设执行动作指令并不违背用户意愿。
[0059]优选的，当用户没有确认所述预设执行动作指令，则提示用户设置第三执行动作指令作为与所述第一特征参数对应的执行动作指令；
[0060]若用户不同意所述预设执行动作指令，则说明所述预设语音识别库中的内容不符合用户的当前意愿，需要用户重新对所述预设语音识别库中的内容进行设置，需要提示用户设置第三执行动作指令作为与所述第一特征参数对应的执行动作指令。
[0061]可选的，当终端提示用户设置第三执行动作指令作为与所述第一特征参数对应的执行动作指令，并在用户接受了终端的提示后，终端会提供若干执行动作指令供用户选择，用户从终端提供的若干执行动作指令中选择一个作为第三执行动作指令。
[0062]S106b、若不存在，则新增与所述第一特征参数对应的第一执行动作指令。
[0063]若所述预设语音识别库中不存在第一特征参数对应的预设执行动作指令，即终端在所述预设语音识别库中找不到所述预设执行动作指令，则终端会将所述第一特征参数展示给用户，并提醒用户新增所述第一特征参数以及与所述第一特征参数对应的第一执行动作指令。
[0064]当用户同意设置所述第一特征参数以及与所述第一特征参数对应的第一执行动作指令后，终端可以新建一第二语音识别库，将所述第一特征参数保存到所述第二语音识别库中；以及在所述第二语音识别库中设置与所述第一特征参数相对应的第一执行动作指令。具体的，终端根据用户的选择将所述第一特征参数保存到所述第二语音识别库中后，既可以根据用户的选择将某一执行动作指令设置为第一执行动作指令，也可以根据用户习惯自动将某一执行动作指令设置为第一执行动作指令。
[0065]终端根据用户的选择将某一执行动作指令设置为第一执行动作指令的具体实现过程可以是:终端在所述预设语音识别库中找不到所述第一特征参数后，则终端会将所述第一特征参数展示给用户，将所述第一特征参数保存到第二语音识别库中，并在所述第二语音识别库中提供若干执行动作指令供用户选择，用户从终端提供的若干执行动作指令中选择一个作为与所述第一特征参数对应的第一执行动作指令，以完成在所述第二语音识别库中设置所述第一特征参数以及与所述第一特征参数对应的第一执行动作指令的过程。
[0066]终端根据用户习惯自动将某一执行动作指令设置为第一执行动作指令的具体实现过程可以是:终端在所述预设语音识别库中找不到所述第一特征参数后，则终端会将所述第一特征参数展示给用户，将所述第一特征参数保存到第二语音识别库中，在此之后，终端自动统计全部执行动作的执行次数，并将执行次数最多的执行动作对应的执行动作指令设置为第一执行动作指令，以完成在所述第二语音识别库中设置所述第一特征参数以及与所述第一特征参数对应的第一执行动作指令的过程。
[0067]优选的，所述新增与所述第一特征参数对应的第一执行动作指令还可以包括如下步骤:
[0068]将所述第一特征参数保存到所述预设语音识别库中；以及
[0069]设置与所述第一特征参数相对应的第一执行动作指令。
[0070]当用户同意设置所述第一特征参数以及与所述第一特征参数对应的第一执行动作指令后，终端可以直接将所述第一特征参数保存到所述预设语音识别库中，而不用新建第二语音识别库；以及在所述预设语音识别库中设置与所述第一特征参数相对应的第一执行动作指令。
[0071]优选的，所述设置与所述第一特征参数相对应的第一执行动作指令包括如下步骤:提示用户进行身份验证；若所述用户通过身份验证，则终端根据用户指令设置与所述第一特征参数相对应的第一执行动作指令。
[0072]在上述技术方案中会对所述预设语音识别库中的内容进行更新或者会新建一个第二语音识别库，因此有必要确认用户的身份，只有通过了身份验证，具备一定权限的用户才能够在所述预设语音识别库中设置所述第一特征参数以及与所述第一特征参数对应的第一执行动作指令，或者新建第二语音识别库。
[0073]若所述用户没有通过身份验证，则终端发出报警提示。若用户没有通过所述身份验证，则说明所述用户的身份不合法，需要发出报警提示。
[0074]请参见图2，图2为本发明第二实施例提供的语音识别装置100的框图。
[0075]语音识别装置100包括:接收模块20、判断模块40、新增模块60。
[0076]接收模块20，用于接收第一语音信号，获取所述第一语音信号的第一特征参数。
[0077]接收模块20接收的第一语音信号，既可以是来自于用户的语音输入也可以是来自于其它终端或者云端中存储的语音信号。
[0078]优选的，接收模块20在接收到第一语音信号后，需要先对所述第一语音信号进行处理，消除所述第一语音信号的噪音，以便能够更加准确地获取到所述第一语音信号的第一特征参数。
[0079]判断模块40，用于判断预设语音识别库是否存在与所述第一特征参数对应的预设执行动作指令。
[0080]所述预设语音识别库中包含至少一个特征参数以及与各个所述特征参数对应的执行动作指令。每一个执行动作指令都对应着一个执行动作，所述执行动作指令是指示终端执行与该执行动作指令对应的执行动作的指令，根据所述执行动作指令可以执行的动作包括终端可以执行的所有动作，例如:打电话、拍照、上网、发微博等。并且一个特征参数并不局限于对应一个执行动作，任何一个特征参数都可以对应一个或者多个执行动作指令。
[0081]所述预设语音识别库既可以是存在于终端本地，也可以是存在于云端。优选的，所述预设语音识别库位于云端。所述预设语音识别库位于云端则可以节省终端的存储空间，也可以方便其它终端运用所述预设语音识别库进行语音识别。
[0082]当所述预设语音识别库位于终端本地时，所述预设语音识别库既可以是用户提前预设的，也可以是终端出厂时预置的。
[0083]当接收模块20获取到所述第一特征参数后，判断模块40就会遍历所述预设语音识别库，在所述预设语音识别库中查找所述第一特征参数，判断所述预设语音识别库是否存在与所述第一特征参数对应的预设执行动作指令。
[0084]新增模块60用于若所述判断模块40判断结果为存在，则发出与所述第一特征参数对应的预设执行动作指令。
[0085]若判断模块40判断所述预设语音识别库中存在所述第一特征参数，新增模块60则发出与所述第一特征参数对应的预设执行动作指令。优选的，新增模块60还会根据发出的预设执行动作指令执行所述预设执行动作指令对应的执行动作。
[0086]当所述第一特征参数对应有多个预设第一执行动作指令时，新增模块60可以提示用户从所述多个预设第一执行动作指令中选择一个执行动作指令，并发出所述选中的执行动作指令；或者新增模块60根据用户的使用习惯自动从所述多个第一执行动作指令中选择一个执行动作指令并发出所述选中的执行动作指令。
[0087]虽然在所述预设语音识别库中存在所述第一特征参数以及与所述第一特征参数对应的预设执行动作指令，但是由于所述预设语音识别库是提前设置的，所述预设语音识别库中的第一特征参数对应的预设执行动作指令可能并不符合用户当前的意愿，因此，有必要提示用户确认与所述第一特征参数对应的预设执行动作指令。
[0088]优选的，若所述判断模块40判断结果为存在，所述新增模块60具体用于:提示用户确认与所述第一特征参数对应的预设执行动作指令；接收用户输入的确认信息，若用户确认所述预设执行动作指令，则发出与所述第一特征参数对应的预设执行动作指令。
[0089]针对所述提示，用户会做出选择，所述新增模块60此时接收用户输入的确认信息，若用户确认所述预设执行动作指令，则说明所述预设语音识别库中的内容符合用户当前的意愿，所述新增模块60发出与所述第一特征参数对应的预设执行动作指令并不违背用户意愿。若用户不同意所述预设执行动作指令，则说明所述预设语音识别库中的内容不符合用户的当前意愿，需要用户重新对所述预设语音识别库中的内容进行设置，则所述新增模块60提示用户设置第三执行动作指令作为与所述第一特征参数对应的执行动作指令。
[0090]优选的，所述新增模块60还用于，若所述判断模块40判断结果为不存在，则新增与所述第一特征参数对应的第一执行动作指令。
[0091]若所述预设语音识别库中不存在第一特征参数对应的预设执行动作指令，即判断模块40在所述预设语音识别库中找不到所述预设执行动作指令，则新增模块60会将所述第一特征参数展示给用户，并提醒用户新增所述第一特征参数以及与所述第一特征参数对应的第一执行动作指令。
[0092]优选的，所述新增模块60包括:新建单元601，用于新建一第二语音识别库；
[0093]第一保存单元602，用于将所述第一特征参数保存到所述第二语音识别库中；
[0094]第一设置单元603，用于在所述第二语音识别库中设置与所述第一特征参数相对应的第一执行动作指令。
[0095]优选的，所述新增模块60也可以是包括:
[0096]第二保存单元604，用于将所述第一特征参数保存到所述预设语音识别库中；
[0097]第二设置单元605，用于在所述预设语音识别库中设置与所述第一特征参数相对应的第一执行动作指令。
[0098]本发明还提供了一种终端，所述终端包括上述技术方案提供的语音识别装置100。
[0099]本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。
[0100]本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory, RAM)等。
[0101]以上所述，仅为本发明的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。
【主权项】
1.一种语音识别方法，其特征在于，所述方法包括: 接收第一语音信号，获取所述第一语音信号的第一特征参数；判断预设语音识别库是否存在与所述第一特征参数对应的预设执行动作指令；以及若存在，则发出与所述第一特征参数对应的预设执行动作指令，若不存在，则新增与所述第一特征参数对应的第一执行动作指令。2.如权利要求1所述的语音识别方法，其特征在于，所述新增与所述第一特征参数对应的第一执行动作指令包括如下步骤: 新建一第二语音识别库；将所述第一特征参数保存到所述第二语音识别库中；以及设置与所述第一特征参数相对应的第一执行动作指令。3.如权利要求1所述的语音识别方法，其特征在于，所述新增与所述第一特征参数对应的第一执行动作指令包括如下步骤: 将所述第一特征参数保存到所述预设语音识别库中；以及设置与所述第一特征参数相对应的第一执行动作指令。4.如权利要求2或3所述的语音识别方法，其特征在于，所述设置与所述第一特征参数相对应的第一执行动作指令包括如下步骤: 提示用户进行身份验证；若所述用户通过身份验证，则终端根据用户指令设置与所述第一特征参数相对应的第一执行动作指令。5.如权利要求1所述的语音识别方法，其特征在于，所述发出与所述第一特征参数对应的预设执行动作指令包括如下步骤: 提示用户确认与所述第一特征参数对应的预设执行动作指令；接收用户输入的确认信息，若用户确认所述预设执行动作指令，则发出与所述第一特征参数对应的预设执行动作指令。6.一种语音识别装置，其特征在于，所述装置包括: 接收模块，用于接收第一语音信号，获取所述第一语音信号的第一特征参数；判断模块，用于判断预设语音识别库是否存在与所述第一特征参数对应的预设执行动作指令；新增模块，用于若所述判断模块判断结果为存在，则发出与所述第一特征参数对应的预设执行动作指令，若所述判断模块判断结果为不存在，则新增与所述第一特征参数对应的第一执行动作指令。7.如权利要求6所述的语音识别装置，其特征在于，所述新增模块包括: 新建单元，用于新建一第二语音识别库；第一保存单元，用于将所述第一特征参数保存到所述第二语音识别库中；第一设置单元，用于设置与所述第一特征参数相对应的第一执行动作指令。8.如权利要求6所述的语音识别装置，其特征在于，所述新增模块包括: 第二保存单元，用于将所述第一特征参数保存到所述预设语音识别库中；第二设置单元，用于设置与所述第一特征参数相对应的第一执行动作指令。9.如权利要求6所述的语音识别装置，其特征在于，若所述判断模块判断结果为存在，所述新增模块具体用于:提示用户确认与所述第一特征参数对应的预设执行动作指令；接收用户输入的确认信息，若用户确认所述预设执行动作指令，则发出与所述第一特征参数对应的预设执行动作指令。10.一种终端，所述终端包括权利要求6-9任一项所述的语音识别装置。
【文档编号】G10L15/02GK105825848SQ201510007739
【公开日】2016年8月3日
【申请日】2015年1月8日
【发明人】张军, 张涛
【申请人】宇龙计算机通信科技(深圳)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张军;张涛;
技术所有人：宇龙计算机通信科技(深圳)有限公司;
我是此专利的发明人