一种语音识别方法、装置及电子设备与流程

文档序号:11232664阅读:367来源:国知局
一种语音识别方法、装置及电子设备与流程

本发明涉及语音识别技术领域,特别是涉及一种语音识别方法、装置及电子设备。



背景技术:

目前,很多智能设备具有语音识别功能。通常语音识别的功能可以通过以下2种方式来实现:

一种是:由智能设备接收语音指令信息,并对语音指令信息进行识别,获得识别出的指令信息,针对识别出的指令信息进行响应。

另一种是:由智能设备接收语音指令信息,并将该语音执行信息发送至云端服务器,由云端服务器对语音指令信息进行识别,获得识别出的指令信息,针对识别出的指令信息进行响应,将响应信息返回给智能设备。

现实生活中,用户在说出语音指令信息的时候,经常会由于犹豫不决而说话不连贯。例如,用户在想听音乐但不一时想不起具体的歌曲时,经常会说出类似于“我想听…那个…嗯…忘情水”的话。

这种情况下,不论是上述那种语音识别的方式都会出错。这是因为,现有技术通常只对连续的语音进行识别,中间出现停顿,就会认为该句话已经说完,就进行语音识别。如上述情况,只会识别出“我想听”,后面的话都被忽略掉了。这样,智能设备会输出“语音指令错误,请重新输入”或“对不起,没听懂”等类似的报错提示。

也就是说,由于不连贯语音中静音片段的存在,现有的语音识别方法在识别此类不连贯的语音时,通常会出导致识别出的语意不完整,影响语音识别效果。



技术实现要素:

本发明的目的在于提供一种语音识别方法、装置及电子设备,以提高不连贯语音的语音识别效果。

为达到上述目的,本发明实施例提供了一种语音识别方法,应用于电子设备,所述方法包括:

获得待识别语音信息;

对所述待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;

判断是否存在已保存的待拼接语音识别信息;

如果存在,对所述待拼接语音识别信息和所述当前语音识别信息进行拼接,得到拼接后的语音识别信息;

确定所述拼接后的语音识别信息是否有完整的语义;

如果是,则将所述拼接后的语音识别信息确定为语音识别结果;

如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续执行所述获得待识别语音信息的步骤。

可选地,所述方法还包括:

若判断出不存在已保存的语音识别信息,则判断当前语音识别信息是否有完整的语义;

如果有,则将当前语音识别信息确定为语音识别结果;

如果没有,则将当前语音识别信息确定为待拼接语音识别信息进行保存,并继续执行所述获得待识别语音信息的步骤。

可选地,所述确定所述拼接后的语音识别信息是否有完整的语义的步骤,包括:

对所述拼接后的语音识别信息进行语义解析,获得语义解析结果;

将所述语义解析信息与预设的意图库中存储的意图进行匹配,获得用户意图;

从所述意图库中获得所述用户意图对应的响应信息;

判断所述响应信息是否为不能提供服务的提示信息;

如果所述响应信息是不能提供服务的提示信息,则确定所述拼接后的语音识别信息没有完整的语义;

如果所述响应信息不是不能提供服务的提示信息,则确定所述拼接后的语音识别信息有完整的语义。

可选地,所述的意图库为树形结构意图库;

所述对所述拼接后的语音识别信息进行语义解析,获得语义解析结果的步骤,包括;

按预设规则,从所述语音识别信息中提取多段特征文字,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应;

所述将所述语义解析结果与预设的意图库中存储的意图进行匹配,获得用户意图的步骤,包括:

将第一级别对应的特征文字确定为当前级别的特征文字;

将所述树形结构意图库中第一级别的所有意图确定为候选意图;

将所述当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图;

判断是否所有特征文字匹配完成;

若是,则将当前意图确定为用户意图;

若否,则将下一级别对应的特征文字确定为当前级别的特征文字;将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;

返回所述将所述当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图的步骤。

可选地,在将拼接后的语音识别信息确定为待拼接语音识别信息进行保存后,所述方法还包括:

若在第一预设时长达到时,未获得待识别语音信息,则对已保存的待拼接语音识别信息进行语义解析,获得语义解析结果;

向用户输出预设的与所述语义解析结果对应的服务提示语音信息。

可选地,在将拼接后的语音识别信息确定为待拼接语音识别信息进行保存后,所述方法还包括:

若在第一预设时长达到时,未获得待识别语音信息,则向用户输出语音识别失败提示语音信息。

可选地,所述电子设备为智能设备;

所述获得待识别语音信息的步骤,包括:

实时检测语音信息;

在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息。

可选地,所述电子设备为与智能设备通信连接的云端服务器;

所述获得待识别语音信息的步骤,包括:接收所述智能设备发送的待识别语音信息;所述智能设备发送的待识别语音信息为:所述智能设备在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息后发送至所述云端服务器的。

本发明实施例还提供了一种语音识别装置,应用于电子设备,所述装置包括:

获取模块,用于获得待识别语音信息;

识别模块,用于对所述待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;

第一判断模块,用于判断是否存在已保存的待拼接语音识别信息;

拼接模块,用于当所述判断模块的判断结果为存在时,对所述待拼接语音识别信息和所述当前语音识别信息进行拼接,得到拼接后的语音识别信息;

第一确定模块,用于确定所述拼接后的语音识别信息是否有完整的语义;

第二确定模块,用于当所述第一确定模块的确定结果为是时,则将所述拼接后的语音识别信息确定为语音识别结果;

第三确定模块,用于当所述第一确定模块的确定结果为否时,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并触发所述获取模块。

可选地,所述装置还包括:

第二判断模块,用于当所述第一判断模块判断出不存在已保存的语音识别信息时,则判断当前语音识别信息是否有完整的语义;

第四确定模块,用于当所述第二判断模块的判断结果为有时,则将当前语音识别信息确定为语音识别结果;

第五确定模块,用于当所述第二判断模块的判断结果为没有时,则将当前语音识别信息确定为待拼接语音识别信息进行保存,并触发所述获取模块。

可选地,所述第一确定模块,包括:

解析单元,用于对所述拼接后的语音识别信息进行语义解析,获得语义解析结果;

匹配单元,用于将所述语义解析信息与预设的意图库中存储的意图进行匹配,获得用户意图;

获取单元,用于从所述意图库中获得所述用户意图对应的响应信息;

判断单元,用于判断所述响应信息是否为不能提供服务的提示信息;

第一确定单元,用于当判断单元的判断出所述响应信息是不能提供服务的提示信息时,则确定所述拼接后的语音识别信息没有完整的语义;

第二确定单元,用于当判断单元的判断出所述响应信息不是不能提供服务的提示信息,则确定所述拼接后的语音识别信息有完整的语义。

可选地,所述的意图库为树形结构意图库;

所述解析单元,具体用于按预设规则,从所述语音识别信息中提取多段特征文字,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应;

所述匹配单元,包括:

第一确定子单元,用于将第一级别对应的特征文字确定为当前级别的特征文字;

第二确定子单元,用于将所述树形结构意图库中第一级别的所有意图确定为候选意图;

匹配子单元,用于将所述当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图;

判断子单元,用于判断是否所有特征文字匹配完成;

第三确定子单元,用于当所述判断子单元的判断结果为是时,则将当前意图确定为用户意图;

第四确定子单元,用于当所述判断子单元的判断结果为否时,则将下一级别对应的特征文字确定为当前级别的特征文字;将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;触发所述匹配子单元。

可选地,所述装置还包括:

解析模块,用于若在第一预设时长达到时,未获得待识别语音信息,则对已保存的待拼接语音识别信息进行语义解析,获得语义解析结果;

第一输出模块,用于向用户输出预设的与所述语义解析结果对应的服务提示语音信息。

可选地,所述装置还包括:

第二输出模块,用于若在第一预设时长达到时,未获得待识别语音信息,则向用户输出语音识别失败提示语音信息。

可选地,所述电子设备为智能设备;

所述获取模块,包括:

检测单元,用于实时检测语音信息;

第三确定单元,用于在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息。

可选地,所述电子设备为与智能设备通信连接的云端服务器;

所述获取模块,具体用于接收所述智能设备发送的待识别语音信息;所述智能设备发送的待识别语音信息为:所述智能设备在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息后发送至所述云端服务器的。

本发明实施例还提供了一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行所述的语音识别方法。

本发明实施例提供的一种语音识别方法、装置及电子设备,获得待识别语音信息;对待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;判断是否存在已保存的待拼接语音识别信息;如果存在,对待拼接语音识别信息和当前语音识别信息进行拼接,得到拼接后的语音识别信息;确定拼接后的语音识别信息是否有完整的语义;如果是,则将拼接后的语音识别信息确定为语音识别结果;如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续获得待识别语音信息。

本发明实施例中,通过对不存在已保存的待拼接语音识别信息情况下的当前语音识别信息进行判断是否有完整的语义,以及对已保存的待拼接语音识别信息和当前语音识别信息进行拼接得到拼接后的语音识别信息,并判断其是否有完整的语义。如果没有,则继续获得语音信息进而继续对语音识别信息再次进行拼接,直至得到完整的语义为止;本发明实施例保证了识别出的语义的完整性,提高了不连贯语音的语音识别效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的语音识别方法的流程图;

图2为本发明实施例提供的确定拼接后的语音识别信息是否有完整的语义的流程图;

图3为本发明实施例提供的语音识别装置的结构示意图;

图4为本发明实施例提供的第一确定模块的结构示意图;

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为达到上述目的,本发明实施例提供了一种语音识别方法,该方法可以应用于电子设备,该电子设备可以为智能设备,也可以为与智能设备通信连接的云端服务器。本发明实施例中,智能设备可以是智能手机、智能音箱、智能机器人或智能平板电脑等带有语音识别功能的设备。

图1为本发明实施例提供的语音识别方法的流程图,该方法包括:

s110,获得待识别语音信息。

本实施例中,语音信息为包含用户发出语音的语音信息。

具体地,电子设备可监听其周围的声音,获取相应的语音信息并将其作为待识别语音信息。

在本发明实施例的一种具体实现方式中,当电子设备为智能设备时,步骤s110可以包括:

a1、实时检测语音信息。

a2、在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息。

具体地,智能设备监控到用户的唤醒语音(包含预设的用于唤醒智能设备的唤醒词的语音)被激活以后,实时检测周围的语音信息。设初始时刻周围的声音的音量较小,此时处于静音状态,当突然检测到声音的音量大与某一个预设值的时候,则可确定当前有用户输入语音信息,此时进入语音阶段,智能设备采集语音阶段的语音信息。经过一段时间的语音后,声音的音量小于预设值,语音再次进入静音阶段,当进入静音阶段达到第二预设时长时,将用户输入的语音信息(即智能设备采集到的语音信息)确定为待识别语音信息。本实施例中,第二预设时长可自由设定,第二预设时长优选优选为500毫秒。

在本发明实施例的另一种具体实现方式中,当电子设备为与智能设备通信连接的云端服务器时,步骤s110可以包括:

接收所述智能设备发送的待识别语音信息;所述智能设备发送的待识别语音信息为:所述智能设备在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息后发送至所述云端服务器的。

具体地,当智能设备在检测到声音的音量大与某一个预设值的时候,开始获取语音信息,经过一段时间的语音后,声音的音量小于预设值,语音再次进入静音阶段,且静音达到第二预设时长时,智能设备停止获取语音信息,并将已经获取的语音信息确定为待识别语音信息后,将其发送给云端服务器,云端服务器接收智能设备发送的待识别语音信息。

s120,对所述待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息。

具体地,在获取了待识别语音信息后,电子设备对其进行语音识别,得到该待识别语音信息对应的语音识别信息(由于待识别语音信息可以为任一时间段的待识别语音信息,而并非为电子设备接收到的第一个待识别语音信息,因此,可将得到的语音识别信息定义为当前语音识别信息)。本实施例中,语音识别的具体过程为现有技术此处不再赘述。

s130,判断是否存在已保存的待拼接语音识别信息;如果存在,执行步骤s140;如果不存在,执行步骤s180。

s140,对所述待拼接语音识别信息和所述当前语音识别信息进行拼接,得到拼接后的语音识别信息。

本实施例中,所谓待拼接语音识别信息指的是没有完整语义的语音识别信息,仍需要进一步的拼接语音识别信息方能达到完整的语义。

具体地,当电子设备获得当前语音识别信息后,判断是否存在已保存的待拼接语音识别信息,如果存在,说明用户发出的语音是不连贯的,且当前语音识别信息不是电子设备接收到的第一个语音识别信息,需要与之前的已保存的待拼接语音识别信息进一步的拼接,得到拼接后的语音识别信息。

举例而言,当用户发送的语音为“我想听…那个…”的时候,令当前的语音识别信息为“那个”,则语意词为“嗯”,待拼接语音识别信息为“我想听”,则得到的拼接后的语音识别信息为“我想听+那个”。

具体地,如果不存在已保存的待拼接语音识别信息,说明当前语音识别信息是电子设备接收到的第一个语音识别信息,则执行步骤s180。

s150,确定所述拼接后的语音识别信息是否有完整的语义。如果是,执行步骤s160;如果否,执行步骤s170。

s160,将所述拼接后的语音识别信息确定为语音识别结果。

s170,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续执行所述步骤s110。

具体地,电子设备在得到的拼接后的语音识别信息,确定其是否有完整的意义,如果有完整的语义,则识别过程成功,将拼接后的语音识别信息确定为语音识别结果。如果没有完整的语义,则将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续等待并获取下一个到达的待识别语音信息,从而保证了用户发出的语音完整的被电子设备获取到,提高了不连贯语音的语音识别效果。

s180,若判断出不存在已保存的语音识别信息,则判断当前语音识别信息是否有完整的语义。如果有,执行步骤s190;如果没有,执行步骤s1100。

s190,将当前语音识别信息确定为语音识别结果。

s1100,将当前语音识别信息确定为待拼接语音识别信息进行保存,并继续执行所述步骤s110。

具体地,如果不存在已保存的待拼接语音识别信息,说明当前语音识别信息是电子设备接收到的第一个语音识别信息,则直接判断当前语音识别信息是否有完整的语义。如果有完整的语义,则表明用户当前发出的语音是连贯的,则将当前语音识别信息确定为语音识别结果。如果有完整的语义,则表明用户当前发出的语音是不连贯的,当前语音识别信息确定为待拼接语音识别信息进行保存,并继续等待并获取下一个到达的待识别语音信息,进一步保证了用户发出的语音完整的被电子设备获取到,提高了不连贯语音的语音识别效果。

本发明实施例提供的语音识别方法,获得待识别语音信息;对待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;判断是否存在已保存的待拼接语音识别信息;如果存在,对待拼接语音识别信息和当前语音识别信息进行拼接,得到拼接后的语音识别信息;确定拼接后的语音识别信息是否有完整的语义;如果是,则将拼接后的语音识别信息确定为语音识别结果;如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续获得待识别语音信息。

本发明实施例中,通过对不存在已保存的待拼接语音识别信息情况下的当前语音识别信息进行判断是否有完整的语义,以及对已保存的待拼接语音识别信息和当前语音识别信息进行拼接得到拼接后的语音识别信息,并判断其是否有完整的语义。如果没有,则继续获得语音信息进而继续对语音识别信息再次进行拼接,直至得到完整的语义为止;本发明实施例保证了识别出的语意的完整性,提高了不连贯语音的语音识别效果。

在本发明实施例的一种具体实现方式中,步骤s150可包括如下步骤:

b1、对所述拼接后的语音识别信息进行语义解析,获得语义解析结果。

b2、将所述语义解析信息与预设的意图库中存储的意图进行匹配,获得用户意图。

b3、从所述意图库中获得所述用户意图对应的响应信息。

b4、判断所述响应信息是否为不能提供服务的提示信息;如果所述响应信息是不能提供服务的提示信息,则执行步骤b5;如果所述响应信息不是不能提供服务的提示信息,则执行步骤b6。

b5、确定所述拼接后的语音识别信息没有完整的语义。

b6、确定所述拼接后的语音识别信息有完整的语义。

本实施例中,通过将所述语义解析结果与预设的意图库中存储的意图进行匹配获得用户意图,并从所述意图库中获得所述用户意图对应的响应信息,判断所述响应信息是否为不能提供服务的提示信息,从而确定语音识别信息是否有完整语义。本实施例可使确定语音识别信息是否有完整语义的过程更加易于实现。

为了对上述步骤s150进一步解释,步骤s150可包括如图2所示的步骤。图2为本发明实施例提供的确定所述拼接后的语音识别信息是否有完整的语义的流程图。其中,步骤b1与步骤s210对应,步骤b2与步骤s220~步骤s270对应,步骤b3与步骤s280对应,步骤b4与步骤s290对应,步骤b5与步骤s2100对应,步骤b6与步骤s2110对应。

s210,按预设规则,从所述语音识别信息中提取多段特征文字,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应。

具体地,可将该语音识别信息输入预设的特征文字提取模型,获得特征文字提取模型输出的各个级别的多段特征文字。

其中,特征文字提取模型,用于对所述语音识别信息进行语义解析,获得与树形结构意图库中各个级别对应的特征文字。本实施例中,树形结构意图库中的所有级别可以只对应一个总的特征文字提取模型。在输入时,将语音识别结果输入该总的特征文字提取模型,获得该总的特征文字提取模型输出的各个级别的多段特征文字。

s220,将第一级别对应的特征文字确定为当前级别的特征文字。

s230,将所述树形结构意图库中第一级别的所有意图确定为候选意图;

具体地,在匹配时,从第一级别的特征文字与树形结构意图库中第一级别的所有意图的匹配开始执行,然后将第二级别的特征文字与树形结构意图库中匹配成功的第二级别的所有意图进行匹配,将第三级别的特征文字与树形结构意图库中匹配成功的第三级别的所有意图进行匹配,依此规律逐级执行匹配过程,直至所有级别的特征文字匹配完成。

s240,将所述当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图。

具体地,获得当前意图时,可以直接将匹配成功的候选意图作为当前意图。可以理解的是,当前意图为本次匹配成功的候选意图以及在本次匹配之前所有匹配成功的各级别意图共同构成的意图。

s250,判断是否所有特征文字匹配完成;若是,则执行步骤s260;若否,则执行步骤s270。

s260,将当前意图确定为用户意图;

s270,将下一级别对应的特征文字确定为当前级别的特征文字;将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;返回步骤s240。

可以理解的是,当所有特征文字均匹配完成时,当前意图即构成了最终确定的用户意图。

具体地,所述意图库中包含所有意图和响应信息的对应关系,电子设备将所述语义解析结果与预设的意图库中存储的意图进行匹配,获得用户意图。当电子设备获得了用户意图,就知道用户需要怎样的服务,从而根据意图和响应信息的对应关系,也就是意图与提供服务的对应关系,来为用户提供相应的服务,或输出相应的响应信息。响应信息中包括:与用户意图对应的服务响应信息,以及用户意图不完整而确定的不能提供服务的提示信息。例如:获得的用户意图为“我想”,则获得的响应信息可以是“对不起,指令不完整无法提供服务”等类似的提示信息。

s280,从所述意图库中获得所述用户意图对应的响应信息。

s290,判断所述响应信息是否为不能提供服务的提示信息;如果所述响应信息是不能提供服务的提示信息,则执行步骤s2100;如果所述响应信息不是不能提供服务的提示信息,则执行步骤s2110。

s2100,确定所述拼接后的语音识别信息没有完整的语义;

s2110,确定所述拼接后的语音识别信息有完整的语义。

具体地,在获得了用户意图后,电子设备可从意图库中获得该用户意图对应的响应信息。判断该响应信息是否为不能提供服务的提示信息,如果所述响应信息是不能提供服务的提示信息,则确定所述拼接后的语音识别信息没有完整的语义;如果所述响应信息不是不能提供服务的提示信息,则确定所述拼接后的语音识别信息有完整的语义。

可选地,当用户长时间犹豫不决,不能想到请求的服务内容时,电子设备还可以带有提醒功能,因此,在将拼接后的语音识别信息确定为待拼接语音识别信息进行保存后,所述方法还包括:

若在第一预设时长达到时,未获得待识别语音信息,则对已保存的待拼接语音识别信息进行语义解析,获得语义解析结果;向用户输出预设的与所述语义解析结果对应的服务提示语音信息。

本实施例中,第一预设时长可以用于表示从用户发出语音信息的开始时刻到当前时刻之间的时间长度的衡量标准。当从用户发出语音信息的开始时刻到当前时刻的时间长度大于第一预设时长时,电子设备未获得待识别语音信息,则说明用户为了想说一句完整的话而犹豫了较长的时间。例如,用户发出的语音信息为“我想听…那个…嗯……”,则此时的第一预设时长可以表示从“我想听”的开始时刻到“恩”之后时刻(即当前时刻)的衡量标准。

另外,第一预设时长还可以用于表示用户从上一次发出语音信息的时刻到当前时刻之间的时间长度的衡量标准。当用户从上一次发出语音信息的时刻到当前时刻之间的时间长度大于第一预设时长时,电子设备未获得待识别语音信息,说明用户为了想说一句话中的部分词而犹豫了较长的时间。例如,用户发出的语音信息为“我想听…那个…嗯……”,则此时的第一预设时长可以表示从用户发出“恩”的开始时刻到之后时刻(即当前时刻)的时间长度的衡量标准。

第一预设时长可以自由设定,第一预设时长越长说明服务器可等待用户的犹豫的时间越长。优选地,第一预设时长可以为4秒。

具体地,当电子设备在第一预设时长达到时,未获得待识别语音信息,此时电子设备可能已保存过待拼接语音识别信息,说明用户并没有说完一句完整的话或没有说出一句可被识别为有完整语义的话,电子设备无法做出针对性的处理响应,则电子设备对已保存的待拼接语音识别信息进行语义解析获得语义解析结果,并向用户输出预设的与所述语义解析结果对应的服务提示语音信息。

举例而言,电子设备中可以预设关于“我想听”的服务提示语音信息,该服务提示语音信息可以为“您是想听歌吗,请您这样告诉我‘我想听忘情水’”,当用户发出的语音为“我想听…那个…嗯……”,电子设备得到的待拼接语音识别信息为“我想听+那个+嗯”,当电子设备在第一预设时长达到时,未获得待识别语音信息会向用户输出上述服务提示语音信息。

本实施例中,当用户长时间犹豫不决时,电子设备还可以带有服务提示功能,增加了电子设备的智能性,提高了用户的体验。

可选地,在将拼接后的语音识别信息确定为待拼接语音识别信息进行保存后,所述方法还包括:

若在第一预设时长达到时,未获得待识别语音信息,则向用户输出语音识别失败提示语音信息。

具体地,当电子设备在第一预设时长达到时,未获得待识别语音信息,此时用户很长时间无法说出具体的服务内容,可能的由于想不到具体的服务内容而不会再继续发出语音,电子设备也无需继续等待可能到来的待识别语音信息的,则电子设备向用户输出语音识别失败提示语音信息。举例而言,语音识别失败提示语音信息可以为“对不起,我没听懂”。

进一步的,为了节省能耗,电子设备在向用户输出语音识别失败提示语音信息后还可以进入低功耗待机状态。

本实施例中,电子设备还可以带有输出语音识别失败提示语音信息的功能,增加了电子设备的智能性,提高了用户的体验。

需要说明的是,在确定了语音识别结果后,电子设备可以对语音识别结果进行语义解析,根据语义解析确定为用户提供对应的服务。

举例而言,若电子设备为智能设备,在确定了语音识别结果后,智能设备可以对语音识别结果进行语义解析,根据语义解析确定为用户提供对应的服务。假设解析结果是播放智能设备中音频的指令,则执行该指令,播放相应的音频。

再例如:若电子设备为与智能设备通信连接的云端服务器,在确定了语音识别结果后,云端服务器可以对语音识别结果进行语义解析,根据语义解析确定为用户提供对应的服务。假设解析结果是播放云端服务器中音频的指令,则执行该指令,将相应的音频发送至所述智能设备进行播放。

与方法实施例相对应的,本发明还提供了一种语音识别装置,该装置可应用于电子设备。图3为本发明实施例提供的语音识别装置的结构示意图,该装置包括:

获取模块310,用于获得待识别语音信息;

识别模块320,用于对所述待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;

第一判断模块330,用于判断是否存在已保存的待拼接语音识别信息;

拼接模块340,用于当所述第一判断模块330的判断结果为存在时,对所述待拼接语音识别信息和所述当前语音识别信息进行拼接,得到拼接后的语音识别信息;

第一确定模块350,用于确定所述拼接后的语音识别信息是否有完整的语义;

第二确定模块360,用于当所述第一确定模块350的确定结果为是时,则将所述拼接后的语音识别信息确定为语音识别结果;

第三确定模块370,用于当所述第一确定模块350的确定结果为否时,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并触发所述获取模块310。

本发明实施例提供的语音识别装置,获得待识别语音信息;对待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;判断是否存在已保存的待拼接语音识别信息;如果存在,对待拼接语音识别信息和当前语音识别信息进行拼接,得到拼接后的语音识别信息;确定拼接后的语音识别信息是否有完整的语义;如果是,则将拼接后的语音识别信息确定为语音识别结果;如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续获得待识别语音信息。

本发明实施例中,通过对不存在已保存的待拼接语音识别信息情况下的当前语音识别信息进行判断是否有完整的语义,以及对已保存的待拼接语音识别信息和当前语音识别信息进行拼接得到拼接后的语音识别信息,并判断其是否有完整的语义。如果没有,则继续获得语音信息进而继续对语音识别信息再次进行拼接,直至得到完整的语义为止;本发明实施例保证了识别出的语意的完整性,提高了不连贯语音的语音识别效果。

进一步地,所述装置还包括:

第二判断模块380,用于当所述第一判断模块370判断出不存在已保存的语音识别信息时,则判断当前语音识别信息是否有完整的语义;

第四确定模块390,用于当所述第二判断模块380的判断结果为有时,则将当前语音识别信息确定为语音识别结果;

第五确定模块3100,用于当所述第二判断模块380的判断结果为没有时,则将当前语音识别信息确定为待拼接语音识别信息进行保存,并触发所述获取模块310。

图4为本发明实施例提供的第一确定模块的结构示意图,所述第一确定模块350,包括:

解析单元351,用于对所述拼接后的语音识别信息进行语义解析,获得语义解析结果;

匹配单元352,用于将所述语义解析信息与预设的意图库中存储的意图进行匹配,获得用户意图;

获取单元352,用于从所述意图库中获得所述用户意图对应的响应信息;

判断单元354,用于判断所述响应信息是否为不能提供服务的提示信息;

第一确定单元355,用于当判断单元的判断出所述响应信息是不能提供服务的提示信息时,则确定所述拼接后的语音识别信息没有完整的语义;

第二确定单元356,用于当判断单元的判断出所述响应信息不是不能提供服务的提示信息,则确定所述拼接后的语音识别信息有完整的语义。

本实施例中,通过将所述语义解析结果与预设的意图库中存储的意图进行匹配获得用户意图,并从所述意图库中获得所述用户意图对应的响应信息,判断所述响应信息是否为不能提供服务的提示信息,从而确定语音识别信息是否有完整语义。本实施例可使确定语音识别信息是否有完整语义的过程更加易于实现。

进一步地,所述的意图库为树形结构意图库;

所述解析单元351,具体用于按预设规则,从所述语音识别信息中提取多段特征文字,其中各段特征文字与预设的树形结构意图库中的各个级别一一对应;

所述匹配单元352,包括:

第一确定子单元3521,用于将第一级别对应的特征文字确定为当前级别的特征文字;

第二确定子单元3522,用于将所述树形结构意图库中第一级别的所有意图确定为候选意图;

匹配子单元3523,用于将所述当前级别的特征文字与所述各个候选意图进行匹配,获得当前意图;

判断子单元3524,用于判断是否所有特征文字匹配完成;

第三确定子单元3525,用于当所述判断子单元的判断结果为是时,则将当前意图确定为用户意图;

第四确定子单元3526,用于当所述判断子单元的判断结果为否时,则将下一级别对应的特征文字确定为当前级别的特征文字;将所述树形结构意图库中当前意图对应的下一级别的所有意图确定为候选意图;触发所述匹配子单元3523。

进一步地,所述装置还包括:第三判断模块3110,用于判断在第一预设时长达到时,是否获得待识别语音信息;

解析模块3120,用于当所述第三判断模块判断出在第一预设时长达到时,未获得待识别语音信息时,则对已保存的待拼接语音识别信息进行语义解析,获得语义解析结果;

第一输出模块,用于向用户输出预设的与所述语义解析结果对应的服务提示语音信息。

进一步地,所述装置还包括:

第二输出模块,用于若在第一预设时长达到时,未获得待识别语音信息,则向用户输出语音识别失败提示语音信息。

进一步地,所述电子设备为智能设备;

所述获取模块,包括:

检测单元,用于实时检测语音信息;

第三确定单元,用于在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息。

进一步地,所述电子设备为与智能设备通信连接的云端服务器;

所述获取模块,具体用于接收所述智能设备发送的待识别语音信息;所述智能设备发送的待识别语音信息为:所述智能设备在检测到用户输入语音信息后,当静音时长达到第二预设时长时,将用户输入的语音信息确定为待识别语音信息后发送至所述云端服务器的。

与上述方法实施例相对应的,本发明实施例还提供了一种电子设备。图5为本发明实施例提供的电子设备的结构示意图,所述电子设备包括:

壳体510、处理器520、存储器530、电路板540和电源电路550,其中,电路板540安置在壳体510围成的空间内部,处理器520和存储器530设置在电路板540上;电源电路550,用于为电子设备的各个电路或器件供电;存储器530用于存储可执行程序代码;处理器520通过读取存储器530中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行上述方法实施例中所述的语音识别方法。

一种实现方式中,上述语音识别方法可以包括:

获得待识别语音信息;

对所述待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;

判断是否存在已保存的待拼接语音识别信息;

如果存在,对所述待拼接语音识别信息和所述当前语音识别信息进行拼接,得到拼接后的语音识别信息;

确定所述拼接后的语音识别信息是否有完整的语义;

如果是,则将所述拼接后的语音识别信息确定为语音识别结果;

如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续执行所述获得待识别语音信息的步骤。

上述语音识别方法的其他实现方式参见前述方法实施例部分的说明,这里不再赘述。

处理器520对上述步骤及上述语音信号处理方法的其他实现方式的具体执行过程以及处理器520通过运行可执行程序代码来进一步执行的过程,可以参见本发明实施例中图1至图4所示实施例的描述,在此不再赘述。

需要说明的是,该电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

可见,本发明实施例所提供的方案中,电子设备的处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,获得待识别语音信息;对待识别语音信息进行识别,获得该待识别语音信息对应的当前语音识别信息;判断是否存在已保存的待拼接语音识别信息;如果存在,对待拼接语音识别信息和当前语音识别信息进行拼接,得到拼接后的语音识别信息;确定拼接后的语音识别信息是否有完整的语义;如果是,则将拼接后的语音识别信息确定为语音识别结果;如果否,将拼接后的语音识别信息确定为待拼接语音识别信息进行保存,并继续获得待识别语音信息。

本发明实施例中,通过对不存在已保存的待拼接语音识别信息情况下的当前语音识别信息进行判断是否有完整的语义,以及对已保存的待拼接语音识别信息和当前语音识别信息进行拼接得到拼接后的语音识别信息,并判断其是否有完整的语义。如果没有,则继续获得语音信息进而继续对语音识别信息再次进行拼接,直至得到完整的语义为止;本发明实施例保证了识别出的语意的完整性,提高了不连贯语音的语音识别效果。

对于电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1