智能语音系统及其语音唤醒方法及智能语音设备与流程

文档序号:16929235发布日期:2019-02-22 20:07阅读:388来源:国知局
智能语音系统及其语音唤醒方法及智能语音设备与流程

本发明涉及语音识别技术领域,特别是涉及一种基于智能语音系统的语音唤醒方法。本发明还涉及一种智能语音设备、云端服务器及智能语音系统。



背景技术:

语音机器人是能够通过用户的语音指令进行控制的机器人,语音机器人在进行使用时,需要首先唤醒系统内部的语音服务,唤醒后才能够正常的进行语音控制。现有的语音机器人可以分为以下两种:

1、智能语音机器人,使用linux或者android系统,具备语音唤醒功能,比如天猫精灵,但是由于语音唤醒算法需要语音机器人的处理器具备较大的运算能力和ram资源,而高性能的处理器成本也高,因此目前能够进行语音唤醒的语音机器人均需要设置有高成本的处理器。

2、低成本的语音机器人,使用mcu系统,具备很低的硬件成本,但是由于低成本的处理器的运算能力较低,因此不具备语音唤醒功能。

因此,如何实现低成本的智能语音唤醒服务是本领域技术人员目前需要解决的问题。



技术实现要素:

本发明的目的是提供一种基于智能语音系统的语音唤醒方法,通过将语音唤醒算法转移至云端进行,来降低本地服务器的性能需求,从而降低具有语音唤醒功能的智能语音设备的成本;本发明的另一目的是提供一种基于上述方法的智能语音设备、云端服务器及智能语音系统。

为解决上述技术问题,本发明提供了一种基于智能语音系统的语音唤醒方法,用于智能语音设备,所述智能语音系统包括所述智能语音设备以及云端服务器;所述方法包括:

采集外部语音,得到音频数据;

将所述音频数据发送至云端服务器进行语音识别;

接收所述云端服务器返回的识别结果,若结果为识别成功,则控制唤醒自身的智能语音服务。

优选的,所述采集外部音频数据之前,还包括:

检测外部语音的音量是否大于预设音量阈值,若是,则采集所述外部语音,得到所述音频数据。

为解决上述技术问题,本发明还提供了一种基于智能语音系统的语音唤醒方法,用于云端服务器,所述智能语音系统包括智能语音设备以及所述云端服务器;所述方法包括:

接收所述智能语音设备采集的音频数据;

对所述音频数据进行语音识别,得到识别结果;

返回所述识别结果至所述智能语音设备,供所述智能语音设备在识别成功时控制唤醒自身的智能语音服务。

优选的,所述对所述音频数据进行语音识别的过程具体包括:

将所述音频数据进行语音-文字转换,得到转换后的文字数据;

将所述文字数据转换为拼音数据;

将所述拼音数据与预设唤醒拼音进行模糊匹配,并将匹配结果作为语音识别结果。

优选的,所述模糊匹配的过程包括:

判断所述拼音数据与所述预设唤醒拼音的相似度是否达到预设相似阈值,若达到,则匹配结果为成功,若未达到,则匹配结果为失败。

为解决上述技术问题,本发明还提供了一种智能语音设备,包括:

音频采集模块,用于采集外部语音,得到音频数据;

云端通信模块,用于将所述音频数据发送至云端服务器进行语音识别;接收所述云端服务器返回的识别结果;

唤醒模块,用于判断识别结果是否为失败成功,若是,则控制唤醒智能语音设备的智能语音服务。

优选的,还包括:

音量检测模块,用于检测外部语音的音量是否大于预设音量阈值,若是,则触发所述音频采集模块。

为解决上述技术问题,本发明还提供了一种云端服务器,包括:

音频接收模块,用于接收智能语音设备采集的音频数据;

语音识别模块,用于对所述音频数据进行语音识别,得到识别结果;

结果返回模块,用于返回所述识别结果至所述智能语音设备,供所述智能语音设备在识别成功时控制唤醒自身的智能语音服务。

优选的,所述语音识别模块具体包括:

文本转换单元,用于将所述音频数据进行语音-文字转换,得到转换后的文字数据;

拼音转换单元,用于将所述文字数据转换为拼音数据;

模糊匹配单元,用于将所述拼音数据与预设唤醒拼音进行模糊匹配,并将匹配结果作为语音识别结果。

为解决上述技术问题,本发明还提供了一种智能语音系统,包括智能语音设备以及云端服务器;

所述智能语音设备包括:第一存储器,用于存储计算机程序;

第一处理器,用于执行所述第一存储器存储的计算机程序时实现如以上任一项所述的用于智能语音设备的语音唤醒方法的步骤;

所述云端服务器包括:第二存储器,用于存储计算机程序;

第二处理器,用于执行所述第二存储器存储的计算机程序时实现如以上任一项所述的用于云端服务器的语音唤醒方法的步骤。

本发明提供了一种基于智能语音系统的语音唤醒方法,该方法中智能语音设备采集到外部的音频数据后,并未在本地进行处理,而是将音频数据发送至云端服务器进行语音识别,之后接收云端服务器返回的识别结果,依据语音识别结果是否成功来判断是否唤醒自身的智能语音服务。可以理解的是,由于智能语音唤醒算法即语音唤醒过程中的语音识别算法需要处理器具备较高的性能,因此本发明将这部分运算发送至云端服务器进行处理,故本地的智能语音设备内不需要承担这部分运算,从而使得即使智能语音设备内的处理器性能较低,也能够实现语音唤醒的目的。由此可见,本发明通过将语音唤醒算法转移至云端进行,降低了本地服务器的性能需求,使得智能语音设备可使用性能较低的处理器实现语音唤醒的目的,从而降低了具有语音唤醒功能的智能语音设备的成本。本发明还提供了一种基于上述方法的智能语音设备、云端服务器及智能语音系统,在此不再赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于智能语音系统的语音唤醒方法在智能语音设备一侧的过程的流程图;

图2为本发明提供的另一种基于智能语音系统的语音唤醒方法在智能语音设备一侧的过程的流程图;

图3为本发明提供的一种基于智能语音系统的语音唤醒方法在云端服务器一侧的过程的流程图;

图4为本发明提供的另一种基于智能语音系统的语音唤醒方法在云端服务器一侧的过程的流程图;

图5为本发明提供的一种基于智能语音系统的语音唤醒方法的过程的流程图;

图6为本发明提供的一种智能语音设备的结构示意图;

图7为本发明提供的一种云端服务器的结构示意图;

图8为本发明提供的一种智能语音系统的结构示意图。

具体实施方式

本发明的核心是提供一种基于智能语音系统的语音唤醒方法,通过将语音唤醒算法转移至云端进行,来降低本地服务器的性能需求,从而降低具有语音唤醒功能的智能语音设备的成本;本发明的另一核心是提供一种基于上述方法的智能语音设备、云端服务器及智能语音系统。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供了一种基于智能语音系统的语音唤醒方法,用于智能语音设备,智能语音系统包括智能语音设备以及云端服务器。参见图1所示,图1为本发明提供的一种基于智能语音系统的语音唤醒方法在智能语音设备一侧的过程的流程图。该方法包括:

步骤s11:采集外部语音,得到音频数据;

语音唤醒,显然需要首先接收用户说出的语音指令,用户一般需要靠近麦克风说出指定的唤醒词,之后由智能语音设备采集用户说出的唤醒词,得到音频数据,然后供后续判断该音频数据是否符合预设唤醒词,进而确定是否进行唤醒操作。

步骤s12:将音频数据发送至云端服务器进行语音识别;

可以理解的是,在语音唤醒过程中,语音唤醒算法主要是由语音识别部分组成的,由于这部分运算量较大,因此需要由性能较高的处理器来运行,导致处理器的成本较高。而本发明将该部分语音识别操作,从原本由本地处理器处理转移至了由远程的云端服务器处理,从而降低了本地处理器所需的性能,进而降低了本地处理器(即智能语音设备内的处理器)的成本,使得智能语音设备能够依据成本较低的低性能处理器来实现语音唤醒的操作。并且,为了实现上述目的,用户需要预先设定一个唤醒词保存至云端服务器内,用于供后续进行唤醒词的比对。

步骤s13:接收云端服务器返回的识别结果,若结果为识别成功,则控制唤醒自身的智能语音服务。

云端服务器完成语音识别后,会将识别结果发送至智能语音设备。这里的语音识别主要是判断用户说出的唤醒词是否满足预设唤醒词,若满足,则识别成功,之后智能语音设备控制自身智能语音服务唤醒,若不满足,则识别失败,此时智能语音设备无法唤醒自身智能语音服务。

另外,本发明中预设唤醒词可以依据自身需求进行设定,并且可以在后续通过登录云端服务器来对预设唤醒词进行修改或找回,从而方便用户遗忘或者存在其他需求后实现对预设唤醒词的调整,提高了用户的便利性。

作为优选的,参见图2所示,图2为本发明提供的另一种基于智能语音系统的语音唤醒方法在智能语音设备一侧的过程的流程图。

步骤s11之前,还包括:

步骤s10:检测外部语音的音量是否大于预设音量阈值,若是,则采集外部语音,得到音频数据。若不是,则继续检测外部语音的音量。

可以理解的是,由于外界总是存在各种各样的噪声,这些噪声并不属于用户对智能语音设备说出的语音指令,若是将这些噪声也进行采集,并且进行语音识别的话,会使得智能语音设备本地的处理器以及云端服务器的工作量均非常大,从而导致智能语音设备以及云端服务器的功耗高。为了降低功耗,本实施例首先对麦克风检测到的外部语音进行了初步的筛查,来滤除绝大多数的非用户语音指令。具体原理是:由于用户在说出语音指令时,一般会距离麦克风很近,因此,在用户说出语音指令时,麦克风采集到的外部语音的音量会很大,而外界的噪声由于通常距离麦克风都很远,因此一般音量都较低。故通过判断检测到的外部语音的音量是否超出了预设音量阈值,即可初步判断该外部语音属于纯噪声还是属于用户语音指令,从而初步实现语音筛查,将大部分纯粹由噪声组成的外部语音筛查出去,从而大大减小智能语音设备以及云端服务器的工作量,降低两者的功耗。

另外,由于外界环境十分复杂,因此用户在说出语音指令时周围通常包含各种各样的声音,这些声音也会有部分被智能语音设备采集,使得智能语音设备采集到的音频数据通常是包含噪声的,而这些噪声会给后续的语音识别带来影响,导致后续语音识别容易出现误差,影响语音识别的准确性。

因此,为了尽可能减小外界噪声的影响,在智能语音设备采集得到音频数据后,优选首先对该音频数据进行滤波操作和/或关键词提取操作,然后将操作后得到的音频数据发送至云端服务器进行语音识别。即在某些实施例中,可以仅对音频数据进行滤除杂波的操作;或者,也可以仅对音频数据进行关键词提取操作,即将音频数据内分贝最高的关键词进行提取,从而间接去掉那些音量较低的杂波噪声;在其他实施例中,也可既进行滤波又进行关键词提取,两者的顺序可以互换本发明不做限定。当然,本发明不限定具体的滤波算法以及关键词提取算法的具体内容,具体采用哪种方式去除音频数据内的噪声本发明也不做限定。

本发明提供了一种基于智能语音系统的语音唤醒方法,该方法中智能语音设备采集到外部的音频数据后,并未在本地进行处理,而是将音频数据发送至云端服务器进行语音识别,之后接收云端服务器返回的识别结果,依据语音识别结果是否成功来判断是否唤醒自身的智能语音服务。可以理解的是,由于智能语音唤醒算法即语音唤醒过程中的语音识别算法需要处理器具备较高的性能,因此本发明将这部分运算发送至云端服务器进行处理,故本地的智能语音设备内不需要承担这部分运算,从而使得即使智能语音设备内的处理器性能较低,也能够实现语音唤醒的目的。由此可见,本发明通过将语音唤醒算法转移至云端进行,降低了本地服务器的性能需求,使得智能语音设备可使用性能较低的处理器实现语音唤醒的目的,从而降低了具有语音唤醒功能的智能语音设备的成本。

本发明还提供了一种基于智能语音系统的语音唤醒方法,用于云端服务器,智能语音系统包括智能语音设备以及云端服务器;参见图3所示,图3为本发明提供的一种基于智能语音系统的语音唤醒方法在云端服务器一侧的过程的流程图。该方法包括:

步骤s21:接收智能语音设备采集的音频数据;

步骤s22:对音频数据进行语音识别,得到识别结果;

步骤s23:返回识别结果至智能语音设备,供智能语音设备在识别成功时控制唤醒自身的智能语音服务。

可以理解的是,步骤s21~步骤s23的过程与步骤s11~步骤s13的过程对应存在。

参见图4所示,图4为本发明提供的另一种基于智能语音系统的语音唤醒方法在云端服务器一侧的过程的流程图。在优选实施例中,步骤s22的过程具体包括:

步骤s221:将音频数据进行语音-文字转换,得到转换后的文字数据;

可以理解的是,由于每个人的发音特点不同(例如音调和发音习惯等),语音数据会带有非常多的特征信息,因此,若采用语音对比的方式进行语音识别的话,比对数据量会非常大。而将语音转换为文字后,由于文字比对相比语音比对来说,比对特征更少,故比对数据量更小。

步骤s222:将文字数据转换为拼音数据;

可以理解的是,由于中文中,许多词语的发音是相同或相近的,并且有些用户的发音可能不标准,因此经过语音-文字转换后,得到的文字数据很可能是与用户所说的发音相同但是文字不同的,例如,用户说的是“试试”,而转换后得到的是“事实”。由于音频数据被转换为了完全不同的文字内容,这种误差会严重影响语音识别的准确性。因此,为了避免上述情况,需要将文字转换为拼音。首先,由于拼音与文字一样也属于文本数据,因此,拼音比对相比语音比对也具有特征少、数据量小的优点;另外,拼音仅与用户发音有关,因此,采用拼音数据进行比,能够避免上述误差的发生,尽可能保证语音识别的准确性。

步骤s223:将拼音数据与预设唤醒拼音进行模糊匹配,并将匹配结果作为语音识别结果。

可以理解的是,由于用户发音习惯不同,因此,即使用户说出的语音是正确的,后续转换得到的拼音也可能与预设唤醒拼音不完全相同,因此,若将拼音数据与预设唤醒拼音精确匹配的话(精确匹配即要求匹配双方完全相同),则很多情况下会判断匹配失败,但这是不准确的。因此,本实施例采用模糊匹配的方式,只要拼音数据与预设唤醒拼音之间满足一定的关联性,即认为两者相同,从而提高了匹配成功率。

具体的,步骤s223中,模糊匹配的过程包括:

判断拼音数据与预设唤醒拼音的相似度是否达到预设相似阈值,若达到,则匹配结果为成功,若未达到,则匹配结果为失败。

可以理解的是,即使由于用户发音导致得到的拼音数据与预设拼音数据不完全相同,但是拼音数据与预设拼音数据也会有很大程度上是相同的,即两者的相似度达到一定程度,这是因为若两者相似度过低则表明用户发出的语音与唤醒词差距较大,此时通常表明用户发出的语音并不是所需要的唤醒词。因此,本实施例通过比较相似度是否达到预设相似阈值,来判断是否匹配成功,准确性较高。

参见图5所示,图5为本发明提供的一种基于智能语音系统的语音唤醒方法的过程的流程图,图5中综合了上述智能语音设备一侧以及云端服务器一侧的工作过程,为基于智能语音系统的完整的工作过程的流程图。该过程如下:

步骤s30:智能语音设备检测外部语音的音量是否大于预设音量阈值,若是,则采集外部语音,得到音频数据;若不是,则继续检测外部语音的音量。

步骤s31:智能语音设备采集外部语音,得到音频数据;

步骤s32:智能语音设备将音频数据发送至云端服务器进行语音识别;

步骤s33:云端服务器接收智能语音设备采集的音频数据;

步骤s34:云端服务器将音频数据进行语音-文字转换,得到转换后的文字数据;

步骤s35:云端服务器将文字数据转换为拼音数据;

步骤s36:云端服务器将拼音数据与预设唤醒拼音进行模糊匹配,并将匹配结果作为语音识别结果;

步骤s37:返回识别结果至智能语音设备,供智能语音设备在识别成功时控制唤醒自身的智能语音服务;

步骤s38:智能语音服务接收云端服务器返回的识别结果,若结果为识别成功,则控制唤醒自身的智能语音服务。

本发明还提供了一种智能语音设备,参见图6所示,图6为本发明提供的一种智能语音设备的结构示意图。该智能语音设备包括:

音频采集模块11,用于采集外部语音,得到音频数据;

云端通信模块12,用于将音频数据发送至云端服务器进行语音识别;接收云端服务器返回的识别结果;

唤醒模块13,用于判断识别结果是否为失败成功,若是,则控制唤醒智能语音设备的智能语音服务。

作为优选的,该智能语音设备还包括:

音量检测模块10,用于检测外部语音的音量是否大于预设音量阈值,若是,则触发音频采集模块11。

在优选实施例中,智能语音设备内可设置vbs7100系统,vbs7100系统包括两个芯片,语音处理芯片mx1200以及wifi芯片emw3080。其中,mx1200内集成有相应的算法用以实现音频采集模块11、唤醒模块13以及音量检测模块10的功能,emw3080内集成有相应的算法用以实现云端通信模块12的功能。当然,本发明并不限定智能语音设备内所使用的系统类型以及系统包含的芯片类型。

本发明还提供了一种云端服务器,参见图7所示,图7为本发明提供的一种云端服务器的结构示意图。云端服务器包括:

音频接收模块21,用于接收智能语音设备采集的音频数据;

语音识别模块22,用于对音频数据进行语音识别,得到识别结果;

结果返回模,23,用于返回识别结果至智能语音设备,供智能语音设备在识别成功时控制唤醒自身的智能语音服务。

作为优选的,语音识别模块22具体包括:

文本转换单元,用于将音频数据进行语音-文字转换,得到转换后的文字数据;

拼音转换单元,用于将文字数据转换为拼音数据;

模糊匹配单元,用于将拼音数据与预设唤醒拼音进行模糊匹配,并将匹配结果作为语音识别结果。

在一种具体实施例中,云端服务器可以包括asr(自动语音识别)服务器和文字匹配服务器。asr服务器内集成有相应的算法用以实现音频接收模块21以及文本转换单元的功能;文字匹配服务器内集成有相应的算法用以实现拼音转换单元、模糊匹配单元以及结果返回模块23的功能。由于这些功能分属于了两个不同的服务器内,因此,这两个服务器可采用以下两种方式实现完整的语音识别:

一种是,若asr服务器与文字匹配服务器能够直接建立连接,则asr服务器得到转换后的文字数据后,直接将转换后的文字数据直接发送至文字匹配服务器。

另一种是,若asr服务器与文字匹配服务器无法直接建立连接,则asr服务器得到转换后的文字数据后,首先将转换后的文字数据发送至智能语音设备内(若智能语音设备包括vbs7100系统,则asr服务器具体是将转换后的文字数据发送至emw3080内),之后由智能语音设备将转换后的文字数据转发至文字匹配服务器内(若智能语音设备包括vbs7100系统,则具体是由emw3080将转换后的文字数据发送至文字匹配服务器内)。

可以理解的是,上述实施例中采用两个服务器来实现语音识别的目的,是因为asr服务器具有较为成熟的语音-文字转换功能,可以直接拿来执行上述功能,从而减少了实现本发明时需要编写的程序数量以及服务器的设置操作,简化了云端服务器的构建过程。

当然,在其他实施例中,云端服务器也可仅包含一个服务器,上述功能全部由同一个服务器执行,这样不仅能够避免数据分散,并且减少了数据的传输过程,提高了语音识别的速度。

本发明还提供了一种智能语音系统,包括智能语音设备以及云端服务器;参见图8所示,图8为本发明提供的一种智能语音系统的结构示意图。

智能语音设备包括:第一存储器,用于存储计算机程序;

第一处理器,用于执行第一存储器存储的计算机程序时实现如以上任一项用于智能语音设备的语音唤醒方法的步骤;

云端服务器包括:第二存储器,用于存储计算机程序;

第二处理器,用于执行第二存储器存储的计算机程序时实现如以上任一项的用于云端服务器的语音唤醒方法的步骤。

以上的几种具体实施方式仅是本发明的优选实施方式,以上几种具体实施例可以任意组合,组合后得到的实施例也在本发明的保护范围之内。应当指出,对于本技术领域的普通技术人员来说,相关专业技术人员在不脱离本发明精神和构思前提下推演出的其他改进和变化,均应包含在本发明的保护范围之内。

还需要说明的是,在本说明书中,而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1