本发明实施例涉及语音处理技术,尤其涉及一种音频处理方法、装置、智能音箱及存储介质。
背景技术:
人工智能已经慢慢的走入到人们的生活中去,其中代表性最强的当属智能音箱.当前智能音箱有阿里的天猫精灵,百度的小度,小米的小爱,腾讯的腾讯听听等等。当前的智能音箱基本都是音箱的麦克风采集语音唤醒词,如“天猫精灵”,然后发送给音箱的语音引擎,引擎解析后再发送给云端,云端解析后再返回给智能音箱并播报声音,如“主人,小猫在”。不同的智能音箱都需要专门的再单独重新开发,浪费人力和资源,同一智能音箱不能享受不同语音引擎的服务,功能单一。
技术实现要素:
本发明实施例提供一种音频处理方法、装置、智能音箱及存储介质,解决当前智能音箱只能与单一语音引擎连接,功能单一的问题。
第一方面,本发明实施例提供了一种音频处理方法,应用于智能音箱,所述智能音箱包括至少一个语音引擎,所述方法包括:
于预设状态下,启动语音引擎切换模式;
接收用于语音引擎切换的音频数据,对所述音频数据进行解析,并将解析结果发送给所述至少一个语音引擎;
根据所述至少一个语音引擎的反馈信息,确定工作语音引擎。
进一步地,所述于预设状态下,启动语音引擎切换模式,包括:
检测电源键和/或麦克风控制键的按压时间;
在所述按压时间满足预设时间的状态下,启动语音引擎切换模式。
进一步地,接收用于语音引擎切换的音频数据,对所述音频数据进行解析,并将解析结果发送给所述至少一个语音引擎,包括:
接收用于语音引擎切换的音频数据,将所述数据解析成脉冲调制格式语音;
将所述脉冲调制格式语音发送给至少一个语音引擎。
进一步地,在根据所述至少一个语音引擎的回复信息,确定工作语音引擎之后,还包括:
根据所述工作语音引擎,确定与所述工作语音引擎对应的工作云端;
接收工作云端根据接收到工作语音引擎发送的脉冲调制格式语音确定的回复语音。
进一步地,在接收工作云端根据接收到工作语音引擎发送的脉冲调制格式语音确定的回复语音之后,还包括:
控制麦克风播放所述回复语音。
其中,所述反馈信息包括:语音引擎标志位。
进一步地,该方法还包括:
在检测到电源上电时,检测当前语音引擎标志位;
根据所述当前语音引擎标志位,确定与所述当前语音引擎标志位对应的语音引擎为工作语音引擎。
第二方面,本发明实施例还提供了一种音频处理装置,配置于智能音箱,所述智能音箱包括至少一个语音引擎,所述装置包括:
启动模块,用于于预设状态下,启动语音引擎切换模式;
音频数据接收模块,用于接收用于语音引擎切换的音频数据,对所述音频数据进行解析,并将解析结果发送给所述至少一个语音引擎;
工作语音引擎确定模块,用于根据所述至少一个语音引擎的反馈信息,确定工作语音引擎。
第三方面,本发明实施例还提供了一种智能音箱,包括:
至少一个语音引擎;
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例提供的中任一所述的语音处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例提供的中任一所述的语音处理方法
本发明实施例提供的音频处理方法,于预设状态下,启动语音引擎切换模式;接收用于语音引擎切换的音频数据,对所述音频数据进行解析,并将解析结果发送给所述至少一个语音引擎;根据所述至少一个语音引擎的反馈信息,确定工作语音引擎。本发明实施例可以实现同一智能音箱加载多种语音引擎,语音引擎之间任意切换,满足用户需求,提高用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种音频处理方法的流程示意图;
图2是本发明实施例二提供的一种音频处理装置的结构示意图;
图3是本发明实施例三提供的一种智能音箱的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下将参照本发明实施例中的附图,通过实施方式清楚、完整地描述本发明的技术方案,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1是本发明实施例一提供的一种音频处理方法的流程图。本实施例的技术方案可以适用于智能音箱多语音引擎切换的情况。该方法可以由本发明实施例提供的一种音频处理装置来执行,该装置可以采用软件和/或硬件的方式实现,并配置于智能音箱中应用。所述智能音箱包括至少一个语音引擎,该方法具体包括如下操作:
s110、于预设状态下,启动语音引擎切换模式。
具体地,所述于预设状态下,启动语音引擎切换模式,包括:检测电源键和/或麦克风控制键的按压时间;在所述按压时间满足预设时间的状态下,启动语音引擎切换模式。示例性地,可以通过电源键和麦克风同时按压达到预设时间,实现启动语音引擎切换模式,预设时间的设定可以防误触,预设时间例如可以是10s,在此不做具体限定。智能音箱具有至少一个语音引擎,可选地,智能音箱具有两个以上语音引擎,在启动语音引擎切换功能时,可以实现在多个语音引擎中之间的切换。
s120、接收用于语音引擎切换的音频数据,对所述音频数据进行解析,并将解析结果发送给所述至少一个语音引擎。
用于语音引擎切换的音频数据包含语音引擎的类别信息,对该音频数据进行解析,并将解析结果发送给所述至少一个语音引擎,所述至少一个语音引擎根据音频数据的类别信息,与类别信息对应的语音引擎响应所述音频数据。语音引擎在确定自身是否与音频数据的类别信息对应时,通过语音引擎的唤醒词进行匹配,匹配成功则确定语音引擎与音频数据对应。
具体地,接收用于语音引擎切换的音频数据,对所述音频数据进行解析,并将解析结果发送给所述至少一个语音引擎,包括:接收用于语音引擎切换的音频数据,将所述数据解析成脉冲调制格式语音;将所述脉冲调制格式语音发送给至少一个语音引擎。
s130、根据所述至少一个语音引擎的反馈信息,确定工作语音引擎。
可选地,在确定工作语音引擎后,通过重启智能音箱该工作语音引擎生效。可选地,在根据所述至少一个语音引擎的回复信息,确定工作语音引擎之后,还包括:根据所述工作语音引擎,确定与所述工作语音引擎对应的工作云端;接收工作云端根据接收到工作语音引擎发送的脉冲调制格式语音确定的回复语音。可选地,在接收工作云端根据接收到工作语音引擎发送的脉冲调制格式语音确定的回复语音之后,还包括:控制麦克风播放所述回复语音。在根据音频数据确定工作语音引擎,工作语音引擎将接收的音频数据发送给云端,云端确定该音频数据的回复语音,将回复语音发送给工作语音引擎进行播放。
可选地,所述反馈信息包括:语音引擎标志位。不同的语音引擎对应不同的语音引擎标志位。语音引擎在根据自身唤醒词与音频数据进行匹配时,将语音引擎标志位发送给智能音箱,智能音箱根据语音引擎标志位,确定该语音引擎标志位对应的语音引擎为工作语音引擎。
在本发明另一可选实施例中,该方法还包括:在检测到电源上电时,检测当前语音引擎标志位;根据所述当前语音引擎标志位,确定与所述当前语音引擎标志位对应的语音引擎为工作语音引擎。当智能音箱系统重启时,首先检测语音引擎标志位,当语音引擎标志位不为空时,确定当前语音引擎标志位对应的语音引擎为工作语音引擎,当语音引擎标志位为空时,按照本实施例提供的方法设定工作语音引擎,在切换语音引擎时,按照本实施例提供的方法切换工作语音引擎。
本发明实施例提供的音频处理方法,于预设状态下,启动语音引擎切换模式;接收用于语音引擎切换的音频数据,对所述音频数据进行解析,并将解析结果发送给所述至少一个语音引擎;根据所述至少一个语音引擎的反馈信息,确定工作语音引擎。本发明实施例可以实现同一智能音箱加载多种语音引擎,语音引擎之间任意切换,满足用户需求,提高用户体验。
实施例二
图2是本发明实施例二提供的一种音频处理装置的结构框图。该装置用于执行上述任意实施例所提供的一种音频处理方法。该装置配置于智能音箱,所述智能音箱包括至少一个语音引擎,所述装置包括:
启动模块210,用于于预设状态下,启动语音引擎切换模式;
音频数据接收模块220,用于接收用于语音引擎切换的音频数据,对所述音频数据进行解析,并将解析结果发送给所述至少一个语音引擎;
工作语音引擎确定模块230,用于根据所述至少一个语音引擎的反馈信息,确定工作语音引擎。
进一步地,所述启动模块,具体用于:
检测电源键和/或麦克风控制键的按压时间;
在所述按压时间满足预设时间的状态下,启动语音引擎切换模式。
进一步地,所述音频数据接收模块,具体用于:
接收用于语音引擎切换的音频数据,将所述数据解析成脉冲调制格式语音;
将所述脉冲调制格式语音发送给至少一个语音引擎。
进一步地,该装置还包括:回复语音确定模块,包括:
工作云端确定单元,用于在根据所述至少一个语音引擎的回复信息,确定工作语音引擎之后,根据所述工作语音引擎,确定与所述工作语音引擎对应的工作云端;
接收单元,用于接收工作云端根据接收到工作语音引擎发送的脉冲调制格式语音确定的回复语音。
进一步地,该装置还包括播放控制模块,用于在接收工作云端根据接收到工作语音引擎发送的脉冲调制格式语音确定的回复语音之后,控制麦克风播放所述回复语音。
其中,所述反馈信息包括:语音引擎标志位。
进一步地,该装置还包括:工作语音引擎确定模块,用于:
在检测到电源上电时,检测当前语音引擎标志位;
根据所述当前语音引擎标志位,确定与所述当前语音引擎标志位对应的语音引擎为工作语音引擎。
本发明实施例二提供的音频处理装置,实现了同一智能音箱加载多种语音引擎,语音引擎之间任意切换,满足用户需求,提高用户体验。
本发明实施例所提供的音频处理装置可执行本发明任意实施例所提供的音频处理方法,具备执行方法相应的功能模块和有益效果。
实施例三
图3为本发明实施例三提供的一种智能音箱的结构示意图,如图3所示,该智能音箱包括至少一个语音引擎(图中未示出),处理器30、存储器31、输入装置32和输出装置33;智能音箱中处理器30的数量可以是一个或多个,图3中以一个处理器30为例;智能音箱中的处理器30、存储器31、输入装置32和输出装置33可以通过总线或其他方式连接,图3中以通过总线连接为例。
存储器31作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的音频处理方法对应的程序指令/模块(例如,启动模块210、音频数据接收模块220和工作语音引擎确定模块230)。处理器30通过运行存储在存储器31中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的音频处理方法。
存储器31主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器31可进一步包括相对于处理器30远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置32可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置33可包括显示屏等显示设备。
实施例四
本发明实施例四还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种音频处理方法,该方法包括:
于预设状态下,启动语音引擎切换模式;
接收用于语音引擎切换的音频数据,对所述音频数据进行解析,并将解析结果发送给所述至少一个语音引擎;
根据所述至少一个语音引擎的反馈信息,确定工作语音引擎。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的音频处理方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。