室外智能语音交互方法、装置和系统与流程

文档序号:19478296发布日期:2019-12-21 03:03阅读:233来源:国知局
室外智能语音交互方法、装置和系统与流程

本发明属于语音识别技术领域,尤其涉及室外智能语音交互方法、装置和系统。



背景技术:

相关技术中,目前市场上各种搭载智能对话交互系统的软硬件纷纷涌现,有的作为单独的智能语音交互系统,如智能电视盒子(某度的电视伴侣、某鹅的极光盒子、某维、某耀等),有的作为一体机的集成智能语音功能的大屏硬件,如智能语音电视(某米电视、某虹电视、某信电视等),这些都是基于智能语音交互系统上进行集成开发,将麦克风阵列安装在硬件上,集成全链路的语音技术(asr-nlu-dm-nlg-tts),用户直接对着硬件可完成对应场景下的语音交互,执行对应的语音命令。如:调大音量、我想看xx电影等,满足用户的便捷性需求。

发明人在实现本申请的过程中发现,这样的硬件系统都是由大厂直接根据自身业务进行定制开发,无法让用户进行个性化内容的语音交互,如把个人的文章、作品集等导入进去,进行语音问答进行传播,企业把产品知识、企业管理条令等整理编辑,进行员工培训等。且只能受制于大厂提供的现有硬件在室内进行使用,场景受到限制。



技术实现要素:

本发明实施例提供一种室外智能语音交互方法、装置和系统,用于至少解决上述技术问题之一。

第一方面,本发明实施例提供一种室外智能语音交互方法,包括:经由外置的麦克风阵列采集用户语音;获取对于所述用户语音进行全链路语音处理后生成的对所述用户语音进行反馈的语音合成音频;以及调用室外屏幕的播放器对所述语音合成音频进行播放。

第二方面,本发明实施例提供一种室外智能语音交互装置,包括:采集模块,配置为经由外置的麦克风阵列采集用户语音;反馈获取模块,配置为获取对于所述用户语音进行全链路语音处理后生成的对所述用户语音进行反馈的语音合成音频;以及调用播放模块,配置为调用室外屏幕的播放器对所述语音合成音频进行播放。

第三方面,本发明实施例提供一种室外智能语音交互系统,包括:拾音模块,配置用于持续采集用户语音;会话精灵模块,配置用于获取开发者对于对话内容的个性化定制并生成与所述个性化定制关联的网页链接;智能语音交互装置承接模块,配置用于将所述会话精灵模块的网页链接封装在根据第二方面所述的智能语音交互装置中,通过集成的sdk或api串联所述会话精灵模块和安卓电视盒子系统;所述安卓电视盒子系统,配置用于提供所述智能语音交互装置运营的安卓系统环境,并通过接口连接室外屏幕以进行内容的展示;以及所述室外屏幕,配置用于在接入所述安卓电视盒子系统后,对所述智能语音交互装置进行内容展示和交互演示。

第四方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的室外智能语音交互方法的步骤。

第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本发明任一实施例的室外智能语音交互方法的步骤。

本申请的方法和装置提供的方案通过外置的麦克风阵列采集用户的语音,之后对其进行全链路处理生成语音合成音频,再将该语音合成音频发送给室外独立的屏幕进行语音播报,可以适用于室外环境的智能语音交互。进一步地,在全链路处理过程中,开发者还可以对对话内容进行个性化定制,从而可以定制个性化的对话内容满足开发者个性化的需求,通过定制一些特殊的对话内容,例如可以进行公司的宣传或者个人作品的展示,从而用户体验极佳。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种室外智能语音交互方法的流程图;

图2为本发明一实施例提供的一种室外智能语音交互方法的一个具体实施例的流程图;

图3为本发明一实施例提供的室外智能语音交互装置的框图;

图4是本发明一实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参考图1,其示出了本申请的室外智能语音交互方法一实施例的流程图,本实施例的室外智能语音交互方法可以适用于具备语音识别能力的终端、如智能语音电视、智能音箱、智能对话玩具以及其他现有的具备智能语音交互能力的智能终端等。

如图1所示,在步骤101中,经由外置的麦克风阵列采集用户语音;

在步骤102中,获取对于所述用户语音进行全链路语音处理后生成的对所述用户语音进行反馈的语音合成音频;

在步骤103中,调用室外屏幕的播放器对所述语音合成音频进行播放。

在本实施例中,对于步骤101,室外智能语音交互装置通过将麦克风阵列外置,从而可以更好地在室外采集用户语音,并且麦克风阵列外置能够使得麦克风阵列可以根据室外不同环境和/或不同场景,使用更适用于环境和/或场景的麦克风阵列去更好的应对室外多变的环境和/或场景。之后,对于步骤102,室外智能语音交互装置获取对于用户语音进行全链路语音处理之后生成的语音合成音频,该语音合成音频为对于采集的用户语音做出反馈的音频,例如用户语音为“我想了解一下贵公司”,语音合成音频可以为对于相应的公司的简介,从而可以满足定制化的语音交互需求,适用于置于相关公司的室外,起到一个宣传的作用。最后,对于步骤103,室外智能语音交互装置调用室外屏幕的播放器对相应的语音合成音频进行播放,将屏幕置于室外,能够根据室外不同的环境和/或不同的场景,选择更适宜相应的环境或场景的屏幕,并且外置的设备也更便于维护。

本实施例的方法通过外置的麦克风阵列采集用户的语音,之后对其进行全链路处理生成语音合成音频,再将该语音合成音频发送给室外独立的屏幕进行语音播报,可以适用于室外环境的智能语音交互。进一步地,在全链路处理过程中,开发者还可以对对话内容进行个性化定制,从而可以定制个性化的对话内容满足开发者个性化的需求,通过定制一些特殊的对话内容,例如可以进行公司的宣传或者个人作品的展示,从而用户体验极佳。

在一些可选的实施例中,所述全链路语音处理包括语音识别、语义理解、对话管理、自然语言生成以及文本转语音。从而可以有全流程的语音处理,无论用户是输入语音还是文字等都能得到很好地处理,用户体验更好。

在一些可选的实施例中,所述全链路语音处理为开发者对个性化语音交互定制开发后的全链路语音处理。从而通过加入开发者的个性化语音交互定制开发,可以使得开发者可以对对话内容进行个性化定制,从而能够满足一些非常个性化的需求,用户体验更好。

在一些可选的实施例中,所述外置的麦克风阵列还集成有语音唤醒软件开发工具包以具备唤醒功能。从而外置的麦克风阵列也可以集成例如唤醒一类的功能,具备一定的可拓展能力,整体性能更好。

本申请实施例还提供一种室外智能语音交互系统,包括:拾音模块,配置用于持续采集用户语音;会话精灵模块,配置用于获取开发者对于对话内容的个性化定制并生成与所述个性化定制关联的网页链接;智能语音交互装置承接模块,配置用于将所述会话精灵模块的网页链接封装在智能语音交互装置中,通过集成的sdk或api串联所述会话精灵模块和安卓电视盒子系统;所述安卓电视盒子系统,配置用于提供所述智能语音交互装置运营的安卓系统环境,并通过接口连接室外屏幕以进行内容的展示;以及所述室外屏幕,配置用于在接入所述安卓电视盒子系统后,对所述智能语音交互装置进行内容展示和交互演示。从而该智能语音交互系统可以适用于室外的环境,并且能够接受开发者对于对话内容的个性化定制,例如开发者可以把个人的文章、作品集等导入进去,进行语音问答进行传播,企业可以把产品知识、企业管理条令等整理编辑,进行员工培训等。且由于麦克风阵列和屏幕是独立的外置的,因此可以适用于各种室外环境,便于使用和维护,用户体验较好。

在一些可选的实施例中,室外屏幕还用于向用户进行语音播报以及接收用户的触屏交互指令并反馈给智能语音交互装置。从而用户还可以通过触屏的方式与智能语音设备进行交互,用户体验极好。

在一些可选的实施例中,拾音模块集成有唤醒软件工具包以进行唤醒处理。从而可以对拾音模块进行唤醒功能的集成和定制,极大地提升用户体验。

下面对通过描述发明人在实现本发明的过程中遇到的一些问题和对最终确定的方案的一个具体实施例进行说明,以使本领域技术人员更好地理解本申请的方案。

本申请的方案提出了一种室外智能语音交互装置。

本发明提出一种基于对话内容可定制的对话系统(会话精灵),将用来拾音的麦克风阵列单独在电视盒子外挂出来,同时开发一款app封装整个系统,最终app在电视盒子安卓系统内,通过外接电视、平板等大屏投射出来进行展示,完成智能语音交互系统。因为全链路语音技术的各个部分完全拆开独立,麦克风阵列进行拾音和唤醒算法处理,将拾取的音频传送给app,app通过api进行对接封装的会话精灵对话系统,会话精灵系统完成asr(automaticspeechrecognition,语音识别)-nlu(naturallanguageunderstanding,自然语言理解)-dm(dialogmanagement,对话管理)-nlg(naturallanguagegeneration,自然语言生成)-tts(texttospeech,从文本到语音)全链路的过程,最终将处理好的语音合成音频传送给app,由app通过电视盒子调用屏幕的播放器进行播放,所以整套系统可以灵活的搭载在各种安卓系统中,如电视盒子、平板电脑等。室外的硬件一般需要耐高温、防潮等,而市面上已有的智能交互系统都是大厂提供的标准化产品,无法满足室外使用场景,而这套系统能灵活的搭载在室外工业屏幕内,能直接投入使用。

大厂一般只拥有整个系统中的一到两个部分的资源能力,无法很好地整合整个系统的上下游技术及产品资源能力,而且更倾向于提供标准化的大数量的产品,针对这种中小企业定制化的语音交互系统没有做进一步的探索和开发,所以无法满足市场需求,没有想到该方案。

下面将结合附图2,对一个具体实施例进行详细描述。其示出了本申请方案整体系统的拆分和整合过程。

本发明的技术创新点:

拆分智能语音对话系统链条里的各个模块,重新进行搭配整合。

将整个系统拆分成以下几个模块:

拾音模块:硬件为麦克风阵列,具有持续拾音功能,集成唤醒sdk后,还可进行唤醒处理;

会话精灵模块:可在会话精灵的平台上进行个性化的对话内容编辑,满足用户需求,同时生成网页链接;

app承接模块:将会话精灵的网页链接封装在安卓app里,通过集成的sdk或api与会话精灵和安卓电视盒子系统进行串联;

安卓电视盒子系统:提供app运营的安卓系统环境,通过hdmi接口能方便的连接各种屏幕,进行内容的展示;

大屏系统:接入电视盒子后,对电视盒子里面的安卓app进行内容展示和交互演示。

当大屏系统是室外工业安卓系统屏幕时,整套语音交互系统即可在室外使用。

请参考图3,其示出了本发明一实施例提供的一种室外智能语音交互装置的框图。

如图3所示,室外智能语音交互装置300,包括采集模块310、反馈获取模块320和调用播放模块330。

采集模块310,配置为经由外置的麦克风阵列采集用户语音;

反馈获取模块320,配置为获取对于所述用户语音进行全链路语音处理后生成的对所述用户语音进行反馈的语音合成音频;

调用播放模块330,配置为调用室外屏幕的播放器对所述语音合成音频进行播放。

应当理解,图3中记载的诸模块与参考图1中描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征以及相应的技术效果同样适用于图3中的诸模块,在此不再赘述。

值得注意的是,本申请的实施例中的模块并不用于限制本申请的方案,例如采集模块可以描述为经由外置的麦克风阵列采集用户语音的模块。另外,还可以通过硬件处理器来实现相关功能模块,例如采集的模块也可以用处理器实现,在此不再赘述。

在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的室外智能语音交互方法;

作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:

经由外置的麦克风阵列采集用户语音;

获取对于所述用户语音进行全链路语音处理后生成的对所述用户语音进行反馈的语音合成音频;

调用室外屏幕的播放器对所述语音合成音频进行播放。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据语音识别装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至语音识别装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项语音识别方法。

图4是本发明实施例提供的电子设备的结构示意图,如图4所示,该设备包括:一个或多个处理器410以及存储器420,图4中以一个处理器410为例。语音识别方法的设备还可以包括:输入装置430和输出装置440。处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接,图4中以通过总线连接为例。存储器420为上述的非易失性计算机可读存储介质。处理器410通过运行存储在存储器420中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例语音识别方法。输入装置430可接收输入的数字或字符信息,以及产生与语音识别装置的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。

作为一种实施方式,上述电子设备应用于室外智能语音交互装置中,包括:

至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:

经由外置的麦克风阵列采集用户语音;

获取对于所述用户语音进行全链路语音处理后生成的对所述用户语音进行反馈的语音合成音频;

调用室外屏幕的播放器对所述语音合成音频进行播放。

本申请实施例的电子设备以多种形式存在,包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1