用于处理信息的方法、装置和系统与流程

文档序号:15674511发布日期:2018-10-16 19:54阅读:178来源:国知局

本申请实施例涉及计算机技术领域,尤其涉及用于处理信息的方法、装置和系统。



背景技术:

近年来,随着语音识别技术的成熟,人们已经可以在手机、平板电脑、智能音箱等设备上实现语音交互。

目前,对于具有语音交互功能的设备,通常在设备的处理器中集成用于语音交互的语音识别引擎、语音解析引擎、语音合成引擎等,进而利用集成后的处理器以及设备的操作系统,可以实现用户与设备的语音交互。



技术实现要素:

本申请实施例提出了用于处理信息的方法、装置和系统。

第一方面,本申请实施例提供了一种用于处理信息的方法,该方法包括:接收语音获取端发送的第一语音数据,其中,第一语音数据是目标用户输入语音获取端的;对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息;对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词;响应于确定第一语音信息包括语音唤醒词,向语音获取端发送第二语音数据处理指令,其中,第二语音数据处理指令用于指示语音获取端将目标用户输入的第二语音数据发送给第二语音处理端,以便第二语音处理端基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作。

在一些实施例中,在对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息之后,在对第一语音信息和预先设置的语音唤醒词进行匹配之前,该方法还包括:确定目标用户是否为预设用户;以及对第一语音信息和预先设置的语音唤醒词进行匹配,包括:响应于确定目标用户为预设用户,对第一语音信息和预先设置的语音唤醒词进行匹配。

在一些实施例中,响应于确定目标用户为预设用户,对第一语音信息和预先设置的语音唤醒词进行匹配,包括:响应于确定目标用户为预设用户,启动预先设置的显示屏,响应于确定显示屏被锁定,对显示屏进行解锁;以及对第一语音信息和预先设置的语音唤醒词进行匹配。

在一些实施例中,对第一语音信息和预先设置的语音唤醒词进行匹配,包括:对第一语音信息进行回声消除处理,获得处理后的第一语音信息;对处理后的第一语音信息和语音唤醒词进行匹配。

第二方面,本申请实施例提供了一种用于处理信息的装置,该装置包括:数据接收单元,被配置成接收语音获取端发送的第一语音数据,其中,第一语音数据是目标用户输入语音获取端的;数据检测单元,被配置成对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息;信息匹配单元,被配置成对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词;指令发送单元,被配置成响应于确定第一语音信息包括语音唤醒词,向语音获取端发送第二语音数据处理指令,其中,第二语音数据处理指令用于指示语音获取端将目标用户输入的第二语音数据发送给第二语音处理端,以便第二语音处理端基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作。

在一些实施例中,该装置还包括:用户确定单元,被配置成确定目标用户是否为预设用户;以及信息匹配单元包括:第一匹配模块,被配置成响应于确定目标用户为预设用户,对第一语音信息和预先设置的语音唤醒词进行匹配。

在一些实施例中,第一匹配模块进一步被配置成:响应于确定目标用户为预设用户,启动预先设置的显示屏,响应于确定显示屏被锁定,对显示屏进行解锁;以及对第一语音信息和预先设置的语音唤醒词进行匹配。

在一些实施例中,信息匹配单元还包括:回声处理模块,被配置成对第一语音信息进行回声消除处理,获得处理后的第一语音信息;第二匹配模块,被配置成对处理后的第一语音信息和语音唤醒词进行匹配。

第三方面,本申请实施例提供了一种用于处理信息的系统,该系统包括:语音获取端,被配置成获取目标用户输入的第一语音数据,将所获取的第一语音数据发送给第一语音处理端,响应于接收到第一语音处理端发送的第二语音数据处理指令,获取目标用户输入的第二语音数据,以及将所获取的第二语音数据发送给第二语音处理;;第一语音处理端,被配置成对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息;对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词;响应于确定第一语音信息包括语音唤醒词,向语音获取端发送第二语音数据处理指令;第二语音处理端,被配置成基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作。

在一些实施例中,第一语音处理端包括数字信号处理芯片。

在一些实施例中,第一语音处理端进一步被配置成:确定目标用户是否为预设用户;响应于确定目标用户为预设用户,对第一语音信息和预先设置的语音唤醒词进行匹配。

在一些实施例中,第一语音处理端进一步被配置成:响应于确定目标用户为预设用户,启动预先设置的显示屏,响应于确定显示屏被锁定,对显示屏进行解锁;以及对第一语音信息和预先设置的语音唤醒词进行匹配。

在一些实施例中,第二语音处理端进一步被配置成:确定操作指令所指示的操作是否执行完成;响应于确定操作指令所指示的操作执行完成,向语音获取端发送用于指示语音获取端获取新的第二语音数据的新第二语音数据获取指令;以及语音获取端进一步被配置成:确定预设时间段内是否获取到目标用户输入的新的第二语音数据;响应于确定预设时间段内未获取到目标用户输入的新的第二语音数据,向第二语音处理端发送休眠指令。

在一些实施例中,第一语音处理端进一步被配置成:对第一语音信息进行回声消除处理,获得处理后的第一语音信息;对处理后的第一语音信息和语音唤醒词进行匹配。

第四方面,本申请实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述用于处理信息的方法中任一实施例的方法。

第五方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现上述用于处理信息的方法中任一实施例的方法。

本申请实施例提供的用于处理信息的方法和装置,通过接收语音获取端发送的第一语音数据,其中,第一语音数据是目标用户输入所述语音获取端的,接着对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息,然后对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词,最后响应于确定第一语音信息包括语音唤醒词,向语音获取端发送第二语音数据处理指令,其中,第二语音数据处理指令用于指示语音获取端将目标用户输入的第二语音数据发送给第二语音处理端,以便第二语音处理端基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作,从而利用了不同的语音处理端来执行语音处理过程中的语音唤醒操作和语音交互操作,提高了信息处理的效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本申请可以应用于其中的示例性系统架构图;

图2是根据本申请的用于处理信息的方法的一个实施例的流程图;

图3是根据本申请的用于处理信息的方法的一个应用场景的示意图;

图4是根据本申请的用于处理信息的方法的又一个实施例的流程图;

图5是根据本申请的用于处理信息的装置的一个实施例的结构示意图;

图6是根据本申请的用于处理信息的系统的一个实施例的时序图;

图7是适于用来实现本申请实施例的电子设备的硬件结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于处理信息的方法或用于处理信息的装置的实施例的示例性系统架构100。

如图1所示,系统架构100可以包括语音获取设备101、第一语音处理器102、第二语音处理器103和电路104、105。

用户可以使用语音获取设备101通过电路104与第一语音处理器104交互,以接收或发送消息等;还可以使用语音获取设备101通过电路105与第二语音处理器103交互,以接收或发送消息等。

语音获取设备101可以是包括麦克风、编码器等用于接收语音的设备的各种电子设备。在这里,语音获取设备101可以通过麦克风接收用户输入的语音信号,然后通过编码器将语音信号转换为计算机能够识别的数字信号并发送给第一语音处理器102或第二语音处理器103。需要说明的是,语音获取设备101也可以包括软件(例如即时通信工具、社交软件等)。具体的,当语音获取端101包括软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。

第一语音处理器102可以是硬件,也可以是软件。当第一语音处理器102为硬件时,可以是具有语音唤醒功能的各种电子设备。当第一语音处理器102为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。具体的,第一语音处理器102可以对从语音获取设备101接收到的第一语音数据等进行分析等处理,并将处理结果(例如第二语音数据获取指令)反馈给语音获取设备。

需要说明的是,本申请实施例所提供的用于处理信息的方法一般由第一语音处理器102执行,相应地,用于处理信息的装置一般设置于第一语音处理器102中。

第二语音处理器103可以是硬件,也可以是软件。当第二语音处理器103为硬件时,可以是具有语音交互功能的各种电子设备。当第二语音处理器103为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。具体的,第二语音处理器103可以对从语音获取设备101接收到的第二语音数据等进行分析等处理,获得第二语音数据所对应的操作指令,并执行操作指令所指示的操作。

应该理解,图1中的语音获取设备、第一语音处理器、第二语音处理器和电路的数目仅仅是示意性的。根据实现需要,可以具有任意数目的语音获取设备、第一语音处理器、第二语音处理器和网络。

继续参考图2,示出了根据本申请的用于处理信息的方法的一个实施例的流程200。该用于处理信息的方法,包括以下步骤:

步骤201,接收语音获取端发送的第一语音数据。

在本实施例中,用于处理信息的方法的执行主体(例如图1所示的第一语音处理器102)可以通过有线连接方式或者无线连接方式接收语音获取端(例如图1所示的语音获取设备101)发送的第一语音数据。其中,第一语音数据是目标用户输入上述语音获取端的。目标用户是待对其所输入的语音数据进行处理的用户。具体的,第一语音数据为目标用户输入的、用于进行后续语音唤醒操作的语音数据。可以理解的是,由于环境等的影响,上述第一语音数据可以包括目标用户输入的语音,也可以包括环境噪音等。

需要说明的是,上述执行主体可以与上述语音获取端通信连接,进而,上述执行主体可以与上述语音获取端进行信息传输。

步骤202,对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息。

在本实施例中,基于步骤201中得到的第一语音数据,上述执行主体可以对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息。其中,语音活动检测(voiceactivitydetection,vad)又称语音端点检测,其可以在噪声环境中检测是否存在语音,并能够将所检测的数据中的语音数据和非语音数据区分开来。进而,上述执行主体可以对第一语音数据进行语音活动检测,获得去除了非语音数据的、目标用户的第一语音信息。

步骤203,对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词。

在本实施例中,基于步骤202得到的第一语音信息,上述执行主体可以对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词。其中,语音唤醒词可以作为后续语音交互步骤执行与否的判断标准。

在本实施例中,语音唤醒词可以为技术人员预先设置的语音信息或文字信息。例如,语音唤醒词可以为“嗨,语音助手”所对应的语音或文字。需要说明的是,当语音唤醒词为语音信息时,上述执行主体可以对第一语音信息和语音唤醒词直接进行匹配;当语音唤醒词为文字信息时,上述执行主体可以对第一语音信息进行语音识别,获得第一语音信息所对应的第一文字信息,并对第一文字信息和语音唤醒词进行匹配。

在本实施例的一些可选的实现方式中,上述执行主体可以通过如下步骤对第一语音信息和预先设置的语音唤醒词进行匹配:首先,上述执行主体可以对第一语音信息进行回声消除处理,获得处理后的第一语音信息。然后,上述执行主体可以对处理后的第一语音信息和语音唤醒词进行匹配。需要说明的是,当目标用户输入第一语音数据时,上述执行主体可能正在通过本地扬声器播放音频(例如音乐、语音等),进而,上述第一语音信息可能包括本地扬声器所播放的音频信息和目标用户的语音信息。在这里,上述执行主体可以通过进行上述回声消除处理将本地扬声器所播放的音频信息从第一语音信息中消除掉。

步骤204,响应于确定第一语音信息包括语音唤醒词,向语音获取端发送第二语音数据处理指令。

在本实施例中,上述执行主体可以响应于确定第一语音信息包括语音唤醒词,向语音获取端发送第二语音数据处理指令。其中,第二语音数据处理指令可以用于指示语音获取端将目标用户输入的第二语音数据发送给第二语音处理端,以便第二语音处理端基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作。

在这里,语音获取端可以被配置成响应于接收到第二语音数据处理指令,获取目标用户输入的第二语音数据,并将第二语音数据发送给第二语音处理端(例如图1所示的第二语音处理器103)。其中,第二语音数据可以为目标用户输入的、用于指示第二语音处理端执行某种操作的语音指令。例如第二语音数据可以为音频“查看今日天气”。

第二语音处理端可以被配置成基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作。其中,操作指令可以为计算机能够识别的机器语言。具体的,第二语音处理端可以对第二语音数据进行识别以及语音分析,获得操作指令。需要说明的是,语音分析(speechanalytics)是指通过语音识别等技术将非结构化的语音信息转换为结构化的索引(即计算机能够识别的机器语言)。

实践中,在接收到语音获取端发送的第二语音数据之前,上述第二语音处理端可以处于休眠模式,以此,可以显著减少语音交互过程中的功耗。

在本实施例的一些可选的实现方式中,当上述执行主体为硬件时,上述执行主体可以包括数字信号处理芯片。进而上述执行主体可以利用数字信号处理芯片执行上述步骤201-204。需要说明的是,数字信号处理芯片相较于一般的处理器,在处理数据过程中所产生的功耗更低,进而,利用数字信号处理芯片进行语音处理,可以进一步减少功耗。

需要说明的是,本申请实施例提供的用于处理信息的方法步骤可以在用户启动了上述执行主体的语音处理功能的状态下执行,也可以在上述执行主体启动的情况下持续执行。

继续参见图3,图3是根据本实施例的用于处理信息的方法的应用场景的一个示意图。在图3的应用场景中,第一语音处理器301可以首先接收语音获取设备302发送的第一语音数据303(例如音频“嗨,启动语音助手”),其中,第一语音数据303是目标用户304输入语音获取设备302的。接着,上述第一语音处理器301可以对所接收的第一语音数据303进行语音活动检测,获得目标用户304的第一语音信息305。然后,上述第一语音处理器301可以对第一语音信息305和预先设置的语音唤醒词(例如音频“嗨,语音助手”)进行匹配,以确定第一语音信息305是否包括语音唤醒词。接着,上述第一语音处理器301可以响应于确定第一语音信息305包括语音唤醒词,生成第二语音数据处理指令306并发送给语音获取设备302。其中,第二语音数据处理指令306可以用于指示语音获取设备302将目标用户304输入的第二语音数据307(例如音频“查看今天天气”)发送给第二语音处理器308,以便第二语音处理器308基于所接收的第二语音数据307确定操作指令309,以及执行操作指令309所指示的操作(例如打开预先安装的天气预报软件)。

本申请的上述实施例提供的方法通过接收语音获取端发送的第一语音数据,接着对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息,而后对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词,最后响应于确定第一语音信息包括语音唤醒词,向语音获取端发送第二语音数据处理指令,在这里,第二语音数据处理指令用于指示语音获取端将目标用户输入的第二语音数据发送给第二语音处理端,以便第二语音处理端基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作,从而利用了不同的语音处理端来执行语音处理过程中的语音唤醒操作和语音交互操作,提高了信息处理的效率。

进一步参考图4,其示出了用于处理信息的方法的又一个实施例的流程400。该用于处理信息的方法的流程400,包括以下步骤:

步骤401,接收语音获取端发送的第一语音数据。

在本实施例中,用于处理信息的方法的执行主体(例如图1所示的第一语音处理器102)可以通过有线连接方式或者无线连接方式接收语音获取端(例如图1所示的语音获取设备101)发送的第一语音数据。其中,第一语音数据是目标用户输入上述语音获取端的。目标用户是待对其所输入的语音数据进行处理的用户。

步骤402,对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息。

在本实施例中,基于步骤401中得到的第一语音数据,上述执行主体可以对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息。

步骤403、确定目标用户是否为预设用户。

在本实施例中,上述执行主体可以确定目标用户是否为预设用户。其中,预设用户可以为预先上传了用户信息的用户。用户信息为用于确定用户身份的信息,可以包括但不限于以下至少一项:指纹信息、语音信息、面部信息。具体的,上述执行主体可以获取目标用户的用户信息,并与预设用户的用户信息进行匹配,以确定目标用户是否为预设用户。

在这里,当用户信息包括语音信息时,上述执行主体可以基于步骤402中得到的第一语音信息来确定目标用户是否为预设用户。具体的,上述执行主体可以分别对第一语音信息和预先存储的预设用户的语音信息进行声纹识别,以确定第一语音信息和预先存储的语音信息是否属于同一用户,即可以确定出目标用户是否为预设用户。

步骤404,响应于确定目标用户为预设用户,对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词。

在本实施例中,上述执行主体可以响应于确定目标用户为预设用户,对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词。

在本实施例中,语音唤醒词可以为技术人员预先设置的语音信息或文字信息。需要说明的是,当语音唤醒词为语音信息时,上述执行主体可以对第一语音信息和语音唤醒词直接进行匹配;当语音唤醒词为文字信息时,上述执行主体可以对第一语音信息进行语音识别,获得第一语音信息所对应的第一文字信息,并对第一文字信息和语音唤醒词进行匹配。

在本实施例的一些可选的实现方式中,响应于确定目标用户为预设用户,上述执行主体可以启动预先设置的显示屏,响应于确定显示屏被锁定,对显示屏进行解锁;以及对第一语音信息和预先设置的语音唤醒词进行匹配。

步骤405,响应于确定第一语音信息包括语音唤醒词,向语音获取端发送第二语音数据处理指令。

在本实施例中,上述执行主体可以响应于确定第一语音信息包括语音唤醒词,向语音获取端发送第二语音数据处理指令。其中,第二语音数据处理指令用于指示语音获取端将目标用户输入的第二语音数据发送给第二语音处理端,以便第二语音处理端基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作

上述步骤401、步骤402、步骤405分别采用与前述实施例中的步骤201、步骤202、步骤204类似的方式实现。相应地,上文针对步骤201、步骤202、步骤204的描述也适用于本实施例的步骤401、步骤402、步骤405,此处不再赘述。

从图4中可以看出,与图2对应的实施例相比,本实施例中的用于处理信息的方法的流程400突出了确定目标用户是否为预设用户的步骤。由此,本实施例描述的方案可以引入与用户身份相关的数据,从而有助于提高信息处理的安全性和针对性。

进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种用于处理信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图5所示,本实施例的用于处理信息的装置500包括:数据接收单元501、数据检测单元502、信息匹配单元503和指令发送单元504。其中,数据接收单元501被配置成接收语音获取端发送的第一语音数据,其中,第一语音数据是目标用户输入语音获取端的;数据检测单元502被配置成对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息;信息匹配单元503被配置成对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词;指令发送单元504被配置成响应于确定第一语音信息包括语音唤醒词,向语音获取端发送第二语音数据处理指令,其中,第二语音数据处理指令用于指示语音获取端将目标用户输入的第二语音数据发送给第二语音处理端,以便第二语音处理端基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作。

在本实施例中,用于处理信息的装置500的数据接收单元501可以通过有线连接方式或者无线连接方式接收语音获取端(例如图1所示的语音获取设备101)发送的第一语音数据。其中,第一语音数据是目标用户输入上述语音获取端的。目标用户是待对其所输入的语音数据进行处理的用户。具体的,第一语音数据为目标用户输入的、用于进行后续语音唤醒操作的语音数据。可以理解的是,由于环境等的影响,上述第一语音数据可以包括目标用户输入的语音,也可以包括环境噪音等。

需要说明的是,数据接收单元501可以与上述语音获取端通信连接,进而,数据接收单元501可以与上述语音获取端进行信息传输。

在本实施例中,基于数据接收单元501得到的第一语音数据,数据检测单元502可以对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息。其中,语音活动检测又称语音端点检测,其可以在噪声环境中检测是否存在语音,并能够将所检测的数据中的语音数据和非语音数据区分开来。进而,数据检测单元502可以对第一语音数据进行语音活动检测,获得去除了非语音数据的、目标用户的第一语音信息。

在本实施例中,基于数据检测单元502得到的第一语音信息,信息匹配单元503可以对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词。

在本实施例中,语音唤醒词可以为技术人员预先设置的语音信息或文字信息。需要说明的是,当语音唤醒词为语音信息时,信息匹配单元503可以对第一语音信息和语音唤醒词直接进行匹配;当语音唤醒词为文字信息时,信息匹配单元503可以对第一语音信息进行语音识别,获得第一语音信息所对应的第一文字信息,并对第一文字信息和语音唤醒词进行匹配。

在本实施例中,指令发送单元504可以响应于确定第一语音信息包括语音唤醒词,向语音获取端发送第二语音数据处理取指令。其中,第二语音数据处理指令可以用于指示语音获取端将目标用户输入的第二语音数据发送给第二语音处理端,以便第二语音处理端基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作。

在这里,语音获取端可以被配置成响应于接收到第二语音数据获取指令,获取目标用户输入的第二语音数据,并将第二语音数据发送给第二语音处理端(例如图1所示的第二语音处理器103)。其中,第二语音数据可以为目标用户输入的、用于指示第二语音处理端执行某种操作的语音指令。

第二语音处理端可以被配置成基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作。其中,操作指令可以为计算机能够识别的机器语言。具体的,第二语音处理端可以对第二语音数据进行识别以及语音分析,获得操作指令。需要说明的是,语音分析是指通过语音识别等技术将非结构化的语音信息转换为结构化的索引(即计算机能够识别的机器语言)。

实践中,在接收到语音获取端发送的第二语音数据之前,上述第二语音处理端可以处于休眠模式,以此,可以显著减少语音交互过程中的功耗。

在本实施例的一些可选的实现方式中,用于处理信息的装置500还可以包括:用户确定单元,被配置成确定目标用户是否为预设用户;以及信息匹配单元503可以包括:第一匹配模块,被配置成响应于确定目标用户为预设用户,对第一语音信息和预先设置的语音唤醒词进行匹配。

在本实施例的一些可选的实现方式中,第一匹配模块可以进一步被配置成:响应于确定目标用户为预设用户,启动预先设置的显示屏,响应于确定显示屏被锁定,对显示屏进行解锁;以及对第一语音信息和预先设置的语音唤醒词进行匹配。

在本实施例的一些可选的实现方式中,信息匹配单元503还可以包括:回声处理模块,被配置成对第一语音信息进行回声消除处理,获得处理后的第一语音信息;第二匹配模块,被配置成对处理后的第一语音信息和语音唤醒词进行匹配。

本申请的上述实施例提供的装置500通过数据接收单元501接收语音获取端发送的第一语音数据,接着数据检测单元502对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息,而后信息匹配单元503对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词,最后指令发送单元504响应于确定第一语音信息包括语音唤醒词,向语音获取端发送第二语音数据处理指令,在这里,第二语音数据处理指令可以用于指示语音获取端将目标用户输入的第二语音数据发送给第二语音处理端,以便第二语音处理端基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作,从而利用了不同的语音处理端来执行语音处理过程中的语音唤醒操作和语音交互操作,提高了信息处理的效率。

继续参考图6,其示出了根据本申请的用于处理信息的系统的一个实施例的时序600。

本申请实施例中的用于处理信息的系统可以包括语音获取端、第一语音处理端和第二语音处理端,其中:语音获取端,被配置成获取目标用户输入的第一语音数据,将所获取的第一语音数据发送给第一语音处理端,响应于接收到第一语音处理端发送的第二语音数据处理指令,获取目标用户输入的第二语音数据,以及将所获取的第二语音数据发送给第二语音处理端;第一语音处理端,被配置成对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息;对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词;响应于确定第一语音信息包括语音唤醒词,向语音获取端发送第二语音数据处理指令;第二语音处理端,被配置成基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作。

如图6所示,在步骤601中,语音获取端获取目标用户输入的第一语音数据。

在本实施例中,语音获取端(例如图1所示的语音获取设备101)可以通过有线连接方式或者无线连接方式获取目标用户输入的第一语音数据。其中,目标用户是待对其所输入的语音数据进行处理的用户。第一语音数据为目标用户输入的、用于进行后续语音唤醒操作的语音数据。可以理解的是,由于环境等的影响,上述第一语音数据可以包括目标用户输入的语音,也可以包括环境噪音等。

步骤602,语音获取端将所获取的第一语音数据发送给第一语音处理端。

在本实施例中,语音获取端可以将所获取的第一语音数据发送给与其通信连接的第一语音处理端(例如图1所示的第一语音处理器102)。

步骤603,第一语音处理端对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息。

在本实施例中,第一语音处理端可以对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息。其中,语音活动检测又称语音端点检测,其可以在噪声环境中检测是否存在语音,并能够将所检测的数据中的语音数据和非语音数据区分开来。进而,第一语音处理端可以对第一语音数据进行语音活动检测,获得去除了非语音数据的、目标用户的第一语音信息。

步骤604,第一语音处理端对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词。

在本实施例中,第一语音处理端可以对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词。其中,语音唤醒词可以作为后续语音交互步骤执行与否的判断标准。

在本实施例中,语音唤醒词可以为技术人员预先设置的语音信息或文字信息。需要说明的是,当语音唤醒词为语音信息时,第一语音处理端可以对第一语音信息和语音唤醒词直接进行匹配;当语音唤醒词为文字信息时,第一语音处理端可以对第一语音信息进行语音识别,获得第一语音信息所对应的第一文字信息,并对第一文字信息和语音唤醒词进行匹配。

步骤605,第一语音处理端响应于确定第一语音信息包括语音唤醒词,生成第二语音数据处理指令。

在本实施例中,第一语音处理端可以响应于确定第一语音信息包括语音唤醒词,生成第二语音数据处理指令。其中,第二语音数据处理指令可以用于指示语音获取端将目标用户输入的第二语音数据发送给第二语音处理端(例如图1所示的第二语音处理器103)。

步骤606,第一语音处理端将所生成的第二语音数据处理指令发送给语音获取端。

在本实施例中,第一语音处理端将所生成的第二语音数据处理指令发送给语音获取端。

步骤607,语音获取端响应于接收到第一语音处理端发送的第二语音数据处理指令,获取目标用户输入的第二语音数据。

在本实施例中,语音获取端可以响应于接收到第一语音处理端发送的第二语音数据处理指令,获取目标用户输入的第二语音数据。

步骤608,语音获取端将所获取的第二语音数据发送给第二语音处理端。

在本实施例中,语音获取端将所获取的第二语音数据发送给第二语音处理端。

步骤609,第二语音处理端基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作。

在本实施例中,第二语音处理端可以基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作。其中,操作指令可以为计算机能够识别的机器语言。具体的,第二语音处理端可以对第二语音数据进行识别以及语音分析,获得操作指令。需要说明的是,语音分析是指通过语音识别等技术将非结构化的语音信息转换为结构化的索引(即计算机能够识别的机器语言)。

在本实施例的一些可选的实现方式中,第一语音处理端可以包括数字信号处理芯片。

在本实施例的一些可选的实现方式中,第一语音处理端可以进一步被配置成:确定目标用户是否为预设用户;响应于确定目标用户为预设用户,对第一语音信息和预先设置的语音唤醒词进行匹配。

在本实施例的一些可选的实现方式中,第一语音处理端可以进一步被配置成:响应于确定目标用户为预设用户,启动预先设置的显示屏,响应于确定显示屏被锁定,对显示屏进行解锁;以及对第一语音信息和预先设置的语音唤醒词进行匹配。

在本实施例的一些可选的实现方式中,第二语音处理端可以进一步被配置成:确定操作指令所指示的操作是否执行完成;响应于确定操作指令所指示的操作执行完成,向语音获取端发送用于指示语音获取端获取新的第二语音数据的新第二语音数据获取指令;以及语音获取端可以进一步被配置成:确定预设时间段内是否获取到目标用户输入的新的第二语音数据;响应于确定预设时间段内未获取到目标用户输入的新的第二语音数据,向第二语音处理端发送休眠指令。

在本实施例的一些可选的实现方式中,第一语音处理端可以进一步被配置成:对第一语音信息进行回声消除处理,获得处理后的第一语音信息;对处理后的第一语音信息和语音唤醒词进行匹配。

本申请的上述实施例提供的系统,通过语音获取端获取目标用户输入的第一语音数据,并将所获取的第一语音数据发送给第一语音处理端,然后第一语音处理端对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息,接着第一语音处理端对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词,然后第一语音处理端可以响应于确定第一语音信息包括语音唤醒词,生成第二语音数据处理指令并将所生成的第二语音数据处理指令发送给语音获取端,然后语音获取端响应于接收到第一语音处理端发送的第二语音数据处理指令,获取目标用户输入的第二语音数据,而后语音获取端将所获取的第二语音数据发送给第二语音处理端,最后第二语音处理端基于所接收的第二语音数据确定操作指令,以及执行操作指令所指示的操作,从而利用了不同的语音处理端来执行语音处理过程中的语音唤醒操作和语音交互操作,提高了信息处理的效率。

下面参考图7,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的第一语音处理器102)700的硬件结构示意图。图7示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示,电子设备700包括中央处理单元(cpu)701、存储器702、输入单元703和输出单元704,其中,cpu701、存储器702、输入单元703以及输出单元704通过总线705彼此相连。在此,根据本申请的方法可以被实现为计算机程序,并且存储在存储器702中。电子设备700中的cpu701通过调用存储器702中存储的上述计算机程序,来具体实现本申请的方法中限定的处理信息功能。实践中,输入单元704可以是用于接收数据的设备,输出单元704可以是用于发送指令的设备。由此,cpu701在调用上述计算机程序执行信息处理功能时,可以控制输入单元703从外部获取第一语音数据,以及控制输出单元704发送第二语音数据处理指令。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被中央处理单元(cpu)701执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括数据接收单元、数据检测单元、信息匹配单元和指令发送单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,数据接收单元还可以被描述为“接收语音获取端发送的第一语音数据的单元”。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:接收语音获取端发送的第一语音数据,其中,第一语音数据是目标用户输入语音获取端的;对所接收的第一语音数据进行语音活动检测,获得目标用户的第一语音信息;对第一语音信息和预先设置的语音唤醒词进行匹配,以确定第一语音信息是否包括语音唤醒词;响应于确定第一语音信息包括语音唤醒词,向语音获取端发送用于指示语音获取端获取目标用户输入的第二语音数据的第二语音数据获取指令,其中,语音获取端被配置成响应于接收到第二语音数据获取指令,获取目标用户输入的第二语音数据,将第二语音数据发送给第二语音处理端,第二语音处理端被配置成对所接收的第二语音数据进行识别,获得操作指令,以及执行操作指令所指示的操作。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1