1.本发明涉及语音处理技术领域,尤其涉及一种识别唤醒词的语音处理方法、设备及系统。
背景技术:2.过去十几年来,互联网在人们生活的各个领域不断深化,人们可以通过互联网方便地进行购物、社交、娱乐、理财等活动。同时,为提高用户体验,研究人员实现了很多交互方案,如文字输入、手势输入、语音输入等。其中,智能语音交互由于其操作的便捷性而成为新一代交互模式的研究热点。
3.当前,随着物联网及智能化的快速发展,市场上出现了一些智能语音设备,例如智能音箱和智能移动终端。在一些使用场景中,智能语音设备可以通过语音识别技术来识别用户输入的语音数据,进而为用户提供个性化服务,如收听各种音频内容、支持家电控制等。
4.诸如智能音箱这样的智能设备通常部署在固定区域如家庭的起居室中。为了节省能耗,这些设备在长时间不工作时会处于低能耗状态,并在需要进行工作例如和用户进行交互时才进入正常工作状态而消耗更多的能量。让设备从低能耗状态改变位正常工作状态的处理称为唤醒过程。
5.目前,通过语音方式唤醒智能语音设备是一种非常便捷的用户交互方式。在语音方式唤醒处理中,智能语音设备会获取用户的语音,并在确定用户语音中包含唤醒设备的特定唤醒词时,进行唤醒处理。然而,对于高性能的智能设备来说,为了能够及时进行唤醒处理,设备需要保持以一定的能耗来运行,无法做到在电池供电情况下能够长时间待机,因此通常需要使用电源供电,不便于随身携带,限制了人们语音唤醒智能设备的范围。
6.而对于能够随身携带的低功耗语音入口设备来说,这些设备的计算能力不足,无法在其上面实现优秀的语音唤醒算法,因此存在唤醒成功率低等问题。
7.因此,需要一种新的语音处理方案,可以高准确度进行唤醒处理的同时,减少智能设备的能耗。
技术实现要素:8.为此,本发明提供了一种语音处理方法、设备及系统,以力图解决或至少缓解上面存在的至少一个问题。
9.根据本发明的一个方面,提供了一种语音处理方法,适于在计算设备中执行,该方法包括步骤:从与计算设备通信连接的外围设备接收语音信号,其中外围设备对该语音信号进行分析并确定该语音信号包含适于改变计算设备运行状态的唤醒词;对该语音信号进行分析,以确定该语音信号是否包含唤醒词;以及在确定语音信号包含唤醒词时,将计算设备从第一运行状态切换到第二运行状态,以便对后续的新语音信号进行处理,其中第一运行状态的能耗低于第二运行状态的能耗。
10.可选地,根据本发明的方法,还包括步骤:在确定语音信号不包含唤醒词时,不对计算设备的运行状态进行切换。
11.可选地,在根据本发明的方法中,外围设备对语音信号进行分析以确定是否包含唤醒词具有第一准确度;计算设备对语音信号进行分析以确定是否包含唤醒词具有第二准确度;以及第一准确度低于第二准确度。
12.可选地,在根据本发明的方法中,外围设备采用第一神经网络算法对语音信号进行分析,以及计算设备采用第二神经网络算法对语音信息进行分析,以及第一神经网络中的参数少于第二神经网络中的参数。
13.可选地,在根据本发明的方法中,从外围设备接收语音信号包括:从超过一个外围设备接收语音信号;以及从所接收的语音信号中,选择声音强度最大的语音信号作为要进行分析的语音信号。
14.可选地,根据本发明的方法还包括步骤:在计算设备切换到第二运行状态之后,指示外围设备接收新的语音信号,以便将所接收的新语音信号发送到计算设备进行处理。
15.可选地,在根据本发明的方法中,语音信号包括多路音频信号,以及从与计算设备通信连接的外围设备接收语音信号的步骤包括:接收以预定格式编码的语音信号,该编码的语音信号包括指示音频信号路数的第一部分、指示多路音频信号中的每路音频信号长度的第二部分、以及多路音频信号。
16.可选地,在根据本发明的方法中,第一部分还指示参考音频信号的路数;以及编码的语音信号还包括多路参考音频信号以及指示多路参考音频信号中的每路音频信号长度的第三部分。
17.可选地,在根据本发明的方法中,外围设备以下列方式中的至少一种与计算设备通信连接:蓝牙、zigbee、wifi、移动通信;以及该外围设备为拾音设备,适于获取语音输入。
18.根据本发明的另一个方面,提供了一种语音处理方法,适于在计算设备中执行,该方法包括步骤:接收语音信号;对该语音信号进行分析,以确定该语音信号是否包含唤醒词;以及在确定该语音信号包含唤醒词时,将语音信号发送到与计算设备通信连接的智能设备,以便智能设备再次对语音信号进行分析并确定该语音信号包含适于改变智能设备运行状态的唤醒词。
19.根据本发明的另一个方面,提供了一种智能设备,包括:通信单元,适于和外围设备进行通信,以便从外围设备接收语音信号,其中外围设备对语音信号进行分析并确定语音信号包含适于改变智能设备运行状态的唤醒词;语音处理单元,适于对语音信号进行分析,以确定该语音信号是否包含唤醒词;以及运行状态切换单元,适于在语音处理单元确定语音信号包含唤醒词时,将智能设备从第一运行状态切换到第二运行状态,以便对后续的新语音信号进行处理,其中第一运行状态的能耗低于第二运行状态的能耗。
20.根据本发明的又一方面,提供了一种计算设备,包括拾音单元,适于获取在计算设备周围的语音信号;语音分析单元,适于对语音信号进行分析,以确定该语音信号是否包含唤醒词;以及通信单元,适于在语音分析单元确定语音信号包含唤醒词时,将语音信号发送到与计算设备通信连接的智能设备,以便智能设备再次对语音信号进行分析并确定语音信号包含适于改变智能设备运行状态的唤醒词。
21.根据本发明的再一个方面,提供了一种语音处理系统,包括上述的智能设备和上
述的计算设备。
22.根据本发明的再一个方面,提供了一种计算设备,包括:至少一个处理器;和存储有程序指令的存储器,其中,程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行如上所述任一方法的指令。
23.根据本发明的再一个方面,提供了一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得计算设备执行如上所述的任一方法。
24.根据本发明的语音处理方案,可以先在具有相对较低处理性能的拾音设备如手环或者耳机上进行初步的唤醒词判断,当初步确定存在唤醒词时,将相关语音发送到具有相对较高处理性能的智能设备中进行二次唤醒词判断,并只有在二次判断也确定存在唤醒词时,才将智能设备的运行状态改变为具有相对较高能耗的运行状态以便对后续的语音进行处理。利用这种方案,智能设备不需要一直运行进行唤醒词判断的语音识别处理,从而可以减少智能设备的能耗。
25.另外,根据本发明的语音处理方案,可以在拾音设备和智能设备上运行基本相同但是具有不同参数数量的、基于神经网络的语音识别算法,来实现在拾音设备和智能设备上的不同准确度和执行速度。
26.另外,根据本发明的方案,拾音设备可以部署在距离智能设备有一定距离的位置处,例如更靠近人的位置,从而可以更清晰地获取语音信号,减少了由于智能设备离人位置较远而不能清晰获取语音信号的问题。
27.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
28.为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
29.图1示出了根据本发明一个实施例的语音处理系统100的场景示意图;
30.图2示出了根据本发明一个实施例的计算设备200的示意图;
31.图3示出了根据本发明一个实施例的语音处理方法300的流程图;
32.图4示出了根据本发明另一个实施例的语音处理方法400的流程图;
33.图5示出了根据本发明另一个实施例的智能设备110的示意图;以及
34.图6示出了根据本发明另一个实施例的拾音设备120的示意图。
具体实施方式
35.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围
完整的传达给本领域的技术人员。
36.图1示出了根据本发明一些实施例的语音处理系统100的场景示意图。如图1所示,系统100中包括智能设备110和一个多个外围设备120。智能设备110例如为各种移动终端,例如智能音箱、智能手机、智能数字终端等。它们可以部署在固定位置或者便于携带,并与服务器130进行通信连接,来提供各种服务。例如,智能设备110可以是智能音箱,可以接收用户140的语音输入,来从服务器130获取天气、导航信息,并以语音或者视频方式提供给用户。智能设备110还可以接收用户的语音输入来向服务器130发送购物请求,以实现网络购物过程。
37.智能设备110可以多种方式向用户140呈现信息。例如智能设备110可以是智能音箱,以音频方式向用户呈现信息。智能设备110也可以是智能电视或者智慧屏,通过在智能设备110的屏幕或者投影上呈现界面来以音视频的方式向用户呈现信息。
38.外围设备120与智能设备110通过各种方式通信相连。这些方式包括但不限于蓝牙、wifi、zigbee、4g或者5g移动通信网络等。本发明不受限于通信方式,所有可以在外围设备120和智能设备110之间进行信息通信的方式都在本发明的保护范围之内。
39.外围设备120例如为诸如手环和耳机之类的拾音设备。拾音设备120可以获取外界的音频信息,特别是各种语音信息,并发送到智能设备110,以便智能设备110对该语音信息进行处理,从而实现语音交互。
40.一些外围设备120也可以具有尺寸受限的显示屏幕,并可以在与智能设备110进行语音交互的同时,利用显示屏幕和智能设备110进行交互(确认和查看文本消息、查看短视频等)
41.可选地,外围设备120还可以作为智能设备110的输出设备。例如,智能设备110可以通过外围设备120以音频或者振动等方式向用户140输出智能设备110的处理结果。
42.智能设备110可以具有多种运行状态。例如当智能设备110长时间未和用户进行交互时,其可以处于具有较低功耗的休眠运行状态,在该状态下,除了一些必要的功能如通信功能等之外,其它功能不工作,这样保证系统的能耗最低。而当智能设备110在处理用户的语音信号,并和用户进行交互时,其可以处于正常运行状态,其中的大部分功能都在运行中并具有相对较高的功耗。
43.根据本发明的一个实施方式,智能设备110可以在识别出所接收到的语音中包括特定唤醒词时,被唤醒以便从休眠运行状态切换到正常运行状态。唤醒词可以是预定确定的一些词或者语句,例如“你好,xxx”、“hi,xxx”这样的短语。
44.智能设备110可以采用各种方法来从语音信息中识别特定唤醒词。例如,各种基于神经网络(dnn、cnn、lstm、gru、crnn、ds-cnn等)的深度学习方法可以用于语音识别,并具有较高的准确度。本发明不受限于语音识别算法的具体形式,所有可以对语音信息进行语音识别处理以确定是否包含唤醒词的方式都在本发明的保护范围之内。
45.另外,应当注意的是,智能设备110可以根据实际需要而包括超过两种运行状态。本发明不受限于智能设备110中的运行状态数量,所以可以在被唤醒前后具有不同能耗的运行状态的方式都在本发明的保护范围之内。
46.拾音设备120获取外部的语音信息,并可以对语音信息进行初步处理,以确定语音信息中是否包含唤醒词。根据本发明的一种实施方式,拾音设备120可以采用各种方式来从
所获取的语音信息中识别特定唤醒词。例如,可以采用各种基于神经网络(dnn、cnn、lstm、gru、crnn、ds-cnn等)的深度学习方法用于语音识别。本发明不受限于语音识别算法的具体形式,所有可以对语音信息进行语音识别处理以确定是否包含唤醒词的方式都在本发明的保护范围之内。应当注意的是,考虑到拾音设备120一般处理性能较低,所以可以采用较低精度的语音识别方法。例如就基于神经网络的深度学习方法而言,可以采用具有相对较少参数和较简单网络结构的神经网络。这样构造的语音识别方法的精度比在智能设备110中所采用的语音识别方法的精度要低。
47.在拾音设备120确定所获取的语音信息中包含唤醒词时,拾音设备120可以将该语音信息发送到智能设备110,并且在智能设备110处对该语音信息进行再次语音设备,以二次确定是否包含唤醒词。只有在智能设备110确定该语音信息包含唤醒词之后,才开始后续的语音交互处理。下面将参考图3对拾音设备120和智能设备110之间的交互过程进行详细描述。
48.应当指出,图1所示的系统100仅作为一个示例,本领域技术人员可以理解,在实际应用中,系统100可以包括多个智能设备110、多个拾音设备120,本发明对系统100中所包括的智能设备110和拾音设备120的数量不做限制。
49.根据本发明的实施方式,智能设备110和拾音设备120均可以通过如下所述的计算设备200来实现。图2示出了根据本发明一个实施例的计算设备200的示意图。
50.如图2所示,在基本的配置202中,计算设备200典型地包括系统存储器206和一个或者多个处理器204。存储器总线208可以用于在处理器204和系统存储器206之间的通信。
51.取决于期望的配置,处理器204可以是任何类型的处理,包括但不限于:微处理器(μp)、微控制器(μc)、数字信息处理器(dsp)或者它们的任何组合。处理器204可以包括诸如一级高速缓存210和二级高速缓存212之类的一个或者多个级别的高速缓存、处理器核心214和寄存器216。示例的处理器核心214可以包括运算逻辑单元(alu)、浮点数单元(fpu)、数字信号处理核心(dsp核心)或者它们的任何组合。示例的存储器控制器218可以与处理器204一起使用,或者在一些实现中,存储器控制器218可以是处理器204的一个内部部分。
52.取决于期望的配置,系统存储器206可以是任意类型的存储器,包括但不限于:易失性存储器(诸如ram)、非易失性存储器(诸如rom、闪存等)或者它们的任何组合。系统存储器206可以包括操作系统220、一个或者多个应用222以及程序数据224。在一些实施方式中,应用222可以布置为在操作系统上由一个或多个处理器204利用程序数据224执行指令。
53.计算设备200还可以包括有助于从各种接口设备(例如,输出设备242、外设接口244和通信设备246)到基本配置202经由总线/接口控制器230的通信的接口总线240。示例的输出设备242包括图形处理单元248和音频处理单元250。它们可以被配置为有助于经由一个或者多个a/v端口252与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口244可以包括串行接口控制器254和并行接口控制器256,它们可以被配置为有助于经由一个或者多个i/o端口258和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备246可以包括网络控制器260,其可以被布置为便于经由一个或者多个通信端口264与一个或者多个其他计算设备262通过网络通信链路的通信。
54.网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波
或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以是这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(rf)、微波、红外(ir)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
55.在根据本发明的实施例中,计算设备200被配置为当实现为智能设备110时,执行根据本发明的、在智能设备110中执行的语音处理方法。计算设备200的程序数据224中包含执行根据本发明的、在指令设备110中执行的语音处理方法的多条程序指令。
56.相应地,当计算设备200被配置为当实现为拾音设备120时,执行根据本发明的、在拾音设备120中执行的语音处理方法。计算设备200的程序数据224中包含执行根据本发明的、在拾音设备120中执行的语音处理方法的多条程序指令。
57.图3示出了根据本发明一些实施例的语音处理方法300的流程图。该处理方法300适于在系统100中的智能设备110和拾音设备120中执行。应当注意的是,图3示出的方法需要智能设备110和拾音设备120进行协作,并分别执行不同的方法步骤,但是这并不意味着智能设备110和拾音设备120必须是成对出现的,在智能设备110中执行的方法步骤和在拾音设备120中执行的方法步骤可以分别构成单独的语音处理方法,即智能设备110可以和任何其它拾音设备120进行通信连接,而拾音设备120也可以与任何其它智能设备110进行通信连接,所有这些都没有脱离本发明的保护范围。
58.如图3所示,方法300始于步骤s310。在步骤s310中,拾音设备120对周围进行监听,并从周围获取例如用户140的语音信号。例如当用户140在说话时,在用户140附近的拾音设备(例如用户佩戴的耳机或者手环等)就可以获取或者接收到语音信号。
59.随后,在步骤s312中,在拾音设备120中,对在步骤s310中所接收的语音信号进行分析,以确定该语音信号是否包含唤醒词。如上参考图1所述,唤醒词为预定设定的、可以将智能设备110唤醒以进入正常运行状态的特定词汇或者短语。同样如上参考图1所述,可以采用各种语音识别方法来确定语音信号中是否包含唤醒词。根据一种实施方式,可以采用各种基于神经网络(dnn、cnn、lstm、gru、crnn、ds-cnn等)的深度学习方法进行语音识别。
60.当在步骤s312中确定语音信号包含唤醒词时,则在步骤s314中,拾音设备120将该语音信号发送给智能设备110,以便由智能设备110来再次对该语音信号进行分析来二次确定该语音信号是否包含唤醒词。
61.可选地,当在步骤s312中确定语音信号不包含唤醒词时,则可以在步骤s316中,拾音设备120不将该语音信号发送给智能设备110,并可以继续获取拾音设备周围的语音信号,从返回到步骤s310以重新开始对新接收的语音信号进行处理。
62.可选地,在执行步骤s312之前,拾音设备120可以首先确定本身的电量是否低于预定阈值,例如20%。如果电量太低,而进行语音分析又会消耗拾音设备120的电能,则为了延长拾音设备120的使用时间,则可以不对语音信号进行语音分析,而是直接在步骤s314中,将该语音信号发送给智能设备110来直接进行分析。
63.相应地,智能设备110在步骤s314中接收到从拾音设备120发送过来的语音信号。这个语音信号已经在步骤s312中由拾音设备120进行了语音分析并确定包含了唤醒词。
64.随后,在步骤s322中,在智能设备110中,对在步骤s314中所接收的语音信号进行分析,以再次确定该语音信号是否包含唤醒词。如上参考图1所述智能设备110可以采用各种语音识别方法来确定语音信号中是否包含唤醒词。根据一种实施方式,可以采用各种基于神经网络(dnn、cnn、lstm、gru、crnn、ds-cnn等)的深度学习方法进行语音识别。
65.当在步骤s322中,智能设备110再次确定语音信号包含唤醒词时,则在步骤s324中,对智能设备110的运行状态进行切换,以便从低能耗状态切换到高能耗状态。
66.如上参考图1所述,智能设备110具有多个运行状态。在智能设备110被唤醒之前,大部分的功能并没有在运行中,因此智能设备110处于具有较低能耗的休眠运行状态。而在被唤醒之后,智能设备110可以进入正常运行状态,其中设备的大部分功能都开始正常运行,以较高能耗来对后续用户新的语音或者视频等输入进行处理。
67.相应的,当在步骤s322中,智能设备110确定语音信号不包含唤醒词时,则智能设备110可以继续保持在休眠运行状态,并等待再次接收来自拾音设备120的、包含被拾音设备120被确定为包含唤醒词的语音信号进行处理。
68.应当注意的是,智能设备110可以在接收到语音信号之后,临时唤醒,并执行语音识别方法来对语音信号进行处理,并在确定语音信号不包含唤醒词时,返回到休眠状态。
69.可选地,智能设备110还可以设置专门执行语音设别方法的另一种运行状态。这种运行状态的能耗可以在休眠运行状态和正常运行状态之间。当智能设备110在步骤s314中接收到语音信号时,就从休眠状态切换到这个中间运行状态;在步骤s322确定语音信号包含唤醒词时,则在步骤s324中进一步切换到正常运行状态;以及在步骤s322确定语音信号不包含唤醒词时,则切换回到休眠运行状态。
70.可选地,在上面的步骤s312和s322中,分别在拾音设备120和智能设备110中对语音信号进行了分析以确定该语音信号是否包含唤醒词,应当注意的是,考虑到拾音设备120和智能设备110的处理性能和对语音信号进行分析的先后顺序,拾音设备120对语音信号进行分析以确定是否包含唤醒词的准确度会低于智能设备110对语音信号进行分析以确定是否包含唤醒词的准确度。
71.根据一种实施方式,当拾音设备120和智能设备110都采用基于基于神经网络(dnn、cnn、lstm、gru、crnn、ds-cnn等)的深度学习方法进行语音识别时,在拾音设备120中所采用的神经网络结构会比在智能设备110中所采用的神经网络结构要简单。例如拾音设备120中采用的神经网络结构所具有的参数数量要小于智能设备110中的神经网络所具有的参数数量,或者拾音设备120中采用的神经网络结构所具有的网络层数要少于智能设备110中的神经网络所具有的网络层数。
72.可选地,拾音设备120以预定格式对要传输的语音信号进行编码。语音信号包括多路音频信号。编码后的语音信号包括指示音频信号路数的第一部分、指示多路音频信号中的每路音频信号长度的第二部分、以及多路音频信号本身。另外,语音信号还包括多路参考音频信号。在这种情况下,在编码后的语音信号中,在第一部分中还指示参考音频信号的路数。并且编码后的语音信号还包括指示多路参考音频信号中的每路音频信号长度的第三部分和多路参考音频信号本身。
73.下面给出了对语音信号进行编码之后的数据报文的具体格式定义:
[0074][0075]
在上面的格式中,数据报文按每路音频顺序排列,先是拾音设备拾取的音频(即mic音频)数据,随后是参考音频数据。第一字节标识音频有几路,后续四个字节分别表示每路mic音频的长度和每路参考音频的长度。然后跟随全部音频数据。每个数据包必须包含拾音设备120所有音频通路的数据。
[0076]
根据一种实施方式,拾音设备120可以16khz采样率来进行语音信号的获取,并且语音信号的位宽为16bit。每次,拾音设备120可以将时间长度为3秒的语音信号发送给智能设备110进行二次确认。
[0077]
图4示出了根据本发明另一个实施例的语音处理方法400的流程图。语音处理方法400是语音处理方法300的进一步实施例,因此采用与方法300中相同或者相似的标记来指示相同或者相似的处理步骤。
[0078]
方法400不同于方法300之处在于,除了拾音设备120a之外,还有另一个拾音设备120b一样在从周围环境中接收语音信息,并进行语音信息是否包含唤醒词的判断。因此,在拾音设备120a中执行的步骤310a、312a、314a和316a,以及在拾音设备120b中执行的步骤
310b、312b、314b和316b和图3中的步骤310、312、314和316是相同的。
[0079]
方法400还包括步骤420,其中在智能设备110中,当分别从314a和314b接收到来着拾音设备120a和120b的语音信号时,需要从中选择来自其中之一的语音信号进行后续处理。根据本发明的一种实施方式,在步骤s420中,从所接收的语音信号中,选择声音强度最大的语音信号作为要进行分析的语音信号。根据其它实施例,还可以根据实际需要以其它条件来从所接收的多个语音信号中进行选择,例如,可以选择声音质量好的语音信号等。任何可以选择高质量的语音信号的方式都在本发明的保护范围之内。
[0080]
应当注意的是,虽然上面在图4中描述了两个拾音设备120a和120b,但是本发明不受限于与智能设备110通信连接的拾音设备的数量。
[0081]
在步骤s420确定了要进行分析的语音信号之后,在步骤s322中进行后续处理。这些处理和参考图3所描述的方法300中的相应步骤相同,并不在进行赘述。
[0082]
另外,在步骤s324将智能设备110切换到正常运行状态以便和用户进行语音交互之后,在步骤s430中,由智能设备110指示拾音设备之一来继续接收新的语音信号,以便进行语音交互。
[0083]
根据一种实施方式,智能设备110选择其包含唤醒词的语音信号被二次确认的拾音设备120来指示。例如,如图4所示,在步骤s420中确定选择来着拾音设备120b的语音信号进行二次确认,因此,在步骤s430中,指示拾音设备120b获取新的语音信号发送给智能设备110,以便进行语音交互处理。
[0084]
根据本发明的语音处理方案,可以先在具有相对较低处理性能的拾音设备120如手环或者耳机上进行初步的唤醒词判断,当初步确定存在唤醒词时,将相关语音发送到具有相对较高处理性能的智能设备110中进行二次唤醒词判断,并只有在二次判断也确定存在唤醒词时,才将智能设备110的运行状态改变为具有相对较高能耗的运行状态以便对后续的语音进行处理。利用这种方案,智能设备110不需要一直运行进行唤醒词判断的语音识别处理,从而可以减少智能设备的能耗。
[0085]
另外,根据本发明的方案,拾音设备120可以部署在距离智能设备110有一定距离的位置处,例如更靠近人的位置,从而可以更清晰地获取语音信号,减少了由于智能设备110离人位置较远而不能清晰获取语音信号的问题。
[0086]
图5示出了根据本发明另一个实施例的智能设备110的示意图。图5以逻辑划分的方式示出了智能设备110中的各个部件,应当注意,这种划分可以根据实际物理实现的方式而重新进一步细分或者重新组合,且没有脱离本发明的保护范围,任何具有图5所示的逻辑部件的智能设备110都在本发明的保护范围之内。
[0087]
如图5所示,智能设备110包括通信单元510、语音处理单元520和运行状态切换单元530。
[0088]
通信单元510为智能设备110提供通信功能,并和诸如拾音设备120之类的外围设备进行通信,以便从外围设备120接收语音信号。如上所述,拾音设备120在将语音信号发送给智能设备110之前,已经对该语音信号进行了分析并确定该语音信号包含了唤醒词。通信单元510可以各种方式与拾音设备120进行通信连接,这些方式包括但不限于蓝牙、zigbee、wifi、移动通信。本发明不受限于通信方式,所有可以在外围设备120和智能设备110之间进行信息通信的方式都在本发明的保护范围之内。
[0089]
应当注意的是,根据一种实施方式,语音信号可以预定格式进行编码,以便适于在拾音设备120和智能设备110之间进行传输。在上文中已经对语音信号的格式进行了详细描述,这里不再进行赘述。
[0090]
语音处理单元520耦接到通信单元510,并对通信单元510所接收到的语音信号进行分析,以再次确定该语音信号是否包含唤醒词。如上所述,语音处理单元520可以各种方法来从语音信息中识别特定唤醒词。例如,语音处理单元520可以采用各种基于神经网络(dnn、cnn、lstm、gru、crnn、ds-cnn等)的深度学习方法来进行语音信号处理。
[0091]
当语音处理单元520再次确定语音信号包含唤醒词时,运行状态切换单元530对智能设备110的运行状态进行切换,以便从低能耗状态切换到高能耗状态。如上参考图1所述,智能设备110具有多个运行状态。在智能设备110被唤醒之前,大部分的功能并没有在运行中,因此智能设备110处于具有较低能耗的休眠运行状态。而在被唤醒之后,智能设备110可以进入正常运行状态,其中设备的大部分功能都开始正常运行,以较高能耗来对后续用户新的语音或者视频等输入进行处理。
[0092]
相应地,当语音处理单元520确定语音信号不包含唤醒词时,则运行状态切换单元530不对智能设备110的运行状态进行切换,智能设备110可以继续保持在休眠运行状态,并等待再次接收来自拾音设备120的、包含被拾音设备120被确定为包含唤醒词的语音信号进行处理。
[0093]
应当注意的是,智能设备110可以在接收到语音信号之后,由运行状态切换单元530临时唤醒,并由语音处理单元520执行语音识别方法来对语音信号进行处理,并在确定语音信号不包含唤醒词时,利用运行状态切换单元530切换回到休眠状态。
[0094]
可选地,根据本发明的一种实施方式,拾音设备120和语音信号处理单元520都对语音信号进行了分析以确定该语音信号是否包含唤醒词,应当注意的是,考虑到拾音设备120和智能设备110的处理性能和对语音信号进行分析的先后顺序,拾音设备120对语音信号进行分析以确定是否包含唤醒词的准确度会低于语音信号处理单元520对语音信号进行分析以确定是否包含唤醒词的准确度。
[0095]
根据一种实施方式,当拾音设备120和语音信号处理单元520都采用基于基于神经网络(dnn、cnn、lstm、gru、crnn、ds-cnn等)的深度学习方法进行语音识别时,在拾音设备120中所采用的神经网络结构会比在语音信号处理单元520中所采用的神经网络结构要简单。例如拾音设备120中采用的神经网络结构所具有的参数数量要小于语音信号处理单元520中的神经网络所具有的参数数量,或者拾音设备120中采用的神经网络结构所具有的网络层数要少于语音信号处理单元520中的神经网络所具有的网络层数。
[0096]
可选地,根据本发明的一种实施方式,通信单元510还可以从超过一个外围设备120接收到语音信号。例如,在图1所示的系统100中,当用户140佩戴耳机120a和手环120b时,用户的语音信息会被耳机120a和手环120b同时接收,并分别被初步确定为包含唤醒词,并发送到智能设备110进行再次确认。
[0097]
此时,语音信号处理单元520需要从中选择来自其中之一的语音信号进行后续处理。根据本发明的一种实施方式,语音信号处理单元520从所接收的语音信号中,选择声音强度最大的语音信号作为要进行分析的语音信号。根据其它实施例,还可以根据实际需要以其它条件来从所接收的多个语音信号中进行选择,例如,可以选择声音质量较好的语音
信号等。任何可以选择高质量的语音信号的方式都在本发明的保护范围之内。
[0098]
另外,在运行状态切换单元530将智能设备110切换到正常运行状态以便和用户进行语音交互之后,通信单元510指示拾音设备120之一来继续接收新的语音信号,以便进行语音交互。
[0099]
根据一种实施方式,智能设备110选择其包含唤醒词的语音信号被二次确认的拾音设备120来指示。例如,如上参考图4所示,如果确定选择来着拾音设备120b的语音信号进行二次确认,则通信单元510指示拾音设备120b获取新的语音信号发送给智能设备110,以便进行语音交互处理。
[0100]
图6示出了根据本发明另一个实施例的拾音设备120的示意图。图6以逻辑划分的方式示出了拾音设备120中的各个部件,应当注意,这种划分可以根据实际物理实现的方式而重新进一步细分或者重新组合,且没有脱离本发明的保护范围,任何具有图6所示的逻辑部件的拾音设备120都在本发明的保护范围之内。
[0101]
如图6所示,拾音设备120包括拾音单元610、语音分析单元620和通信单元630。
[0102]
拾音单元610对周围进行监听,并从周围获取例如用户140的语音信号。例如当用户140在说话时,在用户140附近的拾音设备(例如用户佩戴的耳机或者手环等)就可以获取或者接收到语音信号。
[0103]
语音分析单元620耦接到拾音单元610,对拾音单元610所接收的语音信号进行分析,以确定该语音信号是否包含唤醒词。如上参考图1所述,唤醒词为预定设定的、可以将智能设备110唤醒以进入正常运行状态的特定词汇或者短语。同样如上参考图1所述,可以采用各种语音识别方法来确定语音信号中是否包含唤醒词。根据一种实施方式,可以采用各种基于神经网络(dnn、cnn、lstm、gru、crnn、ds-cnn等)的深度学习方法进行语音识别。
[0104]
当语音分析单元620确定该语音信号包含唤醒词时,则通信单元630将该语音信号发送给智能设备110,以便由智能设备110来再次对该语音信号进行分析来二次确定该语音信号是否包含唤醒词。
[0105]
可选地,当语音分析单元620确定语音信号不包含唤醒词时,则通信单元630不将该语音信号发送给智能设备110,并可以继续由拾音单元610获取拾音设备周围的语音信号,以重新开始对新接收的语音信号进行处理。
[0106]
另外,可选地,拾音设备120可以首先确定本身的电量是否低于预定阈值,例如20%。如果电量太低,由于语音分析单元620进行语音分析又会消耗拾音设备120的电能,为了延长拾音设备120的使用时间,则可以不对语音信号进行语音分析,而是直接由通信单元630将该语音信号发送给智能设备110来直接进行分析。
[0107]
应当注意的是,根据一种实施方式,语音信号可以预定格式进行编码,以便适于在拾音设备120和智能设备110之间进行传输。在上文中已经对语音信号的格式进行了详细描述,这里不再进行赘述。
[0108]
可选地,根据本发明的一种实施方式,语音分析单元620和智能设备110都对语音信号进行了分析以确定该语音信号是否包含唤醒词,应当注意的是,考虑到拾音设备120和智能设备110的处理性能和对语音信号进行分析的先后顺序,语音分析单元620对语音信号进行分析以确定是否包含唤醒词的准确度会低于智能设备110对语音信号进行分析以确定是否包含唤醒词的准确度。
[0109]
根据一种实施方式,当语音分析单元620和智能设备110都采用基于基于神经网络(dnn、cnn、lstm、gru、crnn、ds-cnn等)的深度学习方法进行语音识别时,在语音分析单元620中所采用的神经网络结构会比在智能设备110中所采用的神经网络结构要简单。例如语音分析单元620中采用的神经网络结构所具有的参数数量要小于智能设备110中的神经网络所具有的参数数量,或者语音分析单元620中采用的神经网络结构所具有的网络层数要少于智能设备110中的神经网络所具有的网络层数。
[0110]
可选地,在上面拾音设备120和智能设备110的交互过程中,一些拾音设备和智能设备具有显示界面,并且可以在显示界面上呈现与交互相关的信息,以帮助用户更好地理解交互过程。例如,可以在拾音设备和智能设备的界面上为用户提供是否进行针对唤醒词识别的语音信号分析的设置、对电量阈值进行设置等。并且可以随着交互的进行,提供例如“检测到唤醒词,发送给智能设备110进行二次确认”等、“收到拾音设备的语音,进行唤醒词检测”、“检测到唤醒词,切换设备运行状态”等等信息。所以这些交互方式,都在本发明的保护范围之内。
[0111]
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、u盘、软盘、cd-rom或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
[0112]
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的方法。
[0113]
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
[0114]
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
[0115]
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0116]
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵
循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
[0117]
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
[0118]
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0119]
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0120]
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
[0121]
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
[0122]
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。