一种智能语音系统及其语音处理方法与流程

文档序号：18899423发布日期：2019-10-18 21:43阅读：303来源：国知局

本发明涉及多媒体技术领域，尤其涉及一种智能语音系统及其语音处理方法。

背景技术：

随着语音人机交互界面的出现，越来越多的产品需要智能语音的交互。目前市场上的智能语音交互产品都是基于wifi的产品，但wifi功耗大，便携性不好。而且智能手机的发展已经在形成了一个便携式的计算中心。所以依托蓝牙技术实现便携性的智能语音交互产品会是一个重要的发展趋势。而传统蓝牙和手机之前传语音采用的是经典蓝牙的方式，会存在手机经典蓝牙模式频繁切换的问题，导致体验不佳。

经典蓝牙的音频传输是通过hfp(hands-freeprofile，免提配置文件)，和a2dp(advancedaudiodistributionprofile，蓝牙音频传输模型协定)两种蓝牙profile实现。hfp用在打电话场景，其特点是实时双向语音通信，而ad2p是用在听立体声音乐场景，其特点是单向音频推送。这两种蓝牙的音频通信占用了经典蓝牙的通道，而且在目前的实现中是根据场景相互切换的。所以目前有蓝牙音频产品的语音需求是通过将模式从听歌的a2dp场景切换到hfp的场景进行语音数据采集，这样会有两个问题，1，建立新的系统链接需要时间，需要等待接近2秒时间，体验很差。2，采集语音的数据需要在发出采集指令后立即进行采集和传输，旧有的模式切换方式会导致前面的数据丢失。

亟待一种新的语音处理技术解决现有技术的缺陷。

技术实现要素：

基于以上问题，本发明提出一种智能语音系统，可以让系统在手机服务切换的同时将语音唤醒信息和上传信息进行保存，这样仍然可以在切换服务的时候，获取到流畅的交互体验。

本发明实施例是这样实现的，一种智能语音系统，包括蓝牙终端和智能设备；所述蓝牙终端包括麦克风阵列、语音预处理装置、第一传输装置、回放装置；所述智能设备包括第二传输装置和智能处理器；所述第一传输装置包括第一hfp通信装置和第一a2dp通信装置，所述第二传输装置包括第二hfp通信装置和第二a2dp通信装置；所述语音预处理装置包括存储装置和编码装置，所述编码装置和所述麦克风阵列相连，用于对所述麦克风阵列获取的第一音频信号进行编码，并将所述第一音频信号通过编码装置进行编码后存储在所述存储装置中，并当hfp通信连接建立后通过所述第一hfp通信装置将所述存储装置中的第一音频信号发送给所述第二hfp通信装置；所述回放装置与所述第一a2dp通信装置相连，用于通过所述第一a2dp通信装置接收所述第二a2dp通信装置发送的第二音频信号。

进一步地，所述编码装置进一步包括pcm编码装置和音频编码装置，所述pcm编码装置用于对所述麦克风阵列获取的第一音频信号进行pcm编码后存储在所述存储装置中，当第一hfp通信装置与第二hfp通信装置建立连接后，所述音频编码装置将所述第一音频信号的pcm编码进一步进行音频编码并通过第一hfp通信装置传输到第二hfp通信装置。

进一步地，所述编码装置进一步包括音频编码装置，所述音频编码装置用于对所述麦克风阵列获取的第一音频信号进行音频编码后存储在所述存储装置中，当第一hfp通信装置与第二hfp通信装置建立连接后，将所述进行音频编码的第一音频信号通过第一hfp通信装置传输到第二hfp通信装置。

进一步地，所述智能语音系统进一步包括语音云服务器，所述语音云服务器与所述智能设备进行远程通信并获取智能设备发送的所述第一音频信号，用于对所述第一音频信号进行处理。

进一步地，所述语音云服务器和所述智能设备之间通过无线网络进行数据传输。

进一步地，所述麦克风阵列为模拟麦克风阵列或数字麦克风阵列，所述麦克风阵列包括1～8个麦克风。

进一步地，所述智能设备为智能手机、平板电脑、智能电视或智能机顶盒。

进一步地，所述语音预处理装置进一步包括：

唤醒装置，与所述麦克风阵列连接，用于唤醒所述语音预处理装置和第一传输装置；

降噪装置，连接在所述麦克风阵列和所述第一传输装置之间，用于对采集到的所述音频信号进行降噪处理；

波束形成装置，与所述麦克风阵列连接，用于加强特定方向的语音采集；

回声消除装置，连接在所述降噪装置和所述第一传输装置之间，用于对采集到的所述音频信号进行回声消除处理。

进一步地，所述智能设备进一步包括：

唤醒装置，用于唤醒所述语音预处理装置和第一传输装置；

降噪装置，用于对采集到的所述音频信号进行降噪处理；

波束形成装置，用于加强特定方向的语音采集。

根据本发明实施例的另一方面，本发明还提供一种用于智能语音系统中的语音处理方法，可以让系统在手机服务切换的同时将语音唤醒信息和上传信息进行保存，这样仍然可以在切换服务的时候，获取到流畅的交互体验。

本发明实施例是这样实现的，一种用于智能语音系统中的语音处理方法，包括如下步骤：

(1)麦克风阵列获取第一音频信号并发送给语音预处理装置；(2)所述语音预处理装置对所述第一音频信号进行编码后将所述第一音频信号存储在所述存储装置中；(3)当hfp通信连接建立后通过所述第一hfp通信装置将所述存储装置中的第一音频信号发送给所述第二hfp通信装置；(4)智能设备对所述第一音频信号处理后返回控制信号到所述语音预处理装置。

进一步地，所述步骤进一步包括：(201)对所述麦克风阵列获取的第一音频信号进行pcm编码后存储在存储装置中；(202)当第一hfp通信装置与第二hfp通信装置建立连接后，将所述第一音频信号的pcm编码进一步进行音频编码；(203)将所述进行音频编码的第一音频信号通过第一hfp通信装置传输到第二hfp通信装置。

进一步地，所述步骤进一步包括：(204)对所述麦克风阵列获取的第一音频信号进行音频编码后存储在所述存储装置中；(205)当第一hfp通信装置与第二hfp通信装置建立连接后，将所述进行音频编码的第一音频信号通过第一hfp通信装置传输到第二hfp通信装置。

采用上述技术方案，具有以下有益效果：将唤醒后的语音编码缓冲保存在蓝牙终端上，直到hfp通路建立起来，再将语音传给系统的hfp服务通道。这里对语音编码缓冲保存采用的编码格式可以是pcm格式，也可以是cvsd、msbc等音频格式，这样既适用于手机系统原生的助手的产品，又不影响助手的使用体验，和直接使用手机的原生助手起到类似的效果。在原有的a2dp的蓝牙音频通路上，将hfp切换后需要传输的语音信息传送给手机端，可改善a2dp的蓝牙音频切换时候导致的体验下降。

附图说明

图1是根据本发明一个实施例提供的智能语音系统的结构框图；

图2是根据本发明另一实施例提供的智能语音系统的结构框图；

图3是根据本发明另一实施例提供的智能语音系统中语音处理方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提出一种智能语音系统，参考图1，为本发明实施例提出的智能语音系统的结构框图，包括蓝牙终端1和智能设备2；所述蓝牙终端1包括麦克风阵列101、语音预处理装置102、第一传输装置103、回放装置104；所述智能设备2包括第二传输装置202和智能处理器201；所述第一传输装置103包括第一hfp通信装置1032和第一a2dp通信装置1031，所述第二传输装置202包括第二hfp通信装置2022和第二a2dp通信装置2021；所述语音预处理装置102包括存储装置1021和编码装置1022，所述编码装置1022和所述麦克风阵列101相连，用于对所述麦克风阵列101获取的第一音频信号进行编码，并将所述第一音频信号通过编码装置1022进行编码后存储在所述存储装置1021中，并当hfp通信连接建立后通过所述第一hfp通信装置1032将所述存储装置1021中的第一音频信号发送给所述第二hfp通信装置2022；所述回放装置104与所述第一a2dp通信装置1031相连，用于通过所述第一a2dp通信装置1031接收所述第二a2dp通信装置2021发送的第二音频信号。

上述所述智能设备为智能手机、平板电脑、智能电视或智能机顶盒。下面以手机为例进行详细说明。

具体来说，当手机端正在利用a2dp模式与蓝牙终端(例如蓝牙音箱)进行连接并播放歌曲时，手机端通过第二a2dp通信装置与蓝牙终端的第一a2dp通信装置进行通信连接将手机端的歌曲(也就是本发明所述的第二音频信号)传输到蓝牙终端，并由蓝牙终端的回放装置进行播放，此时两者之间建立的连接是a2dp协议。当蓝牙终端接收到语音控制请求，也就是第一音频信号时，马上对采集到到第一音频信号进行缓存，通过语音预处理装置中的编码装置对第一音频信号进行编码，并将其存储在存储装置中，然后蓝牙终端与手机进行hfp通信连接，当连接完成时，将缓存在存储装置中的第一音频信号数据发送到手机端进行处理，这样可以保证在等待进行hfp通信连接前接收到的语音控制信号不会丢失。

下面以一个具体的实例来对上述本发明实施例进行具体说明，当手机端与蓝牙终端进行连接，蓝牙终端播放手机中的歌曲时，此时两者之间通过a2dp传输装置建立了连接，进行了第二音频数据的传输，单向的由手机端发送到蓝牙终端，蓝牙终端的回放装置进行解码后进行播放。此时，当用户对蓝牙终端发出语音指令：“请播放邓丽君的歌曲”，该语音指令为发明实施例所述的第一音频信号，此时蓝牙终端的多阵列麦克接收到该语音指令时，首先将该语音指令信号“请播放邓丽君的歌曲”，进行编码后存储在存储装置中，与此同时手机与蓝牙终端进行通信链路的切换，从a2dp模式转换到hfp模式，当传输链路转换完成时，蓝牙终端将存储在存储装置中的第一音频信号通过hfp通信模式发送到手机端，手机端的智能处理器对该指令进行处理，反馈给蓝牙终端，蓝牙终端接收反馈回的指令开始播放邓丽君的歌曲。在上述过程中，如果采用传统的方式，由于指令时间过短，未等到hfp通信链路建立，语音指令已经停止，则会导致语音指令无法拾取。可以理解，如果语音指令为比较简单的指令，例如：播放，停止，增大音量，减小音量，下一首，上一首，接听电话，挂断电话类指令，则可以直接由蓝牙终端进行识别处理。只有语音命令较为复杂，例如：请帮我查找最近加油站在哪里？今天天气如何？等指令时，需要传输到手机端或者语音云服务器进行处理。

本发明实施例中，对第一音频信号进行编码，并将所述第一音频信号通过编码装置1022进行编码后存储在所述存储装置1021中，在实现上有两种方式，下面进一步地对两种方式进行详细说明。

本发明实施例提供的另一实施例，在上述实施例的基础上，所述编码装置进一步包括pcm编码装置和音频编码装置，所述pcm编码装置用于对所述麦克风阵列获取的第一音频信号进行pcm编码后存储在所述存储装置中，当第一hfp通信装置与第二hfp通信装置建立连接后，所述音频编码装置将所述第一音频信号的pcm编码进一步进行音频编码并通过第一hfp通信装置传输到第二hfp通信装置。具体来说，先将采集到的第一音频信号使用pcm编码装置进行pcm编码，并先缓存起来，等建立好了hfp连接以后从将缓存的pcm数据里面取数据进行编码成cvsd或msbc格式，通过hfp通信装置向智能终端的hfp接口上发送。

本发明实施例提供的另一实施例，在上述实施例的基础上，所述编码装置进一步包括音频编码装置，所述音频编码装置用于对所述麦克风阵列获取的第一音频信号进行音频编码后存储在所述存储装置中，当第一hfp通信装置与第二hfp通信装置建立连接后，将所述进行音频编码的第一音频信号通过第一hfp通信装置传输到第二hfp通信装置。与上述实施例的区别在于，该编码装置中不需要pcm编码装置，而是直接对采集到的第一音频信号进行音频编码。第一音频信号采集后就进行音频编码成cvsd或msbc，将编码后的语音缓存起来，建立了hfp接后，再将编码后的第一音频信号送上传输链路，发送到手机端进行处理。

存储装置一般可以是语音预处理装置的芯片内部的sram，也可使用芯片外部比如蓝牙终端的sram、ddr或者nandflash等存储介质。

本发明提供另一实施例，当手机端智能处理器无法完成语音识别处理的要求时，需要进一步使用语音云服务器3的语音识别功能，本发明实施例在上述系统的基础上还进一步包括语音云服务器，所述语音云服务器与所述智能设备进行远程通信并获取智能设备发送的所述第一音频信号，用于对所述第一音频信号进行处理。所述语音云服务器和所述智能设备之间通过无线网络进行数据传输。根据语音计算量的大小，通常简单的语音处理在手机端智能处理器可以完成，可以满足大部分前端设备的语音识别功能应用，但是在手机端智能处理器仍不能满足运算或处理的情况下，可以利用语音云服务器完成。

根据本发明实施例，所述麦克风阵列为模拟麦克风阵列或数字麦克风阵列，通常麦克风阵列包括1～8个麦克风，这是标准的远场语音采集的配置，通常状态下一般会使用2个麦克风组成麦克风阵列，在某些安静情况下的只使用1个麦克风也可以。

本发明还提供另一实施例，所述语音预处理装置进一步包括：

唤醒装置1025，与所述麦克风阵列连接，用于唤醒所述语音预处理装置和第一传输装置；

降噪装置1023，连接在所述麦克风阵列和所述第一传输装置之间，用于对采集到的所述音频信号进行降噪处理；

波束形成装置1024，与所述麦克风阵列连接，用于加强特定方向的语音采集；

回声消除装置1026，连接在所述降噪装置和所述第一传输装置之间，用于对采集到的所述音频信号进行回声消除处理。

本发明提供的实施例，为了提供更进一步的高级的语音处理，如图2所示，语音预处理装置102进一步包括唤醒装置1025，与所述麦克风阵列101连接，用于唤醒所述语音预处理装置102和第一传输装置103。所述语音预处理装置102进一步包括降噪装置1023，连接在所述麦克风阵列101和所述第一传输装置103之间，用于对采集到的所述音频信号进行降噪处理。所述语音预处理装置103进一步包括波束形成装置1024，与所述麦克风阵列101连接，用于麦克风阵列101加强特定方向的语音采集。所述语音预处理装置102进一步包括回声消除装置1026，连接在所述降噪装置1023和所述编码装置1035之间，用于对采集到的所述第一音频信号进行回声消除处理。上述唤醒装置用于麦克风阵列采集的语音信号，根据能量，或人声的特征(过零点检测，频谱分析等)，确定开启语音唤醒的算法，对比输入的语音和之前大批量训练序列的最大似然算法，确定语音输入是否为唤醒词，如果是则开启后续处理。上述波束形成装置1024，用于对有多麦克语音输入时候的各麦克的语音数据的时延和相位差，来判断声音信号相对麦克阵列的输入方向，并依据此信息，确定降噪装置的参数。上述降噪装置1023，根据波束形成算法的降噪参数，或预定的降噪方向图曲线，对不同方向上的信号做加强或减弱，突出最近一次方向上的信号强度。同时根据人声和环境音(周期噪声，音乐)的频谱差异，和时域相关性的差异，对信号做频域或时域的处理，将人声从背景音，或噪声中提取和加强出来。上述回声消除装置1026，当回放模块存在时，从回放解码出来的数据，加上预定，或预测的传递函数的处理，在麦克采集的数据中将喇叭放出的声音的反射部分消除掉，得到无回声的干净人声。

可以理解，当语音语音预处理装置的计算能力不足，不适于进行上述处理时，可以将唤醒装置、降噪装置、波束形成装置设置在智能设备中2进行处理，降低语音预处理装置102的运算量。智能设备进一步包括：唤醒装置，用于唤醒所述语音预处理装置和第一传输装置；降噪装置，用于对采集到的所述音频信号进行降噪处理；波束形成装置，用于加强特定方向的语音采集。上述装置可以设置在智能设备的智能处理器中。

本发明实施例是这样实现的，如图3所示，一种用于智能语音系统中的语音处理方法，包括如下步骤：(s101)麦克风阵列获取第一音频信号并发送给语音预处理装置；(s102)所述语音预处理装置对所述第一音频信号进行编码后将所述第一音频信号存储在所述存储装置中；(s103)当hfp通信连接建立后通过所述第一hfp通信装置将所述存储装置中的第一音频信号发送给所述第二hfp通信装置；(s104)智能设备对所述第一音频信号处理后返回控制信号到所述语音预处理装置。

上述步骤可以进一步包括两种编码方式，第一种是：对所述麦克风阵列获取的第一音频信号进行pcm编码后存储在存储装置中；当第一hfp通信装置与第二hfp通信装置建立连接后，将所述第一音频信号的pcm编码进一步进行音频编码；将所述进行音频编码的第一音频信号通过第一hfp通信装置传输到第二hfp通信装置。具体来说，先将采集到的第一音频信号使用pcm编码装置进行pcm编码，并先缓存起来，等建立好了hfp连接以后从将缓存的pcm数据里面取数据进行编码成cvsd或msbc的音频格式，通过hfp通信装置向智能终端的hfp接口上发送。

第二种方式是：对所述麦克风阵列获取的第一音频信号进行音频编码后存储在所述存储装置中；当第一hfp通信装置与第二hfp通信装置建立连接后，将所述进行音频编码的第一音频信号通过第一hfp通信装置传输到第二hfp通信装置。与上述实施例的区别在于，该编码装置中不需要pcm编码装置，而是直接对采集到的第一音频信号进行音频编码。第一音频信号采集后就进行音频编码成cvsd或msbc格式，将编码后的语音缓存起来，建立了hfp接后，再将编码后的第一音频信号送上传输链路，发送到智能终端进行处理。

下面以手机为例进行详细说明。

具体来说，当手机端正在利用a2dp模式与蓝牙终端进行连接并播放歌曲时，手机端通过第二a2dp通信装置与蓝牙终端的第一a2dp通信装置进行通信连接将手机端的歌曲(也就是本发明所述的第二音频信号)传输到蓝牙终端，并由蓝牙终端的回放装置进行播放，此时两者之间建立的连接是a2dp协议。蓝牙终端的麦克风阵列获取第一音频信号并发送给语音预处理装置；语音预处理装置经过预处理后将所述第一音频信号进行编码后先缓存在存储装置中，等待传输至手机端；当手机端与蓝牙终端的hfp通信连接后，将所述进行音频编码的第一音频信号通过hfp通信传输到手机端。手机端智能处理器对所述第一音频信号进行识别后返回控制信号到所述语音预处理装置，语音预处理装置获得返回的控制信号后对蓝牙终端进行按照第一音频信号进行控制。

本发明是将唤醒后的语音编码保存在蓝牙终端上，直到hfp通路建立起来，再将语音传给系统的hfp服务通道。这里可缓冲采用的编码格式可以是pcm，可以是cvsd，msbc。这样既适用于手机系统原生的助手的产品，又不影响助手的使用体验，和直接使用手机的原生助手起到类似的效果。在原有的a2dp的蓝牙音频通路上，将hfp切换后需要传输的语音信息传送给手机端，可改善a2dp的蓝牙音频切换时候导致的体验下降。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陶永耀
技术所有人：炬芯(珠海)科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。