语音交互系统及方法与流程

文档序号：15969530发布日期：2018-11-16 23:23阅读：643来源：国知局

本申请涉及语音交互技术领域，尤其涉及一种语音交互系统及方法。

背景技术

目前人工智能发展的很快，在很多场合应用越来越广泛。其中，基于语音交互的人工智能产品目前有比较多的应用和新产品出现。

其实现方法一般都是基于智能客户端和云端服务器的交互构架，把复杂的计算集中于云端服务器，从而可以简化客户端，节省客户端的成本。

相关技术中，虽然简化了客户端，但依然对客户端有一定的智能要求，比如，客户端如果要与云端服务器交互，那么需要实现基本的交互逻辑，这些交互逻辑的实现对设备有一定要求，比如运行第三方智能语音处理终端库的能力，通过网络来获取相关资源的能力等等，实现上述终端的费用并不低；同时一些传统的音频设备，如模拟对讲终端，并不能应用，或者如果改造会提高成本。

技术实现要素：

为至少在一定程度上克服相关技术中存在的问题，本申请提供一种语音交互系统及方法。

根据本申请实施例的第一方面，提供一种语音交互系统，包括：多个简单客户端；智能代理；所述智能代理分别与每个简单客户端连接；所述简单客户端用于接收和/或播放语音，以及与所述智能代理之间进行语音传输；所述智能代理用于与云服务器进行智能语音交互的相关处理，并且获取相关信息，将所述相关信息转换为声音信号。

可选的，所述智能代理与所述每个简单客户端之间采用模拟通信链路连接，或者，采用tcp/ip链路连接。

可选的，每个简单客户端部署在用户本地，用于完成与用户的交互。

可选的，智能代理部署在用户本地，管理多个简单客户端；或者，部署在云端。

可选的，所述简单客户端包括：语音采集模块，用于接收用户的语音；语音播放模块，用于向用户播放语音；传输模块，用于将语音采集模块接收的语音传输给智能代理，以及，接收智能代理发送的语音，并将接收的语音发送给语音播放模块。

可选的，所述简单客户端还包括如下一项或者多项：语音编码模块，用于对所述语音采集模块接收的语音进行编码，并将编码后的语音发送给所述传输模块；语音解码模块，用于接收智能代理发送的已编码的语音，对已编码的语音进行解码后发送给语音播放模块；对外控制接口，用于接收由语音转换的语音指令，并传输给第三方。

可选的，所述智能代理用于的智能语音交互处理以及获取用户需要资源的能力，包括如下项的一项或多项：语音识别、语音合成、语义理解、资源获取、语音检测、用户自定义处理逻辑。

根据本申请实施例的第二方面，提供一种语音交互方法，包括：简单客户端与智能代理之间进行语音传输，其中，所述简单客户端在接收到用户发出的语音时，将接收的语音发送给所述智能代理，或者，所述简单客户端接收所述智能代理发送的语音并播放给用户；所述智能代理与云服务器进行智能语音交互的相关处理，并且获取相关信息，将所述相关信息转换为声音信号；其中，每个智能代理与多个简单客户端连接。

可选的，所述相关处理还包括：所述智能代理将语音识别的结果，处理为控制指令，返回给简单客户端。

本申请提供的技术方案可以包括以下有益效果：

通过设置智能代理，简单客户端只需要进行声音输入、输出，与智能代理完成音频通信，即可以让用户完成智能的语音交互，因此可以使用户终端简单化，扩大应用场景，降低生产成本。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一个实施例提供的语音交互系统的结构示意图；

图2是本申请另一个实施例提供的语音交互系统的简单客户端的结构示意图；

图3是本申请另一个实施例提供的语音交互方法的流程图；

图4是本申请另一个实施例提供的语音交互方法的流程图；

图5是本申请另一个实施例提供的语音交互方法的流程图；

图6是本申请另一个实施例提供的语音交互方法的流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1是本申请一个实施例提供的语音交互系统的结构示意图。如图1所示，以两个简单客户端为例。该语音交互系统包括：多个简单客户端1；智能代理2；所述智能代理2分别与每个简单客户端1连接；所述简单客户端1用于接收和/或播放语音，以及与所述智能代理2之间进行语音传输；所述智能代理2用于与云服务器3进行智能语音交互的相关处理，并且获取用户需要的信息，将所述资源转换为声音信号。

上述简单客户端可以具有音频的输入和输出功能，以及传送功能，简单客户端部署于本地，以便与用户进行交互。进一步的，简单客户端还可以具有音频编码解码的功能。

上述智能代理可以连接多个简单客户端，可以收取和发送音频信息，还可以完成与云服务器的交互，比如：语音识别、语音合成、语义识别、资源获取等。通过多个简单客户端连接同一个智能代理，可以由一个智能代理为多个简单客户端服务，而不需要一个简单客户端对应一个智能代理，从而实现简单，节省成本。

上述相关处理可以包括语音识别、语音合成、语义识别、资源获取等；上述相关信息可以包括语音回复、控制指令等。

本实施例中，通过设置智能代理，简单客户端只需要进行声音输入、输出，与智能代理完成音频通信，即可以让用户完成智能的语音交互，因此可以使用户终端简单化，扩大应用场景，降低生产成本。

一些实施例中，所述智能代理2与所述每个简单客户端1之间采用模拟通信链路连接，或者，采用传输控制协议/因特网互联协议(transmissioncontrolprotocol/internetprotocol，tcp/ip)链路连接。

需要说明的是，模拟通信是利用正弦波的幅度、频率或相位的变化，或者利用脉冲的幅度、宽度或位置变化来模拟原始信号，以达到通信的目的，故称为模拟通信。tcp/ip链路连接是通过tcp/ip来传输编码的数字音频信号。两种通信连接方式均采用现有技术，此处不再详述。

传输控制协议/因特网互联协议是因特网最基本的协议、因特国际互联网络的基础，由网络层的ip协议和传输层的tcp协议组成。

当使用tcp/ip链路连接方式时，简单客户端与智能代理之间可以增加一些简单的交互指令，比如，声音传输完成，播放某个指定的提示音等，以便简化声音输入/输出的控制。

本实施例中，智能代理与简单客户端之间通过使用模拟通信链路连接或者tcp/ip链路连接，便于两端之间进行信息传输、语音交互，为了节省带宽，简单客户端还可以增加音频编码或者解码的功能。

需要说明的是，每个简单客户端部署在用户本地，用于完成与用户的交互。

一些实施例中，智能代理2部署在用户本地管理多个简单客户端；或者，部署在云端。

本实施例中，智能代理可以部署在用户本地和云端，可以管理和服务于多个简单客户端，从而降低整个系统的实现成本。

如图2所示，一些实施例中，所述简单客户端1包括：语音采集模块11，用于接收用户的语音；语音播放模块12，用于向用户播放语音；传输模块13，用于将语音采集模块11接收的语音传输给智能代理2，以及，接收智能代理2发送的语音，并将接收的语音发送给语音播放模块12。

需要说明的是，上述语音采集模块可以为麦克风，所述语音播放模块可以为扬声器。

本实施例中，通过设置语音采集模块、语音播放模块、传输模块，满足简单客户端的基本功能需要，进行语音采集、播放，以及和智能代理的通信交互。

如图2所示，一些实施例中，所述简单客户端还包括如下一项或者多项：

语音编码模块14，用于对所述语音采集模块11接收的语音进行编码，并将编码后的语音发送给所述传输模块13；

语音解码模块15，用于接收智能代理2发送的已编码的语音，对已编码的语音进行解码后发送给语音播放模块12。

对外控制接口，用于接收由语音转换的语音指令，并传输给第三方。

需要说明的是，对语音进行编码的目的是为了将语音数字化并利用人的发声过程中存在的冗余度和人的听觉特性来降低编码率。

进一步的，上述语音采集模块可以为麦克风，上述语音播放模块可以为扬声器。

可以理解的是，语音编码和语音解码可以采用相关技术实现，在此不再详述。

本实施例中，通过设置语音编码模块和语音解码模块，可以压缩语音信号的传输带宽，增加信道的传输效率；设置对外控制接口，简单客户端可以接收并传输语音转换的控制指令，实现语音控制第三方的人机交互功能。

一些实施例中，所述智能代理2用于的智能语音交互处理以及获取用户需要资源的能力，包括如下项的一项或多项：语音识别、语音合成、语义理解、资源获取、语音检测、用户自定义处理逻辑。

需要说明的是，智能代理可以和多个云资源服务器交互，比如语音识别服务器、声音合成服务器、语义理解和应答服务器、资源服务器。

本实施例中，智能代理将多项功能集于一体，减少简单客户端的功能，降低简单客户端成本。

如图3所示，本申请还提供一种语音交互方法，包括如下步骤：

s31：简单客户端在接收到用户发出的语音时，将接收的语音发送给智能代理；

s32：智能代理与云服务器进行智能语音交互的相关处理，并且获取相关信息，将所述相关信息转换为声音信号；

其中，每个智能代理与多个简单客户端连接。

s33：简单客户端接收智能代理发送的语音并播放给用户。

本实施例中，通过智能代理，可进行语音识别、合成，语义识别等，而客户端只需要进行声音输入、输出，与智能代理通信，以及对音频进行编码或解码即可，使客户端简单化，降低生产成本。

如图4所示，本申请实施例还提供了一种语音问答的流程，包括以下步骤：

s41：简单客户端在用户触发说话之后，发起到智能代理的连接；

s42：简单客户端不断发送收集到的语音输入“你叫什么名字”到智能代理；

s43：智能代理收集语音输入，检测到说话完成后，发送语音输入到语音识别服务，并等待语音输入结果；

s44：智能代理收到语音识别结果，发送识别出的文字到语义理解和应答服务，并等待答复；

s45：智能代理收到答复后，如果是文字答复，则发送文字答复到语音合成服务，并等待语音合成结果；

s46：智能代理收到语音合成结果，并把语音合成结果传送回简单客户端；

s47：简单客户端播放语音合成结果给用户，此处回答“我叫小豆”。

本实施例中，通过智能代理与云服务器的交互，能进行语音识别、语义识别，并进行语音合成一系列操作，完成语音问答流程，降低对客户端的要求，减少客户端制作成本。

如图5所示，本申请实施例还提供了一个播放音乐流程，包括以下步骤：

s51：简单客户端在用户触发说话之后，发起到智能代理的连接；

s52：简单客户端不断发送收集到的语音输入“我想听忘情水”到智能代理；

s53：智能代理收集语音输入，检测到说话完成后，发送语音输入到语音识别服务，并等待语音输入结果；

s54：智能代理收到语音识别结果，发送识别出的文字到语义理解和应答服务，并等待答复；

s55：智能代理收到答复后，如果是播放音乐文件的答复，则发送请求到音乐服务器请求mp3音乐；

s56：智能代理收到mp3流后，判断简单客户端是否有解码mp3的能力，如果没有，则智能代理先解码mp3流，如果有，则无解码步骤；

s57：智能代理把mp3流转发给简单客户端；

s58：简单客户端播放音乐。

本实施例中，通过智能代理与云服务器的交互，能进行语音识别、语义识别，并进行语音合成一系列操作，完成控制音乐播放流程，降低对客户端的要求，减少客户端制作成本。

如图6所示，本申请实施例还提供了一个语音控制流程，包括以下步骤：

s61：简单客户端在用户出发说话之后，会发起到智能代理的连接；

s62：在用户说话之后，简单客户端会不断发送收集到的声音到智能代理，此时用户说“打开电视”；

s63：智能代理收集语音输入，检测到说话完成，即发送语音到语音识别服务，并且等待答复；

s64：智能代理收到答复之后，如果是一个控制指令，即把控制指令发送给简单客户端；

s65：简单客户端把控制指令传送给第三方，此处通过串口控制红外发射器打开电视机。

本实施例中，通过智能代理与云服务器的交互，能进行语音识别、语义识别，完成控制语音控制电视，降低对客户端的要求，减少遥控器的制作成本。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尹绍华
技术所有人：尹绍华
我是此专利的发明人

上一篇：减震支架的内管总成的制作方法
上一篇：一种新型桥梁安全情况检测器的制作方法