一种第三方应用的交互方法及系统与流程

文档序号：16308636发布日期：2018-12-19 05:11阅读：323来源：国知局

本发明涉及计算机应用技术，特别涉及第三方应用的交互方法及系统。

【背景技术】

随着时代的发展，电视画面清晰度有了极大提升，优秀的解析度让电视在播放视频画面时，有了相当大的优势。电视不再是简单的看电视节目，已经发展为视频、娱乐、游戏、电视节目的平台。目前的智能电视机，集成了智能交互对话系统，用户可以用人类的语言自然的与智能电视进行交互。语音交互方式的变革，也给电视应用给了无限的想象力，给电视带来了极大的想象空间。借用大屏优势，电视顺势成为语音游戏平台、语音娱乐平台等，为电视应用赋予智能语音交互能力。

然而，电视端应用却仍然缺乏语音交互的能力。当通过语音调起第三方应用时，接下来的交互只能通过遥控器完成，无法用语音与第三方应用进行交互，限制了智能电视的用户体验。

技术实现要素：

本申请的多个方面提供了第三方应用的交互方法及系统，能够通过语音实现对第三方应用的控制。

本申请的一方面，提供一种第三方应用的交互方法，包括：交互系统接收用户发出的语音数据，将所述语音数据发送给云端服务器，以便云端服务器对所述语音数据进行语音识别与语意理解，得到对应的指令；

接收云端服务器返回的指令，将所述指令转发给第三方应用执行或直接执行所述指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式将所述语音数据发送给云端服务器包括：

判断所述交互系统是否绑定有第三方应用；如果是，将所述语音数据与所述第三方应用的标识进行绑定，发送给云端服务器；如果否，将所述语音数据发送给云端服务器。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式所述云端服务器对所述语音数据进行语音识别与语意理解，得到对应的指令包括：

若所述语音数据绑定有所述第三方应用的标识，云端服务器在第三方应用对应的指令库中搜索所述语音数据对应的指令，将搜索得到的指令绑定所述第三方应用的标识；或，若所述语音数据未绑定有所述第三方应用的标识，云端服务器在交互系统对应的指令库中搜索所述语音数据对应的指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式所述接收云端服务器返回的指令包括：

接收云端服务器返回的绑定有所述第三方应用的标识的指令；或，接收云端服务器返回的未绑定有所述第三方应用的标识的指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式所述将所述指令转发给第三方应用执行或直接执行所述指令包括：

交互系统根据所述第三方应用的标识，将绑定有所述第三方应用的标识的指令发送给所述第三方应用，由所述第三方应用执行所述指令；或，交互系统执行未绑定有所述第三方应用的标识的指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式所述第三方应用的标识为交互系统上安装的第三方应用被启动后，向所述交互系统注册的。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式所述第三方应用对应的指令库是由第三方应用的开发者上传到云端服务器的。

本申请的另一方面，提供一种第三方应用的交互方法，所述方法包括：

云端服务器接收交互系统发送的用户发出的语音数据；

对所述语音数据进行语音识别与语义理解，得到对应的指令；

将所述指令返回给交互系统，以便交互系统将所述指令转发给第三方应用执行或直接执行所述指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，若所述交互系统绑定有第三方应用，则所述语音数据与所述第三方应用的标识绑定；若所述交互系统未绑定有第三方应用，则所述语音数据未绑定所述第三方应用的标识。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，若所述语音数据绑定有所述第三方应用的标识，在第三方应用对应的指令库中搜索所述语音数据对应的指令，将搜索得到的指令绑定所述第三方应用的标识；或，若所述语音数据未绑定有所述第三方应用的标识，交互系统对应的指令库中搜索所述语音数据对应的指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，将所述指令返回给交互系统，以便交互系统将所述指令转发给第三方应用执行或直接执行所述指令包括：

将绑定有所述第三方应用的标识的指令返回给交互系统，以便交互系统根据所述第三方应用的标识，将绑定有所述第三方应用的标识的指令发送给所述第三方应用，由所述第三方应用执行所述指令；或，将未绑定有所述第三方应用的标识的指令返回给交互系统，以便交互系统执行未绑定有所述第三方应用的标识的指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第三方应用对应的指令库是由第三方应用的开发者上传的。

本发明的另一方面，提供一种第三方应用的交互系统，所述系统包括：

语音数据发送模块，用于接收用户发出的语音数据，将所述语音数据发送给云端服务器，以便云端服务器对所述语音数据进行语音识别与语意理解，得到对应的指令；

指令接收模块，用于接收云端服务器返回的指令，将所述指令转发给第三方应用执行或直接执行所述指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述语音数据发送模块具体用于：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述云端服务器对所述语音数据进行语音识别与语意理解，得到对应的指令包括：

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述指令接收模块具体用于：

接收云端服务器返回的绑定有所述第三方应用的标识的指令；或，接收云端服务器返回的未绑定有所述第三方应用的标识的指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述指令接收模块具体用于：

根据所述第三方应用的标识，将绑定有所述第三方应用的标识的指令发送给所述第三方应用，由所述第三方应用执行所述指令；或，交互系统执行未绑定有所述第三方应用的标识的指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第三方应用的标识为交互系统上安装的第三方应用被启动后，向所述交互系统注册的。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述第三方应用对应的指令库是由第三方应用的开发者上传到云端服务器的。

本申请的另一方面，提供一种第三方应用的交互系统，所述系统包括：

语音数据接收与处理模块，用于接收交互系统发送的用户发出的语音数据；对所述语音数据进行语音识别与语义理解，得到对应的指令；

指令发送模块，用于将所述指令返回给交互系统，以便交互系统将所述指令转发给第三方应用执行或直接执行所述指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述语音数据接收与处理模块具体用于：

若所述语音数据绑定有所述第三方应用的标识，在第三方应用对应的指令库中搜索所述语音数据对应的指令，将搜索得到的指令绑定所述第三方应用的标识；或，若所述语音数据未绑定有所述第三方应用的标识，交互系统对应的指令库中搜索所述语音数据对应的指令。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述指令发送模块具体用于：

本发明的另一方面，提供一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

本发明的另一方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出，采用本发明所述方案，解放了用户的双手，无需手动操作即可通过语音实现对第三方应用的控制，提高了用户的操作便捷性，提升了用户体验。

【附图说明】

图1为本发明所述第三方应用的交互方法的流程图；

图2为本发明所述第三方应用的交互方法的流程图；

图3为本发明所述第三方应用的交互系统的结构图；

图4为本发明所述第三方应用的交互系统的结构图；

图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。

【具体实施方式】

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本申请保护的范围。

图1为本发明所述第三方应用的交互方法实施例的流程图，应用于智能电视安装的交互系统，如图1所示，包括以下步骤：

步骤s11、交互系统接收用户发出的启动第三方应用的语音数据，将所述语音数据发送给云端服务器，以便云端服务器对所述语音数据进行语音识别与语意理解得到对应的启动第三方应用的指令；

步骤s12、交互系统接收云端服务器返回的启动第三方应用的指令，执行所述指令，启动第三方应用；

步骤s13、交互系统启动第三方应用后，接收用户发出的对第三方应用进行操作的语音数据，将所述语音数据发送给云端服务器，以便云端服务器对所述语音数据进行语音识别与语意理解，得到对第三方应用进行操作的指令；

步骤s14、交互系统接收云端服务器返回的对第三方应用进行操作的指令并转发给所述第三方应用，由所述第三方应用执行所述指令。

本实施例的执行主体为智能电视安装的dueros语音智能交互系统，所述智能电视包括声音采集单元、信号处理单元、通信单元、声音输出单元等，所述智能电视的通信单元通过有线或无线连接方式与云端服务器相连。

dueros技能开放平台，英文全称duerosbotsplatform，是dueros语音智能交互系统为第三方开发者提供的一整套技能开发、测试、部署工具的开放平台。第三方开发者可以在平台上，通过可视化界面，简单、高效地开发各类个性化技能。优选地，第三方开发者需要事先在dueros技能开放平台，即云端服务器上开发自定义bot，并部署上线，以实现对第三方应用的语音控制。

以网易云音乐为例，开发者可以为其开发『播放』、『下一首』、『暂停』等技能，并部署在dueros技能开放平台。当用户向智能电视发出语音指令，dueros语音智能交互系统将所述语音指令发送给dueros技能开放平台，以便dueros技能开放平台接收到用户发出的语音数据后，进行语音识别与语义解析，得到用户意图，若所述用户意图与开发者自定义的技能的表达相匹配，则向duerosos语音智能交互系统下发所述技能对应的指令，以便dueros语音智能交互系统中安装的网易云音乐执行所述指令，实现用户意图。

优选地，当用户通过语音与智能电视的dueros上安装的第三方应用进行交互时，首先需要唤醒智能电视的dueros，打开第三方应用。

用户通过向智能电视发出语音指令，唤醒智能电视的dueros并指示dueros打开其上预装的第三方应用，例如：发出“小度小度，打开网易云音乐”的语音指令。

在步骤s11的一种优选实现方式中，

dueros语音智能交互系统唤醒成功后，接收用户发出的启动第三方应用的语音数据，将所述语音数据发送给云端服务器，以便云端服务器对所述语音数据进行语音识别与语意理解得到对应的启动第三方应用的指令；

优选地，智能电视的声音采集单元，如麦克风，采集智能电视所处环境中的音频数据并进行缓存，以便唤醒成功后，由dueros语音智能交互系统将缓存的唤醒时刻后的音频数据发送给云端服务器进行语音识别。

优选地，智能电视的dueros语音智能交互系统被唤醒后，默认没有开启第三方应用。dueros语音智能交互系统判断所述交互系统是否绑定有第三方应用；判断结果为当前没有绑定第三方应用，则将缓存的唤醒时刻后的音频数据发送给云端进行语音识别与语义理解。具体的，一般取唤醒时刻后5s内的音频数据，进行语音检测，将检测得到的语音段作为用户语音数据发送给云端服务器。

云端服务器使用回声消除(acousticechocancellation，aec)算法对用户语音数据做回声消除、采用降噪(noisesuppression，ns)算法消除环境噪音。然后提取处理后的用户语音数据的音频特征，将采集到的音频特征进行解码得到语音识别结果，及语音识别文本。对语音识别文本进行自然语言处理，即语义解析；将解析内容归类，进行意图匹配，得到对应的机器指令信息，作为结构化数据返回给智能电视。

优选地，由于所述语音数据未绑定有所述第三方应用的标识，云端服务器在dueros语音智能交互系统对应的指令库中搜索所述语音数据对应的指令。所述dueros语音智能交互系统对应的指令库，用来存储用户可能想要说出的对所述dueros语音智能交互系统的控制命令语句。

例如，用户输入的语音指令为“小度小度，打开网易云音乐”；云端服务器识别得到“打开网易云音乐”的指令信息返回给dueros语音智能交互系统。

优选地，对dueros语音智能交互系统进行操作，或调用第三方应用的自定义技能，需要用户唤醒才能进行。

智能电视接收音频数据，利用信号处理模块进行唤醒检测，接收用户发出的唤醒指令，唤醒dueros语音智能交互系统。包括以下子步骤：

a、智能电视上的声音采集单元，如麦克风，采集智能电视所处环境中的音频数据以便进行唤醒检测。

优选地，所述麦克风始终处于拾音状态(持续对音频数据进行采样、量化)，采集智能电视所处环境中的音频数据以便进行唤醒检测。

优选地，声音采集单元也可以根据具体需要，例如为了降低智能电视的功耗，按照预设周期采集智能电视所处环境中的音频数据；例如，以10ms为周期进行检测。所述定期音量检测的周期可以在智能电视出厂时预设，也可以由用户根据自身需求设置。

本实施例中，所述音频数据可以理解为：智能电视所处环境中，麦克风所能够采集到的任意声音对应的信息，例如，人，包括用户发出的声音、环境噪声等，只要所述麦克风能够采集即可。

音频数据采集过程中，声音的效果会因设备性能差异，声音源到声音采集单元距离的远近，声音采集单元支持单麦克风还是麦克风阵列的不同而发生变化。总体来说，声音采集单元性能越高，音源到声音采集单元距离越短，采用有效的麦克风阵列而不是单麦克，会得到特征更完整更利于识别的音频数据。例如，想要支持远场(>5米)唤醒或者识别，使用麦克风阵列的性能会大大优于单麦克性能。由于智能电视与用户之间的距离一般较远，为远场环境，因此，本实施例中，采用麦克风阵列采集音频数据。

b、对所采集的音频数据进行语音检测。

信号处理单元的语音检测模块对麦克风采集的音频数据进行语音检测(voiceactivitydetection，vad)，可以准确的检测出音频信号的语音段起始位置，从而分离出语音段和非语音段(静音或噪声)信号。

由于vad需要在智能电视本地实时完成。由于计算资源非常有限，因此，一般会采用基于阈值的vad；经过工程优化的分类法也可能被利用。

通过对所采集的音频数据进行语音检测，检测出其中的语音段，可以仅对语音段进行唤醒检测，以降低功耗。

c、对检测得到的语音段信息进行唤醒检测。

首先对检测得到的语音段信息做特征提取。检测得到的语音段信息可能会有一些问题，并不能直接用来识别。如麦克风采集到的音频数据中会存在声学回声，需要使用回声消除(acousticechocancellation，aec)算法做回声消除。在特定环境下采集到的音频数据会有特定的噪音，这时需要对音频数据做降噪(noisesuppression，ns)算法消除环境噪音。

然后将采集到的音频特征放到特定的解码器上做解码得到语音识别结果。在解码器解码过程中，会使用到声学模型、语言模型和发音词典。声学模型的主要作用是将音频特征转换成音节，语言模型的主要作用是将音节转换成文本，发音词典则提供了一个从音节到文本的映射表。

由于目标单一(只需检测出指定的唤醒词)，唤醒只需要较小的声学模型、语言模型和发音词典(只需要区分出有无唤醒词出现)。

如果确定所采集到的音频数据中包括唤醒词，则唤醒dueros语音智能交互系统,以便dueros语音智能交互系统进行下一步操作。

在步骤s12的一种优选实现方式中，

交互系统接收云端服务器返回的启动第三方应用的指令，执行所述指令，启动第三方应用。

dueros语音智能交互系统根据所接收到的指令信息，打开对应的第三方应用。

优选地，dueros语音智能交互系统根据所收到的指令信息打开对应的第三方应用后，接受第三方应用的绑定、鉴权与注册namespace。

第三方应用绑定到dueros语音智能交互系统后，即所述第三方应用在前台运行。当退出所述第三方应用时，需要将所述第三方应用与dueros语音智能交互系统解绑。

第三方应用进行namespace注册，作为所述第三方应用的标识。

优选地，dueros语音智能交互系统唤醒成功后，接收到的语音数据也可以是用户发出的针对dueros语音智能交互系统进行操作的语音数据，将所述语音数据发送给云端服务器，以便云端服务器对所述语音数据进行语音识别与语意理解得到对应的指令，由dueros语音智能交互系统执行所述指令。

在步骤s13的一种优选实现方式中，

dueros语音智能交互系统启动第三方应用后，接收用户发出的对第三方应用进行操作的语音数据，将所述语音数据发送给云端服务器，以便云端服务器对所述语音数据进行语音识别与语意理解，得到对第三方应用进行操作的指令。

优选地，dueros语音智能交互系统判断是否绑定有第三方应用，如果是，则将缓存的唤醒时刻后的音频数据与所述第三方应用的标识进行绑定，发送给云端进行语音识别与语义理解。具体的，一般取唤醒时刻后5s内的音频数据，进行语音检测，将检测得到的语音段作为用户语音数据发送给云端服务器。

优选地，所述第三方应用的标识为所述第三方应用向dueros语音智能交互系统注册的namespace。

优选地，由于所述语音数据绑定有所述第三方应用的标识，云端服务器根据所述第三方应用的标识查找所述第三方应用对应的指令库，在对应的指令库中搜索所述语音数据对应的指令。所述第三方应用对应的指令库是由第三方应用的开发者上传到云端服务器的，用来存储用户可能想要说出的对所述第三方应用的控制命令语句。

例如，用户输入的语音指令为“小度小度，下一首”；云端服务器识别得到“下一首”的指令信息返回给dueros语音智能交互系统。

由于所述语音数据绑定有所述第三方应用的标识，云端服务器将搜索得到的指令绑定所述第三方应用的标识返回给dueros语音智能交互系统，以便dueros语音智能交互系统根据所述第三方应用的标识将所述指令转发给所述第三方应用。

优选地，对dueros语音智能交互系统进行操作，或调用第三方应用的自定义技能，需要用户唤醒才能进行。

在步骤s14的一种优选实现方式中，

dueros语音智能交互系统接收云端服务器返回的对第三方应用进行操作的指令并转发给所述第三方应用，由所述第三方应用执行所述指令。

优选地，dueros语音智能交互系统根据所述指令绑定的所述第三方应用的标识，将所述指令转发给所述第三方应用，以便所述第三方应用执行所述指令。

优选地，dueros语音智能交互系统将所述指令转发给所所述第三方应用之前，首先判断所述第三方应用是否仍与dueros语音智能交互系统绑定。例如，网易云音乐是否已退出。若所述第三方应用仍与dueros语音智能交互系统绑定，则将所述直接发给所述第三方应用，由所述第三方应用执行所述指令，并接收所述第三方应用对所述指令的执行结果。若所述第三方应用未与dueros语音智能交互系统绑定，则提示用户所述第三方应用已退出，请重新启动所述第三方应用。

基于上述介绍可以看出，采用上述实施例所述方式，解放了用户的双手，无需使用遥控器进行与第三方应用的交互，实现了操作全过程的智能语音交互；提高了用户的操作便捷性，提升了用户体验。

图2为本发明所述第三方应用的交互方法实施例的流程图，应用于云端服务器，如图2所示，包括以下步骤：

步骤s21、云端服务器接收交互系统发送的用户发出的语音数据，对所述语音数据进行语音识别与语意理解得到对应的启动第三方应用的指令；

步骤s22、云端服务器将所述启动第三方应用的指令返回给交互系统，以便交互系统执行所述指令，启动第三方应用；

步骤s23、云端服务器接收交互系统发送的启动第三方应用后接收用户发出的对第三方应用进行操作的语音数据，对所述语音数据进行语音识别与语意理解，得到对第三方应用进行操作的指令；

步骤s24、云端服务器将所述对第三方应用进行操作的指令返回给交互系统，以便交互系统将所述指令转发给所述第三方应用，由所述第三方应用执行所述指令。

本实施例的执行主体为云端服务器。所述交互系统为智能电视安装的dueros语音智能交互系统，所述智能电视包括声音采集单元、信号处理单元、通信单元、声音输出单元等，所述智能电视的通信单元通过有线或无线连接方式与云端服务器相连。

优选地，当用户通过语音与智能电视的dueros上安装的第三方应用进行交互时，首先需要唤醒智能电视的dueros，打开第三方应用。

在步骤s21的一种优选实现方式中，

如果智能电视确定所采集到的音频数据中包括唤醒词，则唤醒dueros语音智能交互系统,以便dueros语音智能交互系统进行下一步操作。

云端服务器接收交互系统发送的用户发出的语音数据，对所述语音数据进行语音识别与语意理解得到对应的启动第三方应用的指令。

例如，用户输入的语音指令为“小度小度，打开网易云音乐”；云端服务器识别得到“打开网易云音乐”的指令。

在步骤s22的一种优选实现方式中，

云端服务器将所述启动第三方应用的指令返回给交互系统，以便交互系统执行所述指令，启动第三方应用；

dueros语音智能交互系统根据所接收到的指令信息，打开对应的第三方应用。

优选地，dueros语音智能交互系统根据所收到的指令信息打开对应的第三方应用后，接受第三方应用的绑定、鉴权与注册namespace。

第三方应用进行namespace注册，作为所述第三方应用的标识。

在步骤s23的一种优选实现方式中，

云端服务器接收交互系统发送的启动第三方应用后接收用户发出的对第三方应用进行操作的语音数据，对所述语音数据进行语音识别与语意理解，得到对第三方应用进行操作的指令。

优选地，所述第三方应用的标识为所述第三方应用向dueros语音智能交互系统注册的namespace。

例如，用户输入的语音指令为“小度小度，下一首”；云端服务器识别得到“下一首”的指令信息返回给dueros语音智能交互系统。

优选地，对dueros语音智能交互系统进行操作，或调用第三方应用的自定义技能，需要用户唤醒才能进行。

在步骤s24的一种优选实现方式中，

云端服务器将所述对第三方应用进行操作的指令返回给交互系统，以便交互系统将所述指令转发给所述第三方应用，由所述第三方应用执行所述指令。

dueros语音智能交互系统接收云端服务器返回的对第三方应用进行操作的指令并转发给所述第三方应用，由所述第三方应用执行所述指令。

优选地，dueros语音智能交互系统根据所述指令绑定的所述第三方应用的标识，将所述指令转发给所述第三方应用，以便所述第三方应用执行所述指令。

基于上述介绍可以看出，采用上述实施例所述方式，云端服务器根据语音数据是否绑定第三方应用的标识，判断进行语音识别与语义理解所得到的指令对应于交互系统还是第三方应用，解放了用户的双手，无需使用遥控器进行与第三方应用的交互，实现了操作全过程的智能语音交互；提高了用户的操作便捷性，提升了用户体验。

图3为本发明所述第三方应用的交互系统实施例的结构图，如图3所示，包括：

第一语音数据发送模块31，用于接收用户发出的启动第三方应用的语音数据，将所述语音数据发送给云端服务器，以便云端服务器对所述语音数据进行语音识别与语意理解得到对应的启动第三方应用的指令；

第一指令接收模块32，用于接收云端服务器返回的启动第三方应用的指令，执行所述指令，启动第三方应用；

第二语音数据发送模块33，用于接收用户发出的对第三方应用进行操作的语音数据，将所述语音数据发送给云端服务器，以便云端服务器对所述语音数据进行语音识别与语意理解，得到对第三方应用进行操作的指令；

第二指令接收模块34，用于接收云端服务器返回的对第三方应用进行操作的指令并转发给所述第三方应用，由所述第三方应用执行所述指令。

优选地，当用户通过语音与智能电视的dueros上安装的第三方应用进行交互时，首先需要唤醒智能电视的dueros，打开第三方应用。

在第一语音数据发送模块31的一种优选实现方式中，

dueros语音智能交互系统唤醒成功后，第一语音数据发送模块31接收用户发出的启动第三方应用的语音数据，将所述语音数据发送给云端服务器，以便云端服务器对所述语音数据进行语音识别与语意理解得到对应的启动第三方应用的指令；

优选地，智能电视的dueros语音智能交互系统被唤醒后，默认没有开启第三方应用。第一语音数据发送模块31判断所述交互系统是否绑定有第三方应用；判断结果为当前没有绑定第三方应用，则将缓存的唤醒时刻后的音频数据发送给云端进行语音识别与语义理解。具体的，一般取唤醒时刻后5s内的音频数据，进行语音检测，将检测得到的语音段作为用户语音数据发送给云端服务器。

例如，用户输入的语音指令为“小度小度，打开网易云音乐”；云端服务器识别得到“打开网易云音乐”的指令信息返回给dueros语音智能交互系统。

优选地，对dueros语音智能交互系统进行操作，或调用第三方应用的自定义技能，需要用户唤醒才能进行。

智能电视接收音频数据，利用信号处理模块进行唤醒检测，接收用户发出的唤醒指令，唤醒dueros语音智能交互系统。包括以下子步骤：

a、智能电视上的声音采集单元，如麦克风，采集智能电视所处环境中的音频数据以便进行唤醒检测。

优选地，所述麦克风始终处于拾音状态(持续对音频数据进行采样、量化)，采集智能电视所处环境中的音频数据以便进行唤醒检测。

b、对所采集的音频数据进行语音检测。

由于vad需要在智能电视本地实时完成。由于计算资源非常有限，因此，一般会采用基于阈值的vad；经过工程优化的分类法也可能被利用。

通过对所采集的音频数据进行语音检测，检测出其中的语音段，可以仅对语音段进行唤醒检测，以降低功耗。

c、对检测得到的语音段信息进行唤醒检测。

由于目标单一(只需检测出指定的唤醒词)，唤醒只需要较小的声学模型、语言模型和发音词典(只需要区分出有无唤醒词出现)。

如果确定所采集到的音频数据中包括唤醒词，则唤醒dueros语音智能交互系统,以便dueros语音智能交互系统进行下一步操作。

在第一指令接收模块32的一种优选实现方式中，

第一指令接收模块32接收云端服务器返回的启动第三方应用的指令，执行所述指令，启动第三方应用。

dueros语音智能交互系统根据所接收到的指令信息，打开对应的第三方应用。

优选地，dueros语音智能交互系统根据所收到的指令信息打开对应的第三方应用后，接受第三方应用的绑定、鉴权与注册namespace。

第三方应用进行namespace注册，作为所述第三方应用的标识。

在第二语音数据发送模块33的一种优选实现方式中，

dueros语音智能交互系统启动第三方应用后，第二语音数据发送模块33接收用户发出的对第三方应用进行操作的语音数据，将所述语音数据发送给云端服务器，以便云端服务器对所述语音数据进行语音识别与语意理解，得到对第三方应用进行操作的指令。

优选地，第二语音数据发送模块33判断是否绑定有第三方应用，如果是，则将缓存的唤醒时刻后的音频数据与所述第三方应用的标识进行绑定，发送给云端进行语音识别与语义理解。具体的，一般取唤醒时刻后5s内的音频数据，进行语音检测，将检测得到的语音段作为用户语音数据发送给云端服务器。

优选地，所述第三方应用的标识为所述第三方应用向dueros语音智能交互系统注册的namespace。

例如，用户输入的语音指令为“小度小度，下一首”；云端服务器识别得到“下一首”的指令信息返回给dueros语音智能交互系统。

优选地，对dueros语音智能交互系统进行操作，或调用第三方应用的自定义技能，需要用户唤醒才能进行。

在第二指令接收模块34的一种优选实现方式中，

第二指令接收模块34接收云端服务器返回的对第三方应用进行操作的指令并转发给所述第三方应用，由所述第三方应用执行所述指令。

优选地，第二指令接收模块34根据所述指令绑定的所述第三方应用的标识，将所述指令转发给所述第三方应用，以便所述第三方应用执行所述指令。

优选地，第二指令接收模块34将所述指令转发给所所述第三方应用之前，首先判断所述第三方应用是否仍与dueros语音智能交互系统绑定。例如，网易云音乐是否已退出。若所述第三方应用仍与dueros语音智能交互系统绑定，则将所述直接发给所述第三方应用，由所述第三方应用执行所述指令，并接收所述第三方应用对所述指令的执行结果。若所述第三方应用未与dueros语音智能交互系统绑定，则提示用户所述第三方应用已退出，请重新启动所述第三方应用。

图4为本发明所述第三方应用的交互系统实施例的结构图，应用于云端服务器，如图4所示，包括：

第一语音数据接收与处理模块41，用于接收交互系统发送的用户发出的语音数据，对所述语音数据进行语音识别与语意理解得到对应的启动第三方应用的指令；

第一指令发送模块42，用于将所述启动第三方应用的指令返回给交互系统，以便交互系统执行所述指令，启动第三方应用；

第二语音数据接收与处理模块43，用于接收交互系统发送的启动第三方应用后接收用户发出的对第三方应用进行操作的语音数据，对所述语音数据进行语音识别与语意理解，得到对第三方应用进行操作的指令；

第二指令发送模块44，用于将所述对第三方应用进行操作的指令返回给交互系统，以便交互系统将所述指令转发给所述第三方应用，由所述第三方应用执行所述指令。

优选地，当用户通过语音与智能电视的dueros上安装的第三方应用进行交互时，首先需要唤醒智能电视的dueros，打开第三方应用。

在第一语音数据接收与处理模块41的一种优选实现方式中，

如果智能电视确定所采集到的音频数据中包括唤醒词，则唤醒dueros语音智能交互系统,以便dueros语音智能交互系统进行下一步操作。

第一语音数据接收与处理模块41接收交互系统发送的用户发出的语音数据，对所述语音数据进行语音识别与语意理解得到对应的启动第三方应用的指令。

第一语音数据接收与处理模块41使用回声消除(acousticechocancellation，aec)算法对用户语音数据做回声消除、采用降噪(noisesuppression，ns)算法消除环境噪音。然后提取处理后的用户语音数据的音频特征，将采集到的音频特征进行解码得到语音识别结果，及语音识别文本。对语音识别文本进行自然语言处理，即语义解析；将解析内容归类，进行意图匹配，得到对应的机器指令信息，作为结构化数据返回给智能电视。

优选地，由于所述语音数据未绑定有所述第三方应用的标识，第一语音数据接收与处理模块41在dueros语音智能交互系统对应的指令库中搜索所述语音数据对应的指令。所述dueros语音智能交互系统对应的指令库，用来存储用户可能想要说出的对所述dueros语音智能交互系统的控制命令语句。

例如，用户输入的语音指令为“小度小度，打开网易云音乐”；云端服务器识别得到“打开网易云音乐”的指令。

在第一指令发送模块42的一种优选实现方式中，

第一指令发送模块42将所述启动第三方应用的指令返回给交互系统，以便交互系统执行所述指令，启动第三方应用；

dueros语音智能交互系统根据所接收到的指令信息，打开对应的第三方应用。

优选地，dueros语音智能交互系统根据所收到的指令信息打开对应的第三方应用后，接受第三方应用的绑定、鉴权与注册namespace。

第三方应用进行namespace注册，作为所述第三方应用的标识。

在第二语音数据接收与处理模块43的一种优选实现方式中，

第二语音数据接收与处理模块43接收交互系统发送的启动第三方应用后接收用户发出的对第三方应用进行操作的语音数据，对所述语音数据进行语音识别与语意理解，得到对第三方应用进行操作的指令。

优选地，所述第三方应用的标识为所述第三方应用向dueros语音智能交互系统注册的namespace。

第二语音数据接收与处理模块43使用回声消除(acousticechocancellation，aec)算法对用户语音数据做回声消除、采用降噪(noisesuppression，ns)算法消除环境噪音。然后提取处理后的用户语音数据的音频特征，将采集到的音频特征进行解码得到语音识别结果，及语音识别文本。对语音识别文本进行自然语言处理，即语义解析；将解析内容归类，进行意图匹配，得到对应的机器指令信息，作为结构化数据返回给智能电视。

优选地，由于所述语音数据绑定有所述第三方应用的标识，第二语音数据接收与处理模块43根据所述第三方应用的标识查找所述第三方应用对应的指令库，在对应的指令库中搜索所述语音数据对应的指令。所述第三方应用对应的指令库是由第三方应用的开发者上传到云端服务器的，用来存储用户可能想要说出的对所述第三方应用的控制命令语句。

例如，用户输入的语音指令为“小度小度，下一首”；第二语音数据接收与处理模块43识别得到“下一首”的指令信息返回给dueros语音智能交互系统。

由于所述语音数据绑定有所述第三方应用的标识，第二语音数据接收与处理模块43将搜索得到的指令绑定所述第三方应用的标识返回给dueros语音智能交互系统，以便dueros语音智能交互系统根据所述第三方应用的标识将所述指令转发给所述第三方应用。

优选地，对dueros语音智能交互系统进行操作，或调用第三方应用的自定义技能，需要用户唤醒才能进行。

在第二指令发送模块43的一种优选实现方式中，

第二指令发送模块43将所述对第三方应用进行操作的指令返回给交互系统，以便交互系统将所述指令转发给所述第三方应用，由所述第三方应用执行所述指令。

dueros语音智能交互系统接收云端服务器返回的对第三方应用进行操作的指令并转发给所述第三方应用，由所述第三方应用执行所述指令。

优选地，dueros语音智能交互系统根据所述指令绑定的所述第三方应用的标识，将所述指令转发给所述第三方应用，以便所述第三方应用执行所述指令。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的终端和服务器的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

图5示出了适于用来实现本发明实施方式的示例性计算机系统/服务器012的框图。图5显示的计算机系统/服务器012仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统/服务器012以通用计算设备的形式表现。计算机系统/服务器012的组件可以包括但不限于：一个或者多个处理器或者处理单元016，系统存储器028，连接不同系统组件(包括系统存储器028和处理单元016)的总线018。

总线018表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(isa)总线，微通道体系结构(mac)总线，增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

计算机系统/服务器012典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器012访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器028可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(ram)030和/或高速缓存存储器032。计算机系统/服务器012可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统034可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线018相连。存储器028可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块042的程序/实用工具040，可以存储在例如存储器028中，这样的程序模块042包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块042通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器012也可以与一个或多个外部设备014(例如键盘、指向设备、显示器024等)通信，在本发明中，计算机系统/服务器012与外部雷达设备进行通信，还可与一个或者多个使得用户能与该计算机系统/服务器012交互的设备通信，和/或与使得该计算机系统/服务器012能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口022进行。并且，计算机系统/服务器012还可以通过网络适配器020与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图5所示，网络适配器020通过总线018与计算机系统/服务器012的其它模块通信。应当明白，尽管图5中未示出，可以结合计算机系统/服务器012使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

处理单元016通过运行存储在系统存储器028中的程序，从而执行本发明所描述的实施例中的功能和/或方法。

上述的计算机程序可以设置于计算机存储介质中，即该计算机存储介质被编码有计算机程序，该程序在被一个或多个计算机执行时，使得一个或多个计算机执行本发明上述实施例中所示的方法流程和/或装置操作。

随着时间、技术的发展，介质含义越来越广泛，计算机程序的传播途径不再受限于有形介质，还可以直接从网络下载等。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杜滨源;张岩;袁鹏;常良玉;田龙龙
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种小区网络检查的方法及装置与流程
上一篇：一种高效脱硫除尘工艺及设备的制作方法