一种多媒体设备的语音控制方法及系统与流程

文档序号：15836913发布日期：2018-11-07 07:58阅读：289来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明实施例涉及通信技术领域，特别涉及一种多媒体设备的语音控制方法及系统。

背景技术

随着时代的发展，人们生活水平逐渐提高，娱乐活动也得到了越来越多的重视，例如听歌、k歌以及看视频等成为人们生活的重要组成部分，然而，由于正在忙于其他事情(例如开车、工作等)，人们可能不便于进行多媒体设备的操作，语音点播控制应运而生。

发明人发现现有技术中至少存在如下问题：现有技术中的语音点播的控制方法或系统，只能针对专用的定制化系统或者软件使用，使用范围较小，可扩展性差，因此，有必要提供一种新的多媒体设备的语音控制方法及系统来解决上述问题。

技术实现要素：

本发明实施方式的目的在于提供一种多媒体设备的语音控制方法及系统，能够扩大使用范围，提高扩展性。

为解决上述技术问题，本发明的实施方式提供了一种多媒体设备的语音控制方法，包括以下步骤：接收语音数据；根据所述语音数据获取点播请求；通过无障碍服务调用与所述点播请求匹配的播放应用程序，利用所述播放应用程序播放与所述点播请求对应的多媒体数据。

本发明的实施方式还提供了一种多媒体设备的语音控制系统，包括：接收模块、处理模块以及播放模块；所述接收模块用于接收语音数据；所述处理模块用于根据所述语音数据获取点播请求，并通过无障碍服务调用与所述点播请求匹配的播放模块；所述播放模块用于播放与所述点播请求对应的多媒体数据。

本发明实施方式相对于现有技术而言，通过接收用户传输的语音数据，对所述语音数据进行特征提取从而获取点播请求，并通过无障碍服务调用与所述点播请求匹配的播放应用程序，利用所述播放应用程序播放与所述点播请求对应的多媒体数据，从而完成了音视频的点播，由于无障碍服务能够调用多个线上通用版的播放应用程序，从而实现了非定制化的播放应用程序的语音点播控制，无需定制多媒体设备的底层系统和播放应用程序，扩大了多媒体设备的使用范围，提高了多媒体设备的可扩展性。

另外，所述接收语音数据，具体包括：调用所述多媒体设备的系统通用接口；经由所述系统通用接口接收所述语音数据。通过调用系统通用接口来接收所述语音数据，从而无需定制语音接收模块，提高了系统通用性。

另外，所述调用所述多媒体设备的系统通用接口，具体包括：启动所述多媒体设备的应用层应用程序；利用所述应用层应用程序调用所述系统通用接口，所述经由所述系统通用接口接收所述语音数据，具体为：利用所述应用层应用程序经由所述系统通用接口接收所述语音数据。如此设置，无需定制播放设备底层系统就能够在应用层实现所述语音数据的接收，提高了通用性和可移植性。

另外，所述根据所述语音数据获取点播请求，具体包括：发送所述语音数据至云服务器；接收所述云服务器反馈的根据所述语音数据解析得到的点播请求。如此设置，能够通过云服务器的语音识别引擎和语义识别引擎解析语音数据、获取点播请求。此外，云服务器能够实时更新和升级，灵活性高，安全性强，而且能够通过云端实现用户点播数据收集并进行识别引擎的不断优化。

另外，所述根据所述语音数据获取点播请求，具体包括：发送所述语音数据至所述多媒体设备的内置语音识别模块；利用所述内置语音识别模块对所述语音数据进行解析，得到点播请求。

另外，所述点播请求具体包括播放目录和播放方式；所述通过无障碍服务调用与所述点播请求匹配的播放应用程序，具体为：通过无障碍服务调用与所述播放方式匹配的播放应用程序；所述利用所述播放应用程序播放与所述点播请求对应的多媒体数据，具体包括：在所述播放应用程序的搜索页面搜索所述播放目录以获取对应的多媒体数据；播放所述多媒体数据。

另外，所述处理模块具体包括：云端语音识别模块和控制模块；所述云端语音识别模块用于根据所述语音数据解析得到点播请求；所述控制模块用于通过无障碍服务调用与所述点播请求匹配的播放模块。

另外，所述处理模块具体包括：内置语音识别模块和控制模块；所述内置语音识别模块用于根据所述语音数据解析得到点播请求；所述控制模块用于通过无障碍服务调用与所述点播请求匹配的播放模块。

附图说明

图1是本发明第一实施方式提供的多媒体设备的语音控制方法的流程图；

图2是本发明第二实施方式提供的多媒体设备的语音控制方法的流程图；

图3是本发明第三实施方式提供的多媒体设备的语音控制方法的流程图；

图4是本发明第四实施方式提供的多媒体设备的语音控制系统的结构示意图；

图5是本发明第五实施方式提供的多媒体设备的语音控制系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本发明而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本发明所要求保护的技术方案。

本发明的第一实施方式涉及一种多媒体设备的语音控制方法，本实施方式包括：接收用户的语音数据；根据所述语音数据获取用户的点播请求；通过无障碍服务调用与所述点播请求匹配的播放应用程序，利用所述播放应用程序播放与所述点播请求对应的多媒体数据。本实施方式通过无障碍服务来调用播放应用程序，由于无障碍服务能够调用多个线上通用版的播放应用程序，从而实现了非定制化的播放应用程序的语音点播控制，无需定制多媒体设备的底层系统和播放应用程序，扩大了多媒体设备的使用范围，提高了多媒体设备的可扩展性。下面对本实施方式的多媒体设备的语音控制方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

本实施方式中的基于多媒体设备的语音控制方法，如图1所示，具体包括以下步骤：

s101：启动应用层应用程序，调用系统通用接口接收用户的语音数据。

具体的说，在步骤s101中，启动所述多媒体设备的应用层应用程序，利用所述应用层应用程序调用所述系统通用接口，利用所述应用层应用程序经由所述系统通用接口接收所述语音数据。系统通用接口(csi)被设计为能够集成存储器控制器和分布式共享存储器，通过调用系统通用接口，能够接收用户的语音数据，并且将用户的语音数据共享给系统的其他模块，从而能够实现用户语音的录入。通过调用系统通用接口来接收所述语音数据，从而无需定制语音接收模块，提高了系统通用性，同时由于调用系统通用接口的应用程序在应用层，从而无需定制播放设备底层系统就能够在应用层实现所述语音数据的接收，提高了通用性和可移植性。

可以理解的是，不仅可以通过调用系统通用接口来接收用户的语音数据，也可以通过其他方式来接收用户的语音数据。

s102：发送所述语音数据至云服务器，接收所述云服务器反馈的根据所述语音数据解析得到的点播请求。

云服务器是一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务，是云计算服务的重要组成部分，是面向各类互联网用户提供综合业务能力的服务平台，整合了传统意义上的互联网应用三大核心要素：计算、存储、网络，面向用户提供公用化的互联网基础设施服务，云服务器平台的每个集群节点被部署在互联网的骨干数据中心，可独立提供计算、存储、在线备份、托管、带宽等互联网基础设施服务。云服务器具有以下特点，即高密度、低能耗，易管理、系统优化。其管理方式比物理服务器更简单高效，用户无需提前购买硬件，即可迅速创建或释放任意多台云服务器。具体的说，在步骤s102中，通过云服务器(包含语音识别和语义识别模块)的语音识别引擎和语义识别引擎将用户语音数据的自然语言意图进行解析，获取用户的点播请求，具有低能耗、易管理和系统优化的优点，其中，系统优化主要指云服务器的实时更新和升级，灵活性高，安全性强，而且能够通过云端实现用户点播数据收集并进行识别引擎的不断优化。

s103：通过无障碍服务调用与所述点播请求匹配的播放应用程序，利用所述播放应用程序播放与所述点播请求对应的多媒体数据。

具体的说，在步骤s103中，本实施方式中的无障碍服务为安卓(android)自带的“无障碍服务”，但不局限于此，也可以是其它操作系统中可实现本发明技术方案的“无障碍服务”，点播请求可以包括播放目录和播放方式。本步骤中，通过无障碍服务调用与所述播放方式匹配的播放应用程序(例如：智能电视、k歌机、智能音箱上运行的提供音乐、影视播放的多媒体软件)，在所述播放应用程序的搜索页面搜索所述播放目录以获取对应的多媒体数据，并播放所述多媒体数据。

例如：用户说“我要听a歌曲”，系统启动所述应用层应用程序调用系统通用接口，接收用户实时传输的该段语音数据，系统在接收到给语音数据后，将该段语音发送至云服务器，通过云服务器的语音识别引擎解析该语音数据、获取用户的点播请求，即播放方式为“听歌模式”，播放曲目为“a”，云服务器将“听歌模式”和播放曲目为“a”这些信息返回，系统根据这些信息就可以打开放歌软件(例如酷狗)并在搜索页面搜索并播放曲目a；同理，用户说“我要唱b歌曲”，则播放方式为“伴奏模式”，播放曲目为“b”，调用k歌软件(例如全民k歌)以伴奏模式播放曲目“b”；用户说“我要看c歌曲的mv”，则播放方式为“视频模式”，播放目录为“c”，调用视频播放软件(例如腾讯视频)以“视频模式”播放“c”。

发明人发现，语音点播的控制模式主要可以包括以下几种：(1)手持的点歌装置通过内置的语音识别特征参数提取出用户的点歌意图，然后将该点歌意图通过无线传输方式发送给播放设备端以进行歌曲匹配点歌控制；(2)用户点歌语音信号通过声卡传输到系统内置的语音识别模块，语音识别完成用户语意解析后通过cpu进行曲库资源匹配和控制播放；(3)通过在播放器设备上安装语音识别应用程序，用户点歌音频数据通过语音识别应用程序解析后转换为控制指令和搜索指令，歌曲播放应用程序通过定制的软件协议和语音点歌应用程序连接，接收并执行对应的控制和搜索指令进行歌曲点播；(4)直接在播放器应用程序上集成语音解析模块，用户语音通过播放器软件进行点歌意图的解析和歌曲点播控制。但是，上述四个方案中语音点播控制模式，只能针对专用的定制化系统或者软件使用，使用范围较小，可扩展性差。而在本发明实施方式中，通过接收用户传输的语音数据，对所述语音数据进行特征提取从而获取用户的点播请求，并通过无障碍服务调用与所述点播请求匹配的播放应用程序，利用所述播放应用程序播放与所述点播请求对应的多媒体数据，从而完成了音视频的点播，由于无障碍服务能够调用多个线上通用版的播放应用程序，从而实现了非定制化的播放应用程序的语音点播控制，无需定制多媒体设备的底层系统和播放应用程序，扩大了多媒体设备的使用范围，提高了多媒体设备的可扩展性。

本发明的第二实施方式涉及一种多媒体设备的语音控制方法。第二实施方式与第一实施方式大致相同，主要区别之处在于：在第一实施方式中，启动所述应用层应用程序调用系统通用接口接收用户的语音数据。而在本发明第二实施方式中，通过底层系统调用系统通用接口接收用户的语音数据。如此设置，在系统一旦开发完成，就已经具备调用系统通用接口的功能，在后期不需要再进行调用系统通用接口的应用程序的开发，从而方便了具有该底层系统的多媒体设备的应用。

本实施方式中的多媒体设备的语音控制方法，如图2所示，具体包括：

s201：通过底层系统调用系统通用接口接收用户的语音数据。

具体的说，在步骤s201中，将调用系统通用接口的本地应用程序集成在底层系统中，继而通过底层系统调用系统通用接口接收用户的语音数据。如此设置，在系统一旦开发完成，就已经具备调用系统通用接口的功能，在后期不需要再进行调用系统通用接口的应用程序的开发，从而方便了具有该底层系统的多媒体设备的应用。

s202：发送所述语音数据至云服务器，接收所述云服务器反馈的根据所述语音数据解析得到的点播请求。

s203：通过无障碍服务调用与所述点播请求匹配的播放应用程序，利用所述播放应用程序播放与所述点播请求对应的多媒体数据。

本实施方式中的步骤s202、s203与第一实施方式中的步骤s102、s103大致相同，为了避免重复，此处不再赘述。

本发明的第三实施方式涉及一种多媒体设备的语音控制方法。第三实施方式与第一实施方式大致相同，主要区别之处在于：在第一实施方式中，发送所述语音数据至云服务器，接收所述云服务器反馈的根据所述语音数据解析得到的点播请求。而在本发明第三实施方式中，发送所述语音数据至所述多媒体设备的内置语音识别模块；利用所述内置语音识别模块对所述语音数据进行解析，得到点播请求。如此设置，避免了对网络的依赖，在网络状况不好或者没有网络的情况下也能正常的通过语音来控制该多媒体设备，提高了用户体验。

本实施方式中的多媒体设备的语音控制方法，如图3所示，具体包括：

s301：启动应用层应用程序调用系统通用接口接收用户的语音数据。

s302：发送所述语音数据至所述多媒体设备的内置语音识别模块；利用所述内置语音识别模块对所述语音数据进行解析，得到点播请求。

具体的说，在步骤s302中，内置语音识别模块可以为预置于硬件设备系统中的语音识别模块，也可以为从网络侧下载的离线语音识别模块。通过内置的语音识别模块来解析语音数据，避免了通过云服务器来解析语音数据时对网络的依赖，从而在网络状况不好或者没有网络的情况下也能正常的通过语音来控制该多媒体设备，提高了用户体验。语音识别技术，也被称为自动语音识别automaticspeechrecognition，(asr)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。语音识别包括两个阶段：训练和识别；不管是训练还是识别，都必须对输入语音预处理和特征提取；训练阶段所做的具体工作是收集大量的语音语料，经过预处理和特征提取后得到特征矢量参数，最后通过特征建模达到建立训练语音的参考模型库的目的；而识别阶段所做的主要工作是将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较，然后把相似性最高的输入特征矢量作为识别结果输出，这样，最终就达到了语音识别的目的。

s303：通过无障碍服务调用与所述点播请求匹配的播放应用程序，利用所述播放应用程序播放与所述点播请求对应的多媒体数据。

本实施方式中的步骤s301、s303与第一实施方式中的步骤s101、s103大致相同，为了避免重复，此处不再赘述。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明第四实施方式涉及一种多媒体设备的语音控制系统，如图4所示，包括：接收模块1、处理模块2以及播放模块3；所述接收模块1用于接收用户的语音数据；所述处理模块2用于根据所述语音数据获取用户的点播请求，并通过无障碍服务调用与所述点播请求匹配的播放模块；所述播放模块3用于播放与所述点播请求对应的多媒体数据。

本实施方式中，所述处理模块2具体包括：云端语音识别模块21和控制模块22，所述云端语音识别模块21用于根据所述语音数据解析得到点播请求，所述控制模块22用于通过无障碍服务调用与所述点播请求匹配的播放模块。

不难发现，本实施方式为与第一实施方式相对应的系统实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明第五实施方式涉及一种多媒体设备的语音控制系统，如图5所示，第五实施方式与第四实施方式大致相同，主要区别之处在于：在第四实施方式中，所述处理模块2具体包括：云端语音识别模块21和控制模块22，所述云端语音识别模块21用于根据所述语音数据解析得到点播请求，所述控制模块22用于通过无障碍服务调用与所述点播请求匹配的播放模块。而在本发明第五实施方式中，所述处理模块2具体包括：内置语音识别模块23和控制模块24，所述内置语音识别模块23用于根据所述语音数据解析得到点播请求，所述控制模块24用于通过无障碍服务调用与所述点播请求匹配的播放模块。如此设置，避免了对网络的依赖，在网络状况不好或者没有网络的情况下也能正常的通过语音来控制该多媒体设备，提高了用户体验。

本发明第五实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：范苑;方炯文;余庆儿
技术所有人：广州酷狗计算机科技有限公司
我是此专利的发明人

上一篇：空调系统、空调系统的控制方法及空调器与流程
上一篇：一种可视智能型黄茶闷黄机的制作方法