基于语音控制的摄影方法、装置及系统与流程

文档序号：17489407发布日期：2019-04-23 20:18阅读：166来源：国知局

本发明涉及语音控制技术领域，尤其涉及一种基于语音控制的摄影方法、装置及系统。

背景技术：

近年来，随着直播行业的火爆，手持稳定器，云台等智能产品也开始普及。正因为各类智能产品的出现，摄影行业也出现了天翻地覆的变化。传统的老式照相机已不满足人们拍摄需求，基于移动互联网的wifi，蓝牙智控摄影app解决方案开始在行业内流行，比如大疆创新的djigo摄像系列产品，智云掌上助手，飞宇自拍机器人等摄影类产品得到广大用户的青睐。但是，以手机类摄影产品为例，该类产品仍存在下述问题：

1)由于忽略摄影场景的问题，常常会导致用户在特殊场景下的拍摄困难，例如：手机通过蓝牙和稳定器进行连接，app要控制云台或者稳定器旋转，需要通过用户手操控app按钮或者外置遥控器进行操控；

2)用户和摄影类型的app的交互缺乏灵活性。例如，当手机固定于设备上，或者手持稳定器的情景下，去打开美颜功能或者操控闪光灯时，需手动找到对应页面的按键进行操作，十分不灵便。

技术实现要素：

为了解决上述问题，本发明实施例提供一种基于语音控制的摄影方法、装置及系统，发明人从语音识别的构思出发，通过语音识别和语义理解得出的指令进而取代手动点击的操作，进行人机交互，这样就可以达到摄影释放双手的目的。

第一方面，本发明实施例提供一种基于语音控制的摄影方法，包括：

接收用户语音指令；

对用户语音指令进行语音识别，根据识别结果确定摄影操作指令；

输出摄影操作指令至摄影客户端，控制摄影客户端进行摄影操作。

第二方面，本发明实施例提供一种基于语音控制的摄影装置，包括：

用户指令获取模块，用于接收用户语音指令；

指令获取模块，用于根据所述用户语音指令确定摄影操作指令；

摄影控制模块，用于输出摄影操作指令至摄影客户端，控制摄影客户端进行摄影操作。

第三方面，本发明实施例提供了一种基于语音控制实现摄影的系统，包括至少一个摄影客户端和语音识别平台，其中，

摄影客户端用于接收用户语音指令输出至语音识别平台进行语音处理，并接收所述语音识别平台返回的摄影操作指令，根据接收到的摄影操作指令进行摄影操作；

语音识别平台用于对语音控制装置输出的用户语音指令进行语音识别，根据识别结果获取摄影操作指令输出至所述摄影客户端。

本发明实施例的有益效果在于：基于本发明实施例的基于语音控制的摄影方法、装置及系统，可以实现通过语音操控实现用户直接与用于摄影的app进行交互，取代了用户手动点击的操作，达到了在摄影时释放双手的目的，操作更加灵活。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施方式的基于语音控制的摄影方法流程图；

图2为本发明又一实施方式的基于语音控制的摄影方法流程图；

图3为本发明一实施方式的基于语音控制的摄影装置原理框图；

图4为本发明又一实施方式的基于语音控制的摄影装置原理框图；

图5为本发明一实施方式的基于语音控制的摄影方法系统框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

在本发明中，“模块”、“装置”、“系统”等指应用于计算机的相关实体，如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说，例如，元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有，运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中，并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间，并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号，例如，来自一个与本地系统、分布式系统中另一元件交互的，和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例中的基于语音控制的摄影方法及装置应用于任何需要进行摄影的终端设备上，该智能终端上配置有语音控制设备或者该终端设备能够与用户进行语音交互操作，例如，智能电视、智能手机、平板电脑、pc、智能家居、投影仪、车载设备等任何智能硬件，本发明对此不作限定。

图1示意性地显示了根据本发明一实施方式的基于语音控制的摄影方法流程图，如图1所示，本实施例中包括如下步骤：

步骤s101：接收用户语音指令。该语音指令包括多种用户控制摄影的指令，例如“打开美颜”、“打开滤镜”、“开始摄影”等。

步骤s102：对用户语音指令进行语音识别，根据识别结果确定摄影操作指令。具体实现为：在接收到用户的语音指令之前，会先配置摄影操作指令及其关联语音说法，该摄影操作指令包括拍照指令、闪光灯指令、视频指令、滤镜指令、云台旋转指令和美颜指令，并且该指令可以根据需求灵活地进行配置和修改，并非固定不变的，示例性地，如果是拍照指令，可以实现为执行command：takephoto，如果是美颜指令，可以实现执行command：beauty。语音说法为该摄影操作指令对应的语音说法，例如拍照指令对应的语音说法可以实现为“我要拍照”，当接收到用户语音指令后会根据现有技术进行语音识别和语义解析，示例性地，通过安卓系统自带的audiorecord进行拾音，将拾音结果传输至语音引擎进行识别，从而确定语音识别的结果。将识别结果进行语义解析，并将解析出的文本内容与配置的语音说法进行匹配，从而确定对应的摄影操作指令。

步骤s103：输出摄影操作指令至摄影客户端，控制摄影客户端进行摄影操作。其中，摄影客户端包括摄影app、用于控制云台旋转的app和用于控制稳定器旋转的app中的其中一种或任意两者以上的组合。从而可以支持多种语音控制的摄影操作。

将确定的摄影操作指令输出至摄影客户端，由摄影客户端的调用接口执行相应的摄影指令，例如收到了“拍照”指令，就会将该指令传输至用于拍照功能的接口，执行相应的拍照操作。从而实现用户与摄影客户端之间的语音交互。

根据本实施例的方法可以取代用户手动点击的操作，达到了在摄影时释放双手的目的。并且操作更加灵活，可以自适应性的对摄影高度进行配置。

图2示意性地显示了根据本发明又一实施方式的基于语音控制的摄影方法流程图，如图2所示，本实施例中包括如下步骤：

步骤s201：接收用户语音指令。其实现方式可以参照步骤s101。

步骤s202：对用户语音指令进行语音识别，根据识别结果确定摄影操作指令。对用户语音指令进行语音识别和语义解析，确定识别结果，再将识别结果与配置的语音说法进行匹配，确定摄影操作指令。其实现方式可以参照步骤s102的实现方式，在此不进行赘述。

步骤s203：在输出摄影操作指令至摄影客户端时，根据摄影操作指令获取关联的摄影客户端，将摄影操作指令输出至关联的摄影客户端。

示例性地，首先配置与摄影操作指令关联的语音事件、以及与语音事件关联的摄影客户端，对于同时使用多个摄影客户端的情况，需要分别为其配置相关的语音事件。示例性地，用户想要用同时使用摄影app和用于控制云台旋转的app，配置的语音指令包括有用于执行旋转指令的语音事件，如可以根据用户需求旋转角度，实现为command：raotate？angle＝#angle#，该旋转指令关联于旋转事件(例如旋转15度)，并且将该语音事件关联于用于控制云台旋转的app。这样，就将每条语音指令都配置关联的语音事件，该语音事件同时会配置关联的摄影客户端。

当接收到相应的摄影操作指令后，首先根据该摄影操作指令进行解析，获取该摄影操作指令的关联事件和关联摄影客户端，之后将该摄影指令发送至解析出的关联摄影客户端进行操作。

在优选实施方式中，用户在发送语音指令时，同时还会发送订阅消息，该订阅消息由摄影app的集成语音内核sdk生成，通过sdk自定义各种语音事件，示例性地，sdk通过“event”：“command：takephoto”指令发送至云平台，再由采集到的语音指令进行识别，将语音识别结果发送至发送了订阅消息的摄影软件，摄影软件收到摄影操作指令后就会解析进行相关的响应操作，例如美颜，拍照等。

根据本实施例可以实现与多个摄影端进行交互，可以同时控制多台终端，完全的解放用户双手，并且可以个性化的满足多种用户需求，有极高的实用性。

图3示意性地显示了根据本发明一实施方式的用于摄影的语音控制装置原理框图。如图3所示，

该用于摄影的语音控制装置包括用户指令获取模块301、指令获取模块302和摄影控制模块303。

用户指令获取模块301用于接收用户语音指令，可以实现为具有语音监听功能的部件，可以获取用户语音指令数据。

指令获取模块302用于根据用户语音指令确定摄影操作指令，该确定方式可以参照上述的方法部分，并且不仅可以在本地实现，还可以根据云端交互，由云端用户进行解析实现确定摄影操作指令。

摄影控制模块303用于输出摄影操作指令至摄影客户端，控制摄影客户端进行摄影操作，该模块可以调用摄影客户端的功能端口，将摄影操作指令输出至对应的功能端口，驱动该摄影客户端进行相应的操作。

根据本实施例可以实现解放用户的双手进行拍摄，并且可以执行多种摄影操作，方便快捷，大大的提高了用户的体验感。

图4示意性的显示了根据本发明又一实施方式的还包括用于摄影的语音控制装置原理框图。如图4所示，

该用于摄影的语音控制装置还包括订阅模块304，该模块用于配置与摄影操作指令关联的语音事件、以及与语音事件关联的摄影客户端。摄影控制模块303还配置为在输出摄影操作指令至摄影客户端时，根据摄影操作指令从订阅模块获取关联的摄影客户端，将摄影操作指令输出至关联的摄影客户端，其实现方式可以参照上述的方法部分。

根据本实施例可以通过订阅消息的方式获取摄影指令，准确率更高，并且可以传达多种不同的摄影指令，适用于当终端设备上存在多种摄影客户端的场景，满足用户的多种需求，大大的提高了用户的体验感。

图5为根据本发明一实施方式的基于语音控制实现摄影的系统框图。如图5所示，

该基于语音控制实现摄影的系统包括至少一个摄影客户端4和语音识别平台5，在本实施例中，以一个摄影客户端进行举例说明。

摄影客户端集成了上述的装置，用于接收用户语音指令输出至语音识别平台5进行语音处理，并接收语音识别平台5返回的摄影操作指令，根据接收到的摄影操作指令进行摄影操作，其实现方式可以参照上述的方法部分。

语音识别平台5用于对摄影客户端输出的用户语音指令进行语音识别，根据识别结果获取摄影操作指令输出至摄影客户端。其中，语音识别平台5包括，指令配置模块501、语音识别模块502和指令获取模块503。

指令配置模块501用于配置摄影操作指令及其关联语音说法。语音识别模块502用于对用户语音指令进行语音识别和语义解析，确定识别结果。指令获取模块503用于根据识别结果和配置的语音说法，确定摄影操作指令。

在优选实施方式中，摄影客户端4还用于输出订阅消息至语音识别平台5，语音识别平台5在获取了摄影操作指令后，还用于根据订阅消息输出摄影操作指令至摄影客户端4。这种情况下可以实现与多个摄影客户端同时进行交互，满足用户的多种需求。

其中，摄影客户端包括摄影app、用于控制云台旋转的app和用于控制稳定器旋转的app中的其中一种或任意两者以上的组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈晓锋;徐鸿;徐钢峰;罗军军;邹佳;刘强;刘晶美;徐瑞婷
技术所有人：苏州思必驰信息科技有限公司
我是此专利的发明人

上一篇：蓝宝石抛光液添加剂及其制备方法和用途与流程
上一篇：一种拉杆箱的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。