一种声控拍摄方法及装置制造方法

文档序号：7778887阅读：218来源：国知局

一种声控拍摄方法及装置制造方法
【专利摘要】本发明涉及一种声控拍摄方法，包括以下步骤：采集外部声音样本；提取所采集的声音样本的声纹特征，并判断所提取的声纹特征是否符合预定规则；若所提取的声纹特征符合预定规则，则对所采集的声音样本进行语音识别，从而获取拍摄指令；根据该拍摄指令控制摄像单元进行拍摄。本发明还提供一种声控拍摄装置。利用本发明可以实现用户远距离控制拍摄，还可以避免手抖而影响拍摄效果，以及通过辨别用户的声音来防止他人造成的误操作。
【专利说明】一种声控拍摄方法及装置

【技术领域】
[0001] 本发明具体实施例涉及摄像【技术领域】，特别涉及一种声控拍摄方法及装置。

【背景技术】
[0002] 随着人们生活水平的不断提高，各类电子设备例如电脑、手机、数码相机、摄像机等在人们的日常生活中得到了广泛应用。为了便于人们在聚会、旅游时可以把美好或重要的场景记录下来，带有摄像功能的电子设备对人们来说尤其重要，极大地丰富了人们的生活。
[0003] 目前带有摄像功能的电子设备一般都需要通过人们手动触发来进行拍摄，例如按下数码相机的拍摄实体键、点击手机中照相机程序的拍摄虚拟键、通过鼠标点击电脑中照相机程序的拍摄虚拟键等。因此，当用户双手无法操作设备时，将十分不便。虽然一些摄像设备或程序设置有定时功能，但这种方式使用户在拍摄时处于被动地位，难以保证拍摄效果。此外，若用户使用手机、数码相机等手持式设备进行拍摄时，可能由于按键时手抖造成所拍摄的照片或视频模糊不清。

【发明内容】

[0004] 有鉴于此，有必要提供一种声控拍摄方法及装置，不仅可以实现用户远距离控制拍摄，还可以避免手抖而影响拍摄效果，以及通过辨别用户的声音来防止他人造成的误操作。
[0005] -种声控拍摄方法，包括以下步骤：米集外部声音样本；提取所米集的声音样本的声纹特征，并判断所提取的声纹特征是否符合预定规则；若所提取的声纹特征符合预定规则，则对所采集的声音样本进行语音识别，从而获取拍摄指令；根据该拍摄指令控制摄像单元进行拍摄。
[0006] -种声控拍摄装置，包括：采集模块，用于采集外部声音样本；判断模块，用于提取所采集的声音样本的声纹特征，并判断所提取的声纹特征是否符合预定规则；识别模块，用于若所提取的声纹特征符合预定规则，则对所采集的声音样本进行语音识别，从而获取拍摄指令；拍摄模块，用于根据该拍摄指令控制摄像单元进行拍摄。
[0007] 相较于现有技术，本发明声控拍摄方法及装置，从周围环境采集声音样本，并根据所采集声音样本的声纹特征和语音内容来获取拍摄指令，从而控制摄像单元进行拍摄，不仅可以实现用户远距离控制摄像单元的拍摄，还可以避免手抖而影响拍摄效果，以及通过辨别用户的声音来防止他人造成的误操作。
[0008] 为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

【专利附图】

【附图说明】
[0009] 图1为一种终端的结构示意图。
[0010] 图2为本发明实施例提供的声控拍摄方法的流程图。
[0011] 图3为本发明实施例提供的声控拍摄装置的框图。

【具体实施方式】
[0012] 为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的【具体实施方式】、结构、特征及其功效，详细说明如后。
[0013] 图1示出了一种终端的结构示意图。如图1所示，终端1包括一个或多个（图中仅示出一个)存储器11、处理器12、存储控制器13、外设接口 14、输入单元15、显示单元16、摄像单元17和声音采集单元18。这些组件通过一条或多条通讯总线/信号线相互通讯。
[0014] 本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对终端1的结构造成限定。例如，终端1还可包括比图1所示更多或者更少的组件，或者具有与图1所示不同的配置。图1所示的各组件可以采用硬件、软件或其组合实现。
[0015] 存储器11可用于存储软件程序以及模块，如本发明实施例中的声控拍摄方法及装置对应的程序指令/模块，处理器12通过运行存储在存储器11内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的声控拍摄方法。
[0016] 存储器11可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器11可进一步包括相对于处理器12远程设置的存储器，这些远程设置的存储器可以通过网络连接至终端1。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器 12以及其他可能的组件对存储器11的访问可在存储控制器13的控制下进行。
[0017] 外设接口 14将各种输入/输出装置耦合至处理器12以及存储器11。处理器12 运行存储器11内的各种软件、指令以及执行终端1的各种功能以及进行数据处理。
[0018] 输入单元15可用于接收输入的字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元15可包括按键151以及触控表面152。按键151例如可包括用于输入字符的字符按键，以及用于触发控制功能的控制按键。控制按键的实例包括"返回主屏"按键、开机/关机按键、拍照键等等。触控表面 152可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控表面152上或在触控表面152附近的操作)，并根据预先设定的程序驱动相应的连接装置。可选的，触控表面152可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器12,并能接收处理器12发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控表面152。除了触控表面152,输入单元15还可以包括其他输入设备。上述的其他输入设备包括但不限于物理键盘、轨迹球、鼠标、操作杆等中的一种或多种。
[0019] 显示单元16用于显示由用户输入的信息、提供给用户的信息以及终端1的各种图形接口。这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。在一个实例中，显示单元16包括一个显示面板161。该显示面板161例如可为一个液晶显示面板（Liquid Crystal Display，LCD)、有机发光二极管（Organic Light-Emitting Diode Display，OLED)显不面板、电泳显不面板（Electro-Phoretic Display, EPD)等。进一步地，触控表面152可设置于显不面板161上从而与显不面板161构成一个整体。
[0020] 摄像单元17用于拍摄照片或者视频，所拍摄的照片或者视频可以存储至存储器 11内。该摄像单元17可以是内置式镜头，也可以为外置式插接镜头。
[0021] 声音采集单元18用于从周围环境采集声音。该声音采集单元18可以是内置式话筒，也可以是外置式有线麦克风。
[0022] 参阅图2所示，本发明实施例提供一种声控拍摄方法，其可由上述终端1执行，用于根据用户通过声音发出的拍摄指令控制所述摄像单元17进行拍摄。该终端1的具体实例包括但并不限于手机、平板电脑、数码相机、台式计算机、便携式计算机或者其他类似的运算装置。在本实施例中，该声控拍摄方法包括以下步骤：
[0023] 步骤S1，采集外部声音样本；
[0024] 步骤S2,提取所采集的声音样本的声纹特征，并判断所提取的声纹特征是否符合预定规则；
[0025] 步骤S3,若所提取的声纹特征符合预定规则，则对所采集的声音样本进行语音识另IJ，从而获取拍摄指令；
[0026] 步骤S4,根据该拍摄指令控制该摄像单元17进行拍摄。
[0027] 按照上述的声控拍摄方法，从周围环境采集声音样本，并根据所采集声音样本的声纹特征和语音内容来获取拍摄指令，从而控制摄像单元17进行拍摄，不仅可以实现用户远距离控制摄像单元17的拍摄，还可以避免手抖而影响拍摄效果，以及通过辨别用户的声音来防止他人造成的误操作。
[0028] 在一些实例中，上述方法的各步骤的实现细节如下：
[0029] 步骤S1在所述的摄像单元17已启动的状态下执行。所述的摄像单元17启动，例如可以是数码相机开机，也可以是手机、平板电脑、台式计算机或便携式计算机中照相机程序启动，从而使摄像单元17处于拍摄的等候状态。当摄像单元17启动时，步骤S1控制所述声音采集单元18开始从周围环境采集外部声音样本，并将所采集的声音样本存储在存储器11中。
[0030] 步骤S2所述的声纹是指用电声学仪器显示的携带言语信息的声波频谱。声纹具有特定性和稳定性的特征，因此声纹也具有身份识别（认定个人）的作用。步骤S2从存储器11中读取出所采集的声音样本，并提取所采集声音样本的声纹特征，然后判断该声纹特征是否符合预定规则。该预定规则例如可以是预先设定的声纹模型。
[0031] 所述的声纹模型通过以下方式预设：预先设置参考声音，例如提示指定用户在相对安静的环境下任意说一句话，也可以显示一段文字并要求用户在相对安静的环境下将该段文字读出来，然后将用户说话的声音保存下来作为所述参考声音；提取所述参考声音的声纹特征，将所述参考声音的声纹特征存储至存储器11中，从而建立所述的声纹模型。该声纹模型即为该指定用户声音的声纹特征。该指定用户可以为指定控制摄像单元17拍摄的用户。例如终端1的主人。若步骤S2判定所提取的声纹特征符合预定规则，即该声纹特征与该声纹模型一致，则可以判定步骤S1所采集的声音样本是由该指定用户发出，从而避免其他人的声音干扰，造成对摄像单元17拍摄的误操作。
[0032] 具体而言，由于周围环境噪音的影响，即使所采集的声音样本是由该指定用户发出，其声纹特征与该声纹模型也可能不是百分之百一致，因此步骤S2判断所提取的声纹特征与该声纹模型是否一致可以先将该声纹特征与该声纹模型进行对比，得到该声纹特征与该声纹模型的相似度，并判断该相似度是否达到预设阈值，例如70%。若该相似度达到该预设阈值，则步骤S2判定该声纹特征与该声纹模型一致，即判定该声纹特征符合预定规则。
[0033] 步骤S2判定所提取的声纹特征符合预定规则后，步骤S3对所采集的声音样本进行语音识别，从而获取拍摄指令。具体而言，可以先预设多个拍摄指令，例如用于直接拍摄照片的拍照指令、用于直接拍摄视频的摄像指令、用于先切换到夜景模式后拍摄照片的拍照指令等。然后，建立所预设的每个拍摄指令与一个或多个语音内容的映射关系，例如直接拍摄照片的拍照指令可以对应于"拍照"、"茄子"、"123"等语音内容，直接拍摄视频的摄像指令可以对应于"摄像"、"开拍"等语音内容，先切换到夜景模式后拍摄照片的拍照指令可以对应于"夜景模式拍照"等语音内容。每个拍摄指令与一个或多个语音内容的映射关系被保存至存储器11中。
[0034] 步骤S3对所采集的声音样本进行语音识别，即从所采集的声音样本中识别出语音内容，例如"拍照"、"摄像"、"茄子"、"123"等。然后根据所建立的拍摄指令与语音内容的映射关系，从所预设的多个拍摄指令中获取与该识别出的语音内容对应的拍摄指令，例如识别出的语音内容为"茄子"，则获取的拍摄指令为直接拍摄照片，若该语音内容为"摄像"，则获取的拍摄指令为直接拍摄视频。
[0035] 步骤S4根据该拍摄指令控制该摄像单元17进行拍摄，例如拍摄照片或视频，或先切换拍摄模式后拍摄照片或视频，并将所拍摄照片或视频保存在存储器11中，可供用户查看。若该摄像单元17运行于手机、计算机等带有通信模块的终端中，则用户还可以将保存在存储器11中的照片或视频通过通信网络与其他人共享。
[0036] 在步骤S4控制摄像单兀17拍摄结束后，则控制声首米集单兀18重新开始从周围环境采集外部声音样本，并再次执行步骤S2,从而在摄像单元17保持开启状态的过程中，实现步骤S1到步骤S4的循环过程。
[0037] 综上所述，本发明实施例提供的声控拍摄方法，从周围环境采集声音样本，并根据所采集声音样本的声纹特征判断所采集声音是否由指定用户发出，可以防止他人声音造成的误操作。若所采集声音由该用户发出，则进一步根据所采集声音中包含的语音内容获取拍摄指令，从而控制摄像单元17进行拍摄，不仅可以实现用户远距离控制摄像单元17的拍摄，还可以避免手抖而影响拍摄效果。
[0038] 参阅图3所示，本发明实施例提供一种声控拍摄装置100,其包括预设模块101、采集模块102、判断模块103、识别模块104和拍摄模块105。可以理解，上述的各模块是指计算机程序或者程序段，用于执行某一项或多项特定的功能。此外，上述各模块的区分并不代表实际的程序代码也必须是分开的。
[0039] 预设模块101，用于预先设置参考声音，并提取所述参考声音的声纹特征，从而建立声纹模型。
[0040] 所述预设模块101还用于预设多个拍摄指令，并建立所预设的每个拍摄指令与一个或多个语音内容的映射关系。
[0041] 采集模块102,用于采集外部声音样本。
[0042] 判断模块103,用于提取所采集的声音样本的声纹特征，并判断所提取的声纹特征是否符合预定规则。具体而言，判断模块103将该声纹特征与该声纹模型进行对比得到相似度，并判断该相似度是否达到预设阈值。若该相似度达到该预设阈值，则判断模块103判定该声纹特征符合预定规则。
[0043] 识别模块104,用于若所提取的声纹特征符合预定规则，则对所采集的声音样本进行语音识别，从而获取拍摄指令。具体而言，识别模块104对所采集的声音样本进行语音识另IJ，得到所采集的声音样本包含的语音内容，然后从所述预设的多个拍摄指令中获取与该语音内容对应的拍摄指令。
[0044] 拍摄模块105,用于根据该拍摄指令控制该摄像单元17进行拍摄。
[0045] 对于以上各模块的具体工作过程，可进一步参考本发明实施例提供的声控拍摄方法，在此不再重复。
[0046] 本发明实施例的声控拍摄装置100,从周围环境采集声音样本，并根据所采集声音样本的声纹特征和语音内容来获取拍摄指令，从而控制摄像单元17进行拍摄，不仅可以实现用户远距离控制摄像单元17的拍摄，还可以避免手抖而影响拍摄效果，以及通过辨别用户的声音来防止他人造成的误操作。
[0047] 此外，本发明实施例还提供一种计算机可读存储介质，其内存储有计算机可执行指令，上述的计算机可读存储介质例如为非易失性存储器例如光盘、硬盘、或者闪存。上述的计算机可执行指令用于让计算机或者类似的运算装置完成上述的声控拍摄方法中的各种操作。
[〇〇48] 以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭示如上，然而并非用以限定本发明，任何本领域技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质对以上实施例所作的任何简介修改、等同变化与修饰，均仍属于本发明技术方案的范围内。
【权利要求】
1. 一种声控拍摄方法，其特征在于，该方法包括以下步骤：米集外部声音样本；提取所采集的声音样本的声纹特征，并判断所提取的声纹特征是否符合预定规则；若所提取的声纹特征符合预定规则，则对所采集的声音样本进行语音识别，从而获取拍摄指令；根据该拍摄指令控制摄像单元进行拍摄。
2. 如权利要求1所述的声控拍摄方法，其特征在于，还包括：预先设置参考声音；提取所述参考声音的声纹特征，建立声纹模型。
3. 如权利要求2所述的声控拍摄方法，其特征在于，所述判断所提取的声纹特征是否符合预定规则的步骤包括：将该声纹特征与所述声纹模型进行对比得到相似度，并判断该相似度是否达到预设阈值；若该相似度达到该预设阈值，则判定该声纹特征符合预定规则。
4. 如权利要求1所述的声控拍摄方法，其特征在于，所述对所采集的声音样本进行语音识别，从而获取拍摄指令的步骤包括：对所米集的声音样本进行语音识别，得到该声音样本包含的语音内容；从预设的拍摄指令中获取与该语音内容对应的拍摄指令。
5. -种声控拍摄装置，其特征在于，该装置包括：采集模块，用于采集外部声音样本；判断模块，用于提取所采集的声音样本的声纹特征，并判断所提取的声纹特征是否符合预定规则；识别模块，用于若所提取的声纹特征符合预定规则，则对所采集的声音样本进行语音识别，从而获取拍摄指令；拍摄模块，用于根据该拍摄指令控制摄像单元进行拍摄。
6. 如权利要求5所述的声控拍摄装置，其特征在于，还包括预设模块，用于：预先设置参考声音；提取所述参考声音的声纹特征，建立声纹模型。
7. 如权利要求6所述的声控拍摄装置，其特征在于，所述判断所提取的声纹特征是否符合预定规则包括：将该声纹特征与所述声纹模型进行对比得到相似度，并判断该相似度是否达到预设阈值；若该相似度达到该预设阈值，则判定该声纹特征符合预定规则。
8. 如权利要求5所述的声控拍摄装置，其特征在于，所述对所采集的声音样本进行语音识别，从而获取拍摄指令的步骤包括：对所米集的声音样本进行语音识别，得到该声音样本包含的语音内容；从预设的拍摄指令中获取与该语音内容对应的拍摄指令。
【文档编号】H04N5/232GK104092932SQ201310643086
【公开日】2014年10月8日申请日期:2013年12月3日优先权日:2013年12月3日
【发明者】何文彬申请人:腾讯科技（深圳）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何文彬
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。