利用影像特征辅助语音遥控的装置及方法

文档序号:7956487阅读:220来源:国知局
专利名称:利用影像特征辅助语音遥控的装置及方法
技术领域
本发明是有关于一种利用影像特征辅助语音遥控的装置及方法,且特别是有关于一种利用影像特征复核语音指令的合理性,增加对语音指令辨识的准确度。
背景技术
过去,数码相机、音响或录放机之类的影音设备,除可利用机上的按钮操作以外,还可利用遥控器进行遥控。操作者只需利用遥控器上的按键操作,完全不需碰触到影音设备。但无论如何,其先决条件是操作者必须掌握到遥控器,一旦遥控器丢失或不在手边,便立即无法享有这些遥控的便利。
新的语音控制技术,可让操作者无需持取任何遥控器即可进行遥控。其原理是使收音装置(如麦克风)接收操作者的语音,然后分析其语音特征,从指令库搜寻一相对的操作指令,然后执行该指令。语音辨识技术已经发展多年,国、内外不断有人推陈出新,提出相关的专利。
以美国专利第US2005/0071169A1号公开文件的内容为例,该案的发明人考虑到不同操作者讲话的速度往往会快慢不一,因此其对策是在完成接收与开始执行的时间点之间自动加上一段延迟,以便确定该语音指令是否已经下达完毕。此专利公开的内容提出时间轴的观念,但依然是围绕着声音的信息在作处理。
再以美国专利第US2005/0105575A1号公开文件所揭的内容为例,该发明考虑到的问题是同一语音指令可能会让室内不同设备同时反应,会导致无法预期的错误与混乱。该案发明人所提出的对策,是使同一房间里的各项遥控器材都配置一摄影机及麦克风,但该摄影机的装置目的只是为了侦测操作者是否对该器材发出指令,藉以避免上述混乱情形发生。由于该发明配备摄影机的目的只是用来鉴别应接受语音指令与否,并非用来提升语音辨识的准确度,因此与本发明不同。
此外,美国专利第6,452,625B1号所揭露的紧致式录像显微镜,虽然里面也设有麦克风与影像撷取设备,但其影像撷取设备主要是录像功能,而麦克风主要是提供单纯的录音或语音控制,但并未谈到如何利用影像信息辅助语音控制,同时也没谈到它如何以语音操作录像显微镜。
美国专利第6,289,140B1号也揭露了一种可应用于影像撷取装置的语音控制技术,提供一套语音指令的辨识方法及执行上述所需的硬件架构。其后的美国专利第6,762,692B1号也提出在屏幕上显示语音指令树的方式,帮助使用者读出预定的语汇来操作设备。然而,以上两专利完全没有想到以影像信息来辅助语音控制指令的辨识。
以上提到的专利文献及一般的语音辨识系统,都是单纯地收集语音、分析语音特征,然后依该语音特征从指令库中找出可对应的指令。但语音辨识的条件会随操作者的口音、速度疾徐及当下的环境背景而异,其比较条件与影响因素可能因人、因地而异,颇为复杂。如何提高语音控制的辨识率是当前研发上的一大挑战。如何提升语音指令的辨识率,已是当前各公司努力竞逐的研发重点。

发明内容
本发明的目的就是要在语音指令的辨识过程中加上影像特征的复核,藉以提高语音控制的正确率。
为达到上述目的,本发明提出一种利用影像特征辅助语音遥控的装置及方法。所述装置的内部同时设有一语音特征库、一影像特征库及一指令库供语音遥控操作之用,且在执行语音遥控操作时,其方法可包括下列步骤(a)通过一收音装置输入一语音,分析该语音特征搜寻一语音特征库,藉以找出一相对的指令库中最接近该语音特征的指令集;(b)通过一影像撷取元件撷取一影像,并利用该影像特征搜寻一影像特征库;(c)利用该影像特征库的搜寻结果复核被找出的指令集中哪一个是最接近合理的指令;及(d)执行该最接近合理的指令。
本发明的利用影像特征辅助语音遥控的装置,适用于具有影像及语音撷取功能的遥控设备,如数码相机、数码录放机、手术房摄录像机及一般的摄影手机等。
本发明以影像特征复核语音指令的方法,可增加语音控制的准确度,并有效减少操作上的错误。


图1是本发明利用影像特征辅助语音遥控的装置的实施例方块图。
图2是本发明利用影像特征辅助语音遥控的方法的实施例方块图。
图3是本发明利用影像特征辅助语音遥控的方法的变化实施例方块图。
主要组件符号说明a、b、c、c1、c2、d、d1 步骤10 影像撷取装置 11 镜头模块12 影像感测模块 13 影像处理装置14 显示屏 15 数据储存模块16 存储器 17 处理器单元18 传输接口 19 按键20 麦克风 21 语音辨识装置21A 语音特征库 21B 影像特征库21C 指令库具体实施方式
为让本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施利,并配合所附图式,作详细说明如下
请参图1所示,其是一依照本发明所实施的影像撷取装置10的实施例,包括一镜头模块11、一影像感测模块12、一影像处理装置13、一显示屏14、一数据储存模块15、一存储器16、一处理器单元17、一传输接口18、一按键19、一麦克风20及一语音辨识装置21等组成。其中,麦克风20用于输入声音,镜头模块11用于摄入光学影像并经由影像感测模块12产生数字影像,再经由影像处理装置13处理而通过显示屏14显示,在数据储存模块15及存储器16储存。操作时,通过按键19及语音辨识装置21对处理器单元17输入指令,进行拍摄、录像、浏览、增删档案或传输等操作。传输接口18可通过一般的射频发射模块,或是与计算机、手机或其它影音设备建立联机的蓝芽通信模块、USB端口、1394端口或光纤通信端口等。由于此影像撷取装置10除语音辨识装置21以外,其余都是已知组件的应用,在此对于已知组件的部分不予赘述。
语音辨识装置21包括一语音特征库21A、影像特征库21B及一指令库21C。其中,指令库21C的指令分别与语音特征库21A及影像特征库21B对应,可根据通过麦克风20输入的语音特征对比语音特征库21A,藉以在指令库21C中找出该语音特征可对应的指令。由于每个人讲话疾徐不一、高低不同,加上音量及口音也难免互有差异,因此如果对比的结果仅取唯一的话,极可能产生误判。为此,可放宽对比条件,将接近语音特征的指令一齐挑出,成为指令集。
当镜头模块11摄入光学影像并经由影像感测模块12及影像处理装置13,产生实时反应拍摄现场环境的影像信号后,语音辨识装置21撷取该影像信号的特征与影像特征库21B对比,藉此对比的结果对从指令库21C所挑出的指令集进行复核或筛选,判断出最合理的指令,然后通过处理器单元17执行。所谓的影像信号特征,可包括但不限于所测出的不同明暗程度、形体轮廓的形态。譬如可使语音辨识装置21根据影像所反应的拍摄现场环境的明亮程度,判断操作者要变更ISO值的语音指令究竟为变大或变小;或根据形体轮廓分析判断出人形的位置,调整画面中需要锁定对焦的位置。
影像特征库21B与指令库21C的对应关系,可在组装过程预先录制,以定义不同影像特征所对应的不同指令集。当然,影像特征库21B的内容和指令库21C的对应,也可售后由操作者自行改编,依其职业用途或特定使用目的加以编辑或增、删等。
指令库21C的指令内容可在组装过程预先录制。例如可使其含有第一指令集,包括浏览时的指令“储存(save)”、“删除(delete)”、“放大(zoom in)”、“缩小(zoom out)”、“左(left)”、“右(right)”、“上(up)”、“下(down)”、“传送(send)”或“全部传送(send all)”等等语音遥控指令。
本实施例的指令库21C也可包括拍摄时要移动对焦点时所需的第二指令集,例如要使对焦点锁定在画面中人形的脸部的“对脸(on face)”、使对焦点左移的“左(left)”、使对焦点右移的“右(right)”、使对焦点上移的“上(up)”、使对焦点下移的“下(down)”等语音遥控指令。
此外,本实施例的指令库21C还可包括光线不足时所需的第三指令集,譬如光线太暗时要使ISO值提高的“上(up)”、光线太亮时而要使ISO值下降的“下(down)”、要开启闪光灯的“开(on)”、开启闪光灯之后要增强闪光灯亮度的“上(up)”及要降低闪光灯亮度的“下(down)”等语音遥控指令。
请参照图1与图2,其是依照本发明利用影像特征辅助语音遥控的方法的实施例,包括如下步骤(a)通过一收音装置输入一语音,并以该语音的特征去对比一语音特征库,藉此从一与该语音特征库对应的指令库中挑出所有能与该语音特征对应的指令,将所述指令集合成一指令集;(b)通过影像撷取元件撷取一实时影像,并利用该影像特征去对比一影像特征库;(c)利用影像特征库的对比结果从指令集中筛选出一最接近合理的指令;及(d)执行该最接近合理的指令。
如此以影像特征辅助语音遥控的方法,可增加语音辨识的准确度,可有效减少操作上的错误。
其中在(a)步骤里所谓的收音装置,可利用图1中的麦克风20加以实现。输入语音后在语音特征库21A找出相符的语音特征,藉以找出指令库21C中所有能与该特征对应的指令,譬如当语音为“上(up)”时,同样的语音指令有可能为第一指令集的“往画面的上方浏览”、第二指令集的“令对焦点上移”或第三指令集的“令ISO值提高”。此步骤将相关指令挑出而集合成一指令集。
在(b)步骤及(c)步骤里,影像撷取元件可通过图1中的影像处理装置13加以实现。利用影像处理装置13产生一实时的影像特征,利用此影像特征与影像特征库21B对比,以筛选指令集,藉以从指令集中挑出最合理的指令。例如,当从影像特征库21B对比的结果是属于目前已无新影像输入的情境,则推定使用者目前在进行浏览,因此语音指令的“上(up)”应为第一指令集中的“往画面的上方浏览”;而当影像特征库21B所对比的结果是属于目前虽有新的画面输入但光线不足,则可推定该语音指令应为第三指令集中的“令ISO值提高”;但若对比的结果属于目前的光线正常而且有新的画面输入,则该语音指令可推定为第二指令集中的“令对焦点上移”。
熟习这项技术的人应不难从以上说明及实施例推知其它可行的变化,并依不同消费族群的偏好或需要加以调整变化。譬如提供过多的语音指令,对善忘的使用者而言是一项无法接受的缺点,为此设计者必须想办法尽量缩减语音指令的数量。然而,缩减语音指令数量的结果,势必会遇到无法预先定义出判断准则的情况。因此可以请参照图3,采取一变化实施例,其步骤如下(a)通过一收音装置输入一语音,并以该语音的特征去对比一语音特征库,藉此从一与该语音特征库对应的指令库中挑出所有能与该语音特征对应的指令,将所述指令集合成一指令集;(b)通过影像撷取元件撷取一实时影像,并利用该影像特征去对比一影像特征库;(c1)利用影像特征库的搜寻结果从该指令集中筛选出较接近合理的指令;(c2)利用一显示器显示最接近合理的指令群,供操作者从中选择一指令;及(d1)执行操作者所选择的指令。
虽然图3的实施例最后还需要使用者以语音传达他们想要选择的指令,但是在步骤(c1)已利用影像特征筛选出较合理的指令集,并且在步骤(c2)又进一步筛选并将这些筛选出的指令集显示于屏幕上(可通过图1中的显示屏14加以实现),但这种操作方式对善忘的操作者而言,能看着屏幕再读出最符合需要的指令,将如释重担。
此含有影像信息分析辅助的语音遥控方法,将有助于增加语音遥控的准确度,并可有效地减少操作上的错误。
本发明与已知方法相比较,其优点包括1.如本发明的方法,利用实时取得的影像特征对照影像特征库,可依所属的拍摄情境对已被挑选的语音指令进行筛选或复核,并藉以过滤出最合理或较合理的语音指令,有助于提高语音遥控的准确性。
2.由于数码相机本身已经有影像撷取及处理的功能,所以实施本发明的方法并不需要再增加额外的硬件组件成本,换言之,本发明应用于数码相机只需在机内原有的储存模块加入语音特征库、影像特征库及相对应的指令库及韧体,即可提升语音遥控的准确度。
以上详细说明是针对本发明的较佳实施例所提供的具体说明,但该实施例并非用以限制本发明的保护范围,凡未脱离本发明技术精神所做的等效实施或更动,均应包含于本案的保护范围中。
权利要求
1.一种利用影像特征辅助语音遥控的装置,是在一影像撷取装置装设一语音辨识装置及一收音装置,利用该收音装置接收外界的语音指令进行遥控;其特征在于,所述语音辨识装置含有一指令库,储存多个语音指令供操作所述影像撷取装置;一语音特征库,储存多个语音特征与所述指令库的指令对应,藉以挑出符合语音特征的指令成为一指令集;及一影像特征库,储存多个影像特征与所述指令库的指令对应。
2.如权利要求1所述的利用影像特征辅助语音遥控的装置,其特征在于,所述影像撷取装置包含有一镜头模块、一影像感测模块、一影像处理装置及一处理器单元;所述影像感测模块用以将镜头模块所摄入的光线转为影像;所述影像处理装置用以提供一实时的影像特征与该影像特征库对比,以便能藉该对比的结果从所述指令集筛选出一指令供所述处理器单元执行。
3.如权利要求1所述的利用影像特征辅助语音遥控的装置,其特征在于,所述收音装置是一麦克风。
4.如权利要求1所述的利用影像特征辅助语音遥控的装置,其特征在于,所述影像撷取装置是一数码照相机、一数码摄录像机或一照相手机。
5.如权利要求1所述的利用影像特征辅助语音遥控的装置,其特征在于,所述指令库包含有一拍摄时要移动对焦点的指令。
6.如权利要求1所述的利用影像特征辅助语音遥控的装置,其特征在于,所述影像特征库包含有可供对比拍摄时亮度是否足够的特征,且该指令库中至少包含有一指令与影像对应。
7.如权利要求1所述的利用影像特征辅助语音遥控的装置,其特征在于,所述指令库包含光线太暗时使ISO值提高的“上”、光线太亮时而使ISO值下降的“下”。
8.如权利要求1所述的利用影像特征辅助语音遥控的装置,其特征在于,所述指令库包含要开启闪光灯时的“开”、在开启闪光灯之后要增强闪光灯亮度的“上”及要降低闪光灯亮度的“下”的语音遥控指令。
9.一种利用影像特征辅助语音遥控的方法,该方法是利用一影像撷取装置装设一语音辨识装置,并利用一收音装置接收操作者所发出的语音指令加以遥控;所述语音辨识装置里含有一语音特征库、一影像特征库及一指令库,其特征在于,所述方法包含下列步骤(a)通过所述收音装置输入一语音,并以该语音的特征去对比语音特征库,藉此从指令库中挑出所有能与该语音特征对应的指令,将所述指令集合成一指令集;(b)通过影像撷取装置撷取一实时影像,并利用该影像特征去对比影像特征库;(c)利用影像特征库的对比结果从所述指令集中筛选出一最接近合理的指令;及(d)执行最接近合理的指令。
10.一种利用影像特征辅助语音遥控的方法,该方法是利用一影像撷取装置装设一语音辨识装置,并利用一收音装置接收操作者所发出的语音指令加以遥控;所述语音辨识装置里含有一语音特征库、一影像特征库及一指令库,其特征在于,所述方法包含下列步骤(a)通过所述收音装置输入一语音,并以该语音的特征去对比语音特征库,藉此从指令库中挑出所有能与该语音特征对应的指令,将所述指令集合成一指令集;(b)通过影像撷取装置撷取一实时影像,并利用该影像特征去对比影像特征库;(c1)利用影像特征库的搜寻结果从所述指令集中筛选出较接近合理的指令;(c2)利用一显示器显示最接近合理的指令群,供操作者从中选择一指令;及(d1)执行操作者所选择的指令。
全文摘要
一种利用影像特征辅助语音遥控的装置及方法,适用于具有影像及语音撷取功能的遥控设备,如数码相机、数码录放机、手术房摄录像机及一般的摄影手机等。所述装置的内部同时设有一语音特征库、一影像特征库及一指令库供语音遥控操作之用,且在执行语音遥控操作时,包括下列步骤(a)通过一收音装置输入一语音,分析该语音特征搜寻一语音特征库,藉以找出相对的指令库中接近该语音特征的指令集;(b)通过影像撷取元件撷取一影像,并利用该影像特征搜寻一影像特征库;(c)利用影像特征库的搜寻结果复核指令集中哪一个是最接近合理的指令;及(d)执行该最接近合理的指令。此以影像特征复核语音指令的方法,可增加语音控制的准确度,并有效减少操作上的错误。
文档编号H04N5/225GK101038742SQ20061005856
公开日2007年9月19日 申请日期2006年3月16日 优先权日2006年3月16日
发明者洪进福 申请人:普立尔科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1