一种拍照方法、移动终端及计算机可读存储介质与流程

文档序号:16775843发布日期:2019-02-01 18:43阅读:308来源:国知局
本发明涉及音视频信号处理
技术领域
:,尤其涉及一种基于语音识别的拍照方法、移动终端及计算机可读存储介质。
背景技术
::语音识别技术又称为自动语音识别(automaticspeechrecognition,asr),是把人类语音中的词汇内容转换为计算机可读输入;随着社会进步以及信息产业的飞速发展,语音识别技术作为人机交互的一项关键技术,其应用越来越广泛,譬如车载语音导航、话机语音识别拨号、语音智能玩具等均涉及到语音识别技术。而语音识别在终端,特别是移动终端上的应用是现阶段互联网公司最为火热的研究方向,其目的是通过语音交互的便利模式迅速占领客户群。移动终端在人们的日常生活中使用越来越广泛,其对人们的生活与交际产生了巨大的影响。以智能手机为例,随着科技的发展,其已经开始逐步取代传统的pc并渗透进入了人们娱乐、生活的各个方面,同时也从过去单一的通话功能,到今天集通话、摄影、上网、短信、购物、视频等功能于一身。科技发展至今,不得不说智能手机给我们的生活带了极大的便捷,同时人们对于智能手机的要求随之增加。现有的智能手机都包括拍照软件,众多的拍照软件中基本都有语音拍照的功能,其主要通过语音命令的识别来控制拍照软件的执行,这一设计给用户带来了更多的方便和交互体验。但是,由于这些语音命令一般都是由系统指定,用户只能通过对系统指定的语音命令来实现语音拍照;其带来的问题在于:1.不同人的说话方式、发音的不同以及方言的存在都可能对指定语音命令的识别带来误判,2.当用户希望通过语音来实现自拍时,使用指定的语音命令实现的自拍效果可能不能同时满足每个用户的要求,如,有人用“cheese”语音指令可达到最美的微笑,但有人更喜欢用“茄子”等,3.语音命令下的拍照模式必须提前设定,即用户需要先设定拍照模式为美颜拍照、非美颜拍照、定时拍照等等,再设置语音指令进行拍照,对用户带来不便。因此,有必要设计一种应用于移动终端的基于语音识别的拍照方法,以解决现有语音拍照软件的问题,提高移动终端拍照的便利性,给用户更好的交互体验。技术实现要素:本发明的主要目的在于提出一种基于语音识别的拍照方法及终端,旨在解决现有基于语音识别的拍照程序容易误判,语音指令不能对拍照模式进行设置的问题,以达到增强人机交互、提升用户体验的效果。首先,为实现上述目的,本发明提供一种基于语音识别的拍照方法,应用于移动终端,所述拍照方法包括以下步骤:获取待识别语音拍照指令;提取所述待识别语音拍照指令中的语音信号特征;在预设的语音特征数据库中查找是否存在与所述语音信号特征相匹配的标准语音信号特征;其中,所述预设的语音特征数据库为预设语音拍照指令与所述预设语音拍照指令对应的所述标准语音信号特征的关联数据库,所述预设语音拍照指令包括预设的拍照关键词和与所述拍照关键词对应的拍照模式;若存在与所述语音信号特征相匹配的所述标准语音信号特征,则执行所述标准语音信号特征对应的所述预设语音拍照指令。可选地,所述语音信号特征包括第一级语音信号特征和第二级语音信号特征,所述标准语音信号特征包括第一级标准语音信号特征和第二级标准语音信号特征。可选地,所述“提取所述待识别语音拍照指令中的语音信号特征;在预设的语音特征数据库中查找是否存在与所述语音信号特征相匹配的标准语音信号特征”包括以下步骤:提取所述待识别语音拍照指令中的第一级语音信号特征;在所述预设的语音特征数据库中查找是否存在与所述第一级语音信号特征相匹配的第一级标准语音信号特征;若存在与所述第一级语音信号特征相匹配的第一级标准语音信号特征,则提取所述待识别语音拍照指令中的第二级语音信号特征;判断所述第二级语音信号特征是否与所述第一级标准语音信号特征对应的所述预设拍照指令的第二级标准语音信号特征相匹配;若所述第二级标准语音信号特征与所述第二级语音信号特征相匹配,则执行所述第一级标准语音信号特征对应的所述预设语音拍照指令。可选地,所述第一级语音信号特征包括所述待识别语音拍照指令的能量特征和幅值特征,所述第一级标准语音信号特征包括所述预设语音拍照指令的能量特征和幅值特征。可选地,所述“在预设的语音特征数据库中查找是否存在与所述语音信号特征相匹配的标准语音信号特征”包括以下步骤:在所述预设的语音特征数据库中查找是否存在所述标准语音信号特征的特征区间,以使所述语音信号特征不超出所述特征区间。可选地,所述“获取待识别的语音拍照指令”之前还包括构建所述预设的语音特征数据库;所述“构建所述预设的语音特征数据库”包括以下步骤:采集所述预设语音拍照指令;提取所述预设语音拍照指令对应的标准语音信号特征;建立所述预设语音拍照指令与所述预设语音拍照指令对应的标准语音信号特征的关联数据库。可选地,所述“提取所述待识别语音拍照指令中的语音信号特征”之前还包括以下步骤:对所述待识别语音拍照指令进行预处理。可选地,所述“若存在与所述语音信号特征相匹配的标准语音信号特征,则执行所述标准语音信号特征对应的所述预设语音拍照指令”还包括以下步骤:若不存在与所述语音信号特征相匹配的标准语音信号特征,则重新获取待识别语音拍照指令;或者提示更新所述预设的语音特征数据库。一种移动终端,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语音识别的拍照程序,所述拍照程序被所述处理器执行时实现如上所述的拍照方法的步骤。为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有拍照程序,所述拍照程序被处理器执行时实现如上述拍照方法的步骤。相较于现有技术,本发明所提出的基于语音识别的拍照方法、移动终端及计算机可读存储介质,通过获取待识别语音拍照指令;提取所述待识别语音拍照指令中的语音信号特征;在预设的语音特征数据库中查找是否存在与所述语音信号特征相匹配的标准语音信号特征;若存在与所述语音信号特征相匹配的所述标准语音信号特征,则执行所述标准语音信号特征对应的所述预设语音拍照指令;基于语音识别技术,对待识别的语音拍照指令进行识别,由于所述预设语音拍照指令包括预设的拍照关键词和拍照模式,当待识别的语音指令被识别后,执行预设语音拍照指令,达到不仅可以拍照还可以对拍照模式进行调整的目的,解决现有基于语音识别的拍照程序语音指令不能对拍照模式进行调整的问题,以达到增强人机交互、提升用户体验的效果;同时提高移动终端拍照的便利性,给用户更好的交互体验。附图说明图1为实现本发明各个实施例一可选的终端的硬件结构示意图;图2为本发明实施例提供的一种通信网络系统架构图;图3为本发明拍照方法第一实施例的实施流程示意图;图4为本发明构建预设的语音特征数据库的实施流程示意图;图5为本发明拍照方法第二实施例的实施流程示意图;图6为本发明拍照程序第一实施例的功能模块示意图;图7为本发明拍照程序第二实施例的功能模块示意图;图8为本发明采集预设语音拍照指令时实施例的界面示意图;图9为本发明提示更新语音特征数据库时实施例的界面示意图。附图标记:本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身没有特定的意义。因此,“模块”、“部件”或“单元”可以混合地使用。终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理(personaldigitalassistant,pda)、便捷式媒体播放器(portablemediaplayer,pmp)、导航装置、可穿戴设备、智能手环、计步器等移动终端,以及诸如数字tv、台式计算机等固定终端。后续描述中将以终端为例进行说明,本领域技术人员将理解的是,本发明的实施方式的构造除了能够应用于固定类型的终端,也能用于移动终端,特别是在添加特别用于移动目的的元件之后。请参阅图1,其为实现本发明各个实施例的一种终端的硬件结构示意图,该终端100可以包括:rf(radiofrequency,射频)单元101、wifi模块102、音频输出单元103、a/v(音频/视频)输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、处理器110、以及电源111等部件。本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,终端可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。下面结合图1对终端的各个部件进行具体的介绍:射频单元101可用于收发信息或通话过程中,信号的接收和发送,具体的,将基站的下行信息接收后,给处理器110处理;另外,将上行的数据发送给基站。通常,射频单元101包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,应用于移动终端中,射频单元101还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于gsm(globalsystemofmobilecommunication,全球移动通讯系统)、gprs(generalpacketradioservice,通用分组无线服务)、cdma2000(codedivisionmultipleaccess2000,码分多址2000)、wcdma(widebandcodedivisionmultipleaccess,宽带码分多址)、td-scdma(timedivision-synchronouscodedivisionmultipleaccess,时分同步码分多址)、fdd-lte(frequencydivisionduplexing-longtermevolution,频分双工长期演进)和tdd-lte(timedivisionduplexing-longtermevolution,分时双工长期演进)等。wifi属于短距离无线传输技术,终端通过wifi模块102可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图1示出了wifi模块102,但是可以理解的是,其并不属于终端的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。音频输出单元103可以在终端100处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将射频单元101或wifi模块102接收的或者在存储器109中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元103还可以提供与终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元103可以包括扬声器、蜂鸣器等等。a/v输入单元104用于接收音频或视频信号。a/v输入单元104可以包括图形处理器(graphicsprocessingunit,gpu)1041和麦克风1042,图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元106上。经图形处理器1041处理后的图像帧可以存储在存储器109(或其它存储介质)中或者经由射频单元101或wifi模块102进行发送。麦克风1042可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风1042接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由射频单元101发送到移动通信基站的格式输出。麦克风1042可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。终端100还包括至少一种传感器105,比如光传感器、温度传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1061的亮度,应用在移动终端中,光传感器可在终端100移动到耳边时,关闭显示面板1061和/或背光。此外,在移动终端中一般还添加有运动传感器,作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。显示单元106用于显示由用户输入的信息或提供给用户的信息。显示单元106可包括显示面板1061,可以采用液晶显示器(liquidcrystaldisplay,lcd)、有机发光二极管(organiclight-emittingdiode,oled)等形式来配置显示面板1061。用户输入单元107可用于接收输入的数字或字符信息,以及产生与终端的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元107可包括触控面板1071以及其他输入设备1072。触控面板1071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1071上或在触控面板1071附近的操作),并根据预先设定的程式驱动相应的连接装置。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器110,并能接收处理器110发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1071。除了触控面板1071,用户输入单元107还可以包括其他输入设备1072。具体地,其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种,具体此处不做限定。进一步的,触控面板1071可覆盖显示面板1061,当触控面板1071检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板1061上提供相应的视觉输出。虽然在图1中,触控面板1071与显示面板1061是作为两个独立的部件来实现移动终端的输入和输出功能,但是在某些实施例中,可以将触控面板1071与显示面板1061集成而实现移动终端的输入和输出功能,具体此处不做限定。接口单元108用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。接口单元108可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到终端100内的一个或多个元件或者可以用于在终端100和外部装置之间传输数据。存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器109可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。处理器110是终端的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器109内的软件程序和/或模块,以及调用存储在存储器109内的数据,执行终端的各种功能和处理数据,从而对终端进行整体监控。处理器110可包括一个或多个处理单元;优选的,处理器110可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器110中。终端100还可以包括给各个部件供电的电源111(比如电池),优选的,电源111可以通过电源管理系统与处理器110逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。尽管图1未示出,终端100还可以包括蓝牙模块等,在此不再赘述。为了便于理解本发明实施例,下面对本发明的终端,特别是移动终端所基于的通信网络系统进行描述。请参阅图2,图2为本发明实施例提供的一种通信网络系统架构图,该通信网络系统为通用移动通信技术的lte系统,该lte系统包括依次通讯连接的ue(userequipment,用户设备)201,e-utran(evolvedumtsterrestrialradioaccessnetwork,演进式umts陆地无线接入网)202,epc(evolvedpacketcore,演进式分组核心网)203和运营商的ip业务204。具体地,ue201可以是上述终端100,此处不再赘述。e-utran202包括enodeb2021和其它enodeb2022等。其中,enodeb2021可以通过回程(backhaul)(例如x2接口)与其它enodeb2022连接,enodeb2021连接到epc203,enodeb2021可以提供ue201到epc203的接入。epc203可以包括mme(mobilitymanagemententity,移动性管理实体)2031,hss(homesubscriberserver,归属用户服务器)2032,其它mme2033,sgw(servinggateway,服务网关)2034,pgw(pdngateway,分组数据网络网关)2035和pcrf(policyandchargingrulesfunction,政策和资费功能实体)2036等。其中,mme2031是处理ue201和epc203之间信令的控制节点,提供承载和连接管理。hss2032用于提供一些寄存器来管理诸如归属位置寄存器(图中未示)之类的功能,并且保存有一些有关服务特征、数据速率等用户专用的信息。所有用户数据都可以通过sgw2034进行发送,pgw2035可以提供ue201的ip地址分配以及其它功能,pcrf2036是业务数据流和ip承载资源的策略与计费控制策略决策点,它为策略与计费执行功能单元(图中未示)选择及提供可用的策略和计费控制决策。ip业务204可以包括因特网、内联网、ims(ipmultimediasubsystem,ip多媒体子系统)或其它ip业务等。虽然上述以lte系统为例进行了介绍,但本领域技术人员应当知晓,本发明不仅仅适用于lte系统,也可以适用于其他无线通信系统,例如gsm、cdma2000、wcdma、td-scdma以及未来新的网络系统等,此处不做限定。基于上述终端100硬件结构以及通信网络系统,提出本发明方法各个实施例。首先,本发明提出一种基于语音识别的拍照方法,该拍照方法应用于图1至图2所示移动终端,所述移动终端包括存储器和处理器。如图3所示,是本发明拍照方法第一实施例的实施流程图。在本实施例中,根据不同的需求,图3所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。所述拍照方法包括:步骤s301,获取待识别语音拍照指令。在本实施例中,用户发出待识别语音拍照指令(该声音信号是带有停顿的),移动终端获取该待识别语音指令,而该语音拍照指令会带有所属环境下的噪音,总之该待识别语音拍照指令中的声音信号实质上是由一系列无音片段和有音片段组成的,而移动终端需要获取的信息则均在有音片段中,因此这里采集到的待识别的语音拍照指令是需要处理的。更优地在获取到待识别语音拍照指令后,需要对所述待识别语音拍照指令进行预处理;这里的预处理包括:降频去噪、端点检测。具体是在移动终端的处理器获取到该待识别语音拍照指令,对其中的声音信号进行降频去噪处理,以增强声音信号的强度,降低噪音幅度;随后进行端点检测,将降频去噪后的声音信号进行语音活动检测,确定声音信号的起始端点和结束端点,本实施例中预处理的目的在于减少对语音信号的处理时长,减少后续处理的计算量,同时排除噪声段的影响,提高后续处理的效率和准确率。步骤s302,提取所述待识别语音拍照指令中的语音信号特征。具体地,在完成对所述待识别语音拍照指令预处理后,才可以通过各种语音分析方法,获取其中的语音信号特征。步骤s303,在预设的语音特征数据库中查找是否存在与所述语音信号特征相匹配的标准语音信号特征;其中,所述预设的语音特征数据库为预设语音拍照指令与所述预设语音拍照指令对应的所述标准语音信号特征的关联数据库,所述预设语音拍照指令包括预设的拍照关键词和与所述拍照关键词对应的拍照模式。在这里,具体地,在所述预设的语音特征数据库中查找是否存在所述标准语音信号特征的特征区间,以使所述语音信号特征不超出所述特征区间。另外,预设语音拍照指令包括预设的拍照关键词和与所述拍照关键词对应的拍照模式,需要说明的是,与现有技术不同,本实施例中,预设拍照指令还包括与所述拍照关键词对应的拍照模式,这里的拍照模式可以是远景拍摄模式、美颜拍摄模式、定时拍摄模式、静物拍摄模式等等,通过与拍照关键词对应的拍照模式,用户向移动终端发出不同的拍照关键词的语音指令,根据不同拍照关键词对应不同拍照模式,即可以达到通过语音拍照指令调整照相机的拍照模式,以增强人机交互、提高用户体验的目的。此外,这里所述预设的语音特征数据库可以是系统生成的,作为对本实施例的进一步改进,也可以是用户自定义的,所述“获取待识别的语音拍照指令”之前还包括构建所述预设的语音特征数据库;其中所述“构建所述预设的语音特征数据库”方法包括以下步骤,如图4所示。步骤s401,采集所述预设语音拍照指令。具体地,这里用户打开移动终端的采集模块进行设置,如图8所述,移动终端采集预设语音拍照指令,在不同的拍照模式下,移动终端对应手机不同拍照关键词,这里的拍照关键词的选择完全由用户设置,如喜欢英语发音,则可以将拍照关键词均设置为英语;如习惯方言,则选择方言来作为拍照关键词,等等,可以实现用户个性化的定制;具体地,如设置在美颜拍摄模式下,连续输入“apple”的语音三次,在非美颜拍摄模式下,连续输入“苹果”的语音三次,等等,设定完毕,这里美颜拍摄模式对应的拍照关键词即为“apple”,非美颜拍摄模式对应的拍照关键词即为“苹果”。在此,需要说明的是,一般情况下,按照统计学原理,同样的预设语音拍照指令会做多次采集(3次或3次以上),以避免由于用户失误而造成的所述预设语音拍照指令的采集错误。步骤s402,提取所述预设语音拍照指令对应的标准语音信号特征。具体地,与步骤s302类似,在完成对所述预设语音拍照指令预处理后,才可以通过各种语音分析方法,获取其中的标准语音信号特征。这里的预处理包括:降频去噪、端点检测,与步骤s301相同,在这里将不再详细叙述。而另外需要单独说明的是,同样的预设语音拍照指令采集到多次,这里提取的对应标准语音信号特征会是一个特征区间,而不是一个孤立的点。步骤s403,建立所述预设语音拍照指令与所述预设语音拍照指令对应的标准语音信号特征的关联数据库。在本实施例中,具体地,是将前述步骤中获取的所述预设语音拍照指令和标准语音信号特征收集在一起,建立一个预设语音拍照指令和标准语音信号特征一一映射的关联数据库。通过建立自定义的关联数据库,一方面可以提高语音识别的准确性,减少误判,另一方面可以实现用户个性化的定制,增强用户与移动终端的交互性。步骤s304,若存在与所述语音信号特征相匹配的所述标准语音信号特征,则执行所述标准语音信号特征对应的所述预设语音拍照指令。需要说明的是,当在预设的语音特征数据库中查找到与所述语音信号特征相匹配的标准语音信号特征,即存在与所述语音信号特征相匹配的所述标准语音信号特征,相当于所述待识别语音拍照指令的语音信号特征被识别出来,是在预先设置并存储在语音特征数据库所述标准语音信号特征的特征区间的,根据所述预设语音拍照指令和标准语音信号特征一一映射,处理器执行所述标准语音信号特征对应的所述预设语音拍照指令,即在预设语音拍照指令的拍照模式下进行拍照。另外,本实施例中的另外一种情况,若不存在与所述语音信号特征相匹配的标准语音信号特征,则重新获取待识别语音拍照指令;或者提示更新所述预设的语音特征数据库。在此,对其进一步说明,当在预设的语音特征数据库中找不到与所述语音信号特征相匹配的标准语音信号特征,即不存在与所述语音信号特征相匹配的所述标准语音信号特征,相当于所述待识别语音拍照指令的语音信号特征不在预先设置并存储在语音特征数据库所述标准语音信号特征的特征区间的,不能被识别出来,这种情况下,移动终端会主动结束该拍照流程,进入下一个拍照流程,重新获取待识别语音拍照指令。但是这里还存在一种可能是,当用户在发出多次的语音拍照指令后,该语音拍照指令都不能被识别出来,无法执行拍照;那么,用户需要考虑的可能情况是所述预设的语音特征数据库还没有收集过该用户的语音拍照指令,移动终端可以直接跳出提示更新所述预设的语音特征数据库的选项(当然这种情况是在可以自定义预设的语音特征数据库的情况下,才能进行的),如图9所示,用户可以选择重新设置语音特征数据库。通过上述步骤s301-s304,相较于现有技术,本发明所提出的基于语音识别的拍照方法,通过获取待识别语音拍照指令;提取所述待识别语音拍照指令中的语音信号特征;在预设的语音特征数据库中查找是否存在与所述语音信号特征相匹配的标准语音信号特征;若存在与所述语音信号特征相匹配的所述标准语音信号特征,则执行所述标准语音信号特征对应的所述预设语音拍照指令;基于语音识别技术,对待识别的语音拍照指令进行识别,由于所述预设语音拍照指令包括预设的拍照关键词和拍照模式,当待识别的语音指令被识别后,执行预设语音拍照指令,达到不仅可以拍照还可以对拍照模式进行调整的目的,解决现有基于语音识别的拍照程序语音指令不能对拍照模式进行调整的问题,以达到增强人机交互、提升用户体验的效果;同时提高移动终端拍照的便利性,给用户更好的交互体验。进一步地,基于上述第一实施例,提出本发明拍照方法的第二实施例。如图5所示,是本发明拍照方法第二实施例的实施流程图。在本实施例中,根据不同的需求,图5所示的流程图中的步骤的执行顺序可以改变,某些步骤可以省略。所述拍照方法包括:步骤s501,获取待识别语音拍照指令。步骤s502,提取所述待识别语音拍照指令中的第一级语音信号特征;相比于第一实施例,本实施例所述待识别语音拍照指令的语音信号特征包括第一级语音信号特征和第二级语音信号特征,所述标准语音信号特征包括第一级标准语音信号特征和第二级标准语音信号特征。其中,所述第一级语音信号特征包括所述待识别语音拍照指令的能量特征和幅值特征,所述第一级标准语音信号特征包括所述预设语音拍照指令的能量特征和幅值特征;具体地,这里的能量特征是指语音拍照指令中语音信号的能量分布特点,幅值特征是指语音拍照指令中语音信号的振幅变化,本实施例中短时能量和过零率可以直观名了反映待识别语音拍照指令中语音信号的能量分布特点和振幅变化,是语音信号的时域的重要参数,因此将其作为第一级语音信号特征的特征值,其计算方法如下所示假设待识别语音指令的短时能量为en,en的计算过程如下所示:其中,待识别语音拍照指令经过分帧后得到n帧数据,假设第n帧为xn(m),则xn(m)代表第n帧数据的时域值。假设待识别语音拍照指令的过零率为zn,则zn的计算过程可以表示为如下:sgn[]表示为符号函数,即:第一级标准语音信号特征与第一级语音信号特征类似,在此将不再详述。步骤s503,在所述预设的语音特征数据库中查找是否存在与所述第一级语音信号特征相匹配的第一级标准语音信号特征。步骤s504,若存在与所述第一级语音信号特征相匹配的第一级标准语音信号特征,则提取所述待识别语音拍照指令中的第二级语音信号特征。需要说明的是,这里的第二级语音信号特征与下述的第二级标准语音信号特征相同,第二级语音信号特征是基于经验模态分解(emd)方法来获取的。将所述待识别语音拍照指令分解为一系列不同频率段的分量,并计算所有频率段分量的能量值作为第二级语音信号特征,分解待识别语音拍照指令中语音信号的过程如下:1)假设待分解语音指令数据样本为x(t),计算x(t)中的全部极大值点以及极小值点,并引用三次样条插值算法进行插值得到x(t)的上包络线与下包络线,求取上下包络线的均值得到m1,令h1表示信号x(t)与m1的差值,则h1=x(t)-m12)假如h1符合模态函数的定义条件,继续进行上步,假如不符合条件,使用h1替代信号x(t),重复进行1)-2),此时:h11=h1-m11此时,判断h11是否满足条件。重复上述操作,且h1k=h1(k-1)-m1k当h1k符合模态条件时,停止筛选,此时h1k即作为第一段频率分量imf1,且imf1=h1k3)令r1表示原始信号与imf1的差值,则r1表示为:r1=x(t)-imf14)将r1替代原始信号x(t),继续上述步骤1)-3),获得n段频率分量imfn,此时余项表示如下:r2=r1-imf2,...,rn=rn-1-imfn综合上述所有步骤,使语音指令x(t)分解成一系列不同频率段分量与一个剩余分量的叠加,即:在此基础上,计算得到待识别语音拍照指令的各段频率分量的能量ei。步骤s505,判断所述第二级语音信号特征是否与所述第一级标准语音信号特征对应的所述预设语音拍照指令的第二级标准语音信号特征相匹配。本实施例中,第二级标准语音信号特征与第二级语音信号特征相似,也是基于经验模态分解(emd)方法来获取的,按照该emd分解方法,最后得到预设的语音拍照指令的各段频率分量的能量为e,判断待识别语音拍照指令的各段频率分量的能量ei是否在预设的的语音拍照指令的各段频率分量的能量为e的阈值区间内,若未超过该阈值区间,则判断第二级语音信号特征与第二级标准语音信号特征相匹配。步骤s506,若所述第二级标准语音信号特征与所述第二级语音信号特征相匹配,则执行所述第一级标准语音信号特征对应的所述预设语音拍照指令。通过上述步骤s501-s506,相较于现有技术,本发明所提出的基于语音识别的拍照方法,通过获取待识别语音拍照指令;提取所述待识别语音拍照指令中的第一级语音信号特征;在预设的语音特征数据库中查找是否存在与所述第一级语音信号特征相匹配的第一级标准语音信号特征;若存在与所述第一级语音信号特征相匹配的所述第一级标准语音信号特征,则提取所述待识别语音拍照指令中的第二级语音信号特征;判断所述第二级语音信号特征是否与所述第一级标准语音信号特征对应的所述预设语音拍照指令的第二级标准语音信号特征相匹配;若所述第二级标准语音信号特征与所述第二级语音信号特征相匹配,则执行所述第一级标准语音信号特征对应的所述预设语音拍照指令;通过两级特征对用户提交的语音拍照指令进行判断(或识别),在第一级特征判定过程,结合语音信号的能量分布特点与信号振幅变化选择短时能量与过零率进行初始判定;在第二级特征判定过程中,结合语音信号的频率分布不同,将语音信号逐步迭代分解为一系列不同频率段的波形,分解得到的分量分别包含不同时间尺度的局部特征信号,因为基础分量是由数据本身所分解得到,与短时傅立叶变换、小波分解等方法提取信号不同频率波段的方法相比,第二级特征判断方法是直观的、直接的、后验的和自适应的,进一步由于分解是基于信号序列时间尺度的局部特性,因此具有自适应性;综上所述,本实施例的拍照方法在进行语音识别时,具有自适应性,提升用户体验。一种终端,所述终端包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于语音识别的拍照程序600。其中本发明所称的模块是指一种能够完成特定功能的一系列计算机程序指令段,比计算机程序更适合于描述软件在所述终端100中的执行过程。如图6所示,是本发明拍照程序600第一实施例的功能模块示意图。在本实施例中,所述拍照程序600可以被分割成一个或多个模块,所述一个或多个模块存储于所述终端100的存储器109中,并由一个或多个处理器(本实施例中为所述控制器110)所执行,以完成本发明。例如,在图6中,所述拍照程序600可以被分割成指令获取模块601、特征提取模块602、特征查找模块603以及执行模块604。以下将就上述各功能模块601-604的具体功能进行详细描述。其中:指令获取模块601,用于获取待识别语音拍照指令。在本实施例中,用户发出待识别语音拍照指令(该声音信号是带有停顿的),移动终端获取该待识别语音指令,而该语音拍照指令会带有所属环境下的噪音,总之该待识别语音拍照指令中的声音信号实质上是由一系列无音片段和有音片段组成的,而移动终端需要获取的信息则均在有音片段中,因此这里采集到的待识别的语音拍照指令是需要处理的。更优地在获取到待识别语音拍照指令后,需要对所述待识别语音拍照指令进行预处理;这里的预处理包括:降频去噪、端点检测。具体是在移动终端的处理器获取到该待识别语音拍照指令,对其中的声音信号进行降频去噪处理,以增强声音信号的强度,降低噪音幅度;随后进行端点检测,将降频去噪后的声音信号进行语音活动检测,确定声音信号的起始端点和结束端点,本实施例中预处理的目的在于减少对语音信号的处理时长,减少后续处理的计算量,同时排除噪声段的影响,提高后续处理的效率和准确率。特征提取模块602,用于提取所述待识别语音拍照指令中的语音信号特征。具体地,在完成对所述待识别语音拍照指令预处理后,才可以通过各种语音分析方法,获取其中的语音信号特征。特征查找模块603,用于在预设的语音特征数据库中查找是否存在与所述语音信号特征相匹配的标准语音信号特征;其中,所述预设的语音特征数据库为预设语音拍照指令与所述预设语音拍照指令对应的所述标准语音信号特征的关联数据库,所述预设语音拍照指令包括预设的拍照关键词和与所述拍照关键词对应的拍照模式。在这里,具体地,在所述预设的语音特征数据库中查找是否存在所述标准语音信号特征的特征区间,以使所述语音信号特征不超出所述特征区间。另外,预设语音拍照指令包括预设的拍照关键词和与所述拍照关键词对应的拍照模式,需要说明的是,与现有技术不同,本实施例中,预设拍照指令还包括与所述拍照关键词对应的拍照模式,这里的拍照模式可以是远景拍摄模式、美颜拍摄模式、定时拍摄模式、静物拍摄模式等等,通过与拍照关键词对应的拍照模式,用户向移动终端发出不同的拍照关键词的语音指令,根据不同拍照关键词对应不同拍照模式,即可以达到通过语音拍照指令调整照相机的拍照模式,以增强人机交互、提高用户体验的目的。此外,这里所述预设的语音特征数据库可以是系统生成的,作为对本实施例的进一步改进,也可以是用户自定义的,所述“获取待识别的语音拍照指令”之前还包括构建所述预设的语音特征数据库;其中所述“构建所述预设的语音特征数据库”程序包括以下模块。采集模块,采集所述预设语音拍照指令。这里用户打开移动终端的采集模块进行设置,如图8所述,以采集预设语音拍照指令,在不同的拍照模式下,移动终端对应手机不同拍照关键词,这里的拍照关键词的选择完全由用户设置,如喜欢英语发音,则可以将拍照关键词均设置为英语;如习惯方言,则选择方言来作为拍照关键词,等等,可以实现用户个性化的定制;具体地,如设置在美颜拍摄模式下,连续输入“apple”的语音三次,在非美颜拍摄模式下,连续输入“苹果”的语音三次,等等,设定完毕,这里美颜拍摄模式对应的拍照关键词即为“apple”,非美颜拍摄模式对应的拍照关键词即为“苹果”。在此,需要说明的是,一般情况下,按照统计学原理,同样的预设语音拍照指令会做多次采集(3次或3次以上),以避免由于用户失误而造成的所述预设语音拍照指令的采集错误。提取模块,用于提取所述预设语音拍照指令对应的标准语音信号特征。具体地,与特征提取模块602类似,在完成对所述预设语音拍照指令预处理后,才可以通过各种语音分析方法,获取其中的标准语音信号特征。这里的预处理包括:降频去噪、端点检测,与指令获取模块601相同,在这里将不再详细叙述。而另外需要单独说明的是,同样的预设语音拍照指令采集到多次,这里提取的对应标准语音信号特征会是一个特征区间,而不是一个孤立的点。数据库建立模块,建立所述预设语音拍照指令与所述预设语音拍照指令对应的标准语音信号特征的关联数据库。在本实施例中,具体地,是将前述模块中获取的所述预设语音拍照指令和标准语音信号特征收集在一起,建立一个预设语音拍照指令和标准语音信号特征一一映射的关联数据库。通过建立自定义的关联数据库,一方面可以提高语音识别的准确性,减少误判,另一方面可以实现用户个性化的定制,增强用户与移动终端的交互性。执行模块604,若存在与所述语音信号特征相匹配的所述标准语音信号特征,则执行所述标准语音信号特征对应的所述预设语音拍照指令。需要说明的是,当在预设的语音特征数据库中查找到与所述语音信号特征相匹配的标准语音信号特征,即存在与所述语音信号特征相匹配的所述标准语音信号特征,相当于所述待识别语音拍照指令的语音信号特征被识别出来,是在预先设置并存储在语音特征数据库所述标准语音信号特征的特征区间的,根据所述预设语音拍照指令和标准语音信号特征一一映射,处理器执行执行所述标准语音信号特征对应的所述预设语音拍照指令,即在预设语音拍照指令的拍照模式下进行拍照。另外,本实施例中的另外一种情况,若不存在与所述语音信号特征相匹配的标准语音信号特征,则重新获取待识别语音拍照指令;或者提示更新所述预设的语音特征数据库。在此,对其进一步说明,当在预设的语音特征数据库中找不到与所述语音信号特征相匹配的标准语音信号特征,即不存在与所述语音信号特征相匹配的所述标准语音信号特征,相当于所述待识别语音拍照指令的语音信号特征不在预先设置并存储在语音特征数据库所述标准语音信号特征的特征区间的,不能被识别出来,这种情况下,移动终端会主动结束该拍照流程,进入下一个拍照流程,重新获取待识别语音拍照指令。但是这里还存在一种可能是,当用户在发出多次的语音拍照指令后,该语音拍照指令都不能被识别出来,无法执行拍照;那么,用户需要考虑的可能情况是所述预设的语音特征数据库还没有收集过该用户的语音拍照指令,移动终端可以直接跳出提示更新所述预设的语音特征数据库的选项(当然这种情况是在可以自定义预设的语音特征数据库的情况下,才能进行的),如图9所示,用户可以选择重新设置语音特征数据库。通过上述模块601-604,相较于现有技术,本发明移动终端中基于语音识别的拍照程序,通过获取待识别语音拍照指令;提取所述待识别语音拍照指令中的语音信号特征;在预设的语音特征数据库中查找是否存在与所述语音信号特征相匹配的标准语音信号特征;若存在与所述语音信号特征相匹配的所述标准语音信号特征,则执行所述标准语音信号特征对应的所述预设语音拍照指令;基于语音识别技术,对待识别的语音拍照指令进行识别,由于所述预设语音拍照指令包括预设的拍照关键词和拍照模式,当待识别的语音指令被识别后,执行预设语音拍照指令,达到不仅可以拍照还可以对拍照模式进行调整的目的,解决现有基于语音识别的拍照程序语音指令不能对拍照模式进行调整的问题,以达到增强人机交互、提升用户体验的效果;同时提高移动终端拍照的便利性,给用户更好的交互体验。进一步地,基于上述第一实施例,提出本发明拍照程序的第二实施例。如图7所示,是本发明拍照程序第二实施例的功能模块示意图。在本实施例中,与第一实施例相比,本实施例中,拍照程序700包括指令获取模块701、第一级特征提取模块702、第一级特征查找模块703、第二级特征提取模块704、判断模块705、执行模块706。本实施例中,各功能模块的说明如下:指令获取模块701,用于获取待识别语音拍照指令。第一级特征提取模块702,用于提取所述待识别语音拍照指令中的第一级语音信号特征;相比于第一实施例,本实施例所述待识别语音拍照指令的语音信号特征包括第一级语音信号特征和第二级语音信号特征,所述标准语音信号特征包括第一级标准语音信号特征和第二级标准语音信号特征。其中,所述第一级语音信号特征包括所述待识别语音拍照指令的能量特征和幅值特征,所述第一级标准语音信号特征包括所述预设语音拍照指令的能量特征和幅值特征;具体地,这里的能量特征是指语音拍照指令中语音信号的能量分布特点,幅值特征是指语音拍照指令中语音信号的振幅变化,本实施例中短时能量和过零率可以直观名了反映待识别语音拍照指令中语音信号的能量分布特点和振幅变化,是语音信号的时域的重要参数,因此将其作为第一级语音信号特征的特征值,其计算方法如下所示假设待识别语音指令的短时能量为en,en的计算过程如下所示:其中,待识别语音拍照指令经过分帧后得到n帧数据,假设第n帧为xn(m),则xn(m)代表第n帧数据的时域值。假设待识别语音拍照指令的过零率为zn,则zn的计算过程可以表示为如下:sgn[]表示为符号函数,即:第一级标准语音信号特征与第一级语音信号特征类似,在此将不再详述。第一级特征查找模块703,用于在所述预设的语音特征数据库中查找是否存在与所述第一级语音信号特征相匹配的第一级标准语音信号特征。第二级特征提取模块704,若存在与所述第一级语音信号特征相匹配的第一级标准语音信号特征,则用于提取所述待识别语音拍照指令中的第二级语音信号特征。需要说明的是,这里的第二级语音信号特征与下述的第二级标准语音信号特征相同,第二级语音信号特征是基于经验模态分解(emd)方法来获取的。将所述待识别语音拍照指令分解为一系列不同频率段的分量,并计算所有频率段分量的能量值作为第二级语音信号特征,分解待识别语音拍照指令中语音信号的过程如下:1)假设待分解语音指令数据样本为x(t),计算x(t)中的全部极大值点以及极小值点,并引用三次样条插值算法进行插值得到x(t)的上包络线与下包络线,求取上下包络线的均值得到m1,令h1表示信号x(t)与m1的差值,则h1=x(t)-m12)假如h1符合模态函数的定义条件,继续进行上步,假如不符合条件,使用h1替代信号x(t),重复进行1)-2),此时:h11=h1-m11此时,判断h11是否满足条件。重复上述操作,且h1k=h1(k-1)-m1k当h1k符合模态条件时,停止筛选,此时h1k即作为第一段频率分量imf1,且imf1=h1k3)令r1表示原始信号与imf1的差值,则r1表示为:r1=x(t)-imf14)将r1替代原始信号x(t),继续上述步骤1)-3),获得n段频率分量imfn,此时余项表示如下:r2=r1-imf2,...,rn=rn-1-imfn综合上述所有步骤,使语音指令x(t)分解成一系列不同频率段分量与一个剩余分量的叠加,即:在此基础上,计算得到待识别语音拍照指令的各段频率分量的能量ei。判断模块705,用于判断所述第二级语音信号特征是否与所述第一级标准语音信号特征对应的所述预设语音拍照指令的第二级标准语音信号特征相匹配。本实施例中,第二级标准语音信号特征与第二级语音信号特征相似,也是基于经验模态分解(emd)方法来获取的,按照该emd分解方法,最后得到预设的语音拍照指令的各段频率分量的能量为e,判断待识别语音拍照指令的各段频率分量的能量ei是否在预设的的语音拍照指令的各段频率分量的能量为e的阈值区间内,若未超过该阈值区间,则判断第二级语音信号特征与第二级标准语音信号特征相匹配。执行模块706,若所述第二级标准语音信号特征与所述第二级语音信号特征相匹配,则执行所述第一级标准语音信号特征对应的所述预设语音拍照指令。通过上述模块701-706,相较于现有技术,本发明所提出的基于语音识别的拍照程序,通过获取待识别语音拍照指令;提取所述待识别语音拍照指令中的第一级语音信号特征;在预设的语音特征数据库中查找是否存在与所述第一级语音信号特征相匹配的第一级标准语音信号特征;若存在与所述第一级语音信号特征相匹配的所述第一级标准语音信号特征,则提取所述待识别语音拍照指令中的第二级语音信号特征;判断所述第二级语音信号特征是否与所述第一级标准语音信号特征对应的所述预设语音拍照指令的第二级标准语音信号特征相匹配;若所述第二级标准语音信号特征与所述第二级语音信号特征相匹配,则执行所述第一级标准语音信号特征对应的所述预设语音拍照指令;通过两级特征对用户提交的语音拍照指令进行判断(或识别),在第一级特征判定过程,结合语音信号的能量分布特点与信号振幅变化选择短时能量与过零率进行初始判定;在第二级特征判定过程中,结合语音信号的频率分布不同,将语音信号逐步迭代分解为一系列不同频率段的波形,分解得到的分量分别包含不同时间尺度的局部特征信号,因为基础分量是由数据本身所分解得到,与短时傅立叶变换、小波分解等方法提取信号不同频率波段的方法相比,第二级特征判断是直观的、直接的、后验的和自适应的,进一步由于分解是基于信号序列时间尺度的局部特性,因此具有自适应性;综上所述,本实施例的拍照程序在进行语音识别时,具有自适应性,提升用户体验。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的
技术领域
:,均同理包括在本发明的专利保护范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1