语音识别方法及系统与流程

文档序号:11867397阅读:541来源:国知局
语音识别方法及系统与流程

本发明涉及语音识别技术领域,尤其涉及一种基于地理位置辅助的语音识别方法及系统。



背景技术:

近年来,语音识别技术取得显著进步,已经从实验室走向市场。在实际应用中,例如自动电话应答系统,通过识别用户的语音输入信息,自动完成和用户的交互。

目前普通话作为交流的语言已经基本普及,但不同地区的人还有方言的差别,因此受到方言的影响,各地人群的普通话都有不同的特征,但同一区域的人群,其说普通话的语速、语音、语义具有类似性。

由于不同地区的用户普通话并不完全标准,带有地区特点,现有的语音输入通过录取用户语音数据并根据语音识别算法识别输出结果,并未结合用户所处的地理位置等数据做辅助参考,对于某些带有地方口音、带有部分地方方言时的语音识别的识别率并不高。



技术实现要素:

鉴于以上内容,有必要提供一种语音识别方法及系统,能根据用户当前的地理位置调用辅助语音数据包来识别用户语音,从而提高语音识别的准确率。

一种语音识别方法,应用于电子设备中,该方法包括:

获取用户输入的语音信息;

利用第一语音识别方法识别所述语音信息得到第一语音识别结果,利用第二语音识别方法识别所述语音信息得到第二语音识别结果;及

根据预先设置的规则显示所述第一语音识别结果及所述第二语音识别结果。

根据本发明的一个优选实施例,所述第一语音识别方法是基于预设模型的大词汇量语音识别方法,所述第二语音识别方法是基于辅助语音数据包的语音识别方法。

根据本发明的一个优选实施例,所述基于辅助语音数据包的语音识别方法包括:

接收到所述语音信息时,获取该用户当前的地理位置信息;

根据所述地理位置信息调用对应的辅助语音数据包;及

根据所述辅助语音数据包识别所述语音信息得到所述第二语音识别结果。

根据本发明的一个优选实施例,所述方法还包括:

预先设置多个基于地理位置的语音数据包,并将所述语音数据包存储于所述电子设备中或者存储于与所述电子设备连接的服务器中。

根据本发明的一个优选实施例,在根据所述地理位置信息调用对应的辅助语音数据包之前,所述方法还包括:

根据所述语音信息确定该用户的语音类型,所述语音类型包括口音及方言;及

基于所述语音类型和所述地理位置信息共同确定对应的辅助语音数据包。

根据本发明的一个优选实施例,所述方法还包括:

接收到所述语音信息时,获取该用户当前的地理位置信息及历史地理位置信息;及

根据历史地理位置信息和当前地理位置信息确定调用的辅助语音数据包。

根据本发明的一个优选实施例,所述方法还包括:

结合获取的用户反馈信息更新所述预先设置的规则,所述预先设置的规则包括:

为所述第一语音识别结果预先分配第一权重,为所述第二语音识别结果预先分配第二权重,根据权重值的大小确定对应该权重值的语音识别结果的显示方式;或

为所述第一语音识别结果预先设置第一识别分数,为所述第二语音识别结果预先设置第二识别分数,根据识别分数的大小确定对应该识别分数的语音识别结果的显示方式,

其中,所述显示方式包括显示的时间或显示的位置。

根据本发明的一个优选实施例,所述更新所述预先设置的规则包括:

根据用户选取的语音识别结果,将对应该语音识别结果的权重值或者识别分数值变大,及/或将用户没有选取的语音识别结果对应的权重值或者识别分数值减小。

一种语音识别系统,运行于电子设备中,该系统包括:

获取模块,用于获取用户输入的语音信息;

第一识别模块,用于识别所述语音信息得到第一语音识别结果;

第二识别模块,用于识别所述语音信息得到第二语音识别结果;及

显示模块,用于根据预先设置的规则显示所述第一语音识别结果及所述第二语音识别结果。

根据本发明的一个优选实施例,所述第一语音识别模块是基于预设模型的大词汇量语音识别模块,所述第二语音识别模块是基于辅助语音数据包的语音识别模块。

根据本发明的一个优选实施例,

所述获取模块,还用户接收到所述语音信息时,获取该用户当前的地理位置信息;

所述第二识别模块包括:

调用子模块,用于根据所述地理位置信息调用对应的辅助语音数据包;及

该第二识别模块,用于根据所述辅助语音数据包识别所述语音信息得到所述第二语音识别结果。

根据本发明的一个优选实施例,所述系统还包括:

设置模块,用于预先设置多个基于地理位置的语音数据包,并将所述语音数据包存储于所述电子设备中或者存储于与所述电子设备连接的服务器中。

根据本发明的一个优选实施例,所述系统还包括确定子模块:

用于根据所述语音信息确定该用户的语音类型,所述语音类型包括口音及方言;及

基于所述语音类型和所述地理位置信息共同确定对应的辅助语音数据包。

根据本发明的一个优选实施例,其特征在于,

所述获取模块,还用于接收到所述语音信息时,获取该用户当前的地理位置信息及历史地理位置信息;及

所述调用子模块,还用于根据历史地理位置信息和当前地理位置信息确定调用的辅助语音数据包。

根据本发明的一个优选实施例,所述系统还包括:

更新模块,用于结合获取的用户反馈信息更新所述预先设置的规则,所述预先设置的规则是由所述设置模块设置的,包括:

为所述第一语音识别结果预先分配第一权重,为所述第二语音识别结果预先分配第二权重,根据权重值的大小确定对应该权重值的语音识别结果的显示方式;或

为所述第一语音识别结果预先设置第一识别分数,为所述第二语音识别结果预先设置第二识别分数,根据识别分数的大小确定对应该识别分数的语音识别结果的显示方式,

其中,所述显示方式包括显示的时间或显示的位置。

根据本发明的一个优选实施例,所述更新模块更新所述预先设置的规则包括:

根据用户选取的语音识别结果,将对应该语音识别结果的权重值或者识别分数值变大,及/或将用户没有选取的语音识别结果对应的权重值或者识别分数值减小。

由以上技术方案可以看出,本发明的语音识别方法及系统能够根据不同区域普通话的特征,建立多个辅助语音数据包,对处于不同地理位置的用户调用不同的辅助语音数据包,可有效的减少语音识别库的种类,并提高语音识别率。

【附图说明】

图1是本发明用于执行一个语音识别系统的电子设备较佳实施方式的硬件架构示意图。

图2是本发明语音识别方法较佳实施例的流程图。

图3是本发明基于辅助语音数据包的语音识别方法的较佳实施例的流程图。

图4是本发明语音识别系统第一实施例的功能模块图。

图5是本发明语音识别系统第二实施例的功能模块图。

【主要元件符号说明】

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。此外,应当理解,本文所描述的具体实施例,仅用以解释本发明,并不用于限定本发明。

如图1所示,是本发明用于执行一个语音识别系统的电子设备较佳实施例的硬件架构示意图。如该硬件架构示意图所示,电子设备1包括语音识别系统10。该电子设备1还包括存储单元20、显示单元30、处理单元40及语音接收单元50。

优选地,本发明的语音识别方法通过所述电子设备1中的语音识别系统10来实现。

所述电子设备1包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。所述电子设备1还可包括用户设备。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)、游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴设备等。其中,所述用户设备所处的网络包括但不限于互联网、广域网、城域网、局域网、虚拟专用网络(Virtual Private Network,VPN)等。

需要说明的是,所述用户设备仅为举例,其他现有的或今后可能出现的用户设备如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

在一个实施例中,所述语音识别系统10用于当用户输入语音信息时,获取该用户输入的语音信息,利用基于预设模型的大词汇量语音识别方法(例如,基于隐马尔可夫模型的大词汇量语音识别方法)对所输入的语音信息进行识别得到第一语音识别结果,利用基于辅助语音数据包的语音识别方法(例如,根据该用户当前的地理位置信息调用与该地理位置信息相对应的辅助语音数据包)进行识别得到第二语音识别结果。所述语音识别系统10通过比较第一语音识别结果和第二语音识别结果得到一个最优识别结果,不仅提高了语音识别率,还提高了用户的体验。

在一个实施例中,所述存储单元20用于存储安裝于所述电子设备1中的软件程序及数据,例如所述语音识别系统10。该存储单元20可以是所述电子设备1的内部存储单元,例如所述电子设备1的硬盘或者内存。该存储单元20也可以是所述电子设备1的外部存储设备,例如所述电子设备1上的插接式硬盘、智能媒体卡(Smart Media Card,SMC)、安全数字卡(Secure Digital Card,SD)、快闪存储器卡(flash card)等储存单元。进一步地,所述存储单元20还可以既包括所述电子设备1的内部存储单元,也可以包括外部存储设备。

在本实施例中,所述存储单元20中预先存储有多个辅助语音数据包及与该多个辅助语音数据包相对应的语音信息。所述辅助语音数据包可以是基于地理位置的语音数据包,对应地,所述存储单元20中存储的是具有该地理位置语音特征的语音信息。

在本实施例中,所述的地理位置是以地市为单位进行划分的。在其他实施例中,对于方言复杂的地理位置,还可细分到地市以下的区域,例如,以县级市为单位进行划分或者以设定的区域为单位进行划分。

由于在同一地理位置,所讲的普通话也会存在口音和方言的区别。或者即使不在同一地理位置,方言或者口音也有可能相同,因此,所述存储单元20中存储的基于地理位置的语音数据包在其他的一些实施例中进一步包括基于方言和地理位置的语音数据包及基于口音和地理位置的语音数据包。

例如,基于方言和地理位置的语音数据包可以包括:粤语_香港、粤语_广州、闽南语_泉州、闽南语_厦门。基于口音和地理位置的语音数据包可以包括:口音_福建、口音_广州。需要说明的是,基于口音和地理位置的语音数据包包括,但不限于,声母、韵母的吐字方式。

在一个实施例中,所述显示单元30用来显示图形用户界面(Graphic User Interface,GUI),该图形用户界面中可包括多个应用程序图标及/或多个虚拟按键,该应用程序图标及虚拟按键可以是代表所述电子设备1所能提供的各个功能,例如语音输入图标代表了所述电子设备1可提供语音输入的功能,地理位置选择列表按键代表了所述电子设备1可提供选择地理位置的功能,以及文本输入框按键代表了所述电子设备1可提供输入地理位置的功能。

所述显示单元30可以是,但不限于,触摸显示屏等具有触摸功能的显示单元。故用户除了可通过所述显示单元30观看所述电子设备1所显示的应用程序图标及/或虚拟按键外,也可通过所述显示单元30输入功能指令,例如,运行所述应用程序图标对应的应用程序的指令,或者激活虚拟按键启动相应的功能的指令。

在一个实施例中,所述处理单元40是一个或者多个中央处理器(Central Processing unit,CPU)、微处理器或其他数字处理芯片等。该处理单元40用于执行软件程序代码或运算数据,例如执行所述的语音识别系统10。本实施例中,所述处理单元40接收用户输入的语音信息,同时获取该用户当前的地理位置信息,在进行语音识别时,结合基于预设模型的大词汇量语音识别(例如,基于隐马尔可夫模型的大词汇量语音识别方法,或者基于人工神经网络模型的语音识别方法)和基于辅助语音数据包的语音识别(例如,基于地理位置的辅助语音数据包的语音识别)分别输出第一识别结果和第二识别结果,根据用户比较第一识别结果和第二识别结果做出的选择,动态调整基于预设模型的大词汇量语音识别和基于辅助语音数据包的语音识别的权重,以提高语音识别的准确率。

所述处理单元40与所述语音识别系统10、存储单元20、显示单元30及语音输入单元50通讯连接。所述通讯可以通过串行外围设备接口总线(Universal Serial Bus,USB)或其他通信路径或协议来实现。

所述语音输入单元50用于录入用户的语音信息。所述显示单元30包括,但不限于,麦克风。

如图2所示,是本发明语音识别方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。

S100,获取用户输入的语音信息。

在本实施例中,用户可以直接通过所述电子设备1的语音接收单元50输入语音,所述语音识别系统10根据用户输入语音的内容获取语音信息。

在其他实施例中,所述电子设备1的显示单元30提供了一个图形用户界面,所述图形用户界面上包括一个语音输入图标,在用户点击所述语音输入图标时,所述语音识别系统10通过所述语音接收单元50获取用户输入的语音信息。

S102,利用第一语音识别方法识别所述语音信息得到第一识别结果,以及利用第二语音识别方法识别所述语音信息得到第二识别结果。

在本实施例中,所述第一语音识别方法识别可以是基于预设模型的大词汇量语音识别方法,所述第二语音识别方法可以是基于辅助语音数据包的语音识别方法。即利用基于辅助语音数据包的语音识别方法协助基于预设模型的大词汇量语音识别方法进行语音识别。所述基于辅助语音数据包的语音识别方法可以是基于地理位置建立的辅助语音数据包的语音识别方法。在一些实施例中,所述语音识别系统10可以先执行所述第一语音识别方法识别所述语音信息,再执行所述第二语音识别方法识别所述第二语音信息。

在一些实施例中,为了提高识别效率,所述语音识别系统10可以并行执行所述第一语音识别方法与所述第二语音识别方法分别识别所述语音信息。利用所述基于预设模型的大词汇量语音识别方法识别所述语音信息时,同时利用所述基于辅助语音数据包的语音识别方法识别所述语音信息,即所述语音识别系统10以第一线程运行所述基于预设模型的大词汇量语音识别方法以识别所述语音信息,并行地一第二线程运行所述基于辅助语音数据包的语音识别以识别所述语音信息。

在本实施例中,所述基于预设模型的大词汇量语音识别方法是指按照标准普通话建立的语音识别库,任何用户均可以调用所述语音识别库,按照标准普通话进行识别。基于预设模型的大词汇量语音识别不考虑方言和地理位置及/或口音和地理位置的影响。所述基于预设模型的大词汇量语音识别方法可采用现有技术中的语音识别方法,通过预先建立的多个模型进行学习、训练以识别用户的语音,并将语音信息转换成文字信息。

所述基于辅助语音数据包的语音识别方法(为便于描述,下文简称为“辅助语音识别方法”)考虑方言和地理位置及/或口音和地理位置的影响,需要事先通过训练和学习建立基于地理位置的语音数据包。关于所述基于地理位置的语音识别方法请参阅图3及相应描述。

S104,根据预先设置的规则显示所述第一语音识别结果和第二语音识别结果。

本实施例中,所述预先设置的规则可以是,所述语音识别系统10为所述第一语音识别结果预先分配第一权重,为所述第二语音识别结果预先分配第二权重,根据权重值的大小确定对应该权重值的语音识别结果的显示方式。所述第一权重值和所述第二权重值的总和可以为一固定数,例如,为整数1。优选地,所述语音识别系统10预先设置的第一权重值大于第二权重值,也就是说所述语音识别系统10为第一语音识别方法分配的权重值大于为第二语音识别方法分配的权重值。

在其他实施例中,所述预先设置的规则还可以是,所述语音识别系统10为所述第一语音识别结果预先设置第一识别分数,为所述第二语音识别结果预先设置第二识别分数,根据识别分数的大小确定对应该识别分数的语音识别结果的显示方式。优选地,所述语音识别系统10预先设置的第一识别分数值大于第二识别分数值。

所述语音识别结果的显示方式包括,但不限于:显示的时间及/或显示的位置。

例如,所述语音识别系统10预先设置的规则是为语音识别结果分配权重,则当预先设置的第一权重值大于预先设置的第二权重值时,可以在所述电子设备1的显示单元30上将对应权重值大的第一语音识别结果显示在第一位置,如所述显示单元30提供的用户界面的上半部分;当预先设置的第一权重值小于预先设置的第二权重值时,将对应权重值小的第一语音识别结果显示在第二位置,如所述显示单元30提供的用户界面的下半部分。

此外,当预先设置的第一权重值大于预先设置的第二权重值时,在所述电子设备1的显示单元30上显示第一语音识别结果,在预设时间之后(例如,2秒后)在所述电子设备1的显示单元30上显示第二语音识别结果。

在本实施例中,所述的语音识别方法进一步包括:结合获取的用户反馈信息更新所述预先设置的规则。

所述用户反馈信息可以根据用户的操作得到。例如,用户选取了第一语音识别结果,则所述语音识别系统10获取到的用户反馈信息表示最佳语音识别结果是利用第一语音识别方法得到的。若用户选取了第二语音识别结果,则所述语音识别系统10获取到的用户反馈信息表示最佳语音识别结果是利用第二语音识别方法得到的。

所述更新所述预先设置的规则可以是调整预先设置的权重值或者调整预先设置的识别分数值。

具体地,所述语音识别系统10根据用户选取的语音识别结果,将对应该语音识别结果的权重值或者识别分数值变大,及/或将用户没有选取的语音识别结果对应的权重值或者识别分数值减小。例如,当获取的用户反馈信息是选取了第一语音识别结果,则将对应该第一语音识别结果的第一权重值或者第一识别分数值变大,及/或将对应第二语音识别结果的第二权重值或者第二识别分数值减小。当获取的用户反馈信息是选取了第二语音识别结果,则将对应该第二语音识别结果的第二权重值或者第二识别分数值变大,及/或将对应第一语音识别结果的第一权重值或者第一识别分数值减小。

其中,上述的权重值或者分数值的变大或减小可根据预先设置的比例或者数值进行。

请一并参阅图3所示,为基于辅助语音数据包的语音识别方法的较佳实施例的流程图。根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。

S1020,接收到用户的语音信息时,获取该用户当前的地理位置信息。

在本实施例中,所述语音识别系统10通过所述电子设备1内置的定位模块及/或网络连接模块获取所述电子设备1当前所在的地理位置信息。所述定位模块包括,但不限于:全球定位系统(Global Positioning System,GPS)。所述所述网络连接模块包括,但不限于:第3代移动通信技术(The 3rd Generation Telecommunication,3G)、通用分组无线业务(General Packet Radio Service,GPRS)以及无线保真技术(wireless fidelity,Wi-Fi)。所述电子设备1当前所在的地理位置信息即被认为是该用户当前所在的地理位置信息。

在一些实施例中,所述语音识别系统10还可以通过接收用户设置的指令,并根据该用户设置的指令确定该用户当前的地理位置信息。

例如,所述电子设备1中设置有位置选择列表,该位置选择列表包括中国所有城市的名称。用户通过触发该位置选择列表,选择与用户输入语音信息相应的地理位置信息。

又如,所述电子设备1中设置有文本输入框,用户通过激活该文本输入框功能,在相应的界面中输入当前地理位置信息。

S1022,根据所述地理位置信息调用对应的辅助语音数据包。

在本实施例中,所述电子设备1根据所述地理位置信息从所述存储单元20中调用对应的辅助语音数据包。

所述存储单元20中预先存储有辅助语音数据包及该辅助语音数据包包括的具有地理位置语音特征的语音信息。

例如,所述地理位置信息是广东,则所述语音识别系统10调用识别广东语音特征的辅助语音数据包。

在一些实施例中,如果所述电子设备1的存储单元20中没有预先存储有对应所述地理位置信息的辅助语音数据包时,则所述语音识别系统10在获取用户当前的地理位置信息时,从与所述电子设备1通讯连接的服务器下载该辅助语音数据包。所述通讯连接可以是无线通讯连接。所述辅助语音数据包由用户事先进行训练和学习得到并布署于所述服务器,所述语音识别系统10可以通过网络请求所述服务器发送对应所述地理位置信息的辅助语音数据包。

S1024,根据所述辅助语音数据包识别所述语音信息得到第二语音识别结果。

在本实施例中,所述语音识别系统10利用所述第二语音识别方法识别所述语音信息得到所述第二语音识别结果。

进一步地,为了解决即使在同一地理位置也会存在方言或者口音的差别而造成的语音识别率不高的问题,所述语音识别系统10根据所述地理位置信息调用对应的辅助语音数据包之前,所述S1022还可以包括:根据所述语音信息确定该用户的语音类型,并基于所述语音类型和所述地理位置信息共同确定对应的辅助语音数据包。

该用户的语音类型由用户语言的发音和音调决定,可以包括方言和口音。

例如,用户的当前的地理位置为广州,用户的语音类型可以是口音(例如,粤语),则所述语音识别系统10调用“口音_广州”的辅助语音数据包识别所述语音信息。在一些实施例中,所述语音识别系统10还可以通过获取所述显示单元30提供的包括有文本输入框的界面上输入的信息获取用户的语音类型。

更进一步地,为了避免用户临时去某地出差或者旅游时,所述电子设备1获取该用户当前的地理位置信息,并根据该当前的地理位置信息调用相应的辅助语音数据包造成识别率低时,所述S1022还可以包括:获取用户当前的地理位置信息以及历史地理位置信息,并根据历史地理位置信息和当前地理位置信息确定调用的辅助语音数据包。

在本实施例中,所述历史地理位置信息是指用户的经常居住地的地理位置信息。

例如,用户当前的地理位置为广州,而用户的经常居住地在福建,则电子设备1调用识别福建语音特征的辅助语音数据包来识别所述语音信息。

综上所述,本发明实施例公开的一种语音识别方法,预先通过训练和学习得到多个辅助语音数据包,该辅助语音数据包是以地理位置为单位进行划分的语音数据库。同时基于用户的语音类型,辅助语音数据包进一步细分为基于方言和地理位置的辅助语音数据包,以及基于口音和地理位置的辅助语音数据包。利用基于预设模型的大词汇量语音识别方法识别用户的语音信息时,同时也利用该辅助语音数据包识别用户的语音信息从而协助所述基于预设模型的大词汇量语音识别方法,不仅提高了用户的语音识别率,也提高了用户体验。

如图4所示,是本发明语音识别系统的第一实施例的功能模块图。所述语音识别系统10包括获取模块100、第一识别模块102、第二识别模块104、显示模块106、设置模块108及更新模块110。本发明所称的模块是指一种能够被处理单元40所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储单元20中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

所述获取模块100,用于获取用户输入的语音信息。

在本实施例中,用户可以直接通过所述电子设备1的语音接收单元50输入语音,所述获取模块100根据用户输入语音的内容获取语音信息。

在其他实施例中,所述电子设备1的显示单元30提供了一个图形用户界面,所示图形用户界面上包括一个语音输入图标,在用户点击所述语音输入图标时,所述获取模块100通过所述语音接收单元50获取用户输入的语音信息。

所述第一识别模块102,用于识别所述语音信息得到第一识别结果。

所述第二识别模块102,用于识别所述语音信息得到第二识别结果。

在本实施例中,所述第一识别模块102可以是基于预设模型的大词汇量语音识别模块,所述第二识别模块102可以是基于辅助语音数据包的语音识别模块。即利用基于辅助语音数据包的语音识别模块协助基于预设模型的大词汇量语音识别模块进行语音识别。所述基于辅助语音数据包的语音识别模块可以是基于地理位置建立的辅助语音数据包的语音识别模块。在一些实施例中,所述语音识别系统10可以先执行所述第一语音识别模块102识别所述语音信息,再执行所述第二语音识别模块102识别所述第二语音信息。

在一些实施例中,为了提高识别效率,所述语音识别系统10可以并行执行所述第一语音识别模块102与所述第二语音识别模块102分别识别所述语音信息。利用基于预设模型的大词汇量语音识别模块识别所述语音信息时,同时利用所述基于辅助语音数据包的语音识别模块识别所述语音信息,即所述语音识别系统10以第一线程运行所述第一识别模块102以识别所述语音信息,并行地一第二线程运行所述第二识别模块102以识别所述语音信息。

在本实施例中,基于预设模型的大词汇量语音识别模块是指按照标准普通话建立的语音识别库,任何用户均可以调用所述语音识别库,按照标准普通话进行识别。基于预设模型的大词汇量语音识别不考虑方言和地理位置及/或口音和地理位置的影响。所述基于预设模型的大词汇量语音识别模块与现有技术中的相同。

所述基于辅助语音数据包的语音识别模块(为便于描述,下文简称为“辅助语音识别模块”)考虑方言和地理位置及/或口音和地理位置的影响,需要事先通过训练和学习建立基于地理位置的语音数据包。关于所述基于地理位置的语音识别模块请参阅图5及相应描述。

所述显示模块106,用于根据预先设置的规则显示所述第一语音识别结果和第二语音识别结果。

本实施例中,所述预先设置的规则由所述设置模块108预先设置。所述设置模块108可以为所述第一语音识别结果预先分配第一权重,为所述第二语音识别结果预先分配第二权重,根据权重值的大小确定对应该权重值的语音识别结果的显示方式。所述第一权重值和所述第二权重值的总和可以为一固定数,例如,为整数1。优选地,所述设置模块108预先设置的第一权重值大于第二权重值,也就是说所述设置模块108为第一语音识别方法分配的权重值大于为第二语音识别方法分配的权重值。

在其他实施例中,所述设置模块108预先设置的规则还可以是,为所述第一语音识别结果预先设置第一识别分数,为所述第二语音识别结果预先设置第二识别分数,根据识别分数的大小确定对应该识别分数的语音识别结果的显示方式。优选地,所述设置模块108预先设置的第一识别分数值大于第二识别分数值。

所述语音识别结果的显示方式包括,但不限于:显示的时间及/或显示的位置。但不限于显示的时间和显示的位置。

例如,所述设置模块108预先设置的规则是为语音识别结果分配权重,则当预先设置的第一权重值大于预先设置的第二权重值时,所述显示模块106可以在所述电子设备1的显示单元30上将对应权重值大的第一语音识别结果显示在第一位置,如所述显示单元30提供的用户界面的上半部分;当预先设置的第一权重值小于预先设置的第二权重值时,所述显示模块106将对应权重值小的第一语音识别结果显示在第二位置,如所述显示单元30提供的用户界面的下半部分。

此外,当预先设置的第一权重值大于预先设置的第二权重值时,所述显示模块106在所述电子设备1的显示单元30上显示第一语音识别结果,在预设时间之后(例如,2秒后)在所述电子设备1的显示单元30上显示第二语音识别结果。

在本实施例中,所述的语音识别系统10进一步包括所述更新模块110,用于结合获取的用户反馈信息更新所述预先设置的规则。

本实施例中,所述用户反馈信息可以根据用户的操作得到。例如,用户选取了第一语音识别结果,则所述获取模块100获取到的用户反馈信息表示最佳语音识别结果是利用第一语音识别方法得到的。若用户选取了第二语音识别结果,则所述获取模块100获取到的用户反馈信息表示最佳语音识别结果是利用第二语音识别方法得到的。

所述更新模块110更新所述预先设置的规则可以是调整预先设置的权重值或者调整预先设置的识别分数值。

具体地,所述更新模块110根据用户选取的语音识别结果,将对应该语音识别结果的权重值或者识别分数值变大,及/或将用户没有选取的语音识别结果对应的权重值或者识别分数值减小。例如,当获取的用户反馈信息是选取了第一语音识别结果,则所述更新模块110将对应该第一语音识别结果的第一权重值或者第一识别分数值变大,及/或将对应第二语音识别结果的第二权重值或者第二识别分数值减小。当获取的用户反馈信息是选取了第二语音识别结果,则所述更新模块110将对应该第二语音识别结果的第二权重值或者第二识别分数值变大,及/或将对应第一语音识别结果的第一权重值或者第一识别分数值减小。

其中,上述的权重值或者分数值的变大或减小可根据预先设置的比例或者数值进行。

请一并参阅图5所示,是本发明语音识别系统的第二实施例的功能模块图。其中,所述第二识别模块104包括调用子模块1040、下载子模块1042及确定子模块1044。本发明所称的模块是指一种能够被处理单元40所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储单元20中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

所述获取模块100,还用于接收到用户的语音信息时,获取该用户当前的地理位置信息。

在本实施例中,所述获取模块100通过所述电子设备1内置的定位模块及/或网络连接模块获取所述电子设备1当前所在的地理位置信息。所述定位模块包括,但不限于:全球定位系统(Global Positioning System,GPS)。所述所述网络连接模块包括,但不限于:第3代移动通信技术(The 3rd Generation Telecommunication,3G)、通用分组无线业务(General Packet Radio Service,GPRS)以及无线保真技术(wireless fidelity,Wi-Fi)。所述电子设备1当前所在的地理位置信息即被认为是该用户当前所在的地理位置信息。

在一些实施例中,所述获取模块100还可以通过接收用户设置的指令,并根据该用户设置的指令确定该用户当前的地理位置信息。

例如,所述电子设备1中设置有位置选择列表,该位置选择列表包括中国所有城市的名称。用户通过触发该位置选择列表,选择与用户输入语音信息相应的地理位置信息。

又如,所述电子设备1中设置有文本输入框,用户通过激活该文本输入框功能,在相应的界面中输入当前地理位置信息。

所述调用子模块1040,用于根据所述地理位置信息调用对应的辅助语音数据包。

在本实施例中,所述调用子模块1040根据所述地理位置信息从所述存储单元20中调用对应的辅助语音数据包。

所述存储单元20中预先存储有辅助语音数据包及该辅助语音数据包包括的具有地理位置语音特征的语音信息。

例如,所述地理位置信息是广东,则所述调用子模块1040调用识别广东语音特征的辅助语音数据包。

在一些实施例中,如果所述电子设备1的存储单元20中没有预先存储有对应所述地理位置信息的辅助语音数据包时,则所述获取模块100在获取用户当前的地理位置信息时,执行所述下载子模块102。所述下载子模块1042从与所述电子设备1通讯连接的服务器下载该辅助语音数据包。所述通讯连接可以是无线通讯连接。所述辅助语音数据包由用户事先进行训练和学习得到并布署于所述服务器,下载子模块1042可以通过网络请求所述服务器发送对应所述地理位置信息的辅助语音数据包。

所述第二识别模块104,用于根据所述辅助语音数据包识别所述语音信息得到第二语音识别结果。

在本实施例中,第二识别模块104利用所述第二语音识别方法识别所述语音信息得到所述第二语音识别结果。

进一步地,为了解决即使在同一地理位置也会存在方言或者口音的差别而造成的语音识别率不高的问题,所述第二识别模块104还可以包括确定子模块1044:用于根据所述语音信息确定该用户的语音类型。所述调用子模块1040基于所述语音类型和所述地理位置信息共同确定对应的辅助语音数据包。

该用户的语音类型由用户语言的发音和音调决定,可以包括方言和口音。

例如,用户的当前的地理位置为广州,用户的语音类型是口音(例如,粤语),则所述调用子模块1040调用“口音_广州”的辅助语音数据包识别所述语音信息。

在一些实施例中,所述获取模块100还可以通过获取所述显示单元30提供的包括有文本输入框的界面上输入的信息获取用户的语音类型。

更进一步地,为了避免用户临时去某地出差或者旅游时,所述获取模块100获取该用户当前的地理位置信息,所述调用子模块1040根据该当前的地理位置信息调用相应的辅助语音数据包造成识别率低时,所述获取模块100还用于获取用户当前的地理位置信息以及历史地理位置信息,所述调用子模块1040根据历史地理位置信息和当前地理位置信息确定调用的辅助语音数据包。

在本实施例中,所述历史地理位置信息是指用户的经常居住地的地理位置信息。

例如,用户当前的地理位置为广州,而用户的经常居住地在福建,则所述调用子模块1040调用识别福建语音特征的辅助语音数据包来识别所述语音信息。

综上所述,本发明实施例公开的一种语音识别系统,预先通过训练和学习得到多个辅助语音数据包,该辅助语音数据包是以地理位置为单位进行划分的语音数据库。同时基于用户的语音类型,辅助语音数据包进一步细分为基于方言和地理位置的辅助语音数据包,以及基于口音和地理位置的辅助语音数据包。利用基于预设模型的大词汇量语音识别模块识别用户的语音信息时,同时也利用用该辅助语音数据包识别用户的语音信息从而协助所述基于预设模型的大词汇量语音识别方法,不仅提高了用户的语音识别率,也提高了用户体验。

在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机单元(可以是个人计算机,服务器,或者网络单元等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1