自然语音识别方法和装置的制作方法

文档序号:6427783阅读:239来源:国知局
专利名称:自然语音识别方法和装置的制作方法
技术领域
本发明涉及语音识别技术,尤其涉及一种自然语音识别方法和装置。
背景技术
在语音识别领域中,对于不同的语言,语音识别技术各不相同,例如对于英文而言,待进行语音识别的语句中单词均由26个字母表中的字母构成,在进行语音识别时,语音识别系统只需要对语句中的字母进行识别,即可识别出语音信息对应的文本信息。 中文与英文最大的区别在于,中文汉字数量较大,目前,汉字的总数已经超过了 8万,其中常用汉字大约有3500字左右,面对如此庞大的中文汉字库,传统的语音识别技术是基于关键词的,语音识别系统需要将用户发送的语音内容从头到尾按逐字与词表中预先存储的文本内容进行匹配,只有语音内容与词表中存储的某条文本内容完全匹配时,语音识别系统才能识别出用户发送的语音内容的含义,成功进行语音识别,否则,语音识别失败。然而,在实际的生活中,语言表述形式是多种多样的,对于同一事物每个人或者同一人在不同时期的表述各不相同,例如对母亲一词的表述可以包括母亲、妈、妈妈、老妈、妈咪等等。为了提高语音识别的成功率与准确率,需要尽可能地将同一事物的所有表述形式均存储到语音识别系统的词表中,这使得语音识别系统的词表规模非常庞大,维护不方便,并且由于词表规模庞大,使得语音识别系统进行语音识别的速度较慢。另外,由于人们的语言表述形式千差万别,随着时代的发展,语言表达方式也在不断更新,无法在语音识别系统的词表中穷尽同一事物的所有表述形式,使得采用关键词方式进行语音识别的成功率较低。在申请号为CN00130067. 9、CN03123123. 3以及CN03138149. 9等中国专利中也公
开了与语音识别相关的技术方案,然而上述技术方案只能进行语音合成或者将语音转换成文字,而无法实现对语音转换成文字信息的识别,并且,上述技术方案是针对英文语音识别设计的,根据以上分析可知,英文语言和中文语言从词语数量以及语法特点上大不相同,使得上述技术方案即使应用在中文语音识别中也无法进行有效的识别,语音识别的成功率较低;在申请号为CN99813093. I的中国专利中,公开了一种采用语音识别和自然语言处理的交互式用户界面,虽然能够实现对语音转换成文字信息的识别,然而该技术方案也是针对英文语言设计的,在进行语音识别的过程中需要考虑语法等因素的影响,仍然无法有效地应用在中文语音识别中。

发明内容
为解决上述技术问题,本发明的实施例提供一种自然语音识别方法和装置,能够提高中文语音识别速度,以及语音识别的成功率。—种自然语音识别方法,包括获取用户输入的语音信息对应的拼音;采用预先设置的词典对所述拼音进行分词处理,获取分词后的词语拼音串;从所述词典中查找所述词语拼音串对应的待识别词语;根据所述待识别词语查找目标信息数据库,从所述目标信息数据库中获取与所述待识别词语匹配度最高的目标信息;其中,所述词典用于存储进行语音识别的目标词语以及目标词语对应的拼音。一种自然语音识别装置,包括第一获取单元,用于获取用户输入的语音信息对应的拼音;分词处理单元,用于采用预先设置的词典对所述第一获取单元获取的拼音进行分词处理,获取分词后的词语拼音串;第二获取单元,用于从所述词典中查找所述分词处理单元获取的词语拼音串对应的待识别词语;
查找单元,用于根据所述第二获取单元获取的待识别词语查找目标信息数据库, 从所述目标信息数据库中获取与所述待识别词语匹配度最高的目标信息;其中,所述词典用于存储进行语音识别的目标词语以及目标词语对应的拼音。本发明实施例提供的自然语音识别方法和装置,根据词语拼音串对应的待识别词语进行信息匹配,并将目标信息数据库中与待识别词语匹配度最高的信息作为对语音信息识别得到的目标信息,不需要对语音信息进行完全匹配即可获得目标信息,提高了语音识别的成功率,解决了现有技术采用对语音信息进行完全匹配方法进行语音识别,造成由于表述方式不一致而使语音识别失败,语音识别成功率低的问题,由于本发明实施例提供的技术方案采用词语匹配的方式进行语音识别,只需要在词典中存储目标词语并在目标信息数据库中存储标准信息即可,不需要对同一事物按照语言表述方式存储大量不同形式的文本信息,词典和目标信息数据库的数据规模较小,便于进行查找,进而提高了语音识别速度,解决了现有技术需要在词表中对同一事物存储大量不同表述形式的文本信息,造成词表规模庞大,不便于查找,进行语音识别的速度较慢的问题。本发明实施例提供的技术方案不同于英文语音识别技术,该技术方案针对中文语言文字量大,语句中词语连贯、无停顿的特点,采用按照拼音对语句中词语进行分词,并根据分词后的待识别词语查找的方式进行语音识别,对中文语音识别的成功率以及识别速度较高。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I为本发明实施例提供的自然语音识别方法流程图一;图2为图I所示的本发明实施例提供的自然语音识别方法步骤104的流程图一;图3为图I所示的本发明实施例提供的自然语音识别方法步骤104的流程图二 ;图4为本发明实施例提供的自然语音识别方法流程图二 ;图5为本发明实施例提供的自然语音识别装置结构示意图一;图6为本发明实施例提供的自然语音识别装置结构示意图二 ;图7为本发明实施例提供的自然语音识别装置结构示意图三;图8为本发明实施例提供的自然语音识别装置结构示意图四;
图9为图5所示的本发明实施例提供的自然语音识别装置中查找单元的结构示意图;图10为本发明实施例提供的自然语音识别装置结构示意图五;图11为本发明实施例提供的自然语音识别装置结构示意图六;图12为本发明实施例提供的自然语音识别装置结构示意图七。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。为了解决采用关键词的方式进行语音识别成功率较低的问题,本发明实施例提供一种自然语音识别方法和装置。如图I所示,本发明实施例提供的自然语音识别方法,包括步骤101,获取用户输入的语音信息对应的拼音。为了使本发明实施例提供的自然语音识别方法适用范围更广,能够识别出不同地域、不同口音的用户语音信息,在本实施例中,步骤101可以采用非特定人语音识别技术对用户输入的语音信息进行识别解析,获取该语音信息对应的拼音。步骤102,采用预先设置的词典对步骤101获取的拼音进行分词处理,获取分词后的词语拼音串。其中,词典用于存储进行语音识别的目标词语以及目标词语对应的拼音。在本实施例中,词典中存储的目标词语可以是广义范围的词语,具体地,可以从日常生活和工作能够接触到的信息中获取目标词语并形成词典,例如可以从每天新闻报道的信息中提取词语,形成词典;词典中存储的目标词语也可以是狭义范围的词语,具体地,可以从目标信息数据库中存储的信息获取目标词语并形成词典,其中,目标信息数据库用于存储待进行识别的信息,例如如果本发明实施例提供的自然语音识别方法应用在车辆导航领域中,目标信息数据库用于存储地理位置信息和/或目的地名称信息等。需要说明的是,不论是广义范围的词语还是狭义范围的词语,词典中的目标词语均是唯一的,各个目标词语之间不重复。由于语音识别技术一般是在特定领域中使用的,例如应用在导航、点歌或者查找联系人等领域,为了减小词典中目标词语的冗余量,节省存储空间,提高语音识别的速度,本发明实施例优选地将词典中的目标词语设置为根据目标信息数据库设置的狭义范围词语,但不限于上述设置方式,本领域技术人员公知的是,对于该识别技术所应用的每个行业领域,所述行业的技术人员均可根据其行业特点,进行合理设置其目标信息数据库。在本实施例中,步骤102具体可以根据步骤101获取的拼音查找词典,将拼音按照出现顺序与词典中包含的目标词语的拼音进行匹配,当查找到与目标词语的拼音完全匹配的词语拼音串时,将该词语拼音串从拼音中分割出来,继续循环上述查找的动作,直到结束为止,从而实现对拼音的分词处理。步骤103,从词典中查找步骤102获取的词语拼音串对应的待识别词语。
步骤104,根据待识别词语查找目标信息数据库,从目标信息数据库中获取与待识别词语匹配度最高的目标信息。在本实施例中,步骤104可以通过两种方法从目标信息数据库中获取与待识别词语匹配度最高的目标信息,下面对这两种方法进行分别介绍I、权重系数判决法在本实施例中,如果词典还用于存储目标词语对应的权重等级η以及权重等级范围N,η、N均为整数,N彡2,n e [I,N],第η级的目标词语在所述文字信息中的重要性要比第n+1级的目标词语在所述文字信息中的重要性大,当然,其重要性与权重等级η的关系也可以相反,本领域技术人员可以自己根据需要定义,本实施方式按照前者进行示例,则步骤
104之前,还包括根据词典获取待识别词语对应的权重等级的步骤。具体地,可以预先设置词典中词语的权重等级范围N,以及每个词语的权重等级 η,例如可以将词典包含的目标词语的权重等级范围设置为3,其中,重等级为I最高,权重等级为3最低,然后按照目标词语的专有性以及广泛性设置每个目标词语的权重等级,如,目标词语是地名时,权重等级设置为3,目标词语是非地理位置的专有指代名词(如小肥羊)时,权重等级设置为1,当然,所述领域技术人员可根据其他设置规则对上述目标词语进行权重等级划分,此处不对每种情况进行一一赘述。在步骤102将文字信息划分成词语之后,从词典中获取每个词语的权重等级属性信息。则此时,如图2所示,步骤104可以包括步骤1041,根据待识别词语查找目标信息数据库,从目标信息数据库中获取与待识别词语中的任意一个或多个词语匹配的信息组成的信息集合。步骤1042,根据待识别词语对应的权重等级,对步骤1041获取的信息集合中的每条信息分别进行处理,获取每条信息的权重系数。在本实施例中,步骤1042可以采用加权平均算法获取每条信息的权重系数,当然也可以采用其他算法获取每条信息的权重信息,此处不作一一赘述。步骤1043,从步骤1041获取的信息集合中选取权重系数最高的信息为目标信息。需要说明的是,为了保证步骤104获取的目标信息的准确性,提高语音识别质量,在本实施例中,步骤103获取的待识别词语中应包含至少一个权重等级为I的词语,如果待识别词语中不存在权重等级为I的词语,则在步骤104之前,还包括重新对步骤101获取的拼音进行分词处理,以获取至少一个权重等级为I的词语,则此时步骤104替换为根据重新分词后的待识别词语查找目标信息数据库,从目标信息数据库中获取与待识别词语匹配度为I的目标信息。进一步地,本发明实施例提供的自然语音识别方法还可以包括将重新分词后获得的至少一个权重等级最高的词语以及该词语对应的拼音串添加到所述词典中。需要说明的是,本发明实施例对权重等级高低的划分进行具体的举例,在实际的使用过程中还可以通过其他规则设置权重等级的高低属性,例如当权重等级范围为3时,可以设置权重等级为3最高,权重等级为I最低,以上方法是本领域技术人员能够在不付出创造性劳动的前提下轻易联想到的,此处不再一一赘述。2、嵌套查找法如图3所示,步骤104可以包括
步骤1044,对步骤103获取的待识别词语进行排序。在本实施例中,步骤1044可以将词语按照在文字信息中出现的先后顺序进行排序,优选地,为了提高查找速度,步骤1044可以先获取文字信息包含的词语中的关键词,然后将文字信息包含的词语按照关键词、后辅助词和前辅助词的顺序进行排序。其中,关键词是具有专有指代意义的词语,后辅助词是文字信息中位于关键词之后的词语,前辅助词是文字信息中位于关键词之前的词语。在本实施例中,可以预先设置关键词表,该关键词表可以根据目标信息数据库中存储的信息设置,本发明实施例提供的技术方案在获取待识别词语后,对待识别词语中的每个词语分别查找关键词表,获取与关键词表中存储的关键词匹配的词语为文字信息包含的关键词。
·
需要说明的是,如果经查找后获知待识别词语中不存在关键词,则步骤1044按照词语出现的先后顺序进行排序;如果经查找后获知待识别词语中包含两个以上关键词,则后辅助词为待识别词语中第一个关键词以后的非关键词,步骤1044仍然按照关键词、后辅助词以及前辅助词的顺序进行排序。需要说明的是,如果在步骤103中,同一个词语拼音串在词典中查找到两个以上待查找词语,则步骤1044将所述两个以上待查找词语作为一个集合整体进行排序。本发明实施例通过将文字信息包含的词语按照关键词、后辅助词和前辅助词的顺序进行排序,使得后续步骤按照词语顺序进行查找匹配时,重点信息突出,能够大幅度的缩短词语查找匹配的时间,进行提高语音识别的速度。步骤1045,按照步骤1044的排序结果,从待识别词语中获取第一个词语,从目标信息数据库中获取与第一个词语匹配的信息。步骤1046,从待识别词语中获取第二个词语,从与第一个词语匹配的信息组成的信息集合中获取与第二个词语匹配的信息。以此类推,步骤1047,从待识别词语中获取最后一个词语,从与最后一个词语相邻的上一个词语匹配的信息组成的信息集合中获取与最后一个词语匹配的目标信息。需要说明的是,在以上步骤1045-1047中,如果未查找到与当前词语匹配的信息,则可以将当前词语的匹配信息设置为与该当前词语相邻的上一个词语匹配的信息,如果,当前词语为第一个词语,则该第一个词语匹配的信息为整个目标信息数据库中包含的信肩、O为了使本领域技术人员能够对以上所述的嵌套查找法有更深刻的认识,下面通过具体的例子对嵌套查找法的具体实现进行说明例如当用户输入的语音信息为北京石景山区八角东路小肥羊火锅店时,获取与该语音信息对应的拼音,包括beijingshijingshanqubajiaodongluxiaofeiyanghuoguodian ;根据词典对该拼音进行分词,获取词语拼音串,包括beijing, shijingshanqu,bajiao, donglu, xiaofeiyang, huoguodian ;根据词语拼音串查找词典获取待识别词语,包括北京,石景山区,八角,东路,(小肥羊、小沸羊),火锅店;如果xiaofeiyang对应的待识别词语(小肥羊和小沸羊)为关键词,按照关键词、后辅助词和前辅助词排序为(小肥羊、小沸羊),火锅店,北京,石景山区,八角,东路;当目标信息数据库包括北京小肥羊超市,北京小沸羊火锅店,上海小沸羊餐饮公司,北京石景山区小沸羊烤肉店,石景山区古城路小肥羊火锅店,北京东来顺火锅店,北京八角北路东来顺火锅店,北京八角小肥羊火锅店等信息时,按照上述嵌套查找法,首先,从目标信息数据库中获取与“小肥羊和小沸羊”组成的关键词集合匹配的信息,形成第一信息库,该第一信息库包括北京小肥羊超市,北京小沸羊火锅店,上海小沸羊餐饮公司,北京石景山区小沸羊烤肉店,石景山区古城路小肥羊火锅店,北京八角小肥羊火锅店,然后,从第一信息库中获取与“火锅店”匹配的信息,形成第二信息库,该第二信息库包括北京小沸羊火锅店,石景山区古城路小肥羊火锅店,北京八角小肥羊火锅店,第三,从第二信息库中获取与“北京”匹配的信息,形成第三信息库,该第三信息库包括北京小沸羊火锅店,北京八角小肥羊火锅店,第四,从第三信息库中获取与“八角”匹配的信息,形成第四信息库,该第四信息库包括北京八角小肥羊火锅店,第五,从第四信息库中获取与“东路”匹配的目标信息,由于第四信息库中没有与“东路”匹配的信息,所以目标信息为第四信息库中包含的信息,即北京八角小肥羊火锅店。通过以上所述的权重系数判决法以及嵌套查找法能够准确地查找到与文本信息包含的词语匹配度最高的目标信息,实现对用户输入的语音信息的识别。当然,在实际的使用过程中,还可以采用其他方法获取与文本信息包含的词语匹配度最高的目标信息,此处不作一一赘述。进一步地,如果在步骤104中选取了两条以上目标信息,为了提高语音识别的准确定,如图4所示,步骤104之后还可以包括步骤105,获取用户发送的目标信息选取指示或者用户的语音识别统计信息。具体地,本发明实施例在步骤104之后可以将选取的两条以上目标信息显示给用户,步骤105接收用户通过语音或者按键或者文字输入等方式发送的目标信息选取指示。
或者,本发明实施例提供的自然语音识别方法可以对用户每次进行语音识别的信息进行统计,该统计可以是针对特定用户个人的,也可以是针对特定用户群体的。进一步地,该语音识别统计数据可以为对用户的一个或者多个目标信息进行语音识别的次数或者频率统计的结果,也可以为对多个用户最后一次进行语音识别的目标信息的统计结果,当然还可以为其他与语音识别相关的统计结果,此处不作一一赘述。步骤106,根据目标信息选取指示或者语音识别统计信息从两条以上目标信息中选取优选目标信息。例如当语音识别统计数据为对用户的多个目标信息进行语音识别的次数进行统计的结果时,如果用户输入的语音信息对应的拼音为xiaofeiyanghuoguodian,步骤104获取了 4条目标信息,包括海淀区小肥羊火锅店,海淀区中关村小肥羊火锅店,石景山八角东路小肥羊火锅店,以及西直门嘉茂小沸羊火锅店时,步骤105可以获取所述4条目标信息对应的语音识别统计数据,如“海淀区小肥羊火锅店”进行语音识别3次,“海淀区中关村小肥羊火锅店”进行语音识别5次,“石景山八角东路小肥羊火锅店”进行语音识别40次,“西直门嘉茂小沸羊火锅店”进行语音识别I次,则步骤106可以根据统计结果,从4条目标信息中选取“石景山八角东路小肥羊火锅店”为优选目标信息。可选地,为了进一步缩短语音识别的时间,提高语音识别速度,在本实施例中,步骤104之前,还可以包括根据待识别词语查找口语词库,根据查找结果,从待识别词语中删除口语词的步骤,其中,口语词库用于存储口语词,该口语词中不包括涉及到用户输入的语音信息中具有实质性含义的文字信息。
在本实施例中,可以采用统计的方法预先设置口语词库,该口语词库中可以包括人们日常使用的口语词,例如“我想去”、“我想要”、“请问”、“是不是”、“对不对”、“可不可以”以及“怎么”等等,此处不对口语词库中包含的口语词进行一一赘述。进一步地,为了使本发明实施例提供的自然语音识别方法能够适用于发音吐字不清楚以及发音规范不同的人群,提高语音识别的成功率与准确率,在以上图1-4所示的技术方案基础上,本发明实施例提供的自然语音识别方法还可以包括对步骤101获取的拼音进行模糊音匹配处理,获取模糊匹配后的拼音的步骤,则此时步骤102具体为采用预先设置的词典对模糊匹配后的拼音进行分词处理,获取分词后的词语拼音串。
具体地,可以预先设置拼音模糊匹配表,在该拼音模糊匹配表中定义匹配规则,例如z = zh, c = ch, s = sh, I = n, f = h, r = I, an = ang, en = eng, in = ing, ian =
iang, uan = uang, iong = ing等,此处不作--赘述,根据所述规则对步骤101获取的拼
音进行模糊音匹配处理。通过对拼音进行模糊匹配,解决了由于用户口齿不清、发音不准确造成的语音识别失败或者识别错误等问题,进而提高了本发明实施例提供自然语音识别方法的识别成功率与准确率。本发明实施例提供的自然语音识别方法,根据词语拼音串对应的待识别词语进行信息匹配,并将目标信息数据库中与待识别词语匹配度最高的信息作为对语音信息识别得到的目标信息,不需要对语音信息进行完全匹配即可获得目标信息,提高了语音识别的成功率,解决了现有技术采用对语音信息进行完全匹配方法进行语音识别,造成由于表述方式不一致而使语音识别失败,语音识别成功率低的问题,由于本发明实施例提供的技术方案采用词语匹配的方式进行语音识别,只需要在词典中存储目标词语并在目标信息数据库中存储标准信息即可,不需要对同一事物按照语言表述方式存储大量不同形式的文本信息,词典和目标信息数据库的数据规模较小,便于进行查找,进而提高了语音识别速度,解决了现有技术需要在词表中对同一事物存储大量不同表述形式的文本信息,造成词表规模庞大,不便于查找,进行语音识别的速度较慢的问题。本发明实施例提供的技术方案不同于英文语音识别技术,该技术方案针对中文语言文字量大,语句中词语连贯、无停顿的特点,采用按照拼音对语句中词语进行分词,并根据分词后的待识别词语查找的方式进行语音识另IJ,对中文语音识别的成功率以及识别速度较高。如图5所示,本发明实施例还提供一种自然语音识别装置,包括第一获取单元501,用于获取用户输入的语音信息对应的拼音;分词处理单元502,用于采用预先设置的词典对第一获取单元501获取的拼音进行分词处理,获取分词后的词语拼音串;第二获取单元503,用于从词典中查找分词处理单元502获取的词语拼音串对应的待识别词语;查找单元504,用于根据第二获取单元503获取的待识别词语查找目标信息数据库,从目标信息数据库中获取与待识别词语匹配度最高的目标信息;其中,所述词典用于存储进行语音识别的目标词语以及目标词语对应的拼音。进一步地,如图6所示,本发明实施例提供的自然语音识别装置还可以包括第三获取单元505,用于如果词典还用于存储目标词语对应的权重等级η以及权重等级范围N,根据词典获取第二获取单元503获取的待识别词语对应的权重等级,其中,n、N均为整数,N彡2,n e [1,N],第η级的目标词语在所述文字信息中的重要性要比第n+1级的目标词语在所述文字信息中的重要性大,当然,其重要性与权重等级η的关系也可以相反,本领域技术人员可以自己根据需要定义,本实施方式按照前者进行示例;贝丨J,查找单元504可以包括查找子单元5041,用于根据第二获取单元503获取的待识别词语查找目标信息数据库,从目标信息数据库中获取与待识别词语中的任意一个或多个词语匹配的信息组成的信息集合;第一获取子单元5042,用于根据第三获取单元505获取的待识别词语对应的权重等级,对查找子单元5041获取的信息集合中的每条信息分别进行处理,获取每条信息的权重系数;第二获取子单元5043,用于从查找子单元5041获取的信息集合中选取第一获取子单元5042获取的权重系数最高的信息为目标信息。进一步地,如图7所示,本发明实施例提供的自然语音识别装置还可以包括重分词单元506,用于如果第二获取单元503获取的待识别词语中不存在权重等级为I的词语,重新对第一获取单元501获取的拼音进行分词处理,以获取至少一个权重等级为I的词语;查找单元504,还可以用于根据重分词单元506重新分词后的待识别词语查找目标信息数据库,从目标信息数据库中获取与待识别词语匹配度最高的目标信息。进一步地,如图8所示,本发明实施例提供的自然语音识别装置还可以包括更新单元507,用于将重分词单元506获取的至少一个权重等级为I的词语以及该词语对应的拼音串添加到词典中。进一步地,如图9所示,查找单元504还可以包括排序子单元5044,用于对待识别词语进行排序;第三获取子单元5045,用于按照排序子单元5044排序的结果,从待识别词语中获取第一个词语,从目标信息数据库中获取与第一个词语匹配的信息;第四获取子单元5046,用于从待识别词语中获取第二个词语,从与第一个词语匹配的信息组成的信息集合中获取与第二个词语匹配的信息;以此类推,第五获取子单元5047,用于从待识别词语中获取最后一个词语,从与最后一个词语相邻的上一个词语匹配的信息组成的信息集合中获取与最后一个词语匹配的目标信息。进一步地,如图10所示,本发明实施例提供的自然语音识别装置还可以包括删除单元508,用于根据第二获取单元503获取的待识别词语查找口语词库,根据查找结果,从待识别词语中删除口语词,其中,口语词库用于存储口语词,该口语词中不包括涉及到所述用户输入的语音信息中具有实质性含义的文字信息。进一步地,如图11所示,本发明实施例提供的自然语音识别装置还可以包括第四获取单元509,用于如果查找单元504查找到两条以上目标信息,获取用户发送的目标信息选取指示或者用户的语音识别统计信息; 选取单元5010,用于根据第四获取单元509获取的目标信息选取指示或者语音识别统计信息从查找単元504查找到的两条以上目标信息中选取优选目标信息。进ー步地,如图12所示,本发明实施例提供的自然语音识别装置还可以包括模糊处理单元5011,用于对第一获取单元501获取的拼音进行模糊音匹配处理,获取模糊匹配后的拼音;分词处理単元502,还可以用于采用预先设置的词典对模糊处理单元5011获取的模糊匹配后的拼音进行分词处理,获取分词后的词语拼音串。本发明实施例提供的自然语音识别装置的具体实现可以參见本发明实施例提供 的自然语音识别方法所述,此处不再赘述。本发明实施例提供的自然语音识别装置,根据词语拼音串对应的待识别词语进行信息匹配,并将目标信息数据库中与待识别词语匹配度最高的信息作为对语音信息识别得到的目标信息,不需要对语音信息进行完全匹配即可获得目标信息,提高了语音识别的成功率,解决了现有技术采用对语音信息进行完全匹配方法进行语音识别,造成由于表述方式不一致而使语音识别失败,语音识别成功率低的问题,由于本发明实施例提供的技术方案采用词语匹配的方式进行语音识别,只需要在词典中存储目标词语并在目标信息数据库中存储标准信息即可,不需要对同一事物按照语言表述方式存储大量不同形式的文本信息,词典和目标信息数据库的数据规模较小,便于进行查找,进而提高了语音识别速度,解决了现有技术需要在词表中对同一事物存储大量不同表述形式的文本信息,造成词表规模庞大,不便于查找,进行语音识别的速度较慢的问题。本发明实施例提供的技术方案不同于英文语音识别技术,该技术方案针对中文语言文字量大,语句中词语连贯、无停顿的特点,采用按照拼音对语句中词语进行分词,井根据分词后的待识别词语查找的方式进行语音识另IJ,对中文语音识别的成功率以及识别速度较高。本发明实施例提供的自然语音识别方法和装置可以应用在如导航、点歌以及联系人查询等信息服务系统中。以上所述,仅为本发明的具体实施方式
,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
权利要求
1.一种自然语音识别方法,其特征在于,包括 获取用户输入的语音信息对应的拼音; 采用预先设置的词典对所述拼音进行分词处理,获取分词后的词语拼音串; 从所述词典中查找所述词语拼音串对应的待识别词语; 根据所述待识别词语查找目标信息数据库,从所述目标信息数据库中获取与所述待识别词语匹配度最高的目标信息; 其中,所述词典用于存储进行语音识别的目标词语以及目标词语对应的拼音。
2.根据权利要求I所述的方法,其特征在于,所述方法还包括 如果所述词典还用于存储所述目标词语对应的权重等级η以及权重等级范围N,根据所述词典获取所述待识别词语对应的权重等级,其中,η、N均为整数,N > 2,n e [1,Ν],第η级的目标词语在所述文字信息中的重要性要比第n+1级的目标词语在所述文字信息中的重要性大; 则根据所述待识别词语查找目标信息数据库,从所述目标信息数据库中获取与所述待识别词语匹配度最高的目标信息包括 根据所述待识别词语查找目标信息数据库,从所述目标信息数据库中获取与所述待识别词语中的任意一个或多个词语匹配的信息组成的信息集合; 根据所述待识别词语对应的权重等级,对所述信息集合中的每条信息分别进行处理,获取每条信息的权重系数; 从所述信息集合中选取权重系数最高的信息为目标信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括 如果所述待识别词语中不存在权重等级为I的词语,重新对所述拼音进行分词处理,以获取至少一个权重等级为I的词语; 则所述根据所述待识别词语查找目标信息数据库,从所述目标信息数据库中获取与所述待识别词语匹配度最高的目标信息为 根据重新分词后的待识别词语查找目标信息数据库,从所述目标信息数据库中获取与所述待识别词语匹配度最高的目标信息。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括 将所述至少一个权重等级为I的词语以及该词语对应的拼音串添加到所述词典中。
5.根据权利要求I所述的方法,其特征在于,所述根据所述待识别词语查找目标信息数据库,从所述目标信息数据库中获取与所述待识别词语匹配度最高的目标信息包括 对所述待识别词语进行排序; 按照所述排序的结果,从所述待识别词语中获取第一个词语,从所述目标信息数据库中获取与所述第一个词语匹配的信息; 从所述待识别词语中获取第二个词语,从所述与第一个词语匹配的信息组成的信息集合中获取与所述第二个词语匹配的信息; 以此类推,从所述待识别词语中获取最后一个词语,从与所述最后一个词语相邻的上一个词语匹配的信息组成的信息集合中获取与所述最后一个词语匹配的目标信息。
6.根据权利要求5所述的方法,其特征在于,所述对所述待识别词语进行排序包括 获取所述待识别词语中的关键词;将所述待识别词语按照关键词、后辅助词以及前辅助词的顺序进行排序; 其中,后辅助词为所述待识别词语中位于关键词之后的词语,前辅助词为所述待识别词语中位于关键词之前的词语。
7.根据权利要求6所述的方法,其特征在于,如果所述待识别词语中包含两个以上关键词,所述后辅助词为所述待识别词语中第一个关键词以后的非关键词。
8.根据权利要求I所述的方法,其特征在于,所述方法还包括 根据所述待识别词语查找口语词库,根据查找结果,从所述待识别词语中删除口语词,其中,口语词库用于存储口语词,所述口语词中不包括涉及到所述用户输入的语音信息中具有实质性含义的文字信息。
9.根据权利要求I所述的方法,其特征在于,所述方法还包括 如果查找到两条以上目标信息,获取用户发送的目标信息选取指示或者用户的语音识别统计信息; 根据所述目标信息选取指示或者语音识别统计信息从所述两条以上目标信息中选取优选目标信息。
10.根据权利要求1-9中任意一项所述的方法,其特征在于,所述方法还包括 对所述拼音进行模糊音匹配处理,获取模糊匹配后的拼音; 则所述采用预先设置的词典对所述拼音进行分词处理,获取分词后的词语拼音串为 采用所述预先设置的词典对所述模糊匹配后的拼音进行分词处理,获取分词后的词语拼首串。
11.一种自然语音识别装置,其特征在于,包括 第一获取单元,用于获取用户输入的语音信息对应的拼音; 分词处理单元,用于采用预先设置的词典对所述第一获取单元获取的拼音进行分词处理,获取分词后的词语拼音串; 第二获取单元,用于从所述词典中查找所述分词处理单元获取的词语拼音串对应的待识别词语; 查找单元,用于根据所述第二获取单元获取的待识别词语查找目标信息数据库,从所述目标信息数据库中获取与所述待识别词语匹配度最高的目标信息; 其中,所述词典用于存储进行语音识别的目标词语以及目标词语对应的拼音。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括 第三获取单元,用于如果所述词典还用于存储所述目标词语对应的权重等级η以及权重等级范围N,根据所述词典获取所述第二获取单元获取的待识别词语对应的权重等级,其中,η、N均为整数,N彡2,n e [I, N],第η级的目标词语在所述文字信息中的重要性要比第n+1级的目标词语在所述文字信息中的重要性大; 则,所述查找单元包括 查找子单元,用于根据所述第二获取单元获取的待识别词语查找目标信息数据库,从所述目标信息数据库中获取与所述待识别词语中的任意一个或多个词语匹配的信息组成的信息集合; 第一获取子单元,用于根据所述第三获取单元获取的待识别词语对应的权重等级,对所述查找子单元获取的信息集合中的每条信息分别进行处理,获取每条信息的权重系数;第二获取子单元,用于从所述查找子单元获取的信息集合中选取第一获取子单元获取的权重系数最高的信息为目标信息。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括 重分词单元,用于如果所述第二获取单元获取的待识别词语中不存在权重等级为I的词语,重新对所述第一获取单元获取的拼音进行分词处理,以获取至少一个权重等级为I的词语; 所述查找单元,还用于根据所述重分词单元重新分词后的待识别词语查找目标信息数据库,从所述目标信息数据库中获取与所述待识别词语匹配度最高的目标信息。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括 更新单元,用于将所述重分词单元获取的至少一个权重等级为I的词语以及该词语对应的拼音串添加到所述词典中。
15.根据权利要求11所述的装置,其特征在于,所述查找单元还包括 排序子单元,用于对所述待识别词语进行排序; 第三获取子单元,用于按照所述排序子单元排序的结果,从所述待识别词语中获取第一个词语,从所述目标信息数据库中获取与所述第一个词语匹配的信息; 第四获取子单元,用于从所述待识别词语中获取第二个词语,从所述与第一个词语匹配的信息组成的信息集合中获取与所述第二个词语匹配的信息; 以此类推,第五获取子单元,用于从所述待识别词语中获取最后一个词语,从与所述最后一个词语相邻的上一个词语匹配的信息组成的信息集合中获取与所述最后一个词语匹配的目标信息。
16.根据权利要求11所述的装置,其特征在于,所述装置还包括 删除单元,用于根据所述第二获取单元获取的待识别词语查找口语词库,根据查找结果,从所述待识别词语中删除口语词,其中,口语词库用于存储口语词,所述口语词中不包括涉及到所述用户输入的语音信息中具有实质性含义的文字信息。
17.根据权利要求11所述的装置,其特征在于,所述装置还包括 第四获取单元,用于如果所述查找单元查找到两条以上目标信息,获取用户发送的目标信息选取指示或者用户的语音识别统计信息; 选取单元,用于根据所述第四获取单元获取的目标信息选取指示或者语音识别统计信息从所述查找单元查找到的两条以上目标信息中选取优选目标信息。
18.根据权利要求11-17中任意一项所述的装置,其特征在于,所述装置还包括 模糊处理单元,用于对所述第一获取单元获取的拼音进行模糊音匹配处理,获取模糊匹配后的拼音; 所述分词处理单元,还用于采用所述预先设置的词典对所述模糊处理单元获取的模糊匹配后的拼音进行分词处理,获取分词后的词语拼音串。
全文摘要
本发明公开一种自然语音识别方法和装置,涉及语音识别技术。以解决采用关键词的方式进行语音识别成功率较低的问题。包括获取用户输入的语音信息对应的拼音;采用预先设置的词典对拼音进行分词处理,获取分词后的词语拼音串;从词典中查找词语拼音串对应的待识别词语;根据待识别词语查找目标信息数据库获取与待识别词语匹配度最高的目标信息;其中,词典用于存储进行语音识别的目标词语以及目标词语对应的拼音。本发明实施例提供的技术方案可以应用在如导航、点歌以及联系人查询等信息服务系统中。
文档编号G06F17/30GK102867512SQ201110184759
公开日2013年1月9日 申请日期2011年7月4日 优先权日2011年7月4日
发明者余喆 申请人:余喆
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1