语音的识别方法和装置、存储介质及电子装置与流程

文档序号:33504297发布日期:2023-03-17 23:13阅读:45来源:国知局
语音的识别方法和装置、存储介质及电子装置与流程

1.本技术涉及智能家居技术领域,具体而言,涉及一种语音的识别方法和装置、存储介质及电子装置。


背景技术:

2.随着人工智能相关技术的日益成熟,越来越多的智能设备开始走进了人们的生活,这些设备可以与人进行交互,不断为人们的生产和生活提供便利,在交互过程中最常使用的一种交互方式为语音交互。在语音交互领域,通过对用户的语音进行语音识别,将语音转换为对应的文字,从而得到语音中携带的关键信息或者使用者的意图信息,后续可直接通过语音识别的结果实现对智能设备的运行状态的控制,从而使得智能设备能够根据用户语音中所包含的意图进行工作。但是,当前的技术在进行语音识别时由于使用者的口音、同音字、算法局限等问题,很容易出现语音识别错误,从而智能设备就可能无法按照用户期望的意图进行工作,在这种情况下,用户只有通过手动的对语音识别结果进行修正或者编辑,才能使得智能设备继续运行,给用户带来了很不好的使用体验。
3.针对相关技术中语音识别效率较低等问题,尚未提出有效的解决方案。


技术实现要素:

4.本技术实施例提供了一种语音的识别方法和装置、存储介质及电子装置,以至少解决相关技术中语音识别效率较低等问题。
5.根据本技术实施例的一个实施例,提供了一种语音的识别方法,包括:从待转换为文本的目标语音中识别纠错意图,其中,所述纠错意图用于描述使用语音转换出的文本中的文字;在从所述目标语音中识别出纠错意图的情况下,将所述目标语音划分为第一段落和第二段落,其中,所述第一段落携带了所述目标语音中的目标纠错意图;对所述第二段落进行文本转换,得到候选文本;使用所述第一段落对所述候选文本进行修正,得到所述目标语音对应的目标文本。
6.可选的,所述从待转换为文本的目标语音中识别纠错意图,包括:接收文本转换请求,其中,所述文本转换请求用于请求将所述目标语音转换为文本;响应所述文本转换请求,从所述目标语音中识别目标格式的语句描述,其中,所述目标格式是用于描述待修正文字的文字样式的语言表达格式。
7.可选的,所述从所述目标语音中识别目标格式的语句描述,包括以下至少之一:从所述目标语音中检索包括所述待修正文字结构的语句描述;从所述目标语音中检索包括使用了所述待修正文字的词语的语句描述。
8.可选的,所述从所述目标语音中检索包括使用了所述待修正文字的词语的语句描述,包括:获取所述目标语音对应的目标字符串;在所述目标字符串中存在参考关键字对应的第一字符串的情况下,检测所述目标字符串中位于所述第一字符串之前的第二字符串是否包括位于所述第一字符串之后的第三字符串;在所述第二字符串包括所述第三字符串的
情况下,将所述第二字符串与目标词典中所包括的词语字符串进行匹配;在所述目标词典中存在于所述第二字符串中的部分或者全部匹配一致的所述词语字符串的情况下,确定所述目标语音中包括使用了所述待修正文字的词语的语句描述。
9.可选的,所述将所述目标语音划分为第一段落和第二段落,包括:将所述目标语音按照语意划分为多个语音片段;从所述多个语音片段中提取出语意中表达了纠错意图的目标语音片段作为所述第一段落,并将所述多个语音片段中除所述目标语音片段之外的其他语音片段确定为所述第二段落。
10.可选的,所述使用所述第一段落对所述候选文本进行修正,得到所述目标语音对应的目标文本,包括:将所述第一段落转换为目标纠错文字;使用所述目标纠错文字修正所述候选文本中对应的文字,得到所述目标文本。
11.可选的,所述将所述第一段落转换为目标纠错文字,包括:将所述第一段落转换为目标字符串,其中,所述目标字符串用于指示所述第一段落的发音;从所述目标字符串中提取表达了所述目标纠错意图的关键字符串;获取所述关键字符串对应的所述目标纠错文字。
12.可选的,所述从所述目标字符串中提取表达了所述目标纠错意图的关键字符串,包括:在所述目标字符串的语言表达格式用于描述所述目标纠错文字的结构的情况下,将所述目标字符串确定为所述关键字符串,其中,所述关键字符串在具有对应关系的字符串与文字中所对应的文字为所述目标纠错文字;在所述目标字符串的语言表达格式用于描述使用了所述目标纠错文字的目标词语的情况下,将所述目标词语对应的字符串确定为所述关键字符串,其中,所述关键字符串在具有对应关系的字符串与文字中所对应的文字为所述目标纠错文字。
13.根据本技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述语音的识别方法。
14.根据本技术实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述语音的识别方法。
15.在本技术实施例中,从待转换为文本的目标语音中识别纠错意图,其中,纠错意图用于描述使用语音转换出的文本中的文字;在从目标语音中识别出纠错意图的情况下,将目标语音划分为第一段落和第二段落,其中,第一段落携带了目标语音中的目标纠错意图;对第二段落进行文本转换,得到候选文本;使用第一段落对候选文本进行修正,得到目标语音对应的目标文本,即在目标语音中包括携带了目标纠错意图的第一段落和待转换为文本内容的第二段落,在从目标语音中识别出有纠错意图的情况下,通过使用携带了纠错意图的第一段落内容对第二段落的候选文本进行修正,进而输出的是目标文本,从而输出的目标文本能够与目标语音的意图匹配。采用上述技术方案,解决了相关技术中语音识别效率较低等问题,实现了提高语音识别的效率的技术效果。
附图说明
16.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施
例,并与说明书一起用于解释本技术的原理。
17.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
18.图1是根据本技术实施例的一种语音的识别方法的硬件环境示意图;
19.图2是根据本技术实施例的一种语音的识别方法的流程图;
20.图3是根据本技术实施例的一种可选的语音片段划分示意图;
21.图4是根据申请实施例的一种可选的文字纠错流程图一;
22.图5是根据申请实施例的一种可选的文字纠错流程图二;
23.图6是根据本技术实施例的一种语音的识别装置的结构框图。
具体实施方式
24.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
25.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.根据本技术实施例的一个方面,提供了一种语音的识别方法。该方法广泛应用于智慧家庭(smart home)、智能家居、智能家用设备生态、智慧住宅(intelligence house)生态等全屋智能数字化控制应用场景。可选地,图1是根据本技术实施例的一种语音的识别方法的硬件环境示意图,在本实施例中,上述方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
27.上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:wifi(wireless fidelity,无线保真),蓝牙。终端设备102可以并不限定于为pc、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波
炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
28.在本实施例中提供了一种语音的识别方法,应用于上述设备终端,图2是根据本技术实施例的一种语音的识别方法的流程图,如图2所示,该流程包括如下步骤:
29.步骤s202,从待转换为文本的目标语音中识别纠错意图,其中,所述纠错意图用于描述使用语音转换出的文本中的文字;
30.步骤s204,在从所述目标语音中识别出纠错意图的情况下,将所述目标语音划分为第一段落和第二段落,其中,所述第一段落携带了所述目标语音中的目标纠错意图;
31.步骤s206,对所述第二段落进行文本转换,得到候选文本;
32.步骤s208,使用所述第一段落对所述候选文本进行修正,得到所述目标语音对应的目标文本。
33.通过上述步骤,在目标语音中包括携带了目标纠错意图的第一段落和待转换为文本内容的第二段落,在从目标语音中识别出有纠错意图的情况下,通过使用携带了纠错意图的第一段落内容对第二段落的候选文本进行修正,进而输出的是目标文本,从而输出的目标文本能够与目标语音的意图匹配。采用上述技术方案,解决了相关技术中语音识别效率较低等问题,实现了提高语音识别的效率的技术效果。
34.在上述步骤s202提供的技术方案中,在目标语音中识别纠错意图可以是通过识别语音中用于指示纠错意图的目标关键字的方式,进而将包括目标关键字的语音内容确定为纠错意图对应的语音内容,比如,检测到目标语音中包括“改为”“修正为”“更改”等关键字时,则确定目标语音中存在纠错意图,将包括该关键词的语音内容作为用于纠错的语音内容。
35.可选地,在本实施例中,在目标语音中识别纠错意图可以是通过对目标语音的中的语音内容的格式识别的方式,当识别到的语音中包括目标格式的语音内容的情况下,确定该部分语音内容为纠错意图对应的语音内容,该目标格式为用于描述待修改文字的语言表达格式,比如,公知的成语或者诗句,该成语或者语句中包括的一个或者多个与目标语音中其他部分内容中包括的读音相同的文字。
36.可选地,在本实施例中,纠错意图可以是通过描述文字的组成结构、文字笔顺、文字的常用组词或者公知的语句的方式描述需要转换出的文本中的文字,比如,通过“文刀刘”用来描述汉字刘的汉字结构,进而能够指示语音中需要更换的文字是“刘”字,比如“一撇一捺”是汉字人书写笔顺,进而通过“一撇一捺”来描述需要更换的文字是“人”字,比如“状元及第”这个成语来描述“第”字。
37.在上述步骤s204提供的技术方案中,第一段落和第二段落在目标语音中的顺序可以是任意的顺序,比如,可以是第一段落在前,第二段落在后,第二段落在前第一段落在后,或者第二段落位于多个第一段落中间,比如,目标语音中包括一个待转换为文本的第二段落以及多个第一段落,第二段落可以是在目标语音的开头,在目标语音的结尾或者是插入在多个第一段落之间,本方案对比不作限定。
38.可选地,在本实施例中,第二段落可以是目标语音中一段连续的语音内容,或者还可以是对目标语音中的多个不连续的语音内容进行拼接得到的,比如,在进行划分时,可以按照语音之间的短暂间隔对目标语音进行断句处理,得到多个语音片段,并将表达了纠错意图的目标语音片段作为第一段落,并将多个语音片段中除了目标语音片段以外的语音片
段作为第二段落,或者当对多个语音片段进行识别后发现多个语音识别片段全部都是第一语音片段后,可以对第一语音片段的纠错意图进行识别,从而对纠错意图中待修正文字对应的语音内容提取出来,并按照先后顺序进行拼接,从而得到第二段落,例如用户想要输出的文字内容是“我要去泰山”这段话,用户可以在一整句目标语音中先说出“我要去泰山”再说出对这句话需要修正的文字对应的目标纠错意图,同过对语句进行断句并将纠错意图对应的目标语音片段作为第一段落,并将“我要去泰山”作为第二语音段落,或者还可以是用户依次输入5句目标纠错意图的语音,这5个纠错意图分别用于描述“我”“要”“去”“泰”“山”这5个字,进而将5个纠错意图中与待修改的文字部分提取出来,从而得到第二段落。
39.在上述步骤s206提供的技术方案中,候选文本可以是文字文本,或者还可以是目标语音对应的拼音文本。
40.在上述步骤s208提供的技术方案中,使用第一段落对候选文本进行修正的方式可以但不限于包括对候选文本中的文字进行更改或者是在候选文本中增加文字内容,比如可以是根据第一段落确定出待修正的目标文字,并将候选文本中与目标文字读音相同的文字更换为目标文字,或者还可以是根据第一段落确定候选文本中待增加的目标文字,以及目标文字在候选文本中的增添位置,从而在候选文本中添加目标文字后得到目标文本。
41.作为一种可选的实施例,所述从待转换为文本的目标语音中识别纠错意图,包括:
42.接收文本转换请求,其中,所述文本转换请求用于请求将所述目标语音转换为文本;
43.响应所述文本转换请求,从所述目标语音中识别目标格式的语句描述,其中,所述目标格式是用于描述待修正文字的文字样式的语言表达格式。
44.可选地,在本实施例中,从目标格式的语音中识别出目标格式的语句描述可以但不限于根据目标语音对应的拼音文本,进而根据拼音文本进行识别,从而得到目标格式的语句描述。
45.可选地,在本实施例中,目标格式的语句描述可以但不限于包括描文字书写结构的描述语句、文字的书写笔顺的描述语句、文字的组词方式或者包含文字的诗句等等,比如“文刀刘”是汉字“刘”的文字书写结构描述语句,通过该语句秒描述候选文本中读音为“liu”的待修正文字的文字样式,或者“人一撇一捺”这个描述语句描述了“人”字的书写笔顺,通过该语句描述候选文本中读音为“ren”的待修正文字的文字样式,再比如“状元及第的第”描述了汉字“第”,通过该语句对候选文本中读音为“di”的待修正文字的文字样式。
46.作为一种可选的实施例,所述从所述目标语音中识别目标格式的语句描述,包括以下至少之一:
47.从所述目标语音中检索包括所述待修正文字结构的语句描述;
48.从所述目标语音中检索包括使用了所述待修正文字的词语的语句描述。
49.可选地,在本实施例中,从目标语音中检索包括所述待修正文字结构的语句描述的方式可以是通过使用预设文字结构描述语句对目标语音进行匹配的方式,比如,将目标语音转换为拼音文本,将预审结构描述语句的拼音文本与目标语音对应的拼音文本进行匹配,从而在目标语音中识别出第一格式的语句描述。
50.可选地,在本实施例中,从目标语音中检索包括使用了所述待修正文字的词语的语句描述的方式可以是通过使用预设文字描述词语对目标语音进行识别的方式,比如,目
标语音中包括的第二格式的语句描述是“状元及第的第”,该语句通过词语“状元及第”来描述待修正文字“第”,因此,使用预设描述词语对目标语音进行匹配,在预设词语和目标语音中包括的词语“状元及第”的读音匹配一致的情况下,确定“状元及第的第”为第二格式的语句描述。
51.图3是根据本技术实施例的一种可选的语音片段划分示意图,如图3所示,可以但不限于包括如下内容:
52.s301,获取到目标语音,目标语音包括两部分内容,即待转换为文本的第二段落,以及用于对第二段落中内容进行修正的第一段落;
53.s302,使用预设文字结构描述语句对目标语音进行匹配,得到包括待修正文字结构的语句描述,并将包括待修正文字结构的语句描述确定为第一段落;
54.s303,使用预设文字描述词语对目标语音进行匹配,得到包括使用了待修正文字的词语的语句描述,并将包括使用了待修正文字的词语的语句描述确定为第一段落;
55.s304,将目标语音中除第一段落以外的内容确定为第二段落。
56.作为一种可选的实施例,所述从所述目标语音中检索包括使用了所述待修正文字的词语的语句描述,包括:
57.获取所述目标语音对应的目标字符串;
58.在所述目标字符串中存在参考关键字对应的第一字符串的情况下,检测所述目标字符串中位于所述第一字符串之前的第二字符串是否包括位于所述第一字符串之后的第三字符串;
59.在所述第二字符串包括所述第三字符串的情况下,将所述第二字符串与目标词典中所包括的词语字符串进行匹配;
60.在所述目标词典中存在于所述第二字符串中的部分或者全部匹配一致的所述词语字符串的情况下,确定所述目标语音中包括使用了所述待修正文字的词语的语句描述。
61.可选的,在本实施例中,参考关键字为描述使用了所述待修正文字的词语的语句描述中指示词语中的目标纠错文字的关键字,参考关键字可以但不限于包括“的”“中第x个字”比如,语句描述“状元及第的第”为描述使用了使用了待修正文字“第”的词语(状元及第)的语句描述,该语句描述中关键字“的”用来指示“状元及第”这四个字中文字“第”是待修正文字,或者,语句描述“状元及第中第四个字第”为描述使用了使用了待修正文字“第”的词语(状元及第)的语句描述,该语句描述中关键字“中第四个字”用来指示“状元及第”这四个字中排序位于第四个的文字“第”是待修正文字。
62.可选的,在本实施例中,第二字符串中包括第三字符串用于指示第二字符串中的部分或者全部字符串与第三字符串相同,比如对于“状元及第的第”这句语句描述,参考关键字是“的”,第二字符串为“状元及第”对应的拼音文本,第三字符串为参考关键字“的”后的文字“第”的拼音文本,第二字符串中的“第”对应的字符串和第三字符串相同。
63.可选的,在本实施例中,目标词典中的词语以根据历史时间段内的参考语音的识别结果确定的,或者还可以是预设的公知成语或者词语等,比如,在历史时间参考语音记性识别的到的参考文本,将参考文本中的词语或者语句作为目标词语,用作后续的文本识别。
64.作为一种可选的实施例,所述将所述目标语音划分为第一段落和第二段落,包括:
65.将所述目标语音按照语意划分为多个语音片段;
66.从所述多个语音片段中提取出语意中表达了纠错意图的目标语音片段作为所述第一段落,并将所述多个语音片段中除所述目标语音片段之外的其他语音片段确定为所述第二段落。
67.可选地,在本实施例中,可以通过检测语音片段中是否具有与纠错意图对应的目标关键词的方式从多个语音片段中提取出目标语音片段,从而将包括目标关键词的目标语音片段作为第一段落,目标关键词可以但不限于包括“删除”“修改”“更改”等等,目标关键词可以是根据用用户的历史语音习惯确定的关键词,比如,用户过去的一段时间内常用“修改”和“更改”这两个关键词,因此可以直接将“修改”和“更改”作为目标关键词,检测语音片段中是否存在这两个关键词,或者还可以是根据在确定用户在过去一段时间内常用“修改”和“更改”这两个关键词进行文本纠错,计算这两个关键词的参考词向量,并对语音片段进行分词划分,以及词向量计算,在语音片段中存在与参考词向量匹配的关键词作为目标关键词。
68.可选地,在本实施例中,可以通过检测语音片段中是否存在与纠错意图对应的纠错模板的方式从多个语音片段中提取出目标语音片段,该纠错模板用于描述描述目标纠错字的文字样式,比如通过描述目标纠错文字的书写笔顺的方式描述目标纠错文字,通过描述目标纠错文字的文字结构的方式描述目标纠错文字或者是通过包括目标纠错文字的参考词语的方式描述目标纠错文字,比如“木子李”这个纠错模板用于描述汉字“李”的文字结构,“状元及第的第”这个纠错模板用于描述汉字“第”的文字样式,通过被人们熟知的包括汉字“第”的成语进行描述。纠错模板可以是通过对用户的语音习惯进行识别确定的,或者还可以是用户根据自身需要手动设置的。
69.作为一种可选的实施例,所述使用所述第一段落对所述候选文本进行修正,得到所述目标语音对应的目标文本,包括:
70.将所述第一段落转换为目标纠错文字;
71.使用所述目标纠错文字修正所述候选文本中对应的文字,得到所述目标文本。
72.可选地,在本实施例中,目标纠错文字可以是根据第一段落包括的用于描述待修正文字的文字样式的目标描述语句生成的,或者还可以是从具有对应关系的描述语句和纠错词中确定的与目标描述语句对应的目标纠错文字,比如,描述语句为用于描述文字的笔顺或者文字的组成结构的语句,进而使用文字生成模型生成与目标描述语句对应的目标纠错文字。
73.在上述实施例中,第一段落携带了目标语音中的目标纠错意图,第一段落中可以记录了用于描述待修正文字的结构的第一格式的语句描述,或者还可以是记录了用于描述使用了待修正文字的词语的第二格式的语句描述,进而能够通过第一段落确定出目标纠错文字,图4是根据申请实施例的一种可选的文字纠错流程图一,如图4所示,可以但不限于包括如下步骤:
74.s401,获取目标语音,该目标语音中包括量部分,即待转换为文本的第二段落,以及用于对第二段落中内容进行修正的第一段落,将目标文本转换为拼音格式的拼音字符串;
75.s402,预设词典中存储了用于描述待修正文字结构的包括所述待修正文字结构的语句描述,这些描述通过描述汉字部首和组成的字,以及语句描述对应的拼音字符串,比
如:“立早章(lizaozhang)”、“弓长张(gongchangzhang)”、“白勺的(baishaode/baishaodi)”、“土也地(tuyede/tuyedi)”;
76.s403,通过匹配目标文本对应的拼音字符串和包括所述待修正文字结构的语句描述对应的拼音字符串的方式,从而确定目标语音中是否存在包括所述待修正文字结构的语句描述;
77.s404,在存在包括所述待修正文字结构的语句描述的情况下,根据语句描述确定目标纠错文字,即“章”、“张”“的”等等。
78.s405,检测目标语音的第二段落对应的文本(候选文本)中是否存在与目标纠错文字读音相同的待纠错文字;
79.s406,在存在待纠错文字的情况下,将目标语音对应的候选文本中的待纠错文字替换为目标纠错文字;
80.s407,输出文本纠错后的目标文本。
81.图5是根据申请实施例的一种可选的文字纠错流程图二,如图5所示,可以但不限于包括如下步骤:
82.s501,获取目标语音,该目标语音中包括量部分,即待转换为文本的第二段落,以及用于对第二段落中内容进行修正的第一段落,将目标文本转换为拼音格式的拼音字符串;
83.s502,检测目标文本中是否存在与关键字“的”读音相同的文字;
84.s503,在目标文本中存在与关键字“的”读音相同文字的情况下,检测关键字前是否存在目标词语,该目标词语中存在与关键字后相邻位置的文字读音相同的文字,比如“状元及第的第”包含同音字“第(di)”;
85.s504,在存在目标词语的情况下,检测目标词语是否位于预设词典中,预设词典中记录了公知的词语以及用户常用的词语以及常用词的拼音格式的字符串,比如“嘉宾(jiabin)”、“智慧(zhihui)”、“甲乙丙丁(jiayibingding)”、“状元及第(zhuangyuanjidi)”等等;
86.s505,在预设词典中存在目标词语的情况下,将目标词语中与关键字后文字读音相同的文字确定为目标纠错文字;
87.s506,将目标语音对应的候选文本中的待纠错文字替换为目标纠错文字;
88.s507,输出文本纠错后的目标文本。
89.作为一种可选的实施例,所述将所述第一段落转换为目标纠错文字,包括:
90.将所述第一段落转换为目标字符串,其中,所述目标字符串用于指示所述第一段落的发音;
91.从所述目标字符串中提取表达了所述目标纠错意图的关键字符串;
92.获取所述关键字符串对应的所述目标纠错文字。
93.可选地,在本实施例中,目标字符可以是第一段落的拼音字符串,或者平甲字字符串,或者是英文单词的字符串,本方案对此不做限定。
94.可选地,在本实施例中,通过检测目标字符串中是否包括与目标纠错意图对应的关键词或者纠错模板读音相同的字符串的方式从而在目标字符串中提取出关键字符串,比如转换后的拼音格式的目标字符串为“lizaozhang”该字符串与纠错模板“立早章”的拼音
文本相同,因此确定该字符串为关键字符串,或者转换后的品议格式的目标字符串中包括关键字“更改”对应的拼音字符串“genggai”因此可以将包括该拼音字符串对应的字符串确定为关键字符串。
95.作为一种可选的实施例,所述从所述目标字符串中提取表达了所述目标纠错意图的关键字符串,包括:
96.在所述目标字符串的语言表达格式用于描述所述目标纠错文字的结构的情况下,将所述目标字符串确定为所述关键字符串,其中,所述关键字符串在具有对应关系的字符串与文字中所对应的文字为所述目标纠错文字;
97.在所述目标字符串的语言表达格式用于描述使用了所述目标纠错文字的目标词语的情况下,将所述目标词语对应的字符串确定为所述关键字符串,其中,所述关键字符串在具有对应关系的字符串与文字中所对应的文字为所述目标纠错文字。
98.可选地,在本实施例中,目标词语可以根据历史时间段内的参考语音的识别结果确定的,或者还可以是预设的公知成语或者词语等,比如,在历史时间参考语音记性识别的到的参考文本,将参考文本中的词语或者语句作为目标词语,用作后续的文本识别。
99.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本技术各个实施例的方法。
100.图6是根据本技术实施例的一种语音的识别装置的结构框图;如图6所示,包括:识别模块62,用于从待转换为文本的目标语音中识别纠错意图,其中,所述纠错意图用于描述使用语音转换出的文本中的文字;
101.处理模块64,用于在从所述目标语音中识别出纠错意图的情况下,将所述目标语音划分为第一段落和第二段落,其中,所述第一段落携带了所述目标语音中的目标纠错意图;
102.转换模块66,用于对所述第二段落进行文本转换,得到候选文本;
103.修正模块68,用于使用所述第一段落对所述候选文本进行修正,得到所述目标语音对应的目标文本。
104.通过上述实施例,从待转换为文本的目标语音中识别纠错意图,其中,纠错意图用于描述使用语音转换出的文本中的文字;在从目标语音中识别出纠错意图的情况下,将目标语音划分为第一段落和第二段落,其中,第一段落携带了目标语音中的目标纠错意图;对第二段落进行文本转换,得到候选文本;使用第一段落对候选文本进行修正,得到目标语音对应的目标文本,即在目标语音中包括携带了目标纠错意图的第一段落和待转换为文本内容的第二段落,在从目标语音中识别出有纠错意图的情况下,通过使用携带了纠错意图的第一段落内容对第二段落的候选文本进行修正,进而输出的是目标文本,从而输出的目标文本能够与目标语音的意图匹配。采用上述技术方案,解决了相关技术中语音识别效率较低等问题,实现了提高语音识别的效率的技术效果。
105.可选的,所述识别模块,包括:接收单元,用于接收文本转换请求,其中,所述文本
转换请求用于请求将所述目标语音转换为文本;识别单元,用于响应所述文本转换请求,从所述目标语音中识别目标格式的语句描述,其中,所述目标格式是用于描述待修正文字的文字样式的语言表达格式。
106.可选的,所述识别单元,用于执行以下操作至少之一:从所述目标语音中检索包括所述待修正文字结构的语句描述;从所述目标语音中检索包括使用了所述待修正文字的词语的语句描述。
107.可选的,所述识别单元,还用于:获取所述目标语音对应的目标字符串;在所述目标字符串中存在参考关键字对应的第一字符串的情况下,检测所述目标字符串中位于所述第一字符串之前的第二字符串是否包括位于所述第一字符串之后的第三字符串;在所述第二字符串包括所述第三字符串的情况下,将所述第二字符串与目标词典中所包括的词语字符串进行匹配;在所述目标词典中存在于所述第二字符串中的部分或者全部匹配一致的所述词语字符串的情况下,确定所述目标语音中包括使用了所述待修正文字的词语的语句描述。
108.可选的,所述处理模块,包括:将所述目标语音按照语意划分为多个语音片段;从所述多个语音片段中提取出语意中表达了纠错意图的目标语音片段作为所述第一段落,并将所述多个语音片段中除所述目标语音片段之外的其他语音片段确定为所述第二段落。
109.可选的,所述修正模块,包括:转换单元,用于将所述第一段落转换为目标纠错文字;修正单元,用于使用所述目标纠错文字修正所述候选文本中对应的文字,得到所述目标文本。
110.可选的,所述转换单元,用于:将所述第一段落转换为目标字符串,其中,所述目标字符串用于指示所述第一段落的发音;从所述目标字符串中提取表达了所述目标纠错意图的关键字符串;获取所述关键字符串对应的所述目标纠错文字。
111.可选的,所述转换单元,用于:在所述目标字符串的语言表达格式用于描述所述目标纠错文字的结构的情况下,将所述目标字符串确定为所述关键字符串,其中,所述关键字符串在具有对应关系的字符串与文字中所对应的文字为所述目标纠错文字;在所述目标字符串的语言表达格式用于描述使用了所述目标纠错文字的目标词语的情况下,将所述目标词语对应的字符串确定为所述关键字符串,其中,所述关键字符串在具有对应关系的字符串与文字中所对应的文字为所述目标纠错文字。
112.本技术的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的语音的识别方法。
113.可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:从待转换为文本的目标语音中识别纠错意图,其中,所述纠错意图用于描述使用语音转换出的文本中的文字;在从所述目标语音中识别出纠错意图的情况下,将所述目标语音划分为第一段落和第二段落,其中,所述第一段落携带了所述目标语音中的目标纠错意图;对所述第二段落进行文本转换,得到候选文本;使用所述第一段落对所述候选文本进行修正,得到所述目标语音对应的目标文本。
114.本技术的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项语音的识别方法实施例中的步骤。
115.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
116.可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:从待转换为文本的目标语音中识别纠错意图,其中,所述纠错意图用于描述使用语音转换出的文本中的文字;在从所述目标语音中识别出纠错意图的情况下,将所述目标语音划分为第一段落和第二段落,其中,所述第一段落携带了所述目标语音中的目标纠错意图;对所述第二段落进行文本转换,得到候选文本;使用所述第一段落对所述候选文本进行修正,得到所述目标语音对应的目标文本。
117.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
118.可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
119.显然,本领域的技术人员应该明白,上述的本技术的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本技术不限制于任何特定的硬件和软件结合。
120.以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1