语音识别的后处理方法及其装置、计算机可读存储介质与流程

文档序号:29494001发布日期:2022-04-06 14:24阅读:154来源:国知局
语音识别的后处理方法及其装置、计算机可读存储介质与流程

1.本发明涉及自然语言处理领域,具体而言,涉及一种语音识别的后处理方法及其装置、计算机可读存储介质。


背景技术:

2.现有的语音识别技术一般分为两个阶段:首先,音频数据通过声学模型将声音信号转换成音素;其次,音素数据通过语言模型转换成匹配的文本识别结果。在上述语音识别技术的第二阶段中,实时语音识别为了保证实时率,很难做到结合大量文本的上下文进行音素到文本的解码。由此导致语音识别结果只能做到局部最优识别结果,无法做到全局最优识别结果。
3.针对上述的问题,目前尚未提出有效的解决方案。


技术实现要素:

4.本发明实施例提供了一种语音识别的后处理方法及其装置、计算机可读存储介质,以至少解决针对相关技术中语音识别过程中对于相同音素不同内容的词语辨识度不足的技术问题。
5.根据本发明实施例的一个方面,提供了一种语音识别的后处理方法,包括:对目标文本进行音素分析,以得到所述目标文本中音素相同的多个第一词语;确定所述多个第一词语在所述目标文本中的词性为名词的部分第一词语;对所述部分第一词语所在子文本进行分析,得到分析结果;在所述分析结果表示所述子文本中的所述第一词语不相同时,确定在所述子文本中对所述第一词语进行替换的第二词语;利用所述第二词语替换所述子文本中的第一词语。
6.可选地,在对目标文本进行音素分析之前,所述方法还包括:通过声学模型将原始声音信号转化为音素信息;利用语言模型对所述音素信息进行解码,得到所述目标文本。
7.可选地,确定所述多个第一词语在所述目标文本中的词性为名词的部分第一词语,包括:在所述目标文本中定位出所述多个第一词语所在的子文本,其中,所述子文本包括以下至少之一:短语、句子和段落;对所述子文本进行词性分析,以获取所述子文本中词性为名词的所述部分第一词语。
8.可选地,在获取所述子文本中词性为名词的所述部分第一词语之后,所述方法还包括:为所述子文本添加标记。
9.可选地,所述方法还包括:在所述分析结果表示所述子文本中的所述第一词语均相同时,释放所述子文本的标记。
10.可选地,确定在所述子文本中对所述第一词语进行替换的第二词语,包括:基于预定算法对所述部分第一词语进行处理,以获取所述第二词语,其中,所述预定算法包括以下至少之一:概率分析算法和投票选择算法。
11.根据本发明实施例的另外一个方面,还提供了一种语音识别的后处理装置,包括:
第一分析模块,用于对目标文本进行音素分析,以得到所述目标文本中音素相同的多个第一词语;第一确定模块,用于确定所述多个第一词语在所述目标文本中的词性为名词的部分第一词语;第二分析模块,用于对所述部分第一词语所在子文本进行分析,得到分析结果;第二确定模块,用于在所述分析结果表示所述子文本中的所述第一词语不相同时,确定在所述子文本中对所述第一词语进行替换的第二词语;替换模块,用于利用所述第二词语替换所述子文本中的第一词语。
12.可选地,所述装置还包括:转化模块,用于在对目标文本进行音素分析之前,通过声学模型将原始声音信号转化为音素信息;解码模块,用于利用语言模型对所述音素信息进行解码,得到所述目标文本。
13.可选地,所述第一确定模块,包括:定位单元,用于在所述目标文本中定位出所述多个第一词语所在的子文本,其中,所述子文本包括以下至少之一:短语、句子和段落;分析单元,用于对所述子文本进行词性分析,以获取所述子文本中词性为名词的所述部分第一词语。
14.可选地,所述装置还包括:标记模块,用于在获取所述子文本中词性为名词的所述部分第一词语之后,为所述子文本添加标记。
15.可选地,所述装置还包括:释放模块,用于在所述分析结果表示所述子文本中的所述第一词语均相同时,释放所述子文本的标记。
16.可选地,所述第二确定模块,包括:处理单元,用于基于预定算法对所述部分第一词语进行处理,以获取所述第二词语,其中,所述预定算法包括以下至少之一:概率分析算法和投票选择算法。
17.根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述计算机可读存储介质所在设备执行上述中任一项所述的语音识别的后处理方法。
18.根据本发明实施例的另外一个方面,还提供了一种处理器,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行上述中任一项所述的语音识别的后处理方法。
19.在本发明实施例中,对目标文本进行音素分析,以得到目标文本中音素相同的多个第一词语;确定多个第一词语在目标文本中的词性为名词的部分第一词语;对部分第一词语所在子文本进行分析,得到分析结果;在分析结果表示子文本中的第一词语不相同时,确定在子文本中对第一词语进行替换的第二词语;利用第二词语替换子文本中的第一词语。通过本发明实施例提供的语音识别的后处理方法,达到了利用音素相同的特性将同音不同字的词语提取出来并利用文本分析对文本进行勘误的目的,从而实现了提升语音识别的正确率的技术效果,进而解决了针对相关技术中语音识别过程中对于相同音素不同内容的词语辨识度不足的技术问题。
附图说明
20.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
21.图1是根据本发明实施例的语音识别的后处理方法的流程图;
22.图2是根据本发明实施例的语音识别的后处理装置的示意图。
具体实施方式
23.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
24.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
25.实施例1
26.根据本发明实施例,提供了一种语音识别的后处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
27.图1是根据本发明实施例的语音识别的后处理方法的流程图,如图1所示,该方法包括如下步骤:
28.步骤s102,对目标文本进行音素分析,以得到目标文本中音素相同的多个第一词语。
29.可选的,在上述步骤中,对语音转化成的文本进行分析,将其中相同音素但不同内容的词语(即第一词语)提取出来,例如,“一一”与“依依”的音素同为“yi1yi1”,但却不同内容,即不同字体表达。另外,需要说明的是,提取出的相同音素但不同内容的词语可以为多个。
30.步骤s104,确定多个第一词语在目标文本中的词性为名词的部分第一词语。
31.可选的,在上述步骤中,分析上述提取出的相同音素但不同内容的词语的词性,将其中词性为名词的二次提取出来,以便后续处理。
32.步骤s106,对部分第一词语所在子文本进行分析,得到分析结果。
33.步骤s108,在分析结果表示子文本中的第一词语不相同时,确定在子文本中对第一词语进行替换的第二词语。
34.可选的,在上述步骤中,分析结果表示提取出在子文本中的多个相同音素但不同内容的词语之间不相同时,则利用预定算法确定对第一词语进行勘误的正确表达方式的与第一词语同音素的词语。
35.步骤s110,利用第二词语替换子文本中的第一词语。
36.由上可知,在本发明实施例中,首先可以对目标文本进行音素分析,以得到目标文
本中音素相同的多个第一词语;接着可以确定多个第一词语在目标文本中的词性为名词的部分第一词语;接着可以对部分第一词语所在子文本进行分析,得到分析结果;接着可以在分析结果表示子文本中的第一词语不相同时,确定在子文本中对第一词语进行替换的第二词语;最后可以利用第二词语替换子文本中的第一词语。通过本发明实施例提供的语音识别的后处理方法,达到了利用音素相同的特性将同音不同字的词语提取出来并利用文本分析对文本进行勘误的目的,从而实现了提升语音识别的正确率的技术效果,进而解决了针对相关技术中语音识别过程中对于相同音素不同内容的词语辨识度不足的技术问题。
37.作为一种可选的实施例,在对目标文本进行音素分析之前,该语音识别的后处理方法还包括:通过声学模型将原始声音信号转化为音素信息;利用语言模型对音素信息进行解码,得到目标文本。
38.在上述可选的实施例中,通过设定好的声学模型将原始待识别的声音(即原始声音信号)转化为纯音素信息(即音素信息),再利用语言模型对音素信息进行解码,再转化为目标本文信息,以便接下来对目标文本进行勘误。
39.作为一种可选的实施例,确定多个第一词语在目标文本中的词性为名词的部分第一词语,包括:在目标文本中定位出多个第一词语所在的子文本,其中,子文本包括以下至少之一:短语、句子和段落;对子文本进行词性分析,以获取子文本中词性为名词的部分第一词语。
40.在上述可选的实施例中,首先对第一词语进行原文本中的位置进行定位,也即搜索到第一词语所在的片段文本(即子文本),接着判断提取出的第一词语的词性,在第一词语为名词的情况下,提取出子文本中词性为名词的多个第一词语中的部分第一词语。
41.需要说明的是,子文本包括但不限于:短语、句子和段落。
42.作为一种可选的实施例,在获取子文本中词性为名词的部分第一词语之后,该语音识别的后处理方法还包括:为子文本添加标记。
43.在上述可选的实施例中,在提取出多个第一词语中的部分为名词的第一词语后,则对其进行标记,方便下一步处理。
44.作为一种可选的实施例,该语音识别的后处理方法还包括:在分析结果表示子文本中的第一词语均相同时,释放子文本的标记。
45.在上述可选的实施例中,若分析结果表示多个子文本中的第一词语之间是相同的,则不存在异义,释放标记;若分析结果表示多个子文本中的第一词语之间是不相同的,则保留标记。
46.作为一种可选的实施例,确定在子文本中对第一词语进行替换的第二词语,包括:基于预定算法对部分第一词语进行处理,以获取第二词语,其中,预定算法包括以下至少之一:概率分析算法和投票选择算法。
47.在上述可选的实施例中,在确定提取出的第一词语存在错误的可能,则利用基于语境的概率分析算法分析出多个候选词语,接着利用相似度投票的算法进行票选出正确度最高的第二词语,并利用第二词语对第一词语进行替换,提高了语音识别的正确率。
48.由上可知,在本发明实施例中,首先对目标文本进行音素分析,以得到目标文本中音素相同的多个第一词语;接着可以确定多个第一词语在目标文本中的词性为名词的部分第一词语;接着可以对部分第一词语所在子文本进行分析,得到分析结果;接着可以在分析
结果表示子文本中的第一词语不相同时,确定在子文本中对第一词语进行替换的第二词语;最后可以利用第二词语替换子文本中的第一词语,达到了利用音素相同的特性将同音不同字的词语提取出来并利用文本分析对文本进行勘误的目的,从而实现了提升语音识别的正确率的技术效果,进而解决了针对相关技术中语音识别过程中对于相同音素不同内容的词语辨识度不足的技术问题。
49.此外,需要说明的是,本发明实施例提供的语音识别的后处理方法,可以应用于非实时录音识别场景,相对于比实时语音识别的应用场景更宽容,允许在所有语音识别出结果后,进行全文名词分析优化,达到更高的识别率与和更准确的语义表达。其处理过程是通过语音识别技术将音频转写成文本,并且对转写的结果进行篇章级的上下文语义关联优化处理。处理过程包括:相同音素识别,词性分析,命中词选择,表达统一化。
50.即,第一步、语音识别,使用声学模型将声音信号转化成音素,然后将通过语言模型将音素解码成文本信息。
51.第二步、相同音素分析,利用第一步结果中产生的音素信息,找出相同的音素,比如上文举例的“l i3yi1yi1”(候选词:李一一,李依依)。
52.第三步、词性分析,从所有上下文中查找与“l i3yi1yi1”相同的音素对应的文本,获得其对应的文本后,分析其在句子中的词性,如果均为名词,则对文本进行标记,方便下一步处理。
53.第四步、命中词选择,从上一步标记的文本中一组数据,如果该组数据中的文本均相同,则该组数据语意表达无歧义,可直接释放标记,如果发现组内文本有不相同的,则取出该组数据进行概率分析和投票选择。命中词的选择可以使用最简单的词频作为投票指标,选择出现最多的词语作为命中词,也可以使用通篇文本的其他词语计算与命中词的语意相关度。
54.第五步、表达统一化,将第四步中命中的候选词,逐一替换到原来候选词的位置。通过上述语音识别的后处理方法,在语音识别结束后,特别是非实时的语音识别场景下,有足够的上下文信息,并结合上下文信息,进行篇章级别的优化。该发明能够结合上下文音素和词语词性进行分析,中相同音素的名词进行统一处理,保证该名词在上下文中的语意的准确性。
55.实施例2
56.根据本发明实施例的另外一个方面,还提供了一种语音识别的后处理装置,图2是根据本发明实施例的语音识别的后处理装置的示意图,如图2所示,包括:第一分析模块21、第一确定模块23、第二分析模块25、第二确定模块27以及替换模块29。下面对该语音识别的后处理装置进行说明。
57.第一分析模块21,用于对目标文本进行音素分析,以得到目标文本中音素相同的多个第一词语;
58.第一确定模块23,用于确定多个第一词语在目标文本中的词性为名词的部分第一词语;
59.第二分析模块25,用于对部分第一词语所在子文本进行分析,得到分析结果;
60.第二确定模块27,用于在分析结果表示子文本中的第一词语不相同时,确定在子文本中对第一词语进行替换的第二词语;
61.替换模块29,用于利用第二词语替换子文本中的第一词语。
62.此处需要说明的是,上述第一分析模块21、第一确定模块23、第二分析模块25、第二确定模块27以及替换模块29对应于实施例1中的步骤s102至s110,上述模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
63.由上可知,在本发明实施例中,首先可以利用第一分析模块21对目标文本进行音素分析,以得到目标文本中音素相同的多个第一词语;接着利用第一确定模块23确定多个第一词语在目标文本中的词性为名词的部分第一词语;接着利用第二分析模块25对部分第一词语所在子文本进行分析,得到分析结果;接着利用第二确定模块27在分析结果表示子文本中的第一词语不相同时,确定在子文本中对第一词语进行替换的第二词语;最后可以利用替换模块29利用第二词语替换子文本中的第一词语。通过本发明实施例提供的语音识别的后处理装置,达到了利用音素相同的特性将同音不同字的词语提取出来并利用文本分析对文本进行勘误的目的,从而实现了提升语音识别的正确率的技术效果,进而解决了针对相关技术中语音识别过程中对于相同音素不同内容的词语辨识度不足的技术问题。
64.可选地,该语音识别的后处理装置还包括:转化模块,用于在对目标文本进行音素分析之前,通过声学模型将原始声音信号转化为音素信息;解码模块,用于利用语言模型对音素信息进行解码,得到目标文本。
65.可选地,第一确定模块,包括:定位单元,用于在目标文本中定位出多个第一词语所在的子文本,其中,子文本包括以下至少之一:短语、句子和段落;分析单元,用于对子文本进行词性分析,以获取子文本中词性为名词的部分第一词语。
66.可选地,该语音识别的后处理装置还包括:标记模块,用于在获取子文本中词性为名词的部分第一词语之后,为子文本添加标记。
67.可选地,该语音识别的后处理装置还包括:释放模块,用于在分析结果表示子文本中的第一词语均相同时,释放子文本的标记。
68.可选地,第二确定模块,包括:处理单元,用于基于预定算法对部分第一词语进行处理,以获取第二词语,其中,预定算法包括以下至少之一:概率分析算法和投票选择算法。
69.实施例3
70.根据本发明实施例的另外一个方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序被处理器运行时控制计算机可读存储介质所在设备执行上述中任一项的语音识别的后处理方法。
71.实施例4
72.根据本发明实施例的另外一个方面,还提供了一种处理器,处理器用于运行计算机程序,其中,计算机程序运行时执行上述中任一项的语音识别的后处理方法。
73.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
74.在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
75.在本技术所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或
者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
76.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
77.另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
78.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
79.以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1