一种针对粤语音频的拓展方法及语音识别方法与流程

文档序号:30603723发布日期:2022-07-01 22:07阅读:214来源:国知局
一种针对粤语音频的拓展方法及语音识别方法与流程

1.本技术涉及音频处理领域,更具体地,涉及一种针对粤语音频的拓展方法及语音识别方法。


背景技术:

2.随着计算机技术的快速发展,人工智能在人们的日常生活中越来越普遍。语音识别是将声音信号转换为对应的文本,其是实现人机交互非常重要的途径之一。近年来,随着语音识别准确率的极大提升和智能设备的不断普及,语音输入已经成为文字输入的主要方式之一,语音交互也已经在越来越多的场景得到应用。
3.在不同的语种下,发音规则存在差异,若要训练用于识别某一语种的音频,则需要预先采集该语种的若干音频对语音识别模型进行训练。在实际中,若是需要训练用于识别某一小语种的语音识别模型,采集用于训练该语音识别模型的音频的时间较长,而且,所采集用于训练的音频可能在发音上分布不均衡,进而,影响语音识别模型的语音识别准确度。


技术实现要素:

4.鉴于上述问题,本技术实施例提出了一种针对粤语音频的拓展方法、装置、电子设备及存储介质,以改善上述问题。
5.第一方面,本技术实施例提供了一种针对粤语音频的拓展方法,所述方法包括:获取样本音频集中各样本音频对应的音素文本;所述音素文本包括至少一个音素;所述样本音频为粤语音频;根据所述样本音频集中各样本音频对应的音素文本,统计各音素的音素词频;对于各样本音频,将所述样本音频所对应音素文本中音素对应的音素词频进行均值计算,得到所述样本音频对应的第一平均词频;根据所述样本音频对应的第一平均词频,确定所述样本音频对应的拓展权重,其中,所述拓展权重与第一平均词频呈负相关关系;根据各所述样本音频对应的拓展权重,在所述样本音频集中确定待拓展的目标样本音频;将所述目标样本音频进行音频拓展,得到拓展音频;所述拓展音频和所述样本音频集中的样本音频用于对语音识别模型进行训练。
6.第二方面,本技术实施例提供了一种针对粤语音频的拓展装置,包括:获取模块,用于获取样本音频集中各样本音频对应的音素文本;所述音素文本包括至少一个音素;音素词频统计模块,用于根据所述样本音频集中各样本音频对应的音素文本,统计各音素的音素词频;第一平均词频确定模块,用于对于各样本音频,将所述样本音频所对应音素文本中音素对应的音素词频进行均值计算,得到所述样本音频对应的第一平均词频;拓展权重确定模块,用于根据所述样本音频对应的第一平均词频,确定所述样本音频对应的拓展权重,其中,所述拓展权重与第一平均词频呈负相关关系;目标样本音频确定模块,用于根据各所述样本音频对应的拓展权重,在所述样本音频集中确定待拓展的目标样本音频;拓展音频确定模块,用于将所述目标样本音频进行音频拓展,得到拓展音频;所述拓展音频和所述样本音频集中的样本音频用于对语音识别模型进行训练。
7.在一些实施例中,目标样本音频确定模块包括:样本音频子集确定单元,用于根据预设的多个拓展权重区间和各所述样本音频对应的拓展权重,将所述样本音频集中的样本音频进行分类,得到各拓展权重区间对应的样本音频子集;拓展数量确定单元,用于确定各拓展权重区间对应的拓展数量,所述拓展数量与拓展权重呈正相关;样本音频选取单元,用于对于各拓展权重区间,按照所述拓展权重区间对应的拓展数量从所述拓展权重区间对应的样本音频子集中选取样本音频;第一目标样本音频确定单元,用于将所选取出的样本音频作为待拓展的目标样本音频。
8.在一些实施例中,拓展数量确定单元包括:拓展比例获取子单元,用于获取为各拓展权重区间设定的拓展比例;拓展数量确定子单元,用于根据各拓展权重区间设定的拓展比例和所述样本音频集中的样本音频总数,确定各拓展权重区间对应的拓展数量。
9.在一些实施例中,拓展音频确定模块包括处理单元,用于对所述目标样本音频进行指定处理,得到所对应的拓展音频,所述指定处理包括加噪处理、语速加快处理和增加混响处理中的至少一种。
10.在一些实施例中,拓展权重确定模块包括:差值计算单元,用于计算所述样本音频对应的第一平均词频与词频阈值之间的差值;数值区间确定单元,用于确定所述差值所属的数值区间;第一拓展权重确定单元,用于根据数值区间与拓展权重之间的对应关系,将所述差值所属的数值区间对应的拓展权重,作为所述样本音频对应的拓展权重。
11.在另一些实施例中,拓展权重确定模块包括:目标词频区间确定单元,用于确定所述样本音频对应的第一平均词频所属的目标词频区间;第二拓展权重确定单元,用于根据词频区间与拓展权重之间的对应关系,确定所述目标词频区间所对应的拓展权重;第三拓展权重确定单元,用于将所述目标词频区间所对应的拓展权重,作为所述样本音频对应的拓展权重。
12.在另一些实施例中,目标样本音频确定模块包括:样本音频确定单元,用于根据各所述样本音频对应的拓展权重,在所述样本音频集中确,拓展权重大于权重阈值的样本音频;第二目标样本音频确定单元,用于将所述拓展权重大于权重阈值的样本音频作为待拓展的目标样本音频。
13.第三方面,本技术实施例提供了一种电子设备,包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上所述的针对粤语音频的拓展方法。
14.第四方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被处理器执行时,实现如上所述的针对粤语音频的拓展方法。
15.在本技术的方案中,先根据样本音频集中各样本音频对应的音素文本,然后根据各样本音频对应的音素文本统计各音素的音素词频,基于统计的各音素的音素词频,对各样本音频中对应音素的音素词频进行均值计算,得到各样本音频对应的第一平均词频,然后根据各样本音频的第一平均词频确定各样本音频的拓展权重,从而,根据各样本音频的拓展权重在样本音频集中确定待拓展的目标样本音频,最后对目标样本音频进行音频拓展,得到拓展音频,将拓展音频和样本音频集中的样本音频用于对语音识别模型进行训练。
16.在本技术的方案中,通过确定样本音频集中各样本音频中各音素的音素词频,然
后计算各样本音频的对应的第一平均词频,基于第一平均词频来确定样本音频的拓展权重,由于第一平均词频能够反映各样本音频所对应音素文本中音素覆盖的整体情况,并且第一平均词频与拓展权重呈负相关关系,从而能够对音素覆盖率越低的样本音频确定更高的拓展权重,进而,音素覆盖率越低的样本音频被选中进行音频拓展的概率就越高。这样,由于音素覆盖率较低的样本音频被进行拓展的概率越高,则,相较于仅将样本音频集作为语音识别模型的训练数据,将拓展所得到的拓展音频和样本音频集中的样本音频均作为语音识别模型的训练数据,提升了训练数据中音素覆盖的均衡性,从而,根据拓展音频和样本音频集中的样本音频对语音识别模型进行训练,可以保证训练后语音识别模型的识别准确度,解决了用于训练语音识别模型的样本音频在发音上分布不均衡所导致识别准确度不高的问题。
17.应当理解的是,以上的一般描述和后文细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
18.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1是根据本技术一实施例示出的一种针对粤语音频的拓展方法的流程示意图。
20.图2是根据本技术一实施例示出的步骤140的具体步骤流程示意图。
21.图3是根据本技术另一实施例示出的步骤140的具体步骤流程示意图。
22.图4是根据本技术一实施例示出的步骤150的具体步骤流程示意图。
23.图5是根据本技术一实施例示出的步骤420的具体步骤流程示意图。
24.图6是根据本技术一实施例示出的在利用语音识别模型进行语音识别之前的具体步骤流程示意图。
25.图7是根据本技术一实施例示出的一种针对粤语音频的拓展装置的框图。
26.图8是根据本技术一实施例示出的电子设备的硬件结构图。
27.通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限值本发明构思的范围,而是通过特定实施例为本领域计算书人员说明本发明的概念。
具体实施方式
28.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
29.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方
法、装置、实现或者操作以避免模糊本技术的各方面。
30.图1是根据本技术一实施例示出的针对粤语音频的拓展方法的流程示意图,该方法可以由具备计算处理能力的电子设备执行,电子设备例如台式电脑、笔记本电脑等终端设备,该方法还可以由包括服务器和终端的处理系统来交互执行。如图1所示,该方法包括以下步骤:
31.步骤110,获取样本音频集中各样本音频对应的音素文本;音素文本包括至少一个音素;样本音频为粤语音频。
32.在其他应用场景中,样本音频集中的样本音频可以是属于同一语种的音频,例如均为粤语音频,另外,样本音频集中的样本音频也可以是藏语音频、东北方言音频、四川方言音频等,在此不进行具体限定。
33.音素(phone)是指是根据语音的自然属性划分出来的最小语音单位。音素依据音节里的发音动作来分析,一个动作构成一个音素,如普通话中的啊(
ā
)有一个音素
ā
;爱(
à
i)有两个音素,即
à
和i;代(d
à
i)有三个音素,即d、
à
和i。
34.在不同的语种下,相同的文本对应的发音存在差异。在本技术中,可以预先确定样本音频所属的语种,之后,将样本音频转换为在该样本音频所属语种下的音素文本,换言之,该样本音频对应的音素文本反映了在该样本音频所属语种下该样本音频对应的文本内容的发音情况。
35.在一些实施例中,可根据样本音频的发音确定该样本音频对应的各音素,然后确定各音素的文本形式,例如,代(d
à
i)有三个音素,对应的音素文本为d、
à
和i。
36.在一些实施例中,每一样本音频对应有一标识符,该标识符用于区分各样本音频,可以理解的是,各样本音频对应的文本内容也有与各样本音频相同的标识符,在后续利用各样本音频训练语音识别模型时,能够快速准确的找到各样本音频和各样本音频对应的文本内容,并且各样本音频的标识符不同,且每一样本音频的标识符都是唯一的。
37.步骤120,根据样本音频集中各样本音频对应的音素文本,统计各音素的音素词频。
38.其中,各音素的音素词频即统计各音素在样本音频集全部样本音频所对应音素文本中的出现次数。在另一些实施例中,各音素的音素词频还可以是音素在样本音频集全部样本音频所对应音素文本中的出现频率,即音素的音素词频=k/n,其中,k为一音素在样本音频集全部样本音频所对应音素文本中的出现次数,n为样本音频集全部样本音频所对应音素文本中全部音素的出现次数之和。
39.步骤130,对于各样本音频,将样本音频所对应音素文本中音素对应的音素词频进行均值计算,得到样本音频对应的第一平均词频。
40.在一些实施例中,可根据步骤120中统计的各音素的音素词频,可得知各样本音频中每一个音素对应的音素词频,然后再计算该样本音频所对应音素文本中全部音素的音素词频的平均值。例如,若一音频的文本内容为粤语的“人事”,对应其音素文本为j、an3(3表示声调,an3表示三声的an)、s和i4(该音素表示四声的i),根据步骤120中统计的各音素词频确定在该样本音频中各音素的音素词频具体为:j(10)、an3(23)、s(12)和i4(75),然后计算该样本音频的音素词频的平均值为:(10+23+12+75)/4=30,即该样本音频对应的第一平均词频为30。
41.步骤140,根据样本音频对应的第一平均词频,确定样本音频对应的拓展权重,其中,拓展权重与第一平均词频呈负相关关系。
42.拓展权重用于反映样本音频需要进行音频拓展的概率的大小,在本技术中,拓展权重与第一平均词频呈负相关关系,即,若一样本音频对应的第一平均词频越大,则该样本音频对应的拓展权重越小。
43.对于音素而言,若一音素的音素词频越高,则表明该音素在样本音频集所对应音素文本集中出现的频率越高,由于一样本音频对应的第一平均词频是将该样本音频所对应音素文本中全部音素的音素词频进行均值计算得到,则该第一平均词频可以反映该样本音频所对应音素文本中音素覆盖的整体情况,即第一平均词频越高,则该样本音频所对应音素文本中音素覆盖率越高。
44.对于语音识别模型而言,为了保证语音识别模型的识别准确率,需要保证训练数据的均衡性,例如覆盖不同音素的音频基本均衡。如果某一音素或者音素文本覆盖率较低,则表明需要增加该音素或者音素文本所对应音频的覆盖率。基于此,在本技术中,由于样本音频对应的第一平均词频反映了该样本音频所对应音素文本的音素覆盖情况,第一平均词频越小,则表明需要对增加该样本音频所对应音素文本的覆盖率,因此,对于第一平均词频越小的样本音频,赋予较高的拓展权重,则在后续的过程中,对该样本音频进行扩展的概率越高。
45.在一些实施例中,如图2所示,步骤140包括:
46.步骤210,计算样本音频对应的第一平均词频与词频阈值之间的差值。
47.在一些实施例中,可以将样本音频集中所有样本音频对应音素文本中音素对应的音素词频进行均值计算,得到第二平均词频,将得到的第二平均词频作为词频阈值。在本实施例中,将第二平均词频作为词频阈值,然后计算第一平均词频与词频阈值之间的差值。在另一些实施例中,词频阈值也可由用户自定义设定,在此不进行具体限定。
48.步骤220,确定差值所属的数值区间。
49.在一些实施例中,可预先划分多个数值区间,并设定各数值区间对应的拓展权重。例如,可以以10为单位划分数值区间,具体的,可以是0-9为第一数值区间,10-19为第二数值区间,以此类推,若差值为15,则确定差值属于第二数值区间。具体划分的数值区间的数量,和各数值区间所包括的数值可根据实际需要设定,在此不进行具体限定。
50.步骤230,根据数值区间与拓展权重之间的对应关系,将差值所属的数值区间对应的拓展权重,作为样本音频对应的拓展权重。
51.如上所描述,由于预先设定了各数值区间对应的拓展权重,因此,在确定差值所属的数值区间后,可以对应确定该差值所属的数值区间对应的拓展权重,得到样本音频对应的拓展权重。
52.在一些实施例中,数值区间与拓展权重之间的对应关系可以是一数值区间对应一拓展权重,在另一些实施例中,数值区间与拓展权重之间的对应关系还可以是多个数值区间对应一拓展权重,可根据实际需要来设定数值区间与拓展权重之间的对应关系,在此不进行具体限定。
53.在另一些实施例中,如图3所示,步骤140包括:
54.步骤310,确定样本音频对应的第一平均词频所属的目标词频区间。
55.目标词频区间是指第一平均词频所属的词频区间。
56.在一些实施例中,可根据步骤120中统计的各音素的音素词频确定音素词频的最大值和最小值,基于该最大值和最小值划分多个词频区间,具体的,以最小值和最大值为起点和终点,对最大值和最小值所限定的范围划分多个词频区间。可选的,可根据音素词频的最大值和最小值划分10个词频区间,基于步骤130计算得到样本音频对应的第一平均词频,来确定该第一平均词频所属的目标词频区间。例如,若音素词频的最大值为80,最小值为21,可划分21-25为第一词频区间,26-30为第二词频区间,以此类推,得到10个词频区间,若步骤130中计算得到的第一平均词频为33,可确定第一平均词频所属的目标词频区间为第三词频区间(音素词频为31-35的词频区间)。在另一些实施例中,用户可自定义设定词频区间的数量以及对应的范围,在此不进行具体限定。
57.步骤320,根据词频区间与拓展权重之间的对应关系,确定目标词频区间所对应的拓展权重。
58.在本实施例中,可以预先设定多个词频区间,并设定各词频区间对应的拓展权重,这样,在确定样本音频对应的第一平均词频所属的目标词频区间,可以对应确定目标词频区间对应的拓展权重。
59.在一些实施例中,词频区间与拓展权重之间的对应关系可以是一词频区间对应一拓展权重,在另一些实施例中,词频区间与拓展权重之间的对应关系还可以是多个词频区间对应一拓展权重,可根据实际需要来设定词频区间与拓展权重之间的对应关系,在此不进行具体限定。
60.步骤330,将目标词频区间所对应的拓展权重,作为样本音频对应的拓展权重。
61.请继续参阅图1,步骤150,根据各样本音频对应的拓展权重,在样本音频集中确定待拓展的目标样本音频。
62.如上所描述,一样本音频对应的拓展权重越高,则该样本音频用于拓展的概率越高。因此,在通过如上的步骤110-140确定各样本音频对应的拓展权重,后,可以基于拓展权重来从样本音频集中选取需要进行拓展的样本音频。
63.在一些实施例中,可以从样本音频集中选取所对应的拓展权重超过权重阈值的样本音频,并将所选取的拓展权重超过权重阈值的样本音频作为待拓展的目标样本音频。
64.在另一些实施例中,如图4所示,步骤150包括:
65.步骤410,根据预设的多个拓展权重区间和各样本音频对应的拓展权重,将样本音频集中的样本音频进行分类,得到各拓展权重区间对应的样本音频子集。
66.在一些实施例中,可预先设置多个拓展权重区间,每一拓展权重区间对应有一数值范围的权重值,可根据步骤140中确定的各样本音频的拓展权重的权重值来确定各样本音频对应的拓展权重所属的拓展权重区间。
67.具体的,可预先设置多个拓展权重区间,可根据拓展权重区间来对样本音频集中的样本音频进行分类,确定属于同一拓展权重区间的样本音频,属于同一拓展权重区间的样本音频即构成该拓展权重区间对应的样本音频子集。
68.步骤420,确定各拓展权重区间对应的拓展数量,拓展数量与拓展权重呈正相关。
69.拓展数量与拓展权重呈正相关是指,拓展权重越高,该拓展权重所在的拓展权重区间对应的拓展数量越多。各拓展权重区间对应的拓展数量是指各拓展权重区间对应的样
本音频子集中选取的需要进行拓展的样本音频的数量。
70.在一些实施例中,可以预先设定各拓展权重区间对应的拓展数量。
71.在另一些实施例中,如图5所示,步骤420包括:
72.步骤510,获取为各拓展权重区间设定的拓展比例。
73.拓展比例是指在各拓展区间中选取的样本音频的数量在样本音频集的所有样本音频的数量的占比。该拓展比例的具体数值由用户自定义设定,在此不进行具体限定。
74.步骤520,根据各拓展权重区间设定的拓展比例和样本音频集中的样本音频总数,确定各拓展权重区间对应的拓展数量。
75.在一些实施例中,拓展数量是由拓展比例与样本音频集中的样本音频总数相乘得到的。例如,一拓展区间设定的拓展比例为30%,样本音频集中的样本音频总数为200,该拓展权重区间对应的拓展数量为a,则a=30%*200=60。
76.步骤430,对于各拓展权重区间,按照拓展权重区间对应的拓展数量从拓展权重区间对应的样本音频子集中选取样本音频。
77.在一些实施例中,可在各拓展权重区间对应的样本音频子集中选取对应拓展数量的样本音频。在选取过程中,可以是随机选取,也可以是按照拓展权重由高到低进行选取,在此不进行具体限定。
78.步骤440,将所选取出的样本音频作为待拓展的目标样本音频。
79.请继续参阅图1,步骤160,将目标样本音频进行音频拓展,得到拓展音频;拓展音频和样本音频集中的样本音频用于对语音识别模型进行训练。
80.语音识别的本质是一种基于语音特征参数的模式识别,即通过学习,语音识别模型能够把输入的语音按一定模式进行分类,进而依据判定准则找出最佳匹配结果。在本技术的方案中的语音识别任务是利用语音识别模型来识别音频对应的文本内容。
81.在应用语音识别模型之前需要将语音识别模型进行训练。由于训练语音识别模型需要大量的训练数据,可将用于训练语音识别模型的样本音频进行音频拓展,把拓展音频和样本音频均作为对语音识别模型进行训练的训练数据,以此来丰富训练数据。
82.在一些实施例中,步骤160包括:
83.对目标样本音频进行指定处理,得到所对应的拓展音频,指定处理包括加噪处理、语速加快处理和增加混响处理中的至少一种。
84.通过对样本音频进行加噪处理、语速加快处理和增加混响处理中的至少一种,可以使样本音频的内容场景更加丰富,也可确保语音识别模型在应用时也能根据采集的有噪声的音频数据、有混响的音频数据、语速快的音频数据进行语音识别。
85.语音识别模型用于识别一段音频对应的文本内容。在一些实施例中,可以指定语音识别模型所要输出的指定语种,该指定语种可以是用于训练该语音识别模型的音频所属语种相同,也可以不同,具体可根据实际需要进行设定。例如,语音识别模型的输入音频为粤语音频,语音识别模型的输出文本可以是该音频对应的粤语文本,也可以是普通话文本,还可以是英文文本,可根据实际需要来设定语音识别模型输出的文本内容的语种类型,在此不进行具体限定。
86.在利用样本音频训练语音识别模型之前,需要选取多个样本音频进行数据拓展,以确保用于训练语音识别模型的训练数据的数据量足够丰富。对于大数量级的样本音频集
(例如普通话的样本音频集)而言,随机选取多个样本音频进行数据拓展能够得到更加丰富的用于语音识别模型训练的训练数据,但是,对于小数量级的样本音频集而言,随机选取多个样本音频进行数据拓展,无法确保音素词频低的样本音频(例如包含多个生僻字的样本音频)能够被选中,从而增加了用于训练语音识别模型的训练数据的稀疏性。为了降低训练数据的稀疏性,可根据各样本音频对应的拓展权重,目的性地进行抽取多个样本音频作为待拓展的目标样本音频。
87.在本技术的方案中,先根据样本音频集中各样本音频对应的音素文本,然后根据各样本音频对应的音素文本统计各音素的音素词频,基于统计的各音素的音素词频,对各样本音频中对应音素的音素词频进行均值计算,得到各样本音频对应的第一平均词频,然后根据各样本音频的第一平均词频确定各样本音频的拓展权重,从而,根据各样本音频的拓展权重在样本音频集中确定待拓展的目标样本音频,最后对目标样本音频进行音频拓展,得到拓展音频,将拓展音频和样本音频集中的样本音频用于对语音识别模型进行训练。
88.在本技术的方案中,通过确定样本音频集中各样本音频中各音素的音素词频,然后计算各样本音频的对应的第一平均词频,基于第一平均词频来确定样本音频的拓展权重,由于第一平均词频能够反映各样本音频所对应音素文本中音素覆盖的整体情况,并且第一平均词频与拓展权重呈负相关关系,从而能够对音素覆盖率越低的样本音频确定更高的拓展权重,进而,音素覆盖率越低的样本音频被选中进行音频拓展的概率就越高。这样,由于音素覆盖率较低的样本音频被进行拓展的概率越高,则,相较于仅将样本音频集作为语音识别模型的训练数据,将拓展所得到的拓展音频和样本音频集中的样本音频均作为语音识别模型的训练数据,提升了训练数据中音素覆盖的均衡性,从而,根据拓展音频和样本音频集中的样本音频对语音识别模型进行训练,可以保证训练后语音识别模型的识别准确度,解决了用于训练语音识别模型的样本音频在发音上分布不均衡所导致识别准确度不高的问题。
89.根据本技术的一个方面,示出了一种语音识别方法,该方法可以由具备计算处理能力的电子设备执行,电子设备例如台式电脑、笔记本电脑等终端设备,该方法还可以由包括服务器和终端的处理系统来交互执行。该方法包括:获取待识别语音,待识别语音为粤语语音;由语音识别模型对待识别语音进行语音识别,得到待识别语音的文本内容,语音识别模型是通过上述针对粤语音频的拓展方法得到的拓展音频和样本音频集中的样本音频训练得到的。
90.在另一些实施例中,待识别语音还可以是藏语语音、东北方言语音、四川方言语音等,在此不进行具体限定。
91.在一些实施例中,如图6所示,在利用语音识别模型进行语音识别之前,该方法还包括:
92.步骤610,获取各样本音频对应的文本内容。
93.在一些实施例中,样本音频对应的文本内容为样本音频对应的普通话文本。在另一些实施例中,样本音频对应的文本内容也可以是英文文本、粤语文本或其他语言文本,可根据实际需要来选择样本音频对应的文本内容的语言类型。步骤620,由语音识别模型对训练音频进行语音识别,获得训练音频对应的预测文本内容,训练音频为样本音频或者样本音频对应的拓展音频。
94.在一些实施例中,可以构建用于进行语音识别的神经网络模型,将该用于语音识别的神经网络模型称为语音识别模型,可选的,该语音识别模型可以通过卷积神经网络、循环神经网络、长短时记忆神经网络、全连接神经网络、前馈神经网络等来构建的。
95.步骤630,根据训练音频对应的预测文本内容和训练音频对应的文本内容,计算模型损失;若训练音频为样本音频对应的拓展音频,训练音频对应的文本内容为拓展音频所来源样本音频对应的文本内容。
96.在一些实施例中,语音识别模型的损失可以是预测文本内容与实际文本内容之间的差值。可选的,语音识别模型的损失可以是ctc(connectionist temporal classification,连接时序分类)loss、交叉熵损失、绝对值损失等,在此不进行具体限定,ctc loss是指在语音识别模型的训练过程中将预测文本内容和实际文本内容一一对应,然后计算预测文本内容与实际文本内容之间的差值,将该差值确定为该语音识别模型的损失。
97.步骤640,根据模型损失反向调整语音识别模型的参数,直至达到训练结束条件。
98.在一些实施例中,训练结束条件可以是语音识别模型的迭代次数达到次数阈值,也可以是语音识别模型损失的损失值不大于损失阈值,损失阈值可根据实际需要来设定。
99.当达到训练结束条件时,代表语音识别模型训练完成,即可将该语音识别模型在实际生活中进行应用。
100.图7是根据本技术一实施例示出的针对粤语音频的拓展装置的框图,如图7所示,该针对粤语音频的拓展装置700包括:获取模块710、音素词频统计模块720、第一平均词频确定模块730、拓展权重确定模块740、目标样本音频确定模块750以及拓展音频确定模块760。
101.获取模块710,用于获取样本音频集中各样本音频对应的音素文本;音素文本包括至少一个音素;音素词频统计模块720,用于根据样本音频集中各样本音频对应的音素文本,统计各音素的音素词频;第一平均词频确定模块730,用于对于各样本音频,将样本音频所对应音素文本中音素对应的音素词频进行均值计算,得到样本音频对应的第一平均词频;拓展权重确定模块740,用于根据样本音频对应的第一平均词频,确定样本音频对应的拓展权重,其中,拓展权重与第一平均词频呈负相关关系;目标样本音频确定模块750,用于根据各样本音频对应的拓展权重,在样本音频集中确定待拓展的目标样本音频;拓展音频确定模块760,用于将目标样本音频进行音频拓展,得到拓展音频;拓展音频和样本音频集中的样本音频用于对语音识别模型进行训练。
102.在一些实施例中,目标样本音频确定模块750包括:样本音频子集确定单元,用于根据预设的多个拓展权重区间和各样本音频对应的拓展权重,将样本音频集中的样本音频进行分类,得到各拓展权重区间对应的样本音频子集;拓展数量确定单元,用于确定各拓展权重区间对应的拓展数量,拓展数量与拓展权重呈正相关;样本音频选取单元,用于对于各拓展权重区间,按照拓展权重区间对应的拓展数量从拓展权重区间对应的样本音频子集中选取样本音频;第一目标样本音频确定单元,用于将所选取出的样本音频作为待拓展的目标样本音频。
103.在一些实施例中,拓展数量确定单元包括:拓展比例获取子单元,用于获取为各拓展权重区间设定的拓展比例;拓展数量确定子单元,用于根据各拓展权重区间设定的拓展
比例和样本音频集中的样本音频总数,确定各拓展权重区间对应的拓展数量。
104.在一些实施例中,拓展音频确定模块760包括处理单元,用于对目标样本音频进行指定处理,得到所对应的拓展音频,指定处理包括加噪处理、语速加快处理和增加混响处理中的至少一种。
105.在一些实施例中,拓展权重确定模块740包括:差值计算单元,用于计算样本音频对应的第一平均词频与词频阈值之间的差值;数值区间确定单元,用于确定差值所属的数值区间;第一拓展权重确定单元,用于根据数值区间与拓展权重之间的对应关系,将差值所属的数值区间对应的拓展权重,作为样本音频对应的拓展权重。
106.在另一些实施例中,拓展权重确定模块740包括:目标词频区间确定单元,用于确定样本音频对应的第一平均词频所属的目标词频区间;第二拓展权重确定单元,用于根据词频区间与拓展权重之间的对应关系,确定目标词频区间所对应的拓展权重;第三拓展权重确定单元,用于将目标词频区间所对应的拓展权重,作为样本音频对应的拓展权重。
107.在另一些实施例中,目标样本音频确定模块750包括:样本音频确定单元,用于根据各所述样本音频对应的拓展权重,在所述样本音频集中确,拓展权重大于权重阈值的样本音频;第二目标样本音频确定单元,用于将所述拓展权重大于权重阈值的样本音频作为待拓展的目标样本音频。
108.根据本技术的一个方面,提供了一种语音识别装置,该语音识别装置包括:待识别语音获取模块,用于获取待识别语音,所述待识别语音为粤语语音;语音识别模块,用于由语音识别模型对所述待识别语音进行语音识别,得到所述待识别语音的文本内容,所述语音识别模型是通过上述针对粤语音频的拓展方法得到的拓展音频和样本音频集中的样本音频训练得到的。
109.在一些实施例中,该语音识别装置还包括:文本内容获取模块,用于获取各样本音频对应的文本内容;语音识别模块,用于由语音识别模型对训练音频进行语音识别,获得训练音频对应的预测文本内容,训练音频为样本音频或者样本音频对应的拓展音频;模型损失计算模块,用于根据训练音频对应的预测文本内容和训练音频对应的文本内容,计算模型损失;若训练音频为样本音频对应的拓展音频,训练音频对应的文本内容为拓展音频所来源样本音频对应的文本内容;调整模块,用于根据模型损失反向调整语音识别模型的参数,直至达到训练结束条件。在本实施例中,样本音频对应的文本内容为样本音频对应的普通话文本。
110.根据本技术的一个方面,还提供了一种电子设备,其包括:处理器;存储器,存储器上存储有计算机可读指令,计算机可读指令被处理器执行时,实现上述任一实施例中的方法。
111.根据本技术实施例的一个方面,提供了计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一实施例中的方法。
112.根据本技术实施例的一个方面,还提供了一种电子设备,如图8所示,该电子设备800包括处理器810以及一个或多个存储器820,一个或多个存储器820用于存储被处理器810执行的程序指令,处理器810执行程序指令时实施上述的对象识别方法。
113.进一步地,处理器810可以包括一个或者多个处理核。处理器810运行或执行存储在存储器820内的指令、程序、代码集或指令集,以及调用存储在存储器820内的数据。可选地,处理器810可以采用数字信号处理(digital signal processing,dsp)、现场可编程门阵列(field-programmable gate array,fpga)、可编程逻辑阵列(programmable logic array,pla)中的至少一种硬件形式来实现。处理器810可集成中央处理器(central processing unit,cpu)、图像处理器(graphics processing unit,gpu)和调制解调器等中的一种或几种的组合。其中,cpu主要处理操作系统、用户界面和应用程序等;gpu用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器中,单独通过一块通信芯片进行实现。
114.根据本技术的一个方面,本技术还提供了一种计算机可读存储介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载计算机可读指令,当该计算机可读存储指令被处理器执行时,实现上述任一实施例中的方法。
115.需要说明的是,本技术实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(erasable programmable read only memory,eprom)、闪存、光纤、便携式紧凑磁盘只读存储器(compact disc read-only memory,cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本技术中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本技术中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
116.描述于本技术实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
117.应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
118.附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于
实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
119.本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
120.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1