一种英文端到端语音识别方法、装置、设备和介质与流程

文档序号：33179045发布日期：2023-02-04 04:27阅读：37来源：国知局

1.本发明涉及语音识别技术领域，特别涉及一种英文端到端语音识别方法、装置、设备和介质。

背景技术：

2.语音识别(automatic speech recognition,asr)是一种将人类说话的声音识别转换为文本的技术，可应用于语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等服务中。
3.对于英文的端到端语音识别，其语音识别模型的训练样本一般基于bpe子词来进行处理，但bpe子词只是根据字母组合出现的频率来进行分词，没有考虑字母组合与实际发音的对应关系，使语音识别模型训练的不准确，进而导致语音识别准确度不高。

技术实现要素：

4.鉴于上述问题，本发明实施例提供了一种英文端到端语音识别方法、装置、设备和介质，以便克服上述问题或者至少部分地解决上述问题。
5.本发明实施例的第一方面，公开了一种英文端到端语音识别方法，所述方法包括：
6.获取待识别的英文语音；
7.将所述待识别的英文语音输入到预先训练好的ctc模型中进行识别，得到所述英文语音对应的英文文本；
8.其中，所述ctc模型是以英文语音和对应的英文文本为训练样本训练得到的，所述英文文本是基于字母组合与发音的对应关系进行切分得到的。
9.可选地，所述方法还包括：
10.将未切分的英文文本输入到预先训练好的切分标注模型中进行切分处理，得到切分后的英文文本，其中，所述切分标注模型的训练样本是按照字母组合与发音的对应关系进行切分得到的。
11.可选地，所述将未切分的英文文本输入到预先训练好的切分标注模型中进行切分处理，包括：
12.所述切分标注模型对所述未切分的英文文本中的每个单词的字母进行位置标记。
13.可选地，所述切分标注模型的训练过程，包括：
14.按照字母组合与发音的对应关系，对训练单词进行预处理，生成所述训练单词对应的特征向量，所述特征向量表征各个字母在该训练单词中的位置关系；
15.将所述特征向量输入到切分标注模型进行训练，得到训练后的切分标注模型，所述训练后的切分标注模型具有根据字母组合与发音的对应关系对单词进行分词的功能。
16.可选地，所述对训练单词进行预处理，生成所述训练单词对应的特征向量，包括：
17.按照所述训练单词各字母的顺序，将所述训练单词拆分为多个字母组合，并对所述字母组合中每个字母的进行位置标记，并生成所述每个字母对应的特征向量。
18.本发明实施例的第二方面，公开了一种英文端到端语音识别装置，所述装置包括：
19.获取模块，用于获取待识别的英文语音；
20.识别模块，用于将所述待识别的英文语音输入到预先训练好的ctc模型中进行识别，得到所述英文语音对应的英文文本；其中，所述ctc模型是以英文语音和对应的英文文本为训练样本训练得到的，所述英文文本是基于字母组合与发音的对应关系进行切分得到的。
21.可选地，所述装置还包括：
22.样本处理模块，用于将未切分的英文文本输入到预先训练好的切分标注模型中进行切分处理，得到切分后的英文文本，其中，所述切分标注模型的训练样本是按照字母组合与发音的对应关系进行切分得到的。
23.可选地，所述样本处理模块，包括：
24.标记模块，用于所述切分标注模型对所述未切分的英文文本中的每个单词的字母进行位置标记。
25.本发明实施例的第三方面，公开了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现如本发明第一方面实施所述的英文端到端语音识别方法。
26.本发明实施例第四方面，公开了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现本实施例第一方面所述的英文端到端语音识别方法。
27.本发明实施例包括以下优点：
28.在本发明实施例中，利用预先训练好的ctc模型对英文语音进行识别，以得到对应的英文文本，由于用于训练ctc的模型的英文文本是基于字母组合与发音的对应关系进行切分得到的，即英文文本与实际的发音具有一定对应关系，符合实际的语言规律，所以基于该英文文本训练得到的ctc模型更加准确，进而提高了英文语音识别的准确性。
附图说明
29.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
30.图1是本发明实施例提供的一种英文端到端语音识别方法步骤流程图；
31.图2是本发明实施例提供的一种切分标注模型训练方法步骤流程图；
32.图3是本发明实施例提供的一种英文端到端语音识别装置的结构示意图。
具体实施方式
33.为使本发明的上述目的、特征和优点能够更加明显易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
34.对于英文语音识别的相关技术中，语音识别模型的训练英文文本一般基于单个英文单词、单个字符以及bpe字词三种方式来进行处理，但基于单个英文单词处理的训练英文文本大，且训练速度慢，在进行英文语音识别时难以处理罕见或训练过程中没有出现的单词；而基于单个字符处理的训练英文文本由于分词粒度太细，会丢失了很多单词本身所具有的语意信息；而基于bpe子词来进行处理的训练英文文本分词粒度虽然处于单词级别和字符级别之间，但bpe子词只是根据字母组合出现的频率来进行分词，没有考虑字母组合与实际发音的对应关系，使语音识别模型训练的不准确。
35.因此，为了克服上述局限性，申请人提出以下技术构思：结合实际的语言发音规律，对用于语音识别模型的训练英文文本中的每个单词按照字母组合与发音的对应关系进行切分处理，使得切分后的训练英文文本也满足实际的语言规律，进而使基于该切分后的训练文本训练得到的ctc模型更加准确。
36.基于上述技术构思，本发明实施例提供了一种英文端到端语音识别方法，如图1所示，图1为本发明实施例提供的一种英文端到端语音识别方法步骤流程图，包括以下步骤：
37.步骤s101：获取待识别的英文语音。
38.在本实施例中，待识别的英文语音可以是网络系统中的英文语音，以及人类实时说话产生的英文语音，英文语音可以通过多种方式获取，可以从网络中抓取，也可以通过录音设备采集，例如，针对网络系统中的英文语音，通过网络抓取的方式获得相应的英文语音，针对人类实时说话产生的英文语音，通过录音设备进行采集，进而得到相应的英文语音。
39.由于待识别的英文语音中可能包含多个人说话的声音和环境噪音，因此，在获取到待识别的英文语音后，还需要对该待识别的英文语音进行处理，以部分消除噪声和不同说话人带来的影响，使处理后的英文语音更能反映语音的本质特征。在本实施例中，采用端点检测和语音增强的方式对待识别的英文语音进行处理，其中，端点检测是指在语音信号中将语音和非语音信号时段区分开来，准确地确定出语音信号的起始点，经过端点检测后，后续处理就可以只对语音信号进行，这对提高语音识别模型的精确度和识别正确率有重要作用，语音增强的主要任务就是消除环境噪声对英文语音的影响。在后续步骤中，对经过处理的英文语音进行语义识别，提高了英文语音识别的准确性。
40.步骤s102：将所述待识别的英文语音输入到预先训练好的ctc模型中进行识别，得到所述英文语音对应的英文文本；其中，所述ctc模型是以英文语音和对应的英文文本为训练样本训练得到的，所述英文文本是基于字母组合与发音的对应关系进行切分得到的。
41.在本实施例中，利用ctc模型是对英文语音进行识别，其中，ctc(connectionist temporal classification，联结时序分类)是一种针对连续序列的识别方法，相比传统语音识别需要做预先对齐的操作，能够实现直接对序列数据进行学习，而无需事先标注好训练数据中输入序列和输出序列的映射关系，在语音识别等序列学习任务中取得更好的效果。例如，在语音识别中，把输入序列(语音)映射为x＝[x1,x2,
…
,xt]，其相应的输出序列为y＝[y1,y2,
…
,yu]，ctc的训练目标是使x和y尽量匹配，即使输出概率p(y|x)最大化，p(y|x)最大化的操作就相当于在x和y之间建立一个准确的映射；此外，ctc通过引入了空白标签，让网络在判断当前输入语音帧时可以得到缓冲，解决了重复字符和连续标签对齐的问题。
[0042]
当ctc模型在接收到待识别的英文语音后，对该英文语音进行识别，即将英文语音映射到建模单元(即字母组合)，同时得到相应的输出英文文本，实现将英文语音转换为与英文语音对应的英文文本，完成英文语音识别。
[0043]
此外，本实施例中的ctc模型是经过预选训练而得到的，在利用ctc模型进行英文识别之前，还需要对ctc模型进行训练。具体地，ctc模型的训练方法包括：首先，获取训练的英文语音和与训练的英文语音对应的英文文本，对英文文本进行切分处理，其中，英文文本是按照单词字母组合与发音的对应关系进行切分得到的；其次，将待训练的英文语音以及经过切分处理后的英文文本输入到ctc模型中进行训练，以使ctc模型能够准确建立输入的英文语音与输出的英文文本之间的映射关系，进而得到训练后的ctc模型。
[0044]
在本实施例中，考虑到英文实际的语言发音规律，用于训练ctc模型的英文文本是按照字母组合与发音的对应关系进行切分得到的，即训练的英文文本与实际的发音具有一定对应关系，符合实际的语言规律，所以基于该训英文文本进行训练得到的ctc模型更加准确，进而保证了英文语音识别的准确度性。此外，利用字母组合与发音的对应关系进行分词，其分词粒度介于单词分词与字符分词之间，克服了以往基于单个单词来处理训练英文文本使得训练英文文本很大，导致训练速度慢，以及在实际的英文语音识别中难识别罕见词或者训练过程中没有见过的单词；还解决了基于字符方式来处理训练英文文本，由于分词粒度太细而导致单词丢失本身所具有的语意信息的问题。
[0045]
本实施例提供的英文端到端语音识别方法，具有较高的语音识别准确度，可应用于会议场景语音识别、语音质检等含有语音识别需求的商业服务，以及一些语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等场景。例如，在会议场景中，通过终端设备来实时采集会议现场的英文语音，并将采集到的英文语音经处理后输入到ctc模型中进行识别，得到相对应的英文文本内容，其中，识别得到的英文文本内容可通过显示设备进行显示。再如，在语音导航场景中，导航终端设备接收目的地的英文语音，并将该目的地的英文语音转化为对应的英文文本内容，并提取英文文本内容中的目的地信息，导航系统根据目的地信息该开始规划路线，进行导航。
[0046]
在一种可选的实施例中，对用于训练ctc模型的英文文本的进行切分处理包括：将未切分的英文文本输入到预先训练好的切分标注模型中进行切分处理，得到切分后的英文文本，其中，所述切分标注模型的训练样本是按照字母组合与发音的对应关系进行切分得到的。
[0047]
在本实施例中，采用一个切分标注模型对训练ctc模型的英文文本进行切分，即将英文文本中的每个单词按照按照字母组合与发音的对应关系进行拆分。切分标注模型是一种单词切分模型，该切分标注模型与以往bpe子词根据字母组合出现的频率来进行分词不同，切分标注模型能够根据单词的字母组合与发音的对应关系对单词进行分词，使分词粒度介于单词级与字符级之间，同时该分词方式也结合实际的语言发音规律，进而使得分词更加准确。例如，对于单词book，若在训练数据中同时ok出现的频率较高，则bpe子词会将book会被分为b o ok，但是该分法与单词实际的读音是不对应的，因为单词读音为oo应该组合在一起发音为不能拆分，则更为准确的分词应该分为b oo k。
[0048]
因此，利用切分标注模型对用于训练ctc模型的英文文本进行切分，其得到的切分
结果会更符合英语实际的语言规律，进而后续再基于切分标注模型切分的英文文本对ctc模型进行训练时，使ctc模型的输入语音与输出英文文本之间的映射关系更加准确，即ctc模型更加准确性。
[0049]
在一种可选的实施例中，所述将未切分的英文文本输入到预先训练好的切分标注模型中进行切分处理，包括：所述切分标注模型对所述未切分的英文文本中的每个单词的字母进行位置标记。
[0050]
在本实施例中，切分标注模型对英文文本进行切分，就是将英文文本中每个单词的字母进行位置标记，利用标记结果来表征单词的切分情况。具体地，为单词中的每个字母添加相应的位置标识符，位置标识符至少包括：单个字母标识符、开始字母标识符、中间字母标识符、结尾字母标识符。其中，单个字母标识符表示单独发音的一个字母(例如，对单词book中的b和k添加单个字母标识符)；而开始字母标识符、中间字母标识符和结尾字母标识符表示多个字母组合在一起发音的字母组合，不能进行切分(例如，单词heart中的ear组合发音[a:]，对e、a、r分别添加开始字母标识符、中间字母标识符和结尾字母标识符)。由于单词的字母组合可以是单独一个字母的字母组合(单独一个字母发音)，也可以是多个字母组成的字母组合(组合在一起发音)，因此，切分标注模型根据单词实际的发音规律，为单词中的各个字母添加相应的位置标识符，以实现位置标记，得到切分后的单词。
[0051]
示例地，可以利用单词single、begin、middle、end的首字母来s、b、m、e来表示单个字母标识符、开始字母标识符、中间字母标识符、结尾字母标识符，对于book这个单词，根据字母组合与发音的对应关系需要切分为b oo k，因此将每个字母标记为b_s o_b o_e k_s，其中，b_s表示b为单个字母，则进行切分时b是单独的一个字母组合，o_b表示o为字母组合的开始的字母，o_e表示o为字母组合的结束的字母，因此o_b和o_e一起表示字母组合oo，同样k_s表示k为单个字母，即b_s o_b o_e k_s表示单词的切分结果为b oo k。
[0052]
切分标注模型是实现对英文文本准确切分的关键，切分标注模型是经过预先训练而得到的，如图2所示，图2为本发明实施例提供的切分标注模型的训练方法步骤流程图，具体包括以下步骤：
[0053]
步骤201：按照字母组合与发音的对应关系，对训练单词进行预处理，生成所述训练单词对应的特征向量，所述特征向量表征各个字母在该训练单词中的位置关系。
[0054]
在本实施例中，根据可根据英文的发音词典，对用于训练切分标注模型的单词进行拆分标记(即预处理)，即将单词按照字母组合与发音的对应关系进行拆分标记，得到相应的特征向量，其中，所述的特征向量是指单词中每个字母对应的特征向量。
[0055]
在一种可选的实施例中，所述对训练单词进行预处理，生成所述训练单词对应的特征向量，包括：按照所述训练单词各字母的顺序，将所述训练单词拆分为多个字母组合，并对所述字母组合中每个字母的进行位置标记，并生成所述每个字母对应的特征向量。
[0056]
在本实施例中，单词中每个字母对应的特征向量中包含有多个字母位置特征，字母位置特征至少包括：前前字母、前字母、当前字母、后字母、后后字母等，通过每个字母的特征向量可知道该字母在整个单词中的位置，以及在字母组合中的位置，其中，字母组合中的位置是指该字母是单独的字母组合，以及在多个字母组合中的位置(即字母组合中的开始字母、中间字母、和结束字母)。因此，根据单词的特征向量，就知道该单词根据字母组合与发音的对应关系具体的拆分情况。
[0057]
示例地，利用prepre来表示前前字母，利用pre来表示前字母、利用cur来表示当前字母，利用next来表示后字母，利用nextnext来表示后后字母，对于单词book，根据字母组合与发音的对应关系需要拆分为b oo k，分别对各个字母进行位置标记，可表示为：b_s o_b o_e k_s，其中，b_s表示b为单独的一个字母组合，o_b表示o为字母组合的开始字母，o_e表示o为字母组合的结束字母，k_s表示k为单独的一个字母组合，并将字母b、o、o、k对应的特征向量分别表示如下：
[0058]
b_s prepre_null pre_null cur_b next_o nextnext_o，即表示b为单独的一个字母，当前字母为b且b为该单词的第一个字母，后字母为o，后后字母为o，因为前前字母和前字母均无其他字母，所以字母b为该单词的首字母；
[0059]
o_b prepre_null pre_b cur_o next_o nextnext_k，即表示o为字母组合的开始字母，当前字母为o，无前前字母，前字母为b，后字母为o，后后字母为k；
[0060]
o_e prepre_b pre_o cur_o next_k nextnext_null，即表示o为字母组合的结束字母，当前字母为o，前前字母为b，前字母为o，后字母为k，无后后字母；
[0061]
k_s prepre_o pre_o cur_k next_null nextnext_null，即表示k为单独的一个字母，当前字母为k且该单词的最后一个字母，前前字母为o，前字母为o，因为后字母和后后字母均无其他字母，所以字母k为该单词最后一个字母。
[0062]
步骤202：将所述特征向量输入到切分标注模型进行训练，得到训练后的切分标注模型，所述训练后的切分标注模型具有根据字母组合与发音的对应关系对单词进行分词的功能。
[0063]
在本实施例中，由于每个单词对应的特征向量是根据字母组合与发音对应关系进行拆分标记得到的，因此，特征向量中已经携带有字母组合与发音的对应关系。在对切分标注模型进行训练时，将用于训练切分标注模型的训练单词和训练单词对应的特征向量一起输入到切分标注模型中进行训练，使切分标注模型学习单词的拆分规律，即统计字母组合与发音的对应关系，因此切分标注模型基于特征向量进行训练后，具有按照字母组合与发音的对应关系对单词进行分词的能力，该方法相较于其他分词方法，考虑到了英文的实际发音，进而得到的分词结果会更加准确，更符合英文发音特征的规律。后续基于该切分标注模型对语音识别ctc模型的训练英文文本进行处理时，得到英文文本字母组合与发音的对应关系进行切分的，也符合实际的语言规律，进而训练得到的ctc模型更加准确，大大提高了语音识别的准确性。
[0064]
本发明实施例还提供了一种英文端到端语音识别装置，参照图3，图3是本技术实施例提出的一种英文端到端语音识别装置的结构示意图，如图3所示，所述装置包括：
[0065]
获取模块，用于获取待识别的英文语音；
[0066]
识别模块，用于将所述待识别的英文语音输入到预先训练好的ctc模型中进行识别，得到所述英文语音对应的英文文本；其中，所述ctc模型是以英文语音和对应的英文文本为训练样本训练得到的，所述英文文本是基于字母组合与发音的对应关系进行切分得到的。
[0067]
在一种可选的实施例中，所述装置还包括：
[0068]
样本处理模块，用于将未切分的英文文本输入到预先训练好的切分标注模型中进行切分处理，得到切分后的英文文本，其中，所述切分标注模型的训练样本是按照字母组合
与发音的对应关系进行切分得到的。
[0069]
在一种可选的实施例中，所述样本处理模块，包括：
[0070]
标记模块，用于所述切分标注模型对所述未切分的英文文本中的每个单词的字母进行位置标记。
[0071]
在一种可选的实施例中，所述样本处理模块，还包括切分标注模型训练模块，所述切分标注模型训练模块，包括：
[0072]
预处理模块，用于按照字母组合与发音的对应关系，对训练单词进行预处理，生成所述训练单词对应的特征向量，所述特征向量表征各个字母在该训练单词中的位置关系；
[0073]
特征训练模块，用于将所述特征向量输入到切分标注模型进行训练，得到训练后的切分标注模型，所述训练后的切分标注模型具有根据字母组合与发音的对应关系对单词进行分词的功能。
[0074]
在一种可选的实施例中，所述预处理模块，包括：
[0075]
拆分模块，用于按照所述训练单词各字母的顺序，将所述训练单词拆分为多个字母组合，并对所述字母组合中每个字母的进行位置标记，并生成所述每个字母对应的特征向量。
[0076]
本发明实施例还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本发明实施例所述的一种英文端到端语音识别方法。
[0077]
本技术实施例还提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现本发明实施例所述的一种英文端到端语音识别方法。
[0078]
本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。
[0079]
本发明实施例是参照根据本发明实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0080]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0081]
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0082]
尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基
本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0083]
最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0084]
以上对本发明所提供的一种英文端到端语音识别方法、装置、设备和介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑晓明陈明李健武卫东
技术所有人：北京捷通华声科技股份有限公司
我是此专利的发明人

上一篇：一种公路探察用地形描绘辅助装置的制作方法
上一篇：用作运动型照相机的摄像设备的制作方法