端到端语音识别方法、装置及电子设备与流程

文档序号：30100900发布日期：2022-05-18 12:36阅读：302来源：国知局

1.本发明涉及语音识别技术领域，尤其涉及一种端到端语音识别方法、装置及电子设备。

背景技术：

2.随着科技发展，人工智能产品在生活中的渗透率越来越高，语音识别作为人机交互的基本技术，其在智能家居、智能汽车、智能客服等场景下均有着广阔的应用。语音识别和人工智能相结合技术的发展呈迅猛趋势，为了人机交互更自然顺畅，其对于语音识别的准确率要求也越来越高。
3.得益于人工智能与机器学习的技术突破、算法和软硬件能力的进步，还有着数据量大且多样化的语音语料数据库，均可用于训练多参数的、大规模的语音识别与合成模型，使得语音处理技术获得飞跃性进步。并且，随着端到端神经网络在机器翻译、语音生成等方面的逐步应用，现有端到端语音识别方法也逐渐达到与传统语音识别方法相持平的技术高度。传统语音识别方法是将语音识别任务划分为诸如词汇模型、声学模型和语言模型等多个子任务，不同于传统语音识别方法，现有端到端语音识别方法是以梅尔语谱形式在输入端输入原始数据，能够直接产生并输出对应的自然语言文本，此法极大地简化了模型的训练过程，从而也越来越受到学术界和产业界的广泛关注。
4.虽然现有端到端语音识别方法的语音识别效果良好，但是由于其输出是基于文本中“字”的模型，所收集到的训练数据不可能覆盖现存所有的行业类别涉及的所有字，并且，训练数据的语料中常用字和生僻字出现的频度有所不同，从而导致现有端到端语音识别方法对于日常用语的识别效果很好，而对于一些包含稀疏词的专业词汇的识别效果很差。
5.现有技术还通过端到端语音识别方法加稀疏词的方法来进行处理，需要预先通过人工整理稀疏词，再基于稀疏词进行识别，其能在一定程度上提升稀疏词的识别准确率，但是，该方法费事费力，并且由于专业词汇中存在同音字的情况较多，以及声学模型对于稀疏词的建模精度通常较差，会导致稀疏词的声学模型得分较低，从而，即使利用端到端语音识别方法加稀疏词的方式也无法精准地找回稀疏词，比如，语音“西格列汀”有可能被错误地识别为“西格列听”，语音“默沙东”有可能被错误地识别为“莫沙东”或“默沙冬”，虽然接近准确结果，但仍不够精准。而如果将稀疏词的声学模型得分直接调高，则会影响该方法对于日常用语的识别效果。

技术实现要素：

6.本发明提供一种端到端语音识别方法、装置及电子设备，用以解决现有技术中语音识别过程中稀疏词等专业词汇识别效果差的缺陷，从而提升语音识别的准确率。
7.本发明提供一种端到端语音识别方法，包括：获取待识别的语音音频数据；基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据，获取语音识
别结果；其中，所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型，所述关键稀疏词为存在替换错误的稀疏词。
8.根据本发明提供的一种端到端语音识别方法，所述稀疏词语音识别模型的训练过程包括：获取若干个稀疏词数据样本，并记录所述稀疏词数据样本的总数量，所述稀疏词数据样本包括关键稀疏词和所述关键稀疏词在目标区域内的上下文内容；基于所述关键稀疏词和所述关键稀疏词在目标区域内的上下文内容，以及所述激励参数，逐个地对所述稀疏词数据样本进行分数调整，获得若干个分数合格样本，以使得所述分数合格样本的数量满足预设比例条件；基于所述激励参数，获得所述稀疏词语音识别模型；其中，所述预设比例条件为，所述合格样本的数量占所述稀疏词数据样本的总数量的比例大于等于预设比例。
9.根据本发明提供的一种端到端语音识别方法，所述基于所述关键稀疏词和所述关键稀疏词在目标区域内的上下文内容，以及所述激励参数，逐个地对所述稀疏词数据样本进行分数调整，获得若干个分数合格样本，以使得所述分数合格样本的数量满足预设比例条件，包括：获取所述稀疏词数据样本中的关键稀疏词；基于所述关键稀疏词的上下文内容，使所述关键稀疏词和上下文相邻字形成关键稀疏词组合，所述关键稀疏词组合的识别结果包括正确组合搭配以及至少一种错误组合搭配；分别获取所述正确组合搭配的搭配得分，以及至少一种所述错误组合搭配的搭配得分；基于激励参数对所述正确组合搭配的搭配得分进行分数调整，以使得调整后的正确组合搭配的搭配得分满足预设合格条件；其中，所述预设合格条件为调整后的正确组合搭配的搭配得分大于任意一种错误组合搭配的搭配得分。
10.根据本发明提供的一种端到端语音识别方法，所述稀疏词数据样本的获取步骤，具体包括：获取语音音频数据集，所述语音音频数据集包括若干个语音音频数据样本；分别计算各个所述语音音频数据样本的语音识别先验概率；基于各所述语音识别先验概率，从所述语音音频数据集中选取语音识别先验概率较低的预设比例的语音音频数据样本，以作为所述稀疏词数据样本。
11.根据本发明提供的一种端到端语音识别方法，所述稀疏词数据样本中的所述关键稀疏词的获取步骤，具体包括：基于通用语音识别模型和若干个所述稀疏词数据样本，分别获得对应的若干个预识别结果；将所述预识别结果和所述稀疏词数据样本的实际文本进行比较，获得比较结果；基于所述比较结果，找出所述稀疏词数据样本中存在替换错误的稀疏词，以作为
所述关键稀疏词。
12.根据本发明提供的一种端到端语音识别方法，在所述稀疏词语音识别模型训练完成后，还包括以下测试步骤：获取测试音频数据集；基于所述测试音频数据集对所述稀疏词语音识别模型进行测试，获得测试结果；基于所述测试结果更新所述稀疏词语音识别模型。
13.根据本发明提供的一种端到端语音识别方法，所述上下文相邻字，包括上文相邻字或下文相邻字；相应的，所述关键稀疏词和上文相邻字形成的关键稀疏词组合的搭配得分等于所述关键稀疏词的搭配得分；或，所述关键稀疏词和下文相邻字形成的关键稀疏词组合的搭配得分等于所述关键稀疏词的搭配得分与逆序文本分数因子整合计算的搭配得分。
14.本发明还提供一种端到端语音识别装置，包括：获取模块，用于获取待识别的语音音频数据；识别模块，用于基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据，获取语音识别结果；其中，所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型，所述关键稀疏词为存在替换错误的稀疏词。
15.本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任一项所述端到端语音识别方法的全部或部分步骤。
16.本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上任一项所述端到端语音识别方法的全部或部分步骤。
17.本发明提供一种端到端语音识别方法、装置及电子设备，所述方法在获取待识别的语音音频数据后，基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据，获取语音识别结果，其中，所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型，所述关键稀疏词为存在替换错误的稀疏词，也即，本方法通过设计激励参数，将所设计的激励参数结合稀疏词数据样本训练出识别精准的稀疏词语音识别模型，以将所述模型应用于语音识别的过程中，从而可以在保证日常用语识别效果的基础上提升对包含稀疏词的专业词汇用语的识别准确率。
附图说明
18.为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
19.图1是本发明提供的端到端语音识别方法的流程示意图之一；图2是本发明提供的端到端语音识别方法中的稀疏词语音识别模型的训练过程示意图之一；
图3是本发明提供的端到端语音识别方法中的稀疏词语音识别模型的训练过程示意图之二；图4是本发明提供的端到端语音识别方法中的稀疏词数据样本的获取步骤示意图；图5是本发明提供的方法中稀疏词数据样本中的所述关键稀疏词的获取步骤示意图；图6是本发明提供的端到端语音识别方法的流程示意图之二；图7是本发明提供的端到端语音识别装置的结构示意图；图8是本发明提供的电子设备的结构示意图。
20.附图标记：710：获取模块；720：识别模块；810：处理器；820：通信接口；830：存储器；840：通信总线。
具体实施方式
21.为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
22.下面结合图1-图8描述本发明的端到端语音识别方法、装置及电子设备。
23.本发明提供一种端到端语音识别方法，图1是本发明提供的端到端语音识别方法的流程示意图之一，如图1所示，所述方法包括：110、获取待识别的语音音频数据。
24.在一些客服语音识别场景中，尤其是端到端语音识别任务中，通常有大量包含有稀疏词的专业词汇类的语音音频数据需要识别。基于具体的语音识别任务，获取待识别的语音音频数据。
25.120、基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据，获取语音识别结果；其中，所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型，所述关键稀疏词为存在替换错误的稀疏词。
26.在稀疏词语音识别模型训练之初，首先设计激励参数，利用所述激励参数调整所述稀疏词数据样本中具体稀疏字所可能输出的字词组合的搭配得分，进而使得所述搭配得分满足一定条件的样本的数量达到一定要求，从而找出合适的激励参数，进而利用合适的激励参数和稀疏词数据样本共同训练得到该稀疏词语音识别模型，该模型识别精度高。所述关键稀疏词为存在替换错误的稀疏词，其本质是易出现替换错误的字或词。再将所述待识别的语音音频数据输入至该稀疏词语音识别模型，以获得更为精准的语音识别结果。
27.本方法通过设计激励参数，将所设计的激励参数结合稀疏词数据样本训练出识别精准的稀疏词语音识别模型，以将所述模型应用于语音识别的过程中，从而可以在保证日常用语识别效果的基础上提升对包含稀疏词的专业词汇用语的识别准确率。
28.根据本发明提供的一种端到端语音识别方法，图2是本发明提供的端到端语音识别方法中的稀疏词语音识别模型的训练过程示意图之一，如图2所示，所述稀疏词语音识别
模型的训练过程包括：210、获取若干个稀疏词数据样本，并记录所述稀疏词数据样本的总数量，所述稀疏词数据样本包括关键稀疏词和所述关键稀疏词在目标区域内的上下文内容。
29.语音识别领域中建立语音识别模型时，均需要采集大量的语音音频，合称语音音频数据集，以提供模型训练的数据基础。语音音频数据集中有的语音音频样本带有稀疏词，有的语音音频样本不带有稀疏词。故而从语音音频数据集中获取若干个带有稀疏词的稀疏词数据样本。同时，一方面记录所述稀疏词数据样本的总数量。另一方面，针对于各个稀疏词数据样本，记录其实际识别出的结果的文本作为该稀疏词数据样本的实际文本，以作为识别正确还是错误的参考依据。比如，“wo feng ke ji”这一稀疏词数据样本（本质仍是一条语音音频数据）的实际文本为“沃丰科技”，如果识别结果与其不一致，则识别错误，若识别结果与其一致，则识别正确。当然，判断其识别正确或错误时，不是整句判断，而是以所述稀疏词样本中的单个关键稀疏词进行判断的，比如“feng”是该样本中的关键稀疏词，则重点判断“feng”的识别结果正确与否。所述稀疏词数据样本包括关键稀疏词和所述关键稀疏词在目标区域内的上下文内容，比如目标区域是指关键稀疏词的上文相邻一个位置的字到下文相邻一个位置的字，即，“wo feng ke ji”这一稀疏词数据样本，包括关键稀疏词“feng”和“wo”以及“ke”，而“wo”以及“ke”分别可以和“feng”形成关键稀疏词组合。
30.220、基于所述关键稀疏词和所述关键稀疏词在目标区域内的上下文内容，以及所述激励参数，逐个地对所述稀疏词数据样本进行分数调整，获得若干个分数合格样本，以使得所述分数合格样本的数量满足预设比例条件；其中，所述预设比例条件为，所述合格样本的数量占所述稀疏词数据样本的总数量的比例大于等于预设比例。
31.基于所设计的激励参数、所述关键稀疏词和所述关键稀疏词在目标区域内的上下文内容，逐个地对所述稀疏词数据样本进行分数调整，具体是调整稀疏词数据样本中关键稀疏词组合的搭配得分，进而获得若干个分数合格样本，以使所述分数合格样本的数量满足预设比例条件。
32.当然在进行待识别语音音频数据的识别过程时，还可以根据历史识别过程所确定的激励参数的值，进行现场识别过程中稀疏词语音识别模型中的关键稀疏词组合搭配得分的调整，以更好地服务于当前识别任务。其中当激励参数小于等于0时，则无需调整。
33.对于多个稀疏词数据样本，可以均进行上述调整，以在理论上使所述稀疏词语音识别模型在面对所有稀疏词数据样本时，均识别正确。但是对于有些稀疏词数据样本中，允许存在非理想化误差。故而，仅需要调整到绝大部分样本满足上述识别正确的条件即可。比如仅需要80%数量的稀疏词数据样本能够被识别正确，此时训练出的模型的稀疏词识别的准确率即可满足使用需求。当然，具体比例值可以根据实际场景进行设置与调整，此处不作限制。
34.230、基于所述激励参数，获得所述稀疏词语音识别模型。
35.所述激励参数可以理解为一个变量，其是可以基于实际应用场景进行调整确定的。基于步骤220中在使所述分数合格样本的数量满足预设比例条件的情况下，反向确定所设计的激励参数的合适的值。基于确定好的激励参数，获得所述稀疏词语音识别模型。
36.本方法根据目标区域内的上下文内容对所述关键稀疏词进行得分补偿，以基于补偿所获得的激励参数自动构建并训练出稀疏词语音识别模型，该模型可以供客户专用，从
而为客户提升语音识别系统的准确率。
37.根据本发明提供的一种端到端语音识别方法，图3是本发明提供的端到端语音识别方法中的稀疏词语音识别模型的训练过程示意图之二，在图2所示方法的基础上，其步骤220、基于所述关键稀疏词和所述关键稀疏词在目标区域内的上下文内容，以及所述激励参数，逐个地对所述稀疏词数据样本进行分数调整，获得若干个分数合格样本，以使得所述分数合格样本的数量满足预设比例条件，进一步包括：对于每一个稀疏词数据样本，均执行下述操作。
38.221、获取所述稀疏词数据样本中的关键稀疏词。
39.所述关键稀疏词为存在替换错误的稀疏的单字或词语。从所述稀疏词数据样本中确定其关键稀疏词，比如，“wo feng ke ji”这一稀疏词语音样本中的关键稀疏词为“feng”。
40.222、基于所述关键稀疏词的上下文内容，使所述关键稀疏词和上下文相邻字形成关键稀疏词组合，所述关键稀疏词组合的识别结果包括正确组合搭配以及至少一种错误组合搭配。
[0041]“wo”、“ke”分别是“feng”的上文相邻字和下文相邻字，并且“wo”以及“ke”分别可以和“feng”形成关键稀疏词组合“wo feng”和关键稀疏词组合“feng ke”。以上文相邻字“wo”进行具体说明。对于“wo”和“feng”形成的关键稀疏词组合“wo feng”，其识别结果包括多种可能性，比如“沃丰”、“沃风”、“沃封”、“沃锋”等，其中，“沃丰”与“wo feng”的实际文本一直，则“沃丰”为正确组合搭配，而“沃风”、“沃封”、“沃锋”均为错误组合搭配，并且错误组合搭配的可能性较多，可能有一种，可能有多种，此处仅举例三种错误组合搭配。
[0042]
223、分别获取所述正确组合搭配的搭配得分，以及至少一种所述错误组合搭配的搭配得分。
[0043]
语音识别过程中，通常声学模型得分时每一帧语音音频均会输出所有字的组合搭配得分。
[0044]
获取“沃丰”这一正确组合搭配的搭配得分，记为s0
a-wk
，比如为0.0650。
[0045]
获取“沃风”这一错误组合搭配的搭配得分，记为s1
a-wk
，比如为0.7501。
[0046]
获取“沃封”这一错误组合搭配的搭配得分，记为s2
a-wk
，比如为0.0345。
[0047]
获取“沃锋”这一错误组合搭配的搭配得分，记为s3
a-wk
，比如为0.0987。
[0048]
根据分值最大来输出识别结果的识别原则，0.7501最高，则该关键稀疏词组合“wo feng”此时的识别结果为“沃风”，也即本稀疏词数据样本真的被识别错误了。当然，其他稀疏词数据样本也可能出现类似错误。故而，为了提升识别准确率，则需要根据上述各组合搭配得分的分值进行调整。
[0049]
需要说明的是，各组合搭配的搭配得分sn
a-wk
均是由该组合内关键稀疏词的搭配得分赋值而来，即，sn
a-wk
=sn
wk
，其中，wk表示当前的该关键稀疏字，a-wk表示关键稀疏词wk的上文相邻字是a，该关键稀疏字wk和上文相邻字a形成一个字词组合搭配，等号“=”是赋值的含义。换言之，在计算组合搭配得分时，仅考虑该当前的关键稀疏词自身的搭配得分，而要忽略其上文相邻字（或下文相邻字）对于搭配得分的影响。
[0050]
另外，若步骤222中关键稀疏词是与其下文相邻字形成的关键稀疏词组合，在获取该关键稀疏词组合时，除了考虑该当前的关键稀疏词自身的搭配得分外，还需要考虑关键
稀疏词组合“feng ke”在根据“ke”对“feng”进行识别增强时，其文本阅读逆序对所述组合搭配得分所造成的影响。
[0051]
224、基于激励参数对所述正确组合搭配的搭配得分进行分数调整，以使得调整后的正确组合搭配的搭配得分满足预设合格条件；其中，所述预设合格条件为调整后的正确组合搭配的搭配得分大于任意一种错误组合搭配的搭配得分。
[0052]
设计激励参数，记为o
a-wk
，o
a-wk
既可以理解为一个变量，又可以理解为一个阈值。基于激励参数o
a-wk
对所述正确组合搭配的搭配得分s0
a-wk
进行分数调整，以获得调整后的正确组合搭配的搭配得分，记为s0’a-wk
，即s0’a-wk
=s0
a-wk
+o
a-wk
。
[0053]
根据预设合格条件为调整后的正确组合搭配的搭配得分大于任意一种错误组合搭配的搭配得分，即设计一个激励参数o
a-wk
，以使s0’a-wk
能够满足以下条件：s0’a-wk
＞s1
a-wk
且s0’a-wk
＞s2
a-wk
且s0’a-wk
＞s3
a-wk
。当然，该条件也可以描述为：s0’a-wk
＞（s1
a-wk
、s2
a-wk
和s3
a-wk
中最大的值）。再根据以上条件反向确定变量o
a-wk
的值。比如，根据条件0.0650+o
a-wk
＞0.7501且0.0650k+o
a-wk
＞0.0345且0.0650+o
a-wk
＞0.0987，可以反向得出，o
a-wk
只要满足o
a-wk
＞0.6851即可，为了计算方便，可以取整，比如o
a-wk
取1。此时，经过调整后的s0’a-wk
总是会高于其他组合搭配得分的分值，故而进行语音识别时的结果会重新识别成“沃丰”这一正确文本内容。
[0054]
本方法可以自动生成关键稀疏词的激励参数，并根据所生成激励参数训练出识别准确率高的稀疏词语音识别模型。
[0055]
根据本发明提供的一种端到端语音识别方法，图4是本发明提供的端到端语音识别方法中的稀疏词数据样本的获取步骤示意图，如图4所示，所述稀疏词数据样本的获取步骤，具体包括：410、获取语音音频数据集，所述语音音频数据集包括若干个语音音频数据样本。
[0056]
训练数据中有大量的不同的人说语音内容，这些语音音频有有很多都是相同的，但有的会被识别正确，有的会被识别错误。获取用于模型训练的语音音频数据集，所述语音音频数据集包括若干个语音音频数据样本。
[0057]
420、分别计算各个所述语音音频数据样本的语音识别先验概率。
[0058]
分别计算每一个所述语音音频数据样本的语音识别先验概率，具体的是对每一个语音音频数据样本中的所有字分别计算其语音识别先验概率。而语音音频数据样本中可能有多个字，每一个字的语音识别先验概率，均可以代表该语音音频数据样本的语音识别先验概率。
[0059]
430、基于各所述语音识别先验概率，从所述语音音频数据集中选取语音识别先验概率较低的预设比例的语音音频数据样本，以作为所述稀疏词数据样本。
[0060]
比如预设比例可以为30%，从语音音频数据集中选取语音识别先验概率最低的30%的语音音频数据样本，作为所述稀疏词数据样本。其中，需要说明的是，若当前的语音音频数据样本有任意一个字的语音识别概率低于其他样本，则认为此语音音频数据样本的语音识别概率低于其他样本。
[0061]
根据本发明提供的一种端到端语音识别方法，图5是本发明提供的方法中稀疏词数据样本中的所述关键稀疏词的获取步骤示意图，如图5所示，所述稀疏词数据样本中的所述关键稀疏词的获取步骤，具体包括：
510、基于通用语音识别模型和若干个所述稀疏词数据样本，分别获得对应的若干个预识别结果。
[0062]
通用语音识别模型是指现有技术中的通用的语音识别模型。基于通用识别模型先对若干个所述稀疏词数据样本分别进行一次预识别，对应获得若干个预识别结果。
[0063]
520、将所述预识别结果和所述稀疏词数据样本的实际文本进行比较，获得比较结果。
[0064]
将若干个预识别结果逐一分别地与预先记录好的每一个稀疏词数据样本的实际文本进行比较，对应地分别获得若干个比较结果。换言之，根据预先记录好的稀疏词数据样本的实际文本和预识别结果进行字词识别的动态规划操作。
[0065]
530、基于所述比较结果，找出所述稀疏词数据样本中存在替换错误的稀疏词，以作为所述关键稀疏词。
[0066]
对于每一稀疏词数据样本，均基于步骤520中的比较结果，或者说基于其动态规划操作，找出该稀疏词数据样本中易出现替换错误的稀疏词，以作为该稀疏词样本中的关键稀疏词。当然，一个稀疏词数据样本中的关键稀疏词可能有一个或多个，本方法主要以一个为例进行说明，而关键稀疏词有多个的情况与本方法类似。本方法无需人工手动整理稀疏词，而且所生成的关键稀疏词覆盖面更全更广。
[0067]
根据本发明提供的一种端到端语音识别方法，图6是本发明提供的端到端语音识别方法的流程示意图之二，如图6所示，在所述稀疏词语音识别模型训练完成后，还包括以下测试步骤：130、获取测试音频数据集。
[0068]
从区别于训练数据集的音频数据中获取用于测试的音频数据。
[0069]
140、基于所述测试音频数据集对所述稀疏词语音识别模型进行测试，获得测试结果。
[0070]
将所述测试音频数据集的数据，输入至所述稀疏词语音识别模型，以输出测试结果。
[0071]
150、基于所述测试结果更新所述稀疏词语音识别模型。
[0072]
基于测试结果，以反向前馈的方式去优化所述稀疏词语音识别模型，从而更大程度上提升所述稀疏词语音识别模型识别的准确率。
[0073]
根据本发明提供的一种端到端语音识别方法，所述上下文相邻字，包括上文相邻字或下文相邻字；相应的，所述关键稀疏词和上文相邻字形成的关键稀疏词组合的搭配得分等于所述关键稀疏词的搭配得分；或，所述关键稀疏词和下文相邻字形成的关键稀疏词组合的搭配得分等于所述关键稀疏词的搭配得分与逆序文本分数因子整合计算的搭配得分。
[0074]
在计算组合搭配得分时，仅考虑该当前的关键稀疏词自身的搭配得分，而要忽略其上文相邻字（或下文相邻字）对于搭配得分的影响，由此，可以防止稀疏词误激励现象的发生。另外，若关键稀疏词是与其下文相邻字形成的关键稀疏词组合，在获取该关键稀疏词组合时，除了考虑该当前的关键稀疏词自身的搭配得分外，还需要考虑关键稀疏词组合在根据下文相邻字对上文相邻字进行识别增强时，其文本阅读逆序对所述组合搭配得分所造
成的影响，即让所述关键稀疏词的搭配得分与逆序文本分数因子整合计算的搭配得分。
[0075]
下面对本发明提供的端到端语音识别装置进行描述，下文描述的端到端语音识别装置与上文描述的端到端语音识别方法可相互对应参照。
[0076]
本发明还提供一种端到端语音识别装置，图7是本发明提供的端到端语音识别装置的结构示意图，如图7所示，所述装置包括获取模块710和识别模块720，其中：所述获取模块710，用于获取待识别的语音音频数据；所述识别模块720，用于基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据，获取语音识别结果；其中，所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型，所述关键稀疏词为存在替换错误的稀疏词。
[0077]
本发明提供的端到端语音识别装置，包括获取模块710和识别模块720，两个模块相互配合工作，使得识别模块720能够利用预先基于激励参数和稀疏词数据样本训练出的稀疏词语音识别模型对语音音频进行识别，从而可以在保证日常用语识别效果的基础上提升对包含稀疏词的专业词汇用语的识别准确率。图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(communications interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行端到端语音识别方法的全部或部分步骤，该方法包括：获取待识别的语音音频数据；基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据，获取语音识别结果；其中，所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型，所述关键稀疏词为存在替换错误的稀疏词。
[0078]
此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器（rom，read-only memory）、随机存取存储器（ram，random access memory）、磁碟或者光盘等各种可以存储程序代码的介质。
[0079]
另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的端到端语音识别方法的全部或部分步骤，该方法包括：获取待识别的语音音频数据；基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据，获取语音识别结果；其中，所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到
的模型，所述关键稀疏词为存在替换错误的稀疏词。
[0080]
又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的端到端语音识别方法的全部或部分步骤，该方法包括：获取待识别的语音音频数据；基于预先训练的稀疏词语音识别模型和所述待识别的语音音频数据，获取语音识别结果；其中，所述稀疏词语音识别模型是基于稀疏词数据样本和激励参数预先训练得到的模型，所述关键稀疏词为存在替换错误的稀疏词。
[0081]
以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
[0082]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。
[0083]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵超
技术所有人：北京沃丰时代数据科技有限公司
我是此专利的发明人

上一篇：一种预测MET基因扩增或多倍体的方法及装置与流程
下一篇：一种食品发酵设备的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！