一种基于人类行为经验的离线语音识别学习方法与流程

文档序号：24443872发布日期：2021-03-27 02:39阅读：185来源：国知局

1.本发明涉及语音识别技术领域，尤其涉及一种基于人类行为经验的离线语音识别学习方法。

背景技术：

2.当前主流的语音识别系统可分为在线的大型连续词汇语音识别及离线的小词汇语音识别，在线模式依靠服务器的强大计算能力不仅能够支持更多场景更多的词汇，识别稳定性和准确率都能够很好的保证。而离线小词汇语音多数部署在计算能力有限的嵌入式平台，神经网络模型体积受限，表达能力也就越差，得到的语音识别系统性能有限。
3.其中，传统小词汇量语音识别的运行机理大致简要介绍如下：
4.嵌入式端离线语音识别系统主要包括：唤醒词识别和命令词识别，例如我们的唤醒词为“小云小云”，命令词可为“开门”，“打开电视”等有限的词汇。以唤醒词为例，现阶段唤醒词识别模型可分为两大方向，一种是神经网络(nn)+有限加权状态转换(wfst)解码器的唤醒词识别系统，一种为纯神经的唤醒词识别系统。不管是哪种语音识别系统，最终都会输出一个置信度，前者的置信度为声学模型+语言模型的一个似然比值，后者直接将神经网络中softmax层的输出作为置信度。对于唤醒词来说，可以视为二分类，在这么我们将唤醒词“小云小云”称为正类，非唤醒词(一般称为“unk”)称为负类。输入一段音频到唤醒词识别系统当中，我们可以得到一组(1
×
2)的置信度评分，一般正类的置信度大于某个阈值，则该段音频判为正类，也就是唤醒。
5.这个阈值也可由用户自行设定，通常会给定三个灵敏度，高，中，低。灵敏度越高，唤醒词识别准确率越高，但与此同时误触发(也就是不喊“小云小云”的音频也容易唤醒)也相应更高。
6.当前领域中嵌入式端离线语音识别系统，计算资源的有限，而语音识别的实时性要求极高，因此对语音识别模型进行了大量的压缩，以使得模型能够在嵌入式平台上实时运行。压缩后的模型，表达能力大打折扣，不仅只能在嵌入式端做有限的命令词识别，且模型的泛化能力受限，不仅识别准确率受影响，且误触发也较高。
7.另外，当前领域中嵌入式端离线语音识别系统，由于受限的模型影响到语音识别性能，往往会通过让用户设置不同的灵敏度来使得系统符合实际使用情况，但语音识别的置信度易受噪声干扰，由用户过于繁杂且容易产生不好的用户体验。
8.由于有限的资源，语音识别系统也容易受到噪声的干扰，当有环境噪声很嘈杂声音识别易误差，且准确率也会降低。

技术实现要素：

9.有鉴于此，本发明的目的在于提出一种自适应能力佳、响应准确率高和误触率低的基于人类行为经验的离线语音识别学习方法。
10.为了实现上述的技术目的，本发明所采用的技术方案为：
11.一种基于人类行为经验的离线语音识别学习方法，其包括：
12.将预设工作时段按预设间隔时长进行分割成若干区间时段，构建与若干区间时段相对应的经验矩阵，该经验矩阵的规格为m
×
n，对经验矩阵内的数据进行赋值和关联对应参数；
13.接收语音信号，将其导入语音识别系统，输出语音识别结果，然后将其转换成规格为m
×
n的矩阵数据，并根据语音信号获取的时间节点进行对应调取对应区间时段的经验矩阵数据与其进行数学计算，输出计算结果；
14.当计算结果满足预设条件时，判定语音识别成功，否则，判定语音识别失败；
15.根据语音识别成功或语音识别失败结果，对经验矩阵数据进行调整更新。
16.作为一种可能的实施方式，进一步，所述的预设工作时段为自然日的24h，以10分钟为一个间隔时长进行分割成144个区间时段。
17.作为一种较优的选择实施方式，优选的，所述的若干区间时段相对应的经验矩阵为1
×
2规格的矩阵，该经验矩阵内的参数分别为(x，y)，其中，x+y＝1，x为预设语音信号的置信度，y为非预设语音信号的置信度。
18.作为一种较优的选择实施方式，优选的，该经验矩阵中x和y的初始权值分别为0.5。
19.作为一种较优的选择实施方式，优选的，所述的语音识别系统加载有经训练的时延神经网络
‑
隐马尔可夫模型，其训练过程包括：
20.获得训练音频的每个信息帧，以及每个信息帧的梅尔倒谱特征、声调特征和当前说话人特征；以及
21.以一当前信息帧的梅尔倒谱特征、声调特征和当前说话人特征，以及所述当前信息帧之前的连续多个历史信息帧和所述当前信息帧之后的连续多个未来信息帧为输入，对所述语音识别模型进行训练，直至所述语音识别模型收敛。
22.作为一种较优的选择实施方式，优选的，所述的语音识别系统所识别输出的语音识别结果包括预设语音信号的置信度和非预设语音信号的置信度，且该预设语音信号的置信度和非预设语音信号的置信度均为似然值。
23.作为一种较优的选择实施方式，优选的，根据语音信号获取的时间节点进行对应调取对应区间时段的经验矩阵数据与其进行数学计算的方法为：
24.将语音识别系统所识别输出的语音识别结果做softmax运算，输出归一化到(0，1)之间且相加为1的置信度矩阵结果(x1，y1)，其中，x1为预设语音信号的置信度，y1为非预设语音信号的置信度；
25.将矩阵结果(x1，y1)与对应区间时段的经验矩阵(x，y)相乘，获得计算结果(x2，y2)，当x2大于y2时，判定语音识别成功，否则，判定语音识别失败。
26.作为一种较优的选择实施方式，优选的，根据语音识别成功或语音识别失败结果，对经验矩阵数据进行调整更新的方法为：
27.当语音识别成功时，则相应将对应区间时段的经验矩阵(x，y)的x值加上预设正值，当x值大于等于预设上限值时，不进行加值计算，y值加上预设负值，当y值小于等于预设下限值时，不进行加值计算；
28.当语音识别失败时，则相应将对应区间时段的经验矩阵(x，y)的x值加上预设负
值，当x值小于等于预设下限值时，不进行加值计算，y值加上预设正值，当y值大于等于预设上限值时，不进行加值计算。
29.本发明方案引入的人类行为经验矩阵，在一定程度上将用户喜好引入进来，其应用在医疗看护和智能家居场景中，用户对语音识别的使用符合一定的规律，人类行为经验矩阵就是要模拟这种规律来动态的调整置信度，以提高识别性能。
30.基于上述学习方法，本发明还提供一种基于人类行为经验的语音识别学习系统，其包括：
31.数据单元，用于存储预设工作时段内的经验矩阵，该经验矩阵的规格为m
×
n，且预设工作时段中的若干区间时段均对应有不同的经验矩阵，该经验矩阵内的数据均具有赋值和关联有对应参数；
32.语音识别单元，用于接收语音信号，且输出语音识别结果和将语音识别结果对应转换成规格为m
×
n的矩阵数据；
33.策略单元，用于将语音识别结果转换成的矩阵数据与存储于数据单元内的对应区间时段的经验矩阵数据与其进行数学计算，输出计算结果和语音识别判定结果；
34.动态更新单元，用于根据语音识别判定结果，对存储于数据单元内的经验矩阵数据进行调整更新。
35.作为一种可能的实施方式，进一步，所述的语音识别单元为离线语音识别单元。
36.在此基础上，若是具备同样硬件条件的情况下，本发明所提及的学习方法还存在一定的可通配性，因此，本发明还提供了一种计算机可读的存储介质，所述的存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述的至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行实现上述所述的基于人类行为经验的离线语音识别学习方法。
37.采用上述的技术方案，本发明与现有技术相比，其具有的有益效果为：
38.(1)本发明在离线语音识别系统的后端引入了人类行为经验矩阵，该矩阵由用户喜好而生成，对离线语音识别输出微调，能够在有限的计算资源下有效的提升语音识别的准确率，降低误触发。
39.(2)本发明引入的人类行为经验矩阵相当于动态的设置了阈值，可替代由用户来自行设置阈值，使产品使用更具友好性。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
41.图1是本发明方案的简要运行流程示意图；
42.图2是本发明方案的其中一种运行实例得简要流程示意图；
43.图3是基于本发明方案的其中一种硬件实施方案。
具体实施方式
44.下面结合附图和实施例，对本发明作进一步的详细描述。特别指出的是，以下实施例仅用于说明本发明，但不对本发明的范围进行限定。同样的，以下实施例仅为本发明的部分实施例而非全部实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。
45.如图1所示，本发明一种基于人类行为经验的离线语音识别学习方法，其包括如下步骤：
46.s01、将预设工作时段按预设间隔时长进行分割成若干区间时段，构建与若干区间时段相对应的经验矩阵，该经验矩阵的规格为m
×
n，对经验矩阵内的数据进行赋值和关联对应参数；
47.s02、接收语音信号，将其导入语音识别系统，输出语音识别结果，然后将其转换成规格为m
×
n的矩阵数据，并根据语音信号获取的时间节点进行对应调取对应区间时段的经验矩阵数据与其进行数学计算，输出计算结果；
48.s03、当计算结果满足预设条件时，判定语音识别成功，否则，判定语音识别失败；
49.s04、根据语音识别成功或语音识别失败结果，对经验矩阵数据进行调整更新。
50.其中，作为一种可能的实施方式，进一步，所述的预设工作时段为自然日的24h，以10分钟为一个间隔时长进行分割成144个区间时段；而作为一种较优的选择实施方式，优选的，所述的若干区间时段相对应的经验矩阵为1
×
2规格的矩阵，该经验矩阵内的参数分别为(x，y)，其中，x+y＝1，x为预设语音信号的置信度，y为非预设语音信号的置信度；优选的，该经验矩阵中x和y的初始权值分别为0.5。
51.另外，作为一种较优的选择实施方式，优选的，所述的语音识别系统加载有经训练的时延神经网络
‑
隐马尔可夫模型，其训练过程包括：
52.获得训练音频的每个信息帧，以及每个信息帧的梅尔倒谱特征、声调特征和当前说话人特征；以及
53.以一当前信息帧的梅尔倒谱特征、声调特征和当前说话人特征，以及所述当前信息帧之前的连续多个历史信息帧和所述当前信息帧之后的连续多个未来信息帧为输入，对所述语音识别模型进行训练，直至所述语音识别模型收敛。
54.作为一种较优的选择实施方式，优选的，所述的语音识别系统所识别输出的语音识别结果包括预设语音信号的置信度和非预设语音信号的置信度，且该预设语音信号的置信度和非预设语音信号的置信度均为似然值。
55.由于需要将语音识别的结果与对应的经验矩阵的数据进行对应，所以，作为一种较优的选择实施方式，优选的，根据语音信号获取的时间节点进行对应调取对应区间时段的经验矩阵数据与其进行数学计算的方法为：
56.将语音识别系统所识别输出的语音识别结果做softmax运算，输出归一化到(0，1)之间且相加为1的置信度矩阵结果(x1，y1)，其中，x1为预设语音信号的置信度，y1为非预设语音信号的置信度；
57.将矩阵结果(x1，y1)与对应区间时段的经验矩阵(x，y)相乘，获得计算结果(x2，y2)，当x2大于y2时，判定语音识别成功，否则，判定语音识别失败。
58.为了能够进行实时调整各区间时段的触发灵活性和人性化，作为一种较优的选择
实施方式，优选的，根据语音识别成功或语音识别失败结果，对经验矩阵数据进行调整更新的方法为：
59.当语音识别成功时，则相应将对应区间时段的经验矩阵(x，y)的x值加上预设正值，当x值大于等于预设上限值时，不进行加值计算，y值加上预设负值，当y值小于等于预设下限值时，不进行加值计算；
60.当语音识别失败时，则相应将对应区间时段的经验矩阵(x，y)的x值加上预设负值，当x值小于等于预设下限值时，不进行加值计算，y值加上预设正值，当y值大于等于预设上限值时，不进行加值计算。
61.如图2所示，作为上述学习方法的一种演示实例，其大致如下：
62.所谓的人类行为经验矩阵，就是一种用户对离线语音识别系统的喜好，我们通过统计用户在各个时段的唤醒频率(或具体的使用词汇频率)，来与语音识别输出的置信度矩阵进行相乘，以此来调整置信度，最终将调整后的置信度与设置的阈值做一个判别，其具体运行方法如下：
63.以唤醒词为例子，首先对一天24小时以每10分钟为一个区间划分时段，这样得到了24
×
6＝144个时段，唤醒词语音识别系统的输出为2个结果，一种是预设语音信号的置信度，一种是非预设语音信号的置信度，所以初始化一个2
×
144大小的一个人类行为经验矩阵进行供调用。其中，行大小为2，初始化概率为(0.5，0.5)分别为唤醒词(预设词汇的语音信号)和unk(非唤醒词，即非预设词汇的语音信号)的初始权值，令二者相加为1.0，列大小为144，表征144个划分时段的的概率矩阵。
64.对于语音识别系统输出的语音识别结果，做softmax运算，使得输出归一化到(0，1)之间且相加为1的置信度矩阵结果，初始时，人类行为经验矩阵中每一个权值均为0.5，使用语音识别的输出，即大小为(1
×
2)的矩阵数据对应时段的一个(1
×
2)的经验矩阵数据对应位置进行相乘得到一个(1
×
2)大小的矩阵，经过与人类行为经验矩阵相乘后的结果，取出最大的结果作为最终的评分结果；其中，可由图2可知，语音识别系统输出的置信度矩阵为(0.98，0.02)，其与对应的经验矩阵数据(0.6，0.4)进行相乘后，获得的矩阵结果为(0.588，0.08)，由于预设语音信号的置信度0.588大于非预设语音信号的置信度0.08，所以可以判定语音识别成功，接下来更新人类行为经验矩阵，分别为增加和删除相应矩阵数据的值，其大致操作原理为：
65.增加：首先保证经验矩阵中正类(预设语音信号的置信度)与负类(非预设语音信号的置信度)相加为1，在某个时段识别成正类一次(可为满足一定次数)，即对应时段的正类+0.001，负类
‑
0.001，设置一个上下限，即权值不能更新过大，例如：我们设置为上界限为0.65，下界限为0.35。
66.删除：同理，对于某个时段，一直没有识别，则应当降低概率或删除相应矩阵数据，使其无法触发，当然，删除的触发的条件比较严格，应该满足更严格的条件才能够触发删除操作，删除操作能够适应当用户改变行为习惯的情况。
67.如图3所示，基于上述学习方法，本发明还提供一种基于人类行为经验的语音识别学习系统，其包括：
68.数据单元m3，用于存储预设工作时段内的经验矩阵，该经验矩阵的规格为m
×
n，且预设工作时段中的若干区间时段均对应有不同的经验矩阵，该经验矩阵内的数据均具有赋
值和关联有对应参数；
69.语音识别单元m1，用于接收语音信号，且输出语音识别结果和将语音识别结果对应转换成规格为m
×
n的矩阵数据，该语音识别单元m1可以为离线语音识别单元；
70.策略单元m2，用于将语音识别结果转换成的矩阵数据与存储于数据单元m3内的对应区间时段的经验矩阵数据与其进行数学计算，输出计算结果和语音识别判定结果；
71.动态更新单元m4，用于根据语音识别判定结果，对存储于数据单元m3内的经验矩阵数据进行调整更新。
72.其中，动态更新单元m4中除了人类行为经验矩阵，还可以加入环境影响因子，比如说当前音频端测定能量，平均能量过高，表明环境较为吵杂，吵杂情况下，越吵杂，环境影响越大，人类行为经验矩阵与环境影响因子做乘运算，进行微调，能够降低误触发。
73.另外，在本发明各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
74.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
75.以上所述仅为本发明的部分实施例，并非因此限制本发明的保护范围，凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：兰泽华;林昱;陈少伟
技术所有人：睿云联（厦门）网络通讯技术有限公司
我是此专利的发明人

上一篇：一种用于制作门窗过梁预制块的可调式模具及其使用方法与流程
上一篇：一种隧道高效率积水排出装置的制作方法