本发明涉及语音检索领域,特别是一种基于多视角的语音关键词检测与定位方法及装置。
背景技术:
1、关键词检测是一种在连续的语音中检测出特定关键词的技术,是语音识别研究领域的一个重要分支,广泛应用于语音设备控制和语音检索中。根据检测目的和形式的不同,语音关键词检测可分为语音检测语音(语音样例检测)、文本检测语音。
2、目前主流的语音关键词检测方案是基于单个角度(文本或语音),其中基于文本的检测方法主要是利用语音识别技术,即将待检测语音数据转换为文本内容,确定文本内容中是否出现指定关键词。基于语音的检测方法将携带关键词的语音片段直接与语音音频进行声学似然度匹配检测。当前,不同类型数据不断增长堆积,可以利用数据多样化将文本和语音的检测结合,从两个角度来进行检测以提高检测的准确度。
3、基于文本的检测由于文本数据和语音数据的异态,无法直接进行比较相似性,随着深度神经网络的发展,可以利用其强大的特征映射能力判断语音和文本高层特征之间的相似度,得到检测结果。除此之外,多任务框架出现,通过挖掘任务之间的关系,能够得到额外的有用信息,大部分情况下都要比单任务的效果要好。
4、除了能判断关键词是否在语音音频中外,确定指定关键词在对应的语音音频中出现的位置也格外重要。目前多数检测方法都忽略了关键词的位置定位。
技术实现思路
1、针对上述问题,本发明提供一种基于多视角的语音关键词检测与定位方法及装置,目的在于从多角度出发,结合文本检测和语音检测的结果以提高语音关键词检测的准确度,同时确定关键词在语音音频中的时间位置。
2、本发明采用下述的技术方案:
3、一种基于多视角的语音关键词检测与定位方法,包括以下步骤:
4、s1、将待检测语音音频作为输入,对所述待检测语音音频切分成若干语音段并存入存储设备;
5、构建特征提取器,对单个所述语音段进行特征提取,输出待检测语音特征;
6、s2、将待检测语音特征输入到基于多视角的关键词检测模型,所述关键词检测模型包括基于多任务框架的端到端文本关键词检测模型和基于孪生神经网络的样例关键词检测模型;
7、s3、将检测文本和所述待检测语音特征输入到所述端到端文本关键词检测模型,提取所述检测文本和所述语音特征的高层特征,使用注意力机制获得注意力权重矩阵,以二分类判决和语音识别辅助主任务进行相似度计算,输出一维的相似度向量;
8、将检测语音样例和所述待检测语音特征输入到所述样例关键词检测模型,通过嵌入特征提取器输出所述检测语音样例和所述待检测语音特征固定维度的嵌入表征,使用滑动窗口对所述待检测语音特征的嵌入表征分段并计算与所述检测语音样例的相似度,输出一维的相似度向量;
9、需要说明的是
10、将检测文本和所述待检测语音特征输入到所述端到端文本关键词检测模型
11、和
12、将检测语音样例和所述待检测语音特征输入到所述样例关键词检测模型
13、并无先后顺序;
14、s4、将s3中的端到端文本关键词检测模型和样例关键词检测模型输出的相似度向量进行加权融合,输出置信度分数;根据置信度分数判断所述语音段中是否存在待检测关键词;
15、s5、根据s4中的置信度分数判决结果,若所述语音段中存在待检测关键词,将融合后的相似度向量进行计算得到所述待检测语音特征中关键词对应的起止帧索引,根据帧长、帧移计算所述起止帧在所述语音段中的时间位置并输出。
16、优选的,所述s1中,通过端点检测器将所述待检测语音音频分为语音段和非语音段;所述语音段为包含语音信息的信号部分,所述非语音段为未包含语音信息的信号部分;所述端点检测器使用基于短时能量和过零率的双门限端点检测算法 ;
17、所述s1中,通过特征提取器将单个语音段中具有辨识度的语音特征提取出来,所述特征提取器是一种语音预训练模型,包括帧特征编码器和上下文编码器;
18、所述帧特征编码器用于将分帧后的单个所述语音段编码为若干特征表达zi;所述上下文编码器用于混合多个所述特征表达zi ...zi-v并输出一个具有上下文关系的特征向量 ci= g(zi ...zi-v)。
19、优选的,所述s3中端到端文本关键词检测,包括以下步骤:
20、s31-1:构建基于注意力机制和多任务框架的端到端文本关键词检测模型;
21、s31-2:输入所述待检测语音特征到声学编码模块并输出语音特征的高层特征向量;输入所述检测文本到文本嵌入模块并输出文本的嵌入特征向量;
22、s31-3:将语音高层特征向量和所述文本嵌入特征向量输入到注意力编码模块,输出一个注意力权重矩阵和一个结合所述语音高层特征向量和所述文本嵌入特征向量的文本语音融合特征;
23、s31-4:以二分类判决作为辅助任务,将所述文本语音融合特征作为输入进行关键词检测,用输出范围为0-1的置信度分数来表示关键词是否出现在所述语音段中;
24、s31-5:以语音识别作为辅助任务,将声学编码输出的语音特征的高层特征作为输入,使用ctc损失函数进行语音识别来辅助进行关键词检测;
25、s31-6:以相似度计算作为主任务,将所述注意力权重矩阵作为输入以输出一维的相似度向量;所述相似度向量为概率向量,相似度向量长度与所述待检测语音特征帧数相同。
26、优先的,s3中,所述端到端文本关键词检测模型包括声学编码模块、文本嵌入模块、注意力编码模块、判决模块、语音识别模块以及卷积模块;
27、所述声学编码模块使用双向lstm网络以及线性层,用于提取高层特征表示和挖掘输出特征时序上的相关性;
28、所述声学编码模块的输出使用线性层对双向lstm的隐含层输出做线性变换,使最终输出的所述语音高层特征向量和所述文本嵌入特征向量在同一嵌入空间中;
29、所述文本嵌入模块包括嵌入层以及线性层,将关键词转化为标签序列,经过嵌入矩阵和线性变换输出文本嵌入特征向量;所述标签为声学编码模块的建模单元;
30、所述注意力编码模块使用注意力机制得到所述语音高层特征向量和所述文本嵌入特征向量之间的注意力分数,进而从所述语音高层特征中提取与当前关键词检测所需的信息,输出一个注意力权重矩阵和一个文本语音融合特征;
31、所述判决模块执行二分类判决任务,包括两个线性层,通过sigmoid激活函数输出范围为0-1的置信度分数;
32、所述语音识别模块将所述语音高层特征向量作为输入,通过一个线性层和softmax激活函数得到输出标签的概率分布,使用ctc损失函数进行语音识别;
33、所述卷积模块使用一维卷积神经网络实现相似度计算任务,通过sigmoid激活函数在每一帧上作二分类得到相似度向量。
34、优选的,所述注意力编码模块的作用过程包括以下步骤:
35、步骤1)、给定所述文本嵌入特征向量,用 qi对所述语音高层特征向量中的每一个特征向量做内积,最终得到 t1× t2注意力分数矩阵:
36、 dij= dot( qi, vj), i∈(1,2,... t1), j∈(1,2,... t2)
37、式中, dij为嵌入向量 qi和高层特征 vj的关联性大小,无量纲; t1为文本嵌入特征的总标签数,无量纲; t2为语音高层特征的总帧数,无量纲;
38、步骤2)、将注意力分数矩阵经过softmax激活函数计算得到对应的注意力权重矩阵 w:
39、
40、其中,注意力权重矩阵 w的任意一行向量的全部元素之和等于1,将其视为一组权重;
41、步骤3)、用步骤2)中的一组权重对所述语音高层特征进行加权求和得到一个向量;
42、步骤4)、对于注意力权重矩阵的每个行向量都对所述语音高层特征进行加权求和,将输出的向量放在一起组成所述文本语音融合特征。
43、优选的,所述s3中的样例关键词检测模型,包括以下步骤:
44、s32-1:将检测语音样例输入到特征提取器,输出样例语音特征;
45、s32-2:构建基于孪生神经网络的嵌入特征提取器,其中每个子网络使用双向lstm网络;
46、s32-3:将所述待检测语音特征和样例语音特征输入到嵌入特征提取器,提取两者的固定维度嵌入特征;
47、s32-4:使用滑动窗口对待检测语音特征的嵌入特征进行分段,分段大小为所述样例语音特征长度的大小,使用余弦距离来计算样例语音特征的嵌入特征和待检测语音特征的嵌入特征的相似度,输出一个一维的相似度向量。
48、优选的,所述嵌入特征提取器包括两个相同的子网络,每个子网络使用双向lstm网络来编码语音特征到固定维度;
49、对于所述待检测语音特征通过双向lstm网络,得到一个 t1帧的特征;对于样例语音特征通过双向lstm网络,得到一个 t2帧的特征;
50、滑动窗口大小选择 t2帧的大小,移动步长选择为1帧,最后采用填充策略进行补充使相似度向量长度和待检测语音特征帧数相同。
51、优选的,所述s4中加权融合包括以下步骤:
52、令所述语音段为x,则置信度分数满足以下公式:
53、 γ( x)= α( x)* ω1+ β( x)* ω2
54、式中, γ( x)为融合相似度向量, α( x)和 β( x)分别为端到端文本关键词检测输出的相似度向量和样例关键词检测输出的相似度向量, ω1和 ω2为预设的权重值;, t2为所述待检测语音特征帧数,*为乘号;
55、将融合相似度向量输入到前馈神经网络中得到一个范围在0-1的置信度分数。
56、优选的,所述s5包括以下步骤:
57、输入所述融合相似度向量 γ( x),若融合相似度向量中从 γ( x)i到 γ( x)j的每一个元素的值大于或等于预设阈值,则表示所述待检测语音特征从第 i帧到第 j帧为关键词的位置,得到在所述待检测语音特征中关键词对应的起止帧索引;
58、根据语音音频分帧选择的帧长frameshift,帧移framelen以及起始帧索引和结束帧索引来计算时间位置:
59、 starttime= frameshift*( ts-1)
60、 endtime= frameshift*( te+ v-1)+ framelen
61、式中, ts为起始帧索引,无量纲; te为结束帧索引,无量纲;
62、所述特征提取器中上下文编码器会混合当前特征表达 zi和其前 v个特征得到特征 ci= g( zi,..., zi-v),在进行特征帧映射语音段中的时间位置计算时,需要将前 v个特征包括在一起计算时间位置,*为乘号。
63、一种电子装置,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
64、本发明的有益效果:
65、1.本发明首先从待检测语音音频中切分语音段并提取语音段的语音特征,然后通过端到端文本关键词检测模型和样例关键词检测模型提取语音特征的高层特征分别与检测文本或检测语音样例的高层特征进行相似度匹配,最后融合两个模型的结果进行关键词检测和位置定位;
66、2.本发明结合文本和语音两个角度进行检测,能够提供可靠的判决置信度,提升关键词的检出率和检出准确率,检索效果较好,并且可以给出关键词在语音音频中的准确时间位置;
67、3.本发明中的端到端文本关键词检测模型采用多任务框架,使用二分类判决和语音识别作为辅助任务,主任务进行相似度计算得到一维的相似度向量,辅助任务能够为语音和文本特征之间的关联性建模,使检测模型能够更好地关注影响任务模型性能的特性;
68、4.本发明中的样例关键词检测模型使用孪生神经网络共享权重参数,其作为嵌入特征提取器,通过训练,使得在嵌入特征向量表示的情况下,相同关键词的嵌入特征向量的距离近,不同关键词的向量距离远。因此,只需比较距离就可以比较相似度,比较过程简单快速。