一种基于多模态融合的管制话音复述一致性校验方法与流程

文档序号:25651111发布日期:2021-06-29 20:28阅读:139来源:国知局
一种基于多模态融合的管制话音复述一致性校验方法与流程

1.本发明属于空中交通管制自动化系统技术领域,尤其涉及一种基于多模态融合的管制话音复述一致性校验方法。


背景技术:

2.在航空器飞行过程中,为了保证航空器的飞行安全,空中交通管制员(“管制员”)与航空器飞行员必须能及时、准确地理解对方的意图。在实际的管制工作中,管制员发出一条管制指令后,飞行员在理解指令内容后必须复述一遍管制指令,这个过程被称为复诵。复诵的准确性对航空安全至关重要,然而当前的判断方法仍然是靠管制员人为判断,缺乏自动化系统的辅助,由于长时间的高强度工作会使管制员出现疲劳,有时难以判断复述指令是否与管制指令保持语义一致,因复述不一致而导致的飞行事故时而发生。由于管制指令和复述指令是以话音形式传递的,因此使用语音识别、自然语言处理等人工智能技术进行语义一致性校验可以帮助管制员及时发现复述的不一致性,提升空中交通运行的安全性,减轻管制员的工作负荷。
3.当前基于深度学习的管制复述一致性校验方法利用语音识别技术将话音数据转换成文本形式,再利用深度神经网络对管制复述文本的一致性进行判断。由于受到语音识别技术的准确率限制,该方法存在准确率较差的问题。多模态融合技术利用不同模态之间信息互补的特点,使用管制语音信号对管制文本数据进行补偿,增强自动化系统对管制指令的语义理解能力,提高一致性校验结果的准确性和可靠性。


技术实现要素:

4.发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于多模态融合的管制话音复述一致性校验方法,包括如下步骤:
5.步骤1,采集管制话音与复述话音数据,形成正样本训练数据;根据管制话音产生错误的复述话音,形成负样本训练数据;使用语音识别技术(参考文献:俞栋、邓力。“解析深度学习:语音识别实践”,电子工业出版社,2016)对收集到的管制话音与复述话音训练数据进行处理,生成文本数据,文本数据包括管制文本数据与复述文本数据;
6.步骤2,构建单语音单文本多模态融合模型,将文本数据输入单语音单文本多模态融合模型,输出概率分布;
7.步骤3,构建双语音双文本多模态融合模型,将文本数据输入双语音双文本多模态融合模型,输出概率分布;
8.步骤4,构建全连接神经网络分类模型,将步骤2得到的概率分布和步骤3得到的概率分布输入全连接神经网络分类模型,输出管制话音复述一致性校验结果。
9.步骤2中,所述单语音单文本多模态融合模型包括第一高层特征提取层、基于注意力机制的第一特征对齐层、第一多模态特征融合层和第一语义一致性校验层。
10.步骤2中,所述构建单语音单文本多模态融合模型具体包括:
11.步骤2

1,构建第一高层特征提取层,得到高层特征:将收集得到的管制话音与复述话音训练数据作为输入,对训练数据分帧,将长度为n秒的管制话音数据分成m帧,每一帧信号的长度是分别对每一帧信号做快速傅里叶变换处理,从时域表示转换成频谱表示,再使用梅尔滤波器处理信号,得到基于梅尔倒谱系数的序列表示方法,即得到语音信号的低层特征;
12.对文本数据进行词嵌入处理,通过分词生成词语序列,然后使用word2vec方法将每个词转换成词向量的形式,组合形成文本数据的向量表示方法,即得到文本数据的低层特征;
13.构建双向长短期记忆网络(lstm)层(参考文献:sepp hochreiter and j
ü
rgen schmidhuber.“long short

term memory”.neural computation,9(8):1735

1780,1997.),该层分别对语音信号和文本数据的底层特征进行提炼,形成语音信号和文本数据的高层特征;
14.步骤2

2,构建基于注意力机制的第一特征对齐层,第一特征对齐层使用一层全连接神经网络对由双向长短期记忆网络lstm层生成的语音特征和文本特征进行计算,得到它们之间的注意力值分布:设定经过处理后的语音高层特征和文本高层特征分别是和其中r是实数集合,m
s
和m
t
分别表示语音和文本特征序列的长度,l表示特征维度,则通过全连接层计算得到的注意力值如下所示:
[0015][0016]
其中a
ij
表示第i帧语音数据与第j个文本中的字之间的相似度,使用所述注意力值分布对语音特征进行加权处理,实现对齐操作,作为输出特征:a
ij
·
e

s

[0017]
步骤2

3,将输出的加权特征输入双向长短期记忆网络lstm层,将经过双向长短期记忆网络lstm层处理后得到的文本高层特征和步骤2

2得到的经过加权对齐后的语音高层特征进行拼接,得到拼接结果e=[e

t
,a
ij
·
e

s
],将e作为模型的输入,输出两种模态数据融合后的高层特征;
[0018]
步骤2

4,构建前向全连接神经网络作为输出层,对语义一致性进行校验,即:
[0019]
y=softmax(w
·
e+b)
ꢀꢀ
(2)
[0020]
其中,y∈r1×2表示输出判断结果,即分别为一致或不一致的概率分布,w∈r
l
×2是全连接层的权重,b∈r1×2是全连接层的偏置参数,将步骤2

3输出的高层特征作为该层输入,输出基于二值概率分布的分类结果,分别表示语义一致和语义不一致的概率分布。
[0021]
步骤3中,所述双语音双文本多模态融合模型包括第二高层特征提取层、基于注意力机制的第二特征对齐层、第二多模态特征融合层和输出层。
[0022]
步骤3中,所述构建双语音双文本多模态融合模型具体包括:
[0023]
步骤3

1,构建输出层高层特征提取层,得到高层特征表示:将收集得到的管制话音与复述话音训练数据作为输入,对话音信号分帧,将长度为n秒的管制话音数据分成m帧,每一帧信号的长度是分别对每一帧信号做快速傅里叶变换处理,从时域表示转换成频谱表示,再使用梅尔滤波器处理信号,得到基于梅尔倒谱系数的序列表示方法,即得到语音信号的低层特征;分别将管制话音与复述话音数据、管制文本数据与复述文本数据拼接形
成语音输入和文本输入;
[0024]
由于transformer模型具有更强的特征抽取能力,以及多模态数据特征的融合能力,因此选择transformer作为特征抽取层。构建transformer模型分别对语音输入和文本输入进行处理,transformer模型的输入是语音信号和文本数据的向量序列,同时利用位置编码表示每个特征向量的位置信息,位置编码公式如下:
[0025][0026][0027]
其中,pe(pos)表示在位置pos处特征向量的位置编码,其中pe(pos,2i)表示正弦分量,pe(pos,2i+1)表示余弦分量。d
model
=512是维度,i∈(0,512),奇数维位置编码使用公式(1)得到,偶数维位置编码使用公式(2)得到,位置编码维度是(l,512),l表示输入序列的长度,将位置编码与输入的向量序列相加得到transformer模型的输入;
[0028]
transformer模型利用多头注意力计算输入句子中特征向量之间的注意力值,并利用注意力值对输入句子的词向量表示进行改进,具体包括:多头注意力包括h个单项比例点积注意力(scaled dot

product attention),输入句子的特征向量通过以下公式计算:
[0029]
x
×
w
q
=q
ꢀꢀ
(5)
[0030]
x
×
w
k
=k
ꢀꢀ
(6)
[0031]
x
×
w
v
=v
ꢀꢀ
(7)
[0032]
其中,x表示输入序列的特征,q,k,v分别代表查询向量,键向量和值向量,k

q表示键

值对,w
q
、w
k
、w
v
分别为q,k,v的参数矩阵,用于得到q,k,v;注意力值注意力值attention(q,k,v)的计算公式如下:
[0033][0034]
其中attention(q,k,v)是语音信号与文本数据注意力值,d
k
为缩放因子,softmax函数是归一化激活函数,将输出概率映射到(0,1)区间内;
[0035]
在transformer模型中,q表示语音信号的输入序列,k和v则表示文本数据的输入序列,经过transformer模型后,得到经过语义处理的高层特征表示;
[0036]
步骤3

2,构建基于注意力机制的第二特征对齐层,基于注意力机制的第二特征对齐层使用一层全连接神经网络对多头注意力机制输出的特征结果进行集成,输出是语音信号的高层特征和文本数据的高层特征对齐操作后的特征;
[0037]
步骤3

3,使用前向全连接神经网络构建输出层,对语义是否一致性进行校验,将步骤3

2得到的特征作为输入,得到输出结果是一个基于二值概率分布的分类结果,分别表示语义一致和语义不一致的概率分布。
[0038]
步骤3

1中,softmax函数的定义如下:
[0039][0040]
步骤4包括:使用全连接神经网络构建分类层,输入为从两个单语音单文本多模态融合模型(分别是以管制话音和复述文本作为输入,以管制文本和复述话音作为输入,模型都是单语音单文本多模态融合模型,但输入不同)和一个双语音双文本多模态融合模型中
得到的概率分布,输出经过softmax函数后得到归一化的概率分布,分别为一致性的出现概率和不一致性的出现概率,其中出现概率大的为判断结果。
[0041]
有益效果:本发明具有如下的技术效果:本发明方法实现了智能管制复述语义一致性校验,利用多模态数据间信息互补的特点,使用语音信号补偿文本数据信息缺失的问题,而该问题通常由语音识别技术的准确性不足而造成。因此可以得到可靠性较高的判断结果。
附图说明
[0042]
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
[0043]
图1是本发明方法流程图。
[0044]
图2是单语音单文本多模态融合模型的结构图。
[0045]
图3是双语音双文本多模态融合模型的结构图。
[0046]
图4是双向lstm模型结构图。
[0047]
图5是注意力对齐加权示意图。
[0048]
图6是语义角色标注模型transformer模型结构图。
具体实施方式
[0049]
本发明提出了一种基于多模态融合的管制话音复述一致性校验方法,其流程图如图1所示,具体包括如下步骤:
[0050]
步骤1:采集管制话音与复述话音数据,形成正样本数据对。同时由专业人员根据管制话音产生错误的复述话音,形成负样本数据对。使用语音识别技术对话音数据进行处理,生成文本数据。使用这些数据对深度神经网络模型进行训练,得到训练后的模型。由于实际的一致性校验过程和训练过程一样,因此在判断过程中详细介绍模型的组成和判断(训练)过程。
[0051]
举例如下:在收集如下管制话音数据:东方三九八四,跑道三五,可以起飞。和复述话音数据:跑道三五,可以起飞,东方三九八四。之后,由专业人员产生错误的复述:跑道三五,等待起飞,东方三九八四,则生成错误的负样本对。将这些话音数据转成文本,形成话音和文本多模态训练数据。
[0052]
步骤2:构建单语音单文本多模态融合模型(见图2)(参考文献:haiyang xu,hui zhang,kun han,yun wang,yiping peng,xiangang li,“learning alignment for multimodal emotion recognition from speech”,in interspeech 2019,https://arxiv.org/abs/1909.05645.),该模型的作用是判断管制语音与复述文本的一致性,或复述语音与管制文本的一致性。该模型主要由四个部分组成:1)高层特征提取层;2)基于注意力机制的特征对齐层;3)多模态特征融合层;4)语义一致性校验层。
[0053]
1)对输入的语音信号分帧,将长度为n秒的管制话音数据分成m帧,每一帧信号的长度是分别对每一帧信号做快速傅里叶变换(fft)处理,从时域表示转换成频谱表示,再使用梅尔滤波器处理信号,得到基于梅尔倒谱系数(mfcc)的序列表示方法,即得到语音信
号的低层特征。
[0054]
设定输入话音数据的时长为20秒,以2秒为一帧,则将话音数据切分程10帧的输入序列,对其进行处理,得到输入为的输入序列,其中l
s
表示特征维度。
[0055]
对输入的文本数据进行词嵌入处理,通过分词生成词语序列,然后使用word2vec方法将每个词转换成词向量的形式,组合形成文本数据的向量表示方法,即得到文本数据的低层特征。
[0056]
以“东方三九八四,跑道三五,可以起飞”为例,该句长度为16个字,采用统一的字数作为输入文本的长度,比如:50个字,则对该文本进行字数补齐后生成输入特征:其中l
t
表示特征维度。
[0057]
分别构建双向lstm模型层(见图4),该层分别对输入语音和文本的低层特征进行提炼,形成高层特征。经过双向lstm处理后,e
s
与e
t
转成维度相同的高层特征:e

s
∈r
10
×
l
,e

t
∈r
50
×
l
,其中l表示高层特征维度,将语音特征和文本特征的维度进行统一后可以进行拼接处理。
[0058]
2)构建注意力层(见图5),该层使用一层全连接神经网络对输入的语音特征和文本特征进行计算和匹配,得到两者之间的注意力值分布,使用该注意力值分布对语音特征进行加权处理,实现与文本特征的对齐操作,输出经过加权对齐后的语音特征,通过处理得到输出的语音数据的加权特征为:e

s
∈r
10
×
l

[0059]
3)使用双向lstm模型构建多模态特征融合层,将文本特征和经过加权对齐处理后的语音特征进行拼接输入多模态特征融合层的双向lstm模型,输出融合特征。
[0060]
4)使用前向全连接神经网络构建语义一致性校验层,将融合特征作为输入,得到输出结果是一个二值概率分布,分别为语义一致的概率分布和语义不一致的概率分布,假设输入的语音

文本数据对是正确的,则输出为1的概率大于输出为0的概率,反之则输出为1的概率小于输出为0的概率。
[0061]
步骤3:构建双语音双文本多模态融合模型(见图3),该模型的作用是利用管制语音、复述语音、管制文本、复述文本四类数据同时进行语义一致性校验。该模型主要由四个部分组成:1)高层特征提取层;2)基于注意力机制的特征对齐层;3)多模态特征融合层;4)语义一致性校验层。
[0062]
对于该步骤而言,输入为管制和复述语音或文本的拼接,即:东方三九八四,跑道三五,可以起飞;跑道三五,可以起飞,东方三九八四。或:东方三九八四,跑道三五,可以起飞;跑道三五,等待起飞,东方三九八四。相应地,输入的特征维度分别为:其输入语音或句子的长度分别是单个输入的两倍,以及用于分隔表示的“;”符号。
[0063]
1)对语音信号和文本信号的低层特征抽取过程与步骤2相同。在得到低层特征后分别将管制话音与复述话音数据、管制文本数据与复述文本数据拼接形成语音输入和文本输入;
[0064]
构建transformer模型(见图6)分别对拼接后的语音输入和文本输入进行处理,作用是找到管制语音(文本)与复述语音(文本)之间的语义相关程度,并利用语义相关程度改进特征表示,使其具备更强的语义关联性。transformer模型的输入特征向量序列,利用位置编码表示每个特征向量的位置信息,位置编码公式如下:
[0065][0066][0067]
其中pe(pos)表示在位置pos处特征向量的位置编码,d
model
=512是维度,i∈(0,512),因此奇数维位置编码使用公式(1)得到,偶数维位置编码使用公式(2)得到,位置编码维度是(l,512),和输入特征向量维度一样,将二者相加得到transformer模型的输入。
[0068]
transformer模型利用多头注意力计算输入句子中特征向量之间的注意力值,并利用注意力值对输入句子的词向量表示进行改进,提升语义特征抽取的能力。多头注意力主要由h=8个scaled dot

product attention组成,输入句子的特征向量将通过以下计算:
[0069]
x
×
w
q
=q
ꢀꢀ
(3)
[0070]
x
×
w
k
=k
ꢀꢀ
(4)
[0071]
x
×
w
v
=v
ꢀꢀ
(5)
[0072]
得到q,k,v,其中q,k,v分别代表query向量,key向量和value向量,w
q
、w
k
、w
v
分别为转换矩阵。scaled dot

product attention的公式如下:
[0073][0074]
其中d
k
为缩放因子,softmax函数是归一化激活函数,将多个神经元的输出概率映射到(0,1)区间内。softmax函数的定义如下:
[0075][0076]
经过transformer模型后,得到经过语义处理的高层特征表示。
[0077]
2)构建注意力层(见图5),该层使用一层全连接神经网络对输入的语音特征和文本特征进行计算和匹配,得到两者之间的注意力值分布,使用该注意力值分布对语音特征进行加权处理,实现与文本特征的对齐操作,输出经过加权对齐后的语音特征。
[0078]
3)使用双向lstm模型构建多模态融合层,将文本特征和经过对齐处理后的语音特征进行拼接输入该层的双向lstm模型,输入融合特征。
[0079]
4)使用前向全连接神经网络构建语义一致性校验层,将融合特征作为输入,得到输出结果是一个二值概率分布,分别为语义一致的概率分布和语义不一致的概率分布。
[0080]
步骤4:构建一个简单的全连接神经网络分类模型,输入是从三个模型(两个单语音单文本多模态融合模型和一个双语音双文本多模态融合模型)中得到的概率分布,输出经过softmax函数(见式(7))后得到归一化的概率分布,分别表示一致性的出现概率和不一致性的出现概率,其中出现概率大的为判断结果,比如:经过归一化处理后一致性的概率为0.76,不一致的概率为0.24,那么管制话音和复述话音数据就是一致的。
[0081]
通过三个分类器分别输出样本一致或不一致的概率,即y∈r1×2,将这些输出拼接形成x=r1×6的输入信号,输入全连接神经网络分类模型,得到最终的结果为y∈r1×2,即分类结果。
[0082]
本发明方法如图1所示,需要准备样本数据、训练模型、判断复述是否一致等步骤。为方便描述,将分为三个步骤进行描述。
[0083]
步骤一、准备管制话音数据和复述数据,并进行人工标注,人工标注需要专业管制员根据实际工作中可能出现的复述错误生成负样本,然后使用语音识别技术分别生成管制文本与复述文本,对这些样本进行标注,复述一致的样本标注的输出为1,复述不一致的样本标注的输出为0。
[0084]
步骤二、分别将四类样本数据分为:1)管制语音信号

复述文本数据;2)复述语音信号

管制文本数据两类,其内容需要按照标注结果一一对应,这些样本用来训练单语音单文本多模态融合模型。将语音数据进行前后拼接,将对应的文本数据进行前后拼接,生成样本数据,这些样本用来训练双语音双文本多模态融合模型。
[0085]
使用标注的样本数据对多模态融合模型进行训练,得到分类模型,然后根据分类结果训练前向全连接模型,输出为复述一致性的判断结果(1或0)。经过训练,得到结果集成模型。
[0086]
步骤三、在实际管制工作中,采集管制员发出的管制话音和飞行员复述的话音信号,使用语音识别得到对应的文本数据,使用训练好的分类模型对这些数据进行分析,得到复述一致性校验结果。
[0087]
本发明提供了一种基于多模态融合的管制话音复述一致性校验方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1