一种基于注意力机制的神经网络模型

文档序号:29998324发布日期:2022-05-11 14:29阅读:来源:国知局

技术特征:
1.一种基于注意力机制的神经网络模型,其特征在于,包括位置编码与数据编码、多头自注意力机制(muti-head-self attention)、残差连接与层归一化(add&norm)、前馈神经网络(feed forward)、卷积神经网络(cnn)这五个模块,残差连接与层归一化模块使用了两次,其他模块各使用一次;其中:所述一种基于注意力机制的神经网络模型设置位置编码用来获取位置信息,并且可以同时输入整个数据,图像和文本的数据经过位置编码与数据编码后得到矩阵x,再由多头自注意力机制处理,得到每个词的上下文语义的向量表示,重要信息的权重增大,不重要的信息的权重减小,经过多头注意力机制后得到矩阵z,再将矩阵z进行残差连接操作,将z矩阵与矩阵x进行相加,之后将得到的新矩阵z1进行层归一化,然后前馈神经网络(feed forward)将z1输入,进行升维,降维操作,学习到更多关于数据的信息,让信息再经过一个残差连接与层归一化(add&norm)层,然后输出一个矩阵z2,所述的矩阵z2中包含着图像与文字的信息,再利用卷积神经网络(cnn)来进行图文信息的融合。2.根据权利要求1所述的一种基于注意力机制的神经网络模型,其特征在于所述的位置编码,其公式如下:其中pos代表位置,d代表数据编码的维度。3.根据权利要求1所述的一种基于注意力机制的神经网络模型,其特征在于文本数据编码选择embedding网络随机初始化的方式,图像数据编码利用resnet50网络进行特征提取。4.根据权利要求1所述的一种基于注意力机制的神经网络模型,其特征在于多头自注意力机制是由h个自注意力机制(self-attention)层并行组成,将文本与图像对作为输入,经过位置编码与数据编码之后得到的矩阵x经过第一个线性变换得到query(q)矩阵,x经过第二个线性变换得到key(k) 矩阵,x经过第三个线性变换得到value(v)矩阵,这三个线性变换的权重参数分别为wq、wk、wv,他们相互独立,通过训练得到,所述的矩阵x经过三个线性变换后得到的q、k、v矩阵。5.据权利要求1和4所述的一种基于注意力机制的神经网络模型,其特征在于所述的q、k、v矩阵经过以下公式进行计算,得到attention矩阵:其中d是k矩阵的第二个维度。6.据权利要求1和4所述的一种基于注意力机制的神经网络模型,其特征在于所述的多头自注意力机制的h=8,h为“头数”,把q、k、v三个矩阵按词向量维度切割8份,分成维度为h*词数*词向量维度/8,即对于q、k、v都有8个与之对应的矩阵,将这8组q、k、v矩阵分别进行自注意力机制网络处理之后,再将8个attention矩阵拼接起来,经过一个线性层处理就能得到与输入矩阵x维度相同的矩阵z,使用多头注意力机制来处理可以形成多个子空间,可以让模型去关注不同方面的信息。7.据权利要求1所述的一种基于注意力机制的神经网络模型,其特征在于所述的前馈神经网络(feed forward)中包含两个线性变换以及一个relu激活函数,公式如下表示:ffn(z1)=max(0,z1w1+a)w2+b。
8.据权利要求1所述的一种基于注意力机制的神经网络模型,其特征在于所述的卷积神经网络中采用三个卷积层、三个池化层以及全连接层。全连接层的最后一层是分类层,激活函数是softmax,其它全连接层激活函数是relu。

技术总结
一种基于注意力机制的神经网络模型,包括位置编码与数据编码、多头自注意力机制(Muti-Head-Self Attention)、残差连接与层归一化(Add&Norm)、前馈神经网络(feed forward)、卷积神经网络(CNN)这五个模块,残差连接与层归一化模块使用了两次,其他模块各使用一次,利用深度学习技术融合语言与图像数据信息,将跨媒体数据用在舆情分析上,并且两种类型的数据能够共享模型参数,节约了成本资源,含义理解透彻,能够有效的进行舆情分析。能够有效的进行舆情分析。能够有效的进行舆情分析。


技术研发人员:陈龙 黄晓华 王文静 曾思睿 谢飞 管子玉 赵伟 屈乐 王和旭
受保护的技术使用者:西安邮电大学
技术研发日:2021.12.15
技术公布日:2022/5/10
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1