基于对比学习和多模态语义交互的命名实体识别方法与流程

文档序号:37127644发布日期:2024-02-22 21:42阅读:49来源:国知局
基于对比学习和多模态语义交互的命名实体识别方法与流程

本发明涉及实体识别的,尤其涉及一种基于对比学习和多模态语义交互的命名实体识别方法。


背景技术:

1、随着社交媒体和互联网上信息传播的多样化,人们获取信息的方式已从传统的单一文本模式转向包括文本、图像、语音和视频在内的多模态方法。用户在社交媒体平台上分享的内容不仅包括文本,还有大量的图像信息。研究者发现,推文中的图像信息可以为文本提供更丰富的语义信息和上下文线索,从而提高命名实体识别的准确性。因此,大量的近期研究开始关注如何使用推文中的图像信息来提高ner模型的准确性,这种方法被称为多模态命名实体识别(mner)。

2、mner的主要目标是从多模态数据中识别和分类命名实体,如人名、地名、组织、日期、时间等。与传统的单模态命名实体识别相比,mner的优势在于其能够整合来自多个来源的信息,从而提供更为全面和准确的识别结果。mner能够更好地理解和解析互联网上的复杂信息,并在许多应用场景中发挥重要作用,如主题检测、多媒体搜索、多媒体关系提取以及多模态知识图谱。

3、mner旨在利用文本和图像数据,增强命名实体识别的准确性和鲁棒性,从而解决完全依赖文本的方法的局性。它认识到当仅靠文本信息难以区分命名实体时,图像在提供有价值的上下文方面的重要性。传统的基于文本的ner方法经常难以准确确定实体引用,如图1所示,其中实体"carell"可能指的是一个人或一只小狗。

4、但是,通过整合相关的图像,mner可以更有效地识别正确的实体引用。在提供的例子图1的右侧中,包含的图像明确了"carell"指的是一只狗。如果没有多模态信息,就有可能丧失有价值的内容,并且实体可能不会被正确识别,尤其是在涉及简短和不准确文本的情况下。

5、现有的工作已经展示了mner利用多模态信息,特别是来自图像的信息,来增强对比传统基于文本方法的模糊实体的识别的成功。然而,mner仍然面临两个主要的弱点:

6、(1)文本模态和图像模态具有不同的表达方式和结构,这使得直接并有效地比较和对齐它们变得具有挑战性。例如,如图2的(a)所示,文本中的实体"leicester"应与黄色框标出的图像区域对齐,而实体"gokhan inler"应与蓝色框标出的图像区域对齐。但是,由于文本和图像在表示方式上的差异,直接比较它们的相似性以进行对齐变得具有挑战性。

7、(2)无关的视觉信息引入噪声,并干扰了文本和图像的语义融合。多模态数据中的所有视觉信息并不都与文本内容在语义上直接相关。例如,如图2(b)所示,文本中的实体"lebron"属于目标实体类型,但与蓝框中高亮显示的汽车无关。然而,这辆车占据了图像的一半,为mner任务引入了干扰和噪声。较小的黄色方框区域有助于将实体"lebron"识别为per类别,而与之无关的较大的蓝色方框区域为mner任务引入了噪声。

8、命名实体识别(ner)在各种应用领域中都发挥着至关重要的作用。传统的ner任务主要关注文本数据,而多模态命名实体识别(mner)利用多种数据来源,如图像和文本,进行实体识别和分类。然而,将视觉信息与文本信息对齐仍然是一个具有挑战性的问题。

9、传统的命名实体识别的目的是检测文本内容中的不同实体,如个人名字、地点和机构。这一领域已经被自然语言处理(nlp)社区广泛研究。根据ner的发展,传统的ner方法可以分为三类:基于规则和词典的方法、基于统计机器学习的方法和基于深度学习的方法。

10、对于基于规则和词典的ner方法,例如liu等人提出了一种语义自适应的词典增强方法来解决中文ner模型中的噪声问题,并引入了基于置信度估计的标签区分结构来应对工业场景中的数据不足,从而提高模型性能。这些方法在特定的数据集上表现优异,因为它们有效地利用了语言或领域特定的知识。然而,挑战包括规则开发的高成本和将这些规则移植到其他数据集的困难。在基于统计机器学习的ner领域,li等人提出了稀疏条件隐马尔科夫模型(sparse-chmm)来应对弱监督命名实体识别的挑战。通过训练一个标签模型来聚合来自多个噪声标注功能的注释,他们增强了表现良好的标注功能的权重并减少了表现不佳者的权重,从而在没有真实基准的情况下提高了模型性能。这种方法可以从大量标注数据中自动检测特征和模式,提供更大的适应性。然而,特征工程耗时且复杂,通常需要大量的数据支持。关于基于深度学习的ner方法,haq等人提出了深度神经方法来自动学习特征,消除了手动特征工程,同时整合了卷积神经网络和词嵌入来处理乌尔都语ner系统中的低频和词汇表外的词。这种技术可以自主地识别数据中的复杂特征和结构,通常产生优越的结果。然而,它们需要大量的标注数据进行训练,模型的训练和推理都可能耗时。

11、近年来,神经网络技术的迅速进步显著推动了ner研究的进展。近年来,研究者在这一领域取得了重大创新。例如,li等人提出了一种创新的模块化交互网络(min)模型,利用段落级洞察和词级关系配备了一种交互方法,这种模型促进了边界识别和类型预测之间的信息无缝共享,从而提高了ner任务的结果。geng等人引入了一种新颖的方法,使用平面化的句子格式结合双向二维迭代过程,熟练地识别嵌套实体并理解它们的语义关系。liu等人引入了一个训练模型,该模型利用了双向编码器来自变换器(bert)的表示,结合双向长短时记忆网络(bilstm)和条件随机场(crf),用于从非结构化数据中提取特定实体类别。bartolini等人提出了cosiner,这是一个用于ner的新颖的数据增强技术。与容易产生噪声的传统方法不同,cosiner利用上下文相似性进行实体提及替换,通过考虑实体通常出现的上下文,该方法使用现有的训练数据优化任务性能。

12、mner研究的主要目标是通过利用图像信息来增强文本,将视觉和文本信息合并以提高实体识别性能。esteves等人开创性地将视觉信息整合到mner任务中,首次向研究社区提出了联合图像-文本处理的概念。在他们的引领下,zhang等人提出了一种专门针对推文的自适应协同注意网络策略。与此同时,lu和moon等人开发了各自独特的mner方法,他们的方法引入了一个通用的注意力模块,能够自动调整词嵌入、字符嵌入和视觉特征的权重。相比之下,moon及其同事专注于设计一个视觉注意模型,旨在识别与文本内容密切相关的图像区域。

13、然而,这些初步的研究主要使用单个词汇捕获视觉注意力,无疑限制了视觉特征的更广泛应用。正如alshad等人和lu等人所强调的,由不相关的图像引入的噪声也增加了复杂性。为应对这些挑战,后续研究涌现了出来。例如,asgari-chenaghlu等人提出了一种集成字符、词和图像特征的深度学习方法。sun等人进一步完善了rpbert模型,强调了文本与图像之间关系的重要性。yu等人的riva模型集中于理解不同模态之间的关系。与此同时,liu等人和tian等人分别提出了旨在最小化不相关图像的干扰并增强跨模态语义交互的策略。深入研究,尽管许多研究主要关注视觉与文本之间的粗粒度关系,但与文本实体的细粒度对齐的视觉元素通常被忽略。为了解决这一差距,zheng、wu和zhang等人各自提供了他们的解决方案。此外,chen等人探索了如何将额外的图像信息融入mner。有趣的是,jiang等人指出了传统mner方法在处理视觉上下文和视觉偏见方面的缺陷,为了纠正这些问题,他们引入了一个多模态交互模块,并采用了统一的多模态变压器策略,通过利用文本中的实体跨度检测,他们的方法成功地减少了视觉偏见。

14、总的来说,mner的性能已经得到了显著的提升。然而,当前的mner仍然面临两个主要的挑战:首先,由不相关的图像信息造成的噪声干扰;其次,在多模态语义交互中丢失了有效的语义信息。

15、在近年来,对比学习在机器学习领域已经崭露头角,尤其在自监督学习领域得到了特别的关注和重视。例如,zou等人介绍了mcclk,这是一种为知识图谱推荐量身定做的多级交叉视图对比学习方法,通过结合三种不同的图形视角,试图深入提取图形的特征和结构洞察,并加强项目之间的语义连接。qin等人提出了mclrec,这是一个通过元学习优化的对比学习模型,融合了数据增强和自适应模型增强。这个模型旨在巧妙地利用数据增强中的有用特征,在元学习的大框架下,希望提高对比的质量和产生更丰富的视图。sun等人提出了mixcl方法,这是一个对比学习技术,旨在使用混合对比目标增强lms的知识方向,最小化对话中的欺骗性响应;此外,还研究了硬负面和模型产生的负面的抽样方法。meng等人提出了mhccl模型,这是一个为多变量时间序列量身定做的带有掩码的分层对比学习方法,为了解决传统对比技术中遇到的假负面问题,利用各种潜在分区的分层布局来提取语义洞察。

16、对比学习在许多领域都取得了显著的进展,这导致自然语言处理领域的研究者对其产生了浓厚的兴趣,希望通过这种方法获得更丰富和增强的文本特征表示。例如,fang等人使用反向翻译来获得原始文本的增强正样本。giorgi等人使用同一文档中的不同段落作为原始文本段的正样本。wu等人使用了各种句子级的增强方法来促进噪声不变的句子级特征的学习。ding等人优化了网络以捕获更精细的视觉特征,并采用对比学习方法来桥接文本和视觉信息。


技术实现思路

1、针对大多数现有多模态命名实体识别方法不能很好地对齐图像文本,并且无法有效融合文本与图像之间的语义信息,导致mner准确率较低的技术问题,本发明提出一种基于对比学习和多模态语义交互的命名实体识别方法(clmsi),实现了文本和图像之间语义信息的有效融合,同时抑制了多模态交互中的不完整或错误的语义信息,提高了预测的准确性。

2、为了达到上述目的,本发明的技术方案是这样实现的:一种基于对比学习和多模态语义交互的命名实体识别方法,其步骤为:

3、步骤一、多模态特征提取:使用mobilevit模型对数据集中的文本-图像对的图像进行图像特征提取得到图像表示;使用图像描述生成模型对图像特征进行处理生成图像描述,使用albert模型对文本-图像对中文本和图像描述进行文本特征提取得到文本表示;

4、步骤二、多模态对齐:通过对比学习在共享空间中对齐文本表示和图像表示;

5、步骤三、多模态语义交互与融合:采用多头跨模态注意力通过图像描述来引导文本融合,给图像表示分配不同的权重进行文本引导的图像模态融合;图像感知的文本表示和文本感知的视觉表示拼接,得到图像与文本的最终融合;

6、步骤四、标签预测:将图像与文本的最终融合输入到crf层,使用条件随机场算法进行标签预测,得到标签值。

7、所述albert模型引入了词嵌入矩阵因子化和跨层参数共享策略,利用多层双向transformer编码器对输入序列进行编码;所述mobilevit模型是结合transformers和卷积层的图像处理模型;图像描述生成模型是一个包含视觉注意力的编解码框架的描述生成模型。

8、所述mobilevit模型首先将输入的图像通过一个3×3标准卷积层提取图像中的局部特征,然后进行2×下采样将局部特征的尺寸缩小一半;使用五个mv2模块进行特征提取,其中步长为1的mv块用于保留更多的空间信息,步长为2的mv块执行2×下采样降低特征图的尺寸;获得的特征图被交替地送入mobilevit块和步长为2的mv2块;应用1×1标准卷积进行通道压缩,执行全局平均池化获得全局图像表示;

9、所述mobilevit模型的mv2模块包括两个1×1卷积核,在卷积步长设置为2时使用3×3卷积核进行深度可分卷积,当步长设置为1时引入了残差连接;mv2模块对输入数据进行下采样,然后使用卷积操作提取特征,最后上采样数据以保持输入维数;mv2模块的逆操作为:对输入数据进行上采样,然后进行深度可分卷积,最后下采样数据以保持输入维数;所述mobilevit模型的mvit模块包括基于卷积的局部特征提取模块、基于transformer的全局特征提取模块和特征融合模块;

10、基于卷积的局部特征提取模块对输入的张量v∈rh×w×c采用一个3×3和1×1的卷积层得到输出vl∈rh×w×d;h、w分别为图像的高、宽,c、d分别为输入、输出图像的通道数;基于transformer的全局特征提取模块把局部特征vl∈rh×w×d切成n等份变成特征vu∈rp×n×d,其中,变量p=hw,hw是每个切片的高和宽,特征vu是transformer的输入序列,经过transformer得到输出特征vg∈rp×n×d;再把特征vg重构成全局特征vg∈rh×w×d。

11、所述图像描述生成模型为长短时记忆网络,长短时记忆网络通过动态地选择图像特征提取句子内部单词之间的句法特征、单词位置编码信息、学习图像特征与句法特征、单词特征之间的映射关系,同时加入注意力机制赋予不同视觉区域不同的权重;

12、从图像特征提取中获得的视觉块的特征vu输入长短时记忆网络,长短时记忆网络将图像信息逐字转换为自然语言;

13、所述文本-图像对中文本进行预处理后输入albert模型,所述预处理包括:输入的文本包括句子s,句子s被分词,不存在的字符被替换为[unk],在句子s的开头插入令牌[cls],在句子s的结尾插入令牌[sep];将句子s的长度固定为n,如果输入的句子的长度大于n,将文本截断为长度n,如果句子的长度小于n,使用令牌[pad]填充句子扩展到长度n;

14、给定句子s通过预处理处理获得句子的标记表示e=[e0,e1,e2,…,en+1],其中,ei是通过对字符向量、片段向量和位置向量求和得到的。

15、所述对比学习的实现方法为:计算整体的文本表示ts和图像特征的全局特征vg之间的相似性,使用对比损失函数进行优化使得正样本的特征表示趋近,而负样本的特征表示相互远离,通过迭代训练使文本表示和图像表示更加一致。

16、所述步骤二的实现方法为:在一批文本-图像对中生成正样本和负样本;对于每个样本,采用两个不同的多层感知机分别应用在文本和图像上,得到投影后的文本表示和图像表示;通过最小化投影后的文本表示和图像表示的对比损失函数来最大化正样本的相似性并最小化负样本的相似性,将所有样本对应的两个损失函数进行相加得到跨模态对齐的最终损失函数,通过最小化最终损失函数使投影后的文本表示和图像表示更加一致

17、所述生成正样本和负样本的方法为:对于包含k个文本-图像对的文本图像表示(ts,vg),正样本由来自同一文本-图像对的文本表示和图像表示组成,且正样本表示为负样本表示为其中,代表批次中第a对的文本表示,而代表第b对的图像表示;为每一文本-图像对构造k-1个负样本;

18、每一对样本分别应用具有隐藏层的多层感知机来处理文本表示和图像表示得到投射后的文本表示和投射后的图像表示

19、所述对比损失函数是图像到文本的对比损失函数和文本到图像的对比损失函数;在处理第i个正样本的图像到文本的对比损失函数时,确定正样本的图像嵌入与所有其他样本的文本嵌入之间的距离根据距离计算对比损失函数其中,τ是温度参数;

20、当为文本到图像计算对比损失函数时,对于第i个正样本,计算正样本的文本嵌入计算正样本的文本嵌入与所有样本的图像嵌入之间的距离:根据距离计算对比损失函数:

21、计算两个对比损失函数并进行加权求和得到最终损失函数:

22、

23、其中,λm∈[0,1]是一个超参数。

24、所述步骤三的多模态语义交互与融合的实现方法为:根据对齐后的文本表示和图像表示,利用自注意力层分别获得图像描述隐藏层表示和图像隐藏层表示,通过多头跨模态注意力获得最终的图像感知文本表示,通过动态视觉门机制得到最终的文本感知视觉表示,将最终的图像感知文本表示和最终的文本感知视觉表示进行拼接得到隐藏层表示。

25、所述图像描述通过标准的自注意力层获得图像描述隐藏层表示矩阵o=(o0,o1,o2,···,on+1);图像的局部特征通过标准的自注意力层获得图像隐藏层表示矩阵w=(w0,w1,···,wn+1);文本输入albert模型得到的输出后添加一个标准的自注意力层获得每个词的文本隐藏层表示r=(r0,r1,…,rn+1),其中,ri代表生成的文本隐藏层表示;其中,oi∈rd为生成的图像描述隐藏层表示,wi∈rd为生成的图像隐藏层表示;

26、所述多头跨模态注意力的实现方法为:使用图像描述隐藏层表示矩阵o作为查询,文本隐藏层表示r作为键和值,设置注意力头的数量为m;通过计算查询和键的内积来计算注意力值再除以一个标量项的平方根,应用softmax操作,然后与值执行加权求和,得到每个注意力头的跨模态注意力;将来自多个注意力头的跨模态注意力进行串联,并进行线性变换得到整个多头注意力机制表示;使用前馈网络和层归一化进行将图像描述隐藏层表示矩阵o和整个多头注意力机制表示堆叠获得感知文本表示p;再次应用跨模态注意力充分利用来自图像和描述的感知信息:图像隐藏层表示矩阵w用作查询,感知文本表示p用作键和值,经过前馈网络和层归一化堆叠的三个子层后,得到输出矩阵z;引入了一个额外的跨模态注意力层,文本隐藏层表示r用作查询,输出矩阵z用作键和值,生成最终的图像感知文本表示h;

27、对于给定的文本词,通过跨模态注意力为视觉块分配不同的注意力权重,感知文本表示p用作查询,而图像隐藏层表示矩阵w用作键和值,通过文本和视觉信息之间的交互计算注意力为每个词分配适当的权重,通过文本指导的视觉模态融合生成具有单词感知能力的视觉表示q;

28、采用视觉门机制动态调整每个视觉块特征的贡献,得到最终的文本感知视觉表示g=σ((wh)th+(wq)tq);其中,wh和wq均是权重矩阵,σ代表逐元素的sigmoid激活函数;

29、将最终的图像感知文本表示h和最终的文本感知视觉表示g进行连接,获得隐藏层表示a。

30、将融合的隐藏层表示a输入crf层,crf层利用标签之间的依赖关系使用条件随机场算法获得预测标签的最优序列;crf层使用句子及图像来预测y的概率:

31、

32、

33、其中,表示第j个标记的标签yi的发射分数,表示从标签yj到标签yj+1的转移分数,z(a)为一个归一化项,通过对所有可能的预测y序列的发射和转移分数求和获得。

34、mner任务的损失函数使用对数似然损失函数,对数似然损失函数测量给定的输入句子s和图像i时标签序列y的预测概率与真实标签序列y之间的差异,计算如下:

35、其中,p(y|s)表示给定句子s的条件下,标签序列y的概率;是对数似然函数;

36、最终的损失函数包括多模态对齐任务的损失函数和mner任务的损失函数,即:

37、

38、使用一个超参数α来调整损失函数中两个任务的权重。

39、与现有技术相比,本发明的有益效果:

40、提出了一个多模态语义交互和融合模块,通过图像描述过滤图像特征中的噪声,并以文本形式总结图像的语义信息,从而减少语义偏差并增强多模态融合;提出了一个基于对比学习的多模态对齐模块,将比学习的思想引入多模态对齐任务,来处理不同模态之间在表示形式上的语义差异和不一致,使语义相似的图像-文本表示更接近,而语义不相似的图像-文本表示更加远离。

41、为了缩小图像-文本模态之间的语义差距,使语义相似的图像-文本表示更接近,而语义不相似的表示进一步远离,将对比学习的思想应用到跨模态对齐任务中,提出了一种基于对比学习的跨模态对齐方法;为了更有效融合多模态信息,充分过滤图像特征引入的噪声,将图像描述作为额外特征以丰富多模态特征,通过以文本形式总结图像语义信息,减少图像信息的语义偏见。在twitter-2015和twitter-2017两个著名的mner基准数据集上进行的大量实验表明了本发明提出方法的有效性,f1分数在两个数据集上分别达到了75.13%和86.56%,分别超过了现有最好方法0.28%和1.05%;进一步消融实验和案例分析也证明了本发明clmsi的有效性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1