化学实验器材检测方法、系统、计算机设备和存储介质

文档序号:37175608发布日期:2024-03-01 12:27阅读:18来源:国知局
化学实验器材检测方法、系统、计算机设备和存储介质

本发明涉及目标检测,尤其是涉及化学实验器材检测方法、系统、计算机设备和存储介质。


背景技术:

1、化学实验过程中存在场景复杂等问题,因此如何精准感知化学实验目标是化学实验过程自动评分的关键一环。现有的目标检测方法大多是基于纯视觉的方法,在检测相似性较高的器材(如滴管、试管)和尺寸多变性器材(如大烧杯、小烧杯)时性能较差,此外,它们无法识别化学实验过程中的特定实验器材。

2、现有的目标检测方法包括纯视觉的目标检测方法和跨模态的目标检测方法。纯视觉的目标检测的方法仅仅利用视觉特征识别某一类目标(如:烧杯),无法识别特定的目标(如:左边的烧杯)。跨模态目标检测方法利用文本辅助视觉特征进行精准识别。现有的跨模态的目标检测方法主要包括两阶段的跨模态目标检测方法和一阶段的跨模态目标检测方法。两阶段跨模态目标检测方法的核心思想是首先通过选择性搜索区域算法、预训练目标检测目标器等方法得到一系列目标候选区域,其次将目标候选区域与文本进行关联,寻找最大可能性的目标。由于两阶段指标表达理解方法比较简单,并且容易建立文本与目标之间的联系,因此在很长一段时间内,两阶段的方法成为跨模态目标检测的常用方法。尽管两阶段的跨模态目标检测方法在精度上取得了不错的效果,但是上述方法其核心思想均是将目标候选区域和文本进行链接,对于目标候选区域的生成需要引入额外方法(如faster-rcnn),从而使得这类方法存在计算开销大、运算速度低等问题。一阶段跨模态目标检测方法的核心思想是训练一个端到端的模型,不使用目标检测网络生成目标,而是直接在整个图像中预测目标。以上方法虽然在公共数据集上取得了不错的效果,但是化学实验器材大多为玻璃仪器,存在外观相似度较高、尺寸多变等问题,因此在化学器材检测中性能不佳。因此,本发明提出一种双向特征引导增强方案,能有效解决上述问题。实验证明,本发明提出的方法,不仅在化学任务中取得了明显的提升,而且在广泛使用的公共数据集中也取得了不错的效果。除此以外,本发明提出的方法具有极大的普适性,能够应用于所有的多模态任务之中。


技术实现思路

1、针对上述问题,本发明申请提出了化学实验器材检测方法、系统、计算机设备和存储介质,利用文本特征辅助视觉以此区分相似背景下的特定实验器材。

2、本发明一方面提供了化学实验器材检测方法,包括如下步骤:

3、s1、搭建化学实验器材检测模型,该模型包括依次连接的特征提取模块、双向引导特征增强模块、特征融合模块和特征预测模块,对化学实验器材检测模型进行训练并采用预设的损失函数计算损失,得到训练后的化学实验器材检测模型;

4、s2、获取待检测化学实验器材的查询短语和图像,训练后的化学实验器材检测模型中的特征提取模块对查询短语和图像分别进行特征提取,相应得到若干个单词特征和预设数量个不同尺度的视觉特征;

5、s3、将若干个单词特征和预设数量个不同尺度的视觉特征输入至双向引导特征增强模块处理,得到池化后的句子特征和增强后的视觉特征;

6、s4、特征融合模块接收增强后的视觉特征和池化后的句子特征,并将增强后的视觉特征拓维转换至与池化后的句子特征相同的维度,将拓维转换后的视觉特征和池化后的句子特征根据通道数进行拼接,得到多模态特征图;

7、s5、特征预测模块接收多模态特征图,利用yolov3检测头在多模态特征图上进行目标检测,得到待检测化学实验器材的检测结果。

8、优选地,s1中双向引导特征增强模块包括vtfp模块和tvfe模块,s3具体为:vtfp模块用于接收若干个单词特征和预设数量个不同尺度的视觉特征并处理,得到池化后的句子特征,tvfe模块用于接收预设数量个不同尺度的视觉特征并处理,得到增强后的视觉特征。

9、优选地,vtfp模块包括依次连接的全局视觉特征提取子模块、句子特征提取子模块和自适应句子特征融合子模块,vtfp模块用于接收若干个单词特征和预设数量个不同尺度的视觉特征并处理,得到池化后的句子特征,具体包括如下:

10、s31、全局视觉特征提取子模块对预设数量个不同尺度的视觉特征分别进行卷积和平均池化处理,相应得到池化后的视觉特征;

11、s32、句子特征提取子模块将池化后的视觉特征作为查询值,将若干个单词特征作为键值,采用注意力机制计算若干个单词特征与池化后的视觉特征之间的相似度,并对若干个单词特征和相似度进行加权求和,得到句子特征;

12、s33、自适应句子特征融合子模块将池化后的视觉特征沿着通道数进行拼接,并输入至softmax函数中进行处理,获取预设数量个不同尺度的视觉特征对应的得分权重,对句子特征和对应的得分权重进行加权求和,得到池化后的句子特征。

13、优选地,s33中池化后的句子特征具体可用公式表示为:

14、

15、式中,

16、其中,f为池化后的句子特征,fk为第k个句子特征,和分别为第k个和第l个池化后的视觉特征,k,l=1,2,...,k,k为视觉特征的数量,βk为第k个视觉特征对应的得分权重。

17、优选地,tvfe模块用于接收预设数量个不同尺度的视觉特征并处理,得到增强后的视觉特征,具体包括如下:

18、s34、tvfe模块接收预设数量个不同尺度的视觉特征,将句子特征扩展到与对应的视觉特征相同的维度,将扩展后的句子特征与对应的视觉特征进行点乘处理,得到处理后的视觉特征;

19、s35、将处理后的视觉特征作为查询值,将句子特征作为键值,通过跨模态注意机制计算句子特征与处理后的视觉特征之间的相似度权重;

20、s36、将相似度权重与处理后的视觉特征相乘,得到全局视觉特征,将相似度权重与全局视觉特征相乘,得到增强后的视觉特征。

21、优选地,s36中增强后的视觉特征具体可用公式表示为:

22、

23、式中,

24、其中,v'k'为第k个增强后的视觉特征,为第k个全局视觉特征,γk为第k个处理后的视觉特征与第k个句子特征的相似度权重,为第k个处理后的视觉特征v'k上的第q个特征,为第k个处理后的视觉特征上的第q个特征与第k个句子特征的相似度权重,q为视觉特征图上的特征总数。

25、优选地,s1中对化学实验器材检测模型进行训练并采用预设的损失函数计算损失,损失函数具体为:

26、l=lpred+λlreg

27、式中,

28、

29、其中,l为化学实验器材检测模型的总损失,lpred为置信度分数预测损失,lreg为回归损失,λ为超参数,gm为待检测图像的第m个预测目标框的置信度真值标签,pm为待检测图像的第m个预测目标框的置信度预测分数,lf为焦点损失函数,ls为

30、smooth-l1损失函数,rm为待检测图像的第m个预测目标框的预测偏移量,gm为待检测图像的第m个预测目标框与真实框的偏移量,m为待检测图像的预测目标框数量。

31、本发明另一方面提供了化学实验器材检测系统,包括图像采集模块、语音采集模块、化学实验器材检测模型和计算机系统,图像采集模块和语音采集模块分别与计算机系统连接,化学实验器材检测模型设置于计算机系统中,其中:

32、图像采集模块用于获取待检测化学实验器材的图像,并将待检测化学实验器材的图像传输给计算机系统;

33、语音采集模块用于采集操作者在对待检测化学实验器材进行检测时的口述语音并转化为查询短语;

34、化学实验器材检测模型用于对待检测化学实验器材的图像和查询短语采用上述化学实验器材检测方法进行检测,得到检测结果;

35、计算机系统用于接收待检测化学实验器材的图像和查询短语,以及输出化学实验器材检测模型的检测结果。

36、本发明还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述化学实验器材检测方法的步骤。

37、本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述化学实验器材检测方法的步骤。

38、上述化学实验器材检测方法、系统、计算机设备和存储介质,首先搭建化学实验器材检测模型,该模型包括依次连接的特征提取模块、双向引导特征增强模块、特征融合模块和特征预测模块,对模型进行训练并采用预设的损失函数计算损失,得到训练后的化学实验器材检测模型;获取待检测化学实验器材的查询短语和图像,训练后的化学实验器材检测模型中的特征提取模块对待检测化学实验器材的查询短语和图像分别进行特征提取,得到若干个单词特征和预设数量个不同尺度的视觉特征;双向引导特征增强模块接收若干个单词特征和预设数量个视觉特征并处理,得到池化后的句子特征和增强后的视觉特征;特征融合模块接收增强后的视觉特征和池化的句子特征并处理,得到多模态特征图;特征预测模块接收多模态特征图,利用yolov3检测头在多模态特征图上进行目标检测,得到待检测化学实验器材的检测结果。该方法在化学实验器材检测任务中针对实验器材大多为玻璃仪器,存在外观相似度较高、尺寸多变等问题,检测效果明显提升,具有极大的普适性,能够应用于所有的多模态任务之中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1