本发明涉及图像处理和深度学习,具体涉及一种基于多模态的指针型和数字型表盘图像识别系统和方法。
背景技术:
1、当前,随着工业自动化和智能化的发展,表盘读数自动识别技术作为信息采集的重要手段,越来越多地被应用在能源监测、交通管理、工业控制等多个领域。这项技术能够替代传统的人工读数方法,减少劳动强度,并且提高数据采集的准确性和效率。然而,在实际应用中,光照条件、拍摄角度、表盘的老化等因素都可能影响图像质量,导致识别精度降低,特别是在户外复杂环境下的情况更为突出。图像预处理技术是解决上述问题的关键步骤,通过降噪、调整亮度和对比度等手段可以改善图像质量。但是光靠图像预处理往往还不足以解决所有问题缺少解决问题的鲁棒性,如何在复杂背景和不理想光照条件下准确识别表盘读数,依然是技术发展的痛点。
2、目前,表盘识别技术主要分为指针型和数字型两大类。指针型表盘识别技术通常采用边缘检测、圆心定位、hough变换等方法来定位指针和刻度,这在理想条件下效果良好,但在实际应用中容易受到各种干扰。而数字型表盘识别通常基于光学字符识别(ocr)技术,算法需要有足够的适应性以处理不同字体样式、大小和畸变。两者之间的技术无法统一,无法使用一种技术手段统一应对所有种类的表盘。
3、综上所述,对表盘识别技术来说,需要一种不同的环境和条件下都能准确识别表盘读数,系统能够学习和理解表盘的多维度特征,增加了对复杂背景和多变环境的鲁棒性,从而实现真正智能化的表盘自动识别方法。
技术实现思路
1、本发明的目的在于,针对上述现有技术的不足,提供一种基于多模态的指针型和数字型表盘图像识别系统和方法,能够有效地提高在恶劣光照条件、复杂背景和表盘干扰等情况下的识别精度和鲁棒性。
2、为实现上述目的,本发明采用的技术方案如下:
3、本发明提供了一种基于多模态的指针型和数字型表盘图像识别系统,包括:
4、图像采集模块,其用于获取现场表盘的高清图像信息,并将采集到的图像压缩为标准的rgb格式;
5、图像传输模块,其用于将rgb格式的图像数据流传输到云端服务器;
6、端到端的深度神经网络模型,其部署在云端服务器上,所述端到端的深度神经网络模型对图像数据流中的电表盘图像进行处理,以识别出指针型和数字型表盘上的读数信息。
7、可选地,所述端到端的深度神经网络模型的模型层次包括:
8、特征提取层,其采用卷积神经网络中的resnet-50作为基础骨架,进行特征提取,该resnet-50模型被训练在特定的表盘数据集上,使其能够准确地区分表盘上的不同指针和数字;
9、多模态融合层,其将指针和数字提取的特征结合起来,将指针特征和数字特征先进行统一标准化处理,然后合并图像特征;
10、相对注意力层,其通过计算不同特征之间的相对重要性权重,强化了模型对信息的区分能力,使用注意力机制进一步进行特征选择和加权;
11、融合决策层,其整合所有提取并加权的特征,并通过深层次神经网络决策出最终的读数结果。
12、可选地,所述图像采集模块包括一个控制单元,该控制单元用于指挥图像传感器的捕捉动作和处理所捕捉的图像,以转换为rgb格式数据流。
13、可选地,所述图像传输模块包括加密单元,该加密单元用于对待传输的数据流进行加密处理以确保数据在传输过程中的安全性。
14、基于多模态的指针型和数字型表盘图像识别方法,包括:
15、步骤a,通过图像采集模块捕获现场电表盘的图像信息,通过灰度直方图均衡化算法进行图像预处理并将图像转换为rgb格式的数据流;
16、步骤b,通过图像传输模块,使用无线通信网络将转换得到的rgb格式数据流传输至云端服务器;
17、步骤c,在云端服务器上部署一端到端的深度神经网络模型,用于接收图像传输模块发送的数据流并执行图像识别;
18、步骤d,使用端到端的深度神经网络模型对数据流中的电表盘图像进行处理,以识别出指针型和数字型表盘上的读数信息。
19、可选地,在步骤d中,所述使用端到端的深度神经网络模型对数据流中的电表盘图像进行处理,包括以下步骤:
20、步骤d1,采用卷积神经网络中的resnet-50作为基础骨架,该resnet-50模型被训练在特定的表盘数据集上,对于指针特征提取:fp=cnnpointer(image),fp表示指针特征,cnnpointer(image)是经过表盘数据集训练的resnet-50深度残差网络;对于数字特征提取:fd=cnndigit(image),fd表示数字特征,cnndigit(image)是经过表盘数据集训练的resnet-50深度残差网络;
21、步骤d2,指针特征和数字特征先进行统一标准化处理,然后合并图像特征fc=concat(fp,fd),通过concat操作,将指针特征和数字特征融合为复合特征张量fc;
22、步骤d3,使用注意力机制进一步进行特征选择和加权:a=attention(fc)fa=a⊙fc,其中a是通过注意力模型计算得到的特征权重矩阵,“⊙”表示哈达玛积或者是逐元素相乘,fa是加权后的特征表示;
23、步骤d4,通过深神经网络进行最终的融合决策,output=fc(fa),其中fc是决策用的全连接网络。
24、可选地,所述端到端的深度神经网络模型中,采用的多任务损失函数为:
25、ltotal=αlpointer+βldigit
26、其中,α和β是超参数,用于调整指针识别任务和数字识别任务在总损失函数中的相对重要性;
27、对于指针读数的识别任务,采用均方误差损失函数:
28、
29、其中,yi是第i个样本的真实值,是预测值,n是样本数量;
30、对于数字识别任务,采用交叉熵损失函数:
31、
32、其中,c是类别的数量,yj是对应于真实类别的目标标签的独热向量,是模型对每个数字的预测概率。
33、可选地,所述端到端的深度神经网络模型中,模型参数优化器使用rmsprop算法,通过调整模型参数使得ltotal最小化。
34、本发明的有益效果包括:
35、本发明提供的基于多模态的指针型和数字型表盘图像识别系统和方法,利用一个设计的端到端深度神经网络模型,专门训练来识别和解析从现场传输过来的各种表盘图像。该模型通过大量的训练数据学习如何识别不同类型的表盘设计和读取指针或数字显示的信息,能够处理图像中的复杂特征,并且有高准确性地输出表盘读数。本发明还通过多模态数据的融合,系统能够更全面地捕捉表盘的情况;通过相对注意力模型,系统能够更聚焦于图像中的重要部分,并忽略无关的干扰信息。这种结合的方法为表盘读数识别提高了系统在复杂情况下的识别精度和鲁棒性。
1.一种基于多模态的指针型和数字型表盘图像识别系统,其特征在于,包括:
2.根据权利要求1所述的基于多模态的指针型和数字型表盘图像识别系统,其特征在于,所述端到端的深度神经网络模型的模型层次包括:
3.根据权利要求1所述的基于多模态的指针型和数字型表盘图像识别系统,其特征在于,所述图像采集模块包括一个控制单元,该控制单元用于指挥图像传感器的捕捉动作和处理所捕捉的图像,以转换为rgb格式数据流。
4.根据权利要求1所述的基于多模态的指针型和数字型表盘图像识别系统,其特征在于,所述图像传输模块包括加密单元,该加密单元用于对待传输的数据流进行加密处理以确保数据在传输过程中的安全性。
5.基于多模态的指针型和数字型表盘图像识别方法,其特征在于,基于如权利要求1-4任一所述的基于多模态的指针型和数字型表盘图像识别系统,所述方法包括:
6.根据权利要求5所述的基于多模态的指针型和数字型表盘图像识别方法,其特征在于,在步骤d中,所述使用端到端的深度神经网络模型对数据流中的电表盘图像进行处理,包括以下步骤:
7.根据权利要求6所述的基于多模态的指针型和数字型表盘图像识别方法,其特征在于,所述端到端的深度神经网络模型中,采用的多任务损失函数为:
8.根据权利要求7所述的基于多模态的指针型和数字型表盘图像识别方法,其特征在于,所述端到端的深度神经网络模型中,模型参数优化器使用rmsprop算法,通过调整模型参数使得ltotal最小化。