一种基于深度学习与多模态数据融合的厨师服装穿戴实时检测方法与流程

文档序号:36658085发布日期:2024-01-06 23:46阅读:61来源:国知局
一种基于深度学习与多模态数据融合的厨师服装穿戴实时检测方法与流程

本发明涉及人工智能领域,尤其涉及一种基于深度学习与多模态数据融合的厨师服装穿戴实时检测方法。


背景技术:

1、在现代餐饮行业,厨师的职业形象与餐饮安全直接关联,他们的服装不仅需要符合卫生标准,还要展现出专业和规范的形象。因此,监控厨师的服装穿戴情况是餐饮行业管理的重要一环。传统上,餐饮企业依赖人工监控方式确保厨师服装的正确穿戴。然而,这种方法存在着人为失误、工作疲劳、成本高昂等缺点。

2、近年来,随着计算机视觉技术的迅猛发展,尤其是深度学习技术在图像识别方面取得的巨大成功,自动化的厨师服装检测技术逐渐引起了行业的关注。最近的技术发展中,采用单一模态的数据,如rgb图像,已经被用于进行服装检测。例如,某些方法使用传统的机器学习算法结合特定的手工特征进行分类。另外,单一模态的深度学习方法也已经开始应用,它们主要依赖于大量的标记数据进行训练,以实现较高的准确率。然而,这些现有的方法也存在一些局限性。单一模态数据可能受到环境条件(如光线、遮挡等)的影响,导致识别准确率降低。此外,当面对复杂的背景和多种服装样式时,单一数据源可能难以提供足够的信息进行准确识别。

3、为解决上述问题,考虑到多模态数据的优势,如深度图像和热成像数据可以提供更为丰富的信息,一些研究尝试融合这些数据源。但大多数方法仍然在决策层面进行融合,这可能会导致一些关键的低级特征被忽略。最近,有一种方法试图在特征层面进行早期融合,但该方法主要依赖于手工设计的特征,这使得其在不同的应用场景中可能不够稳健。而深度学习方法由于其自动学习特征的能力,为多模态数据融合提供了新的可能性。


技术实现思路

1、针对上述现有技术的缺点,本发明的目的是提供一种基于深度学习与多模态数据融合的厨师服装穿戴实时检测方法,这种方法利用了多模态数据与深度学习的强大结合,融合了rgb图像、深度数据和热成像数据这三种模态,采用了多种技术手段进行图像增强,每种模态的数据首先被单独处理,随后在特征层面进行早期融合,形成一个综合特征向量。这个综合特征被输入到全连接层进行分类预测,输出厨师是否正确穿戴专业服装的概率,还应用了基于博弈论的shap工具来解释模型的决策过程,为确保食品安全和服务质量提供了重要的技术支持。

2、为实现上述目的,本发明的技术方案如下:

3、本发明提供一种基于深度学习与多模态数据融合的厨师服装穿戴实时检测方法,包括:

4、通过数据采集步骤获取rgb图像、深度图像和热成像数据等多模态原始数据;

5、采用数据预处理与增强技术对图像数据进行处理,其中包括随机旋转、随机裁剪和色彩扭曲;

6、通过3d-cnn模型对每种模态数据进行特征提取,并将这些特征合并,形成一个综合特征;

7、基于合并后的特征,全连接层用于分类预测,确定厨师是否正确穿戴服装;

8、采用shap工具对模型进行解释。

9、优选地,所述通过数据采集步骤获取rgb图像、深度图像和热成像数据等多模态原始数据,包括:rgb摄像头捕获的是常规的彩色图像,包含红色、绿色和蓝色三个通道,这些图像提供了物体的颜色和纹理信息,这对于厨师的服装,特别是它们的颜色、图案和外观,非常有用,用公式表示为:

10、d_rgb = capture(c_rgb)

11、其中,d_rgb表示通过rgb摄像头捕获的数据,而capture函数代表摄像头捕获的操作;

12、深度摄像头提供了与物体距离摄像头的距离相关的信息,这种信息是通过检测物体返回到摄像头的光的时间延迟来获取的,从而为每个像素生成一个深度值,深度信息对于区分前景和背景物体,以及在复杂的场景中进行物体检测非常有用,用公式表示为:

13、d_depth = capture(c_depth)

14、其中,d_depth是深度数据,记录了每个像素与摄像头的距离;

15、热成像摄像头,也称为红外摄像头,可以检测物体发出的红外辐射,从而提供温度信息,这对于识别人体尤其有用,因为人体发出的热辐射与其他物体,如物体或墙壁,明显不同,此外,热成像还可以帮助检测厨师是否正确佩戴了特定的保护设备,如手套,用公式表示为:

16、d_thermal = capture(c_thermal)

17、其中,d_thermal是热成像数据,反映了场景中每个像素的温度信息。

18、优选地,所述采用数据预处理与增强技术对图像数据进行处理,其中包括随机旋转、随机裁剪和色彩扭曲,包括:由于三种不同的摄像头可能有不同的输出范围,因此要确保它们的数据都在相同的尺度上,设d_x是摄像头x的原始数据,可以进行如下操作:

19、d_norm = (d_x - min(d_x)) / (max(d_x) - min(d_x))

20、其中,d_norm 代表归一化后的数据,而min(d_x)和max(d_x)分别是原始数据的最小值和最大值,这确保了所有数据都在0和1之间;

21、数据增强的主要目的是通过对原始图像进行一系列的变换来创建更多的训练样本,从而增加模型的鲁棒性;

22、将图像旋转一个随机角度,设θ是旋转角度,原始图像为i,旋转后的图像表示为i_rot,可以通过以下公式定义:

23、i_rot = rotate(i, θ)

24、随机裁剪图像的一个部分,这不仅可以增加模型的鲁棒性,还可以模拟在现实场景中可能遇到的不完整的视角;

25、色彩扭曲是对图像的色彩进行随机扰动,这可以通过调整图像的亮度、对比度、饱和度等属性来实现,设 alpha 是亮度调整因子,则亮度调整的公式可以表示为:

26、i_bright = i + alpha

27、优选地,所述通过3d-cnn模型对每种模态数据进行特征提取,并将这些特征合并,形成一个综合特征,包括:采用3d-cnn模型来提取rgb、深度和热成像数据的特征,3d-cnn模型的优势在于它可以考虑数据的时空特性,这使得模型可以捕捉到更丰富的信息;

28、对rgb数据进行卷积操作可以通过下面的公式表示:

29、f_rgb = w * d_rgb' + b

30、其中,f_rgb是rgb数据的特征图,w是卷积核,其主要功能是在输入数据上滑动并提取局部特征,d_rgb'是对原始rgb数据经过一定预处理后的结果,b是偏置项,用来调整卷积操作的输出;

31、对深度数据和热成像数据进行相同的卷积操作,从而分别得到特征图 f_depth和 f_thermal;

32、在得到每种数据的特征图后,接下来需要将它们融合在一起,选择在特征层面进行早期融合,即在送入下一层处理之前,将这些特征图合并,具体的融合可以通过以下公式表示:

33、f_combined = concat(f_rgb, f_depth, f_thermal)

34、其中,f_combined是融合后的特征图,concat是特征拼接操作,它简单地将多个特征图按照一定的顺序首尾拼接在一起;

35、优选地,所述基于合并后的特征,全连接层用于分类预测,确定厨师是否正确穿戴服装,包括:有一个合并后的特征f_combined,它来源于之前的特征提取与融合过程,这个特征向量包含了关于输入数据的所有重要信息,并已经准备好进入下一步,也就是全连接层;

36、全连接层是神经网络中的常见结构,其工作原理是将每一个输入节点与每一个输出节点相连接,可以表示为线性变换,即:

37、p(y|x) = sigma(w_f * f_combined + b_f)

38、其中,p(y|x)是给定数据x时厨师正确穿戴服装的概率,w_f是全连接层的权重矩阵,b_f是偏置向量,每一个输出节点都有一个偏置值,sigma是sigmoid激活函数,它将任何实数转化为0到1之间的值,使其可以表示概率;

39、sigmoid函数的数学表达为:

40、sigma(z) = 1 / (1 + e^-z)

41、它是一个s形曲线,并经常在二分类问题中使用,因为它可以将实数转化为0到1之间的概率值;

42、全连接层的任务是基于f_combined预测厨师是否正确穿戴了服装,设输出接近1,那么表示厨师很可能穿戴正确,如果输出接近0,则表示很可能穿戴不正确。

43、优选地,所述采用shap工具对模型进行解释,包括:shap工具的名称来源于博弈论中的shapley值,shapley值是一个公平地分配博弈结果给每位玩家的方法,其中每位玩家对游戏的总结果做出了不同的贡献,在模型解释的上下文中,每个特征都可以被看作是“玩家”,而预测结果就是“游戏”的结果;

44、具体的shap值的计算公式如下:

45、

46、其中,n是所有特征的集合,s是不包含特征i的任意子集,f是模型函数,它可以提供给定某些特征子集的预测值,表示特征i的shap值;

47、这个公式本质上是在说,对于特征i,遍历所有不包含它的子集s,计算当加入这个特征时预测值如何变化,并加权平均这些变化值来得到。

48、与现有技术相比,本发明的有益技术效果如下:

49、多模态数据融合提供更丰富的信息:现有的技术主要依赖单一模态的数据,如rgb图像,进行检测。这意味着在某些特定情况下,例如光线不佳或存在遮挡时,检测结果可能不够稳定或准确。而本发明结合了rgb图像、深度数据和热成像数据,这三种模态数据提供了更加全面和多角度的视觉信息,使得即使在不理想的环境条件下,检测的准确性也得到了显著的提升。

50、强化的数据预处理增强模型的泛化能力:在数据预处理阶段,通过随机旋转、裁剪、色彩扭曲和噪声添加等技术,大大增强了模型对于各种异常情况的适应性和鲁棒性。这不仅确保了在标准环境下的高准确性,还使模型能够更好地应对实际应用中的各种复杂情境,减少了误判的风险。

51、模型的透明度和可解释性:在深度学习领域,许多高性能的模型常常被视为“黑盒”,难以理解其决策过程。但是,本发明引入了shap工具,能够为每个特征计算出其对预测结果的具体贡献,使得决策过程变得更加透明。这一点不仅增强了用户对模型的信心,还为进一步的模型优化提供了有价值的参考信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1