一种基于深度摄像机技术与目标检测的食堂小动物识别方法与流程

文档序号:36537080发布日期:2023-12-29 23:36阅读:35来源:国知局

本发明涉及人工智能领域,尤其涉及一种基于深度摄像机技术与目标检测的食堂小动物识别方法。


背景技术:

1、在现代食堂环境中,保证餐饮卫生及其重要性已经被广泛地认知。其中,小动物如虫子、老鼠等对食堂卫生的威胁不容忽视。过去的方法主要依赖传统的摄像机监控或定期的卫生检查,但这些方法存在缺陷:传统摄像机可能因环境光线或摄像质量而漏检小动物;而定期检查则存在时效性问题,无法实时发现并处置小动物入侵。

2、近年来,深度学习和计算机视觉领域取得了显著的进展。特别是在物体识别和场景理解方面,相关技术已经在很多实际应用场景中得到了应用,如自动驾驶、医疗图像识别等。其中,深度摄像机技术提供了更为丰富的图像数据,除了传统的rgb信息,还能获取到深度数据,使得物体的空间位置、形态等信息能够被更为准确地捕捉。

3、最近有研究开始将这些进展应用于食堂环境的监控。例如,某研究通过利用传统摄像机技术与计算机视觉算法,实现了对食堂内小动物的初步检测。但该方法仍然受到了环境光线和摄像质量的制约,且无法提供空间深度信息。此外,有的方案试图通过简单的图像增强技术如直方图均衡化来优化图像质量,但针对动态变化的环境,这些技术的效果并不稳定。同时,传统的目标检测模型如faster r-cnn、ssd等虽然在很多场合表现良好,但对于食堂这种复杂环境,它们可能不够精确或响应不够迅速。

4、值得注意的是,近期有方法开始考虑结合深度摄像机技术和深度学习模型。这其中,一种名为“深度食堂守卫”的系统结合了深度摄像机和简单的卷积神经网络,可以较为准确地检测出食堂中的小动物,但其在实时性和稳定性上仍有待提高。


技术实现思路

1、针对上述现有技术的缺点,本发明的目的是提供一种基于深度摄像机技术与目标检测的食堂小动物识别方法,这种方法使用卷积注意力机制 (cam) 提取图像中的关键区域,以便更准确地定位和识别目标。应用retinanet模型进行目标检测,并结合focal loss进行训练,确保模型在识别各种大小和形态的对象时都有很好的性能。通过遗传算法对retinanet模型进行参数调整和优化,进一步提高模型的表现。利用lstm网络来识别时序数据中的异常模式,确保系统能够及时、准确地报警。本发明提供了一个全面、先进的食堂小动物识别方法,结合多种技术和算法,实现高准确率和高效率的识别和监测。

2、为实现上述目的,本发明的技术方案如下:

3、本发明提供一种基于深度摄像机技术与目标检测的食堂小动物识别方法,包括:

4、通过深度摄像机获取食堂环境内的rgb图像数据及深度数据;

5、利用对比度受限的自适应直方图均衡化 (clahe) 技术,对原始rgb图像数据进行优化处理;

6、采用了卷积注意力机制 (cam) 进行图像的特征提取;

7、结合retinanet模型,并配合focal loss进行训练;

8、使用遗传算法用于模型参数的优化;

9、结合lstm网络,及时检测并报告任何不寻常的模型行为或结果。

10、优选地,所述通过深度摄像机获取食堂环境内的rgb图像数据及深度数据,包括:传统的rgb摄像机只捕获光线的颜色信息,但没有空间深度信息;

11、深度摄像机不仅捕获了普通的rgb图像i_rgb,还捕获了与每个像素对应的深度信息i_depth;

12、这些深度信息提供了物体在三维空间中的位置,能够更好地区分与物体相似大小的其他物体,例如食堂地板上的食物残渣;

13、因此,结合这两种信息可以大大提高目标检测的精度和可靠性。

14、优选地,所述利用对比度受限的自适应直方图均衡化 (clahe) 技术,对原始rgb图像数据进行优化处理,包括:食堂环境中的光线条件可能会时常改变,例如,不同的日照角度、云层或人为光源都可能影响图像的亮度和对比度;

15、为了解决这个问题,采用了对比度受限的自适应直方图均衡化 (clahe) 方法来对原始rgb图像进行预处理;

16、传统的直方图均衡化方法会扩展图像的对比度,但在高对比度区域可能会导致过度放大,从而引入噪声;

17、clahe方法旨在避免这一问题,它首先将图像分割成称为"tile grid size"的小块;

18、在每个块内部,它使用直方图均衡化来增强对比度,但如果对比度超过了"cliplimit",它会将多余的对比度均匀地分散到这个块中,这确保了增强是在限制的范围内,不会引入过多的噪声;

19、公式表示为:

20、i'_rgb = clahe(i_rgb, clip limit, tile grid size)

21、其中,i'_rgb 代表经clahe处理后的图像,它将具有更好的对比度,特别是在那些原本对比度较低的区域;

22、i_rgb 是摄像机捕获的原始rgb图像;

23、clip limit 是clahe方法中用来限制单个块内对比度增强的参数;

24、tile grid size 定义了将图像划分成块的大小,较小的网格大小会对图像进行更细致的处理,而较大的网格大小可能会捕获更大的对比度变化。

25、优选地,所述采用了卷积注意力机制 (cam) 进行图像的特征提取,包括:传统的卷积神经网络(cnn)通常通过连续的卷积层来提取图像的特征,这些特征能够表示图像的内容、形状、纹理等;

26、但是,对于诸如小动物识别这样的任务,仅仅知道有一个小动物在图像中是不够的,还需要知道它的具体位置;

27、cam基于卷积网络的顶层特征生成一个热图,表示每个像素点对于最终决策的重要性;

28、这个热图可以突出显示出图像中最具有辨识性的区域,即关注区域;

29、公式表示为:

30、m_attention = w^t * f_features

31、其中,m_attention是得到的注意力权重图,这是一个二维图像,其大小与输入图像的卷积特征图大小相同,这个图像的每个值都表示该位置的重要性,较高的值意味着该位置对于最终分类的决策更为重要;

32、f_features代表的是从cnn的卷积层得到的特征,这通常是一个三维的张量,其中包含了多个特征图,每个特征图都可以捕获图像中的某种特定信息,例如边缘、纹理等;

33、w是从gap (global average pooling) 层到softmax层的权重,这些权重表明了每个特征图对于最终分类决策的重要性,gap层的工作原理是对每个特征图进行平均,从而将每个特征图转化为一个单一的数值,这些数值再与w相乘,确定了每个特征的权重;

34、通过计算w^t和f_features的乘积,可以获得一个表示注意力的二维权重图m_attention;

35、这个权重图提供了一个直观的方式来理解模型在分类时关注的图像区域。

36、优选地,所述结合retinanet模型,并配合focal loss进行训练,包括:retinanet是一个目标检测模型,广泛应用于各种复杂的视觉任务中;

37、retinanet的特点是它采用了一个称为focal loss的新型损失函数,来解决目标检测中的正负样本不平衡问题;

38、在传统的目标检测任务中,大量的负样本(非目标区域)与少量的正样本(目标区域)存在巨大的不平衡,这通常导致训练不稳定;

39、focal loss就是为了解决这个问题而被设计的,它赋予了那些被错误分类的样本更高的权重,使模型更加关注于难以分类的样本;

40、公式表示为:

41、l = - alpha_t(1-p_t)^gamma * log(p_t)

42、其中,l代表focal loss,即希望最小化的损失值,它是用来衡量模型预测与真实标签之间的差异;

43、p_t是模型对于正样本或负样本的预测概率,如果样本是正样本,p_t等于模型预测为正的概率,反之,p_t等于1减去模型预测为正的概率;

44、alpha_t是一个权重系数,用于平衡正负样本,通常,alpha_t对于正样本是alpha,而对于负样本则是1-alpha,这样设计的目的是为了确保在存在大量负样本的情况下,正样本仍能获得足够的关注;

45、gamma是一个调整参数,它决定了模型对于不同难度样本的关注程度,当gamma为0时,focal loss退化为标准的交叉熵损失,随着gamma的增大,模型更加关注那些难以正确分类的样本。

46、优选地,所述使用遗传算法用于模型参数的优化,包括:遗传算法(ga)是一种启发式的优化方法,受自然选择和生物遗传学的启示而来,它们基于进化论中的自然选择原理,模拟生物进化过程中的遗传、变异和交叉过程,从而在解空间中搜索最优解;

47、retinanet是一个高度复杂的模型,其参数空间巨大,传统的优化技术,如梯度下降,可能会导致局部最优解,而非全局最优;

48、遗传算法有能力在广泛的参数空间中搜索,找到更接近全局最优的模型参数。

49、公式表示为:

50、p_next = ga(p_current, mutation rate, crossover rate)

51、其中,p_next代表下一代的参数集,遗传算法的目标是进化和改进参数,因此,p_next 应该是一个相对于 p_current 更优的参数集;

52、p_current是当前代的参数集,这是起点,遗传算法将从这里开始进化和搜索;

53、mutation rate是遗传算法中的变异率,变异是随机改变某些参数值的过程,以引入新的参数组合并增加搜索空间的多样性,一个高的变异率意味着更多的参数将被随机改变,而低的变异率则意味着更少的参数将受到影响;

54、crossover rate代表交叉率,是另一个核心的遗传操作,交叉涉及两个“父母”参数集的组合,以产生一个新的“子代”参数集,高的交叉率意味着更多的参数集将通过组合产生新的参数组合;

55、通过反复进行变异和交叉操作,并选择每一代中最优的参数集进行下一轮的进化,遗传算法最终希望找到一个全局最优或接近全局最优的参数集,从而优化retinanet模型的性能。

56、优选地,所述结合lstm网络,及时检测并报告任何不寻常的模型行为或结果,包括:lstm之所以适用于异常报警,是因为它能够捕捉数据中的长期依赖关系,并在这些关系中识别异常模式,例如,如果一个食堂的访问者流量突然增加,而这与之前几天的模式完全不符,lstm可以捕获到这种突变,并触发相应的报警;

57、公式表示为:

58、(h_t, c_t) = lstm(x_t, h_t-1, c_t-1)

59、其中, h_t 和 c_t为在时间点t的隐藏状态和记忆状态,它们可以被看作是lstm单元的“记忆”,储存了过去信息的摘要,隐藏状态 h_t 是该时间点的输出,而记忆状态 c_t 是内部的长期状态,它可以保持、忘记或更新信息;

60、x_t为在时间点t的输入,这是当前时间点的观测数据;

61、h_t-1 和 c_t-1为在时间点t-1的隐藏状态和记忆状态,这些状态包含了lstm单元在前一时间点的记忆,它们与当前时间点的输入一起,决定了lstm如何更新其当前状态;

62、lstm通过其内部的门结构(遗忘门、输入门和输出门)来控制信息流,在异常报警的上下文中,lstm会学习如何识别异常模式,并在其隐藏状态中对这些模式进行编码,当检测到异常模式时,隐藏状态会发生变化,从而触发报警。

63、与现有技术相比,本发明的有益技术效果如下:

64、更高的识别准确率:在前述的“深度食堂守卫”系统中,虽然结合了深度摄像机和简单的卷积神经网络实现了小动物的识别,但其所使用的模型结构可能不足以处理食堂复杂的环境变化和多种小动物的多样性。本发明采用的retinanet模型,作为一种单一、统一的网络,既可以定位物体又可以分类物体。通过引入focal loss,该模型特别针对了训练数据中的类别不平衡问题,尤其是在食堂环境中,小动物相对于整体场景只是一个很小的部分。因此,与传统技术相比,本发明在检测小动物上会有更高的准确率。

65、实现高效率和低延迟的实时检测:在与背景技术相比,本发明的另一个显著优势在于其实时性。通过采用先进的retinanet模型,结合专为难分类的样本设计的调整参数,使得该方法在面对大规模或复杂的实时数据流时仍然可以保持高效率和低延迟。这意味着,即使在数据流量巨大的场景下,本方法也能迅速识别和响应任何异常,确保系统及时作出反应。此外,采用遗传算法进行模型优化,进一步提升了模型的处理速度和准确性,使其能够更好地适应各种场景和需求。

66、结合lstm实现高效的异常报警:对于食堂监控,仅仅识别出小动物并不足够,还需要一个有效的报警机制。以前的技术可能依赖简单的阈值触发报警,但在动态变化的食堂环境中,这可能会导致许多误报或漏报。本发明中,通过结合lstm网络,可以对小动物的行为模式进行学习和预测,从而在其出现异常行为时及时报警。与传统方法相比,这种基于时间序列的方法能够更加准确地判断何时触发报警。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1