一种基于多模态的AI菜品识别方法、系统、设备及介质与流程

文档序号：35478669发布日期：2023-09-16 19:16阅读：33来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及菜品识别，具体涉及一种基于多模态的ai菜品识别方法、系统、设备及介质。

背景技术：

1、近年来，随着深度学习的兴起，基于卷积神经网络(cnn)的菜品分类方法取得了显著的进展。cnn能够自动学习图像的特征表示，避免了手工设计特征的繁琐过程。

2、然而，现有的菜品分类方法仍然存在一些限制。首先，它们主要依赖于单一模态的图像数据，无法充分利用多模态信息来提高分类准确性。其次，现有方法在菜品图像的获取、处理和分类过程中需要大量的时间和人力参与，增加了成本和门槛。

技术实现思路

1、针对现有技术中的缺陷，本发明提供一种基于多模态的ai菜品识别方法、系统、设备及介质。

2、第一方面，一种基于多模态的ai菜品识别方法，包括

3、s1.获取菜品的rgb图像和热图像；

4、s2.校正所述rgb图像和所述热图像，将两幅图像进行匹配叠加得到融合图像；

5、s3.通过聚类算法对三幅图像进行分割得到不同分割区域；

6、s4.在不同的分割区域中选择识别区域并识别菜品类别。

7、优选地，s1中，获取菜品的rgb图像和热图像设备包括电脑、摄像机、手机。

8、优选地，s2中，校正所述rgb图像和所述热图像；

9、s201，使用shi-tomasi角点检测来检测所述rgb图像中的四个角点，通过角点响应函数计算选择响应值最高的四个角点作为rgb图像中矩形区域的第一角点；

10、s202，基于所述第一角点，通过角点与rgb图像中对应角点之间的对应关系计算透视变换矩阵，根据得到的透视变化矩阵校正rgb图像，

11、s203，校正所述rgb图像中的任意四个点映射到热图像上，得到热图像的第二角点，基于第二角点和s202中透视变换矩阵的到校正的热图像。

12、s301.根据s201中获取rgb图像的四个第一角点使用k最近邻算法找到每个角点在热图像中的匹配点；

13、s302.根据热图像中的匹配点，使用ransac算法来迭代rgb图像和热图像中匹配点对，并筛选出较好的匹配点对，得到两幅图像之间的最佳拟合关系；

14、s303.将rgb图像和热图像根据最佳拟合关系进行配准，使得两幅图像在几何上对齐，根据所估计的变换模型，利用加权融合方法将rgb图像上的像素映射到热图像上的对应位置；

15、s304.将映射对应的rgb图像和热图像进行融合，得到融合图像。

16、优选的，s3中，通过聚类算法对三幅图像进行分割得到不同分割区域；

17、s401.每幅图像随机选择k个初始聚类中心，对每个像素，计算其与各个聚类中心的距离，并将其分配到距离最近的聚类中心所属的簇，对每个聚类簇，计算该簇内所有像素的平均值，并更新聚类中心的位置，重复分配和更新，直到聚类中心的变化小于设定阈值；

18、s402.根据最终的聚类中心，将图像中的像素分配到对应的聚类簇，形成不同的分割区域。

19、优选的，s4中，在不同的分割区域中选择识别区域并识别菜品类别；

20、s501.基于不同的分割区域选择菜品区域，在所述菜品区域内提取rgb图像的第一特征、热成像图像的第二特征以及融合图像的第三特征，其中，第一特征包括颜色直方图，第二特征包括温度分布特征，第三特征包括菜品纹理特征；

21、s502.将提取的特征输入到已经训练好的菜品识别模型中进行分类，得到菜品类别。

22、优选的，在s502中已经训练好的菜品识别模型；

23、卷积层，用于提取chinesefoodnet数据集中的局部第三特征图；

24、池化层，用于降低局部特征图的维度；

25、全连接层，用于将提取的第三局部特征图映射到不同的菜品类别，通过多次迭代chinesefoodnet数据集，不断调整模型参数以得到满足最小化损失函数的菜品识别模型。

26、优选的，s5之后还包括以下步骤：

27、对识别到的菜品类别进行类别编码处理，生成类别识别编码；

28、将所述类别识别编码存入存储装置，方便下次菜品识别时使用。

29、第二方面，一种基于基于多模态的ai菜品识别系统，包括：

30、获取模块，用于获取菜品的rgb图像和热图像；

31、图像校正模块，用于对所述rgb图像和所述热图像进行校正，将两幅图像匹配叠加得到融合图像；

32、分割处理模块，用于通过聚类算法对三幅图像进行分割处理得到不同分割区域；

33、分类处理模块，用于在不同的分割区域中选择识别区域并识别菜品类别。

34、第三方面，一种电子设备，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述的任一项所述方法的指令。

35、第四方面，一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现上述的任一项所述的方法。

36、本发明的有益效果体现在：本发明公开了一种基于多模态的ai菜品识别方法、系统、设备及介质。该方法通过采集菜品的rgb图像和热图像，通过角点校正将其校正、匹配叠加得到融合图像。然后利用聚类算法对融合图像进行分割，选择识别区域并识别菜品类别。该系统的优点在于能够结合多模态图像信息进行菜品类别识别，提高了识别准确性。通过图像校正和融合，能够消除图像畸变和配准问题，得到更清晰、准确的图像。

技术特征：

1.一种基于多模态的ai菜品识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态的ai菜品识别方法，其特征在于，s2中，校正所述rgb图像和所述热图像的方法包括：

3.根据权利要求1所述的一种基于多模态的ai菜品识别方法，其特征在于，s2中，将两幅图像进行匹配叠加得到融合图像的方法包括以下步骤：

4.根据权利要求1所述的一种基于多模态的ai菜品识别方法，其特征在于，s3中，通过聚类算法对三幅图像进行分割得到不同分割区域的方法包括以下步骤：

5.根据权利要求1所述的一种基于多模态的ai菜品识别方法，其特征在于，s4中，在不同的分割区域中选择识别区域并识别菜品类别的方法包括以下步骤：

6.根据权利要求1所述的一种基于多模态的ai菜品识别方法，其特征在于，在s502中已经训练好的菜品识别模型包括：

7.根据权利要求1所述的一种基于多模态的ai菜品识别方法，其特征在于，s5之后还包括以下步骤：

8.一种基于多模态的ai菜品识别系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序被所述处理器执行时，实现权利要求1～7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一项所述的方法。

技术总结
本发明公开了一种基于多模态的AI菜品识别方法、系统、设备及介质，涉及菜品识别技术领域，所述方法通过采集菜品的RGB图像和热图像，通过角点校正将其校正、匹配叠加得到融合图像，然后利用聚类算法对融合图像进行分割，选择识别区域并识别菜品类别。本发明能够结合多模态图像信息进行菜品类别识别，提高了识别准确性，通过图像校正和融合，能够消除图像畸变和配准问题，得到更清晰、准确的图像，聚类算法的应用使得图像分割更加精确，能够选择感兴趣的菜品区域进行后续处理。

技术研发人员：王德成
受保护的技术使用者：上海仝心电子科技有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王德成
技术所有人：上海仝心电子科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。