菜谱生成方法和烹饪方法与流程

文档序号：33254731发布日期：2023-02-21 16:54阅读：60来源：国知局

1.本发明涉及烹饪技术领域，尤其涉及一种菜谱生成方法和烹饪方法。

背景技术：

2.随着生活水平的提高，人们对食物的要求越来越高，越来越多的人会利用空闲时间进行烹饪以满足美食爱好，用户可以依照书本上的菜谱或网上的菜谱准备食材并进行烹饪。
3.现有技术中，通过图像识别技术，识别图像中的烹饪行为，生成菜谱，由于菜谱中所描述的烹饪行为准确性低，用户在使用这种类型的菜谱进行烹饪时，常常无法达到预期的烹饪效果，影响了用户对菜谱的使用感受，降低了烹饪的趣味性。

技术实现要素：

4.本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种菜谱生成方法，生成更加精确的目标菜谱，提高烹饪过程的趣味性。
5.本发明还提出一种烹饪方法。
6.根据本发明第一方面实施例的菜谱生成方法，包括：获取烹饪过程中的视频信息和音频信息，所述音频信息用于表征在所述烹饪过程中食材、锅具和灶具中的至少一种产生的声音；基于所述视频信息和所述音频信息，识别出所述烹饪过程中的目标烹饪行为；基于所述目标烹饪行为，生成目标菜谱。
7.根据本发明实施例的菜谱生成方法，通过结合视频信息和音频信息，对烹饪过程中的目标烹饪行为进行准确的识别，生成的目标菜谱更加精确，有助于用户使用目标菜谱进行烹饪时，达到预期的烹饪效果，提高烹饪过程的趣味性。
8.根据本发明的一个实施例，所述基于所述视频信息和所述音频信息，识别出所述烹饪过程中的目标烹饪行为，包括：从所述视频信息中，确定目标图像序列；对所述目标图像序列进行特征提取，得到图像特征；对所述音频信息进行特征提取，得到音频特征；基于所述图像特征和所述音频特征，得到所述目标烹饪行为。
9.根据本发明的一个实施例，所述目标图像序列包括：低频图像序列和高频图像序列；所述对所述目标图像序列进行特征提取，得到图像特征，包括：将所述低频图像序列进行特征提取，得到低频图像特征；将所述高频图像序列进行特征提取，得到高频图像特征；
10.所述基于所述图像特征和所述音频特征，得到所述目标烹饪行为，包括：基于所述低频图像特征、所述高频图像特征和所述音频特征，得到所述目标烹饪行为。
11.根据本发明的一个实施例，所述基于所述图像特征和所述音频特征，得到所述目标烹饪行为，包括：将所述图像特征和所述音频特征进行特征融合，得到融合特征；将所述图像特征和所述音频特征分别与所述融合特征进行特征融合，得到新的图像特征和新的音频特征；基于所述新的图像特征和所述新的音频特征，得到所述目标烹饪行为，对新的图像特征和新的音频特征进行识别，融合识别的烹饪物品、图像上的烹饪行为和音频上的烹饪
行为，有效提高了对目标烹饪行为的识别准确度。
12.根据本发明的一个实施例，所述将所述图像特征和所述音频特征进行特征融合，得到融合特征，包括：
13.以所述图像特征和所述音频特征中的一个特征的维度为基准，调整另一个特征的维度；将调整后的特征与所述一个特征进行融合，得到所述融合特征；
14.所述将所述图像特征和所述音频特征分别与所述融合特征进行特征融合，得到新的图像特征和新的音频特征，包括：
15.将所述融合特征作为所述新的图像特征和所述新的音频特征中的一个特征；
16.将所述融合特征的维度调整为与所述图像特征和所述音频特征中的另一个特征的维度相同，并与所述另一个特征进行融合，得到所述新的图像特征和所述新的音频特征中的另一个特征。
17.根据本发明的一个实施例，所述基于所述视频信息和所述音频信息，识别出所述烹饪过程中的目标烹饪行为，包括：
18.将所述视频信息和所述音频信息输入到行为识别模型的特征提取层，输出图像特征和音频特征；
19.将所述图像特征和所述音频特征输入到所述行为识别模型的融合层，所述融合层将所述图像特征和所述音频特征进行特征融合，得到融合特征，且将所述图像特征和所述音频特征分别与所述融合特征，得到新的图像特征和新的音频特征；
20.将所述新的图像特征和所述新的音频特征输入到所述行为识别模型的识别层，得到所述目标烹饪行为；
21.其中，所述行为识别模型为，以样本视频信息和样本音频信息为样本，以预先确定的与所述样本视频信息和所述样本音频信息对应的样本烹饪行为为样本标签，训练得到。
22.所述行为识别模型在音频信息的基础之上，将视频信息中的烹饪行为进行更准确的区分，增加行为识别的准确率，提升得到的目标烹饪行为的准确度。
23.根据本发明的一个实施例，所述基于所述目标烹饪行为，生成目标菜谱，包括：
24.基于所述目标烹饪行为，生成语音提示信息；
25.基于所述语音提示信息，生成用于语音播报的目标菜谱。
26.根据本发明第二方面实施例的烹饪方法，包括：
27.接收用户的第一输入；响应于所述第一输入，获取目标菜谱，所述目标菜谱为通过上述菜谱生成方法生成的；播放所述目标菜谱。
28.根据本发明实施例的烹饪方法，通过播放目标菜谱，指导用户在烹饪过程中的烹饪行为，有助于用户达到预期的烹饪效果，提高烹饪过程的趣味性。
29.根据本发明的一个实施例，所述播放所述目标菜谱，包括：获取用户在烹饪过程中的实时视频信息和实时音频信息；基于所述实时视频信息和所述实时音频信息，识别用户的实时烹饪行为；基于所述实时烹饪行为，确定与下一个目标烹饪行为对应的语音提示信息的播放时刻，使得目标菜谱的播放节奏与用户的烹饪操作速度所匹配，提高用户操作的自由度和烹饪的趣味性。
30.根据本发明的一个实施例，在所述获取目标菜谱后，所述播放所述目标菜谱之前，所述方法还包括：
31.基于所述目标菜谱，输出备菜信息；接收用户的第二输入；
32.所述播放所述目标菜谱，包括：
33.响应于所述第二输入，播放所述目标菜谱。
34.根据本发明第三方面实施例的菜谱生成装置，包括：
35.获取模块，用于获取烹饪过程中的视频信息和音频信息，所述音频信息用于表征在所述烹饪过程中食材、锅具和灶具中的至少一种产生的声音；
36.识别模块，用于基于所述视频信息和所述音频信息，识别出所述烹饪过程中的目标烹饪行为；
37.生成模块，用于基于所述目标烹饪行为，生成目标菜谱。
38.根据本发明第四方面实施例的烹饪装置，包括：
39.接收模块，用于接收用户的第一输入；
40.响应模块，用于响应于所述第一输入，获取目标菜谱，所述目标菜谱为通过上述菜谱生成方法生成的；
41.处理模块，用于播放所述目标菜谱。
42.根据本发明第五方面实施例的电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述任一种所述菜谱生成方法或烹饪方法的步骤。
43.根据本发明第四方面实施例的非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述菜谱生成方法或烹饪方法的步骤。
44.本发明实施例中的上述一个或多个技术方案，至少具有如下技术效果之一：
45.结合音频信息，将视频信息中的行为进行更准确的区分，从而增加烹饪行为识别的准确率，生成的目标菜谱更加精确，烹饪过程的趣味性得以提高。
46.进一步的，对传统的行为识别模型进行改进，在slowfast模型的基础上实现三个特征间特征融合，三个特征在每次卷积以后，进行一次特征融合，同时将融合后的结果再分别和各自特征相结合，使得每个特征卷积以后的特征既有原有的特征信息，又有其他两个特征的特征信息，提升烹饪行为识别的准确率。
47.本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
48.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
49.图1是本发明实施例提供的菜谱生成方法的流程示意图；
50.图2是本发明实施例提供的行为识别模型进行处理的流程示意图；
51.图3是本发明实施例提供的烹饪方法的流程示意图；
52.图4是本发明实施例提供的烹饪方法的使用灶台的结构示意图；
53.图5是本发明实施例提供的菜谱生成装置的结构示意图；
54.图6是本发明实施例提供的烹饪装置的结构示意图；
55.图7是本发明实施例提供的电子设备的结构示意图。
具体实施方式
56.下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。
57.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
58.下面结合图1和图2描述本发明实施例的菜谱生成方法，该方法的执行主体，可以为设备端的控制器，或者云端，或者边缘服务器。
59.如图1所示，本发明的菜谱生成方法包括步骤110至步骤130。
60.步骤110、获取烹饪过程中的视频信息和音频信息，音频信息用于表征在烹饪过程中食材、锅具和灶具中的至少一种产生的声音。
61.其中，视频信息包括烹饪过程中食材、锅具、佐料及操作者的动作等内容的连续画面信息。
62.音频信息用于表征烹饪过程中食材、锅具和灶具等物品产生的声音。
63.例如，食材进入热油中出现的爆炸声、食材翻炒过程中的撞击声及锅具内蒸汽释放的蜂鸣声等声音。
64.在该步骤中，获取烹饪过程中的视频信息和音频信息可以表现为如下至少一种方式：
65.其一、用户录制的烹饪过程中的视频信息和音频信息。
66.用户在制作想要记录或分享的菜品时，录制烹饪过程中的视频信息和音频信息，生成目标菜谱后可以保存于本地，也可以上传至云端，与其他人分享。
67.在该实施例中，当用户选择录制生成目标菜谱的模式下，当用户触发灶台按钮点燃炉火时，系统接受触发信号，加载和启动检测模型，开启摄像头和音频采集装置开始录制烹饪过程。
68.其二、预先存储的目标菜谱烹饪过程中的视频信息和音频信息。
69.其三、用户从云端或分享网站中下载目标菜谱烹饪过程中的视频信息和音频信息。
70.可以理解的是，烹饪过程中的视频信息和音频信息可以为单独的视频信息和单独的音频信息，也可以对烹饪过程中的音视频信息进行拆分得到的视频信息和音频信息。
71.步骤120、基于视频信息和音频信息，识别出烹饪过程中的目标烹饪行为。
72.通过图像识别方法可以从视频信息中可以识别出烹饪过程的烹饪行为，例如，可
以识别出炒菜、倒油、倒佐料和放肉等具体步骤。
73.烹饪过程中具体烹饪行为发生时，食材、锅具和灶具产生的声音构成音频信息，根据声音的种类大小等信息可以识别出相应的烹饪行为。
74.例如，音频信息为油水混合物产生的爆炸声时，可以识别出将食材放入热油的烹饪行为。
75.可以理解的是，基于视频信息和音频信息，识别出烹饪过程中的目标烹饪行为，通过音频信息识别的烹饪行为对视频信息识别的烹饪行为进行佐证和修正，能够更加准确的识别烹饪过程中的动作行为。
76.也即，基于视频信息和音频信息，识别出的目标烹饪行为的准确度比单独通过视频信息或音频信息识别的烹饪行为的准确度高。
77.识别出烹饪过程中的目标烹饪行为包括但不限于调节火焰动作、锅热后倒油的倾倒动作、调节火力动作以及其他倾倒动作。
78.可以理解的是，识别出的目标烹饪行为包括烹饪过程中食材、锅具和灶具等烹饪物品内容，例如，识别倾倒动作包括倾倒内容如佐料，葱姜蒜，肉和菜等详细信息。
79.步骤130、基于目标烹饪行为，生成目标菜谱。
80.其中，目标烹饪行为包括目标烹饪行为本身以及目标烹饪行为发生的时间信息。
81.时间信息可以包括目标烹饪行为发生的时刻信息和目标烹饪行为发生的时段信息，例如，颠锅动作发生的时刻为倒入食材动作发生后的第1分钟，颠锅的时段需要持续5分钟。
82.目标菜谱包括目标烹饪行为和目标烹饪行为发生的时间信息等信息，目标菜谱可以表现为带有语音提示的视频形式、带有文字提示的视频形式、带有语音提示和文字提示的视频形式或单独的语音形式。
83.下面介绍一个用户录制视频信息和音频信息，生成目标菜谱的具体的实施例。
84.(1)用户触发灶台按钮点燃炉火时，系统接受触发信号，开启摄像头和麦克风，开始录制烹饪过程的视频信息和音频信息。
85.(2)识别调节火焰动作，并同时根据烧燃器上的传感器判断出火力变化趋势，从而判断出是调节大火还是小火的动作，记录行为发生的时间信息。
86.(3)识别锅热后倒油的倾倒动作和倒油的量，记录行为发生的时间信息。
87.(4)识别倾倒食材动作、食材种类和数量，记录行为发生的时间信息。
88.(5)识别翻炒动作，记录行为发生的时间信息。
89.(6)检测到关火，结束烹饪。
90.将视频信息和音频信息保存，基于识别出的目标烹饪行为及其发生的时间信息，生成目标菜谱，以供用户下次使用或进行分享。
91.相关技术中，基于烹饪菜品的视频，对烹饪过程中的各个阶段、各种食材和操作人员的动作进行识别判断，行为识别准确度低，经常会出现用户使用生成的菜谱无法达到预期烹饪效果的情况。
92.发明人经过多种烹饪场景的重现和大量研究发现，相关技术中，仅基于视频信息，对烹饪行为进行识别，无法准确识别扑锅或翻炒等复杂图像的动作，并且由于蒸汽的影响和油烟本身对镜头的附着，视频图像的成像质量受到影响，进一步降低了烹饪行为识别的
准确度。
93.在发现上述技术问题的基础上，发明人以烹饪过程中的视频信息为基础，结合音频信息，对烹饪过程中的目标烹饪行为进行准确的识别，能够提高用户使用生成的目标菜谱的精确度，达到预期的烹饪效果。
94.根据本发明提供的菜谱生成方法，通过结合视频信息和音频信息，提高了目标烹饪行为的识别准确度，生成的目标菜谱更加精确，有助于用户使用目标菜谱进行烹饪时，达到预期的烹饪效果，提高烹饪过程的趣味性。
95.在一些实施例中，步骤120包括：从视频信息中，确定目标图像序列；对目标图像序列进行特征提取，得到图像特征；
96.对音频信息进行特征提取，得到音频特征；基于图像特征和音频特征，得到目标烹饪行为。
97.可以理解的是，视频信息是由一帧帧连续的图像构成的，从视频信息中，选取确定目标图像序列，其中，目标图像序列指从视频信息中按一定比例提取的多张图像。
98.通过对目标图像序列进行特征提取，可以得到图像特征，图像特征用于识别出烹饪过程的烹饪物品及相应的烹饪行为。
99.音频信息用于表征烹饪过程中食材、锅具和灶具等物品产生的声音，通过对音频信息进行特征提取，得到的音频特征。
100.音频特征表征了烹饪过程中的油水爆炸、翻炒撞击及蒸汽蜂鸣等情况，可以用于识别烹饪过程中烹饪物品间的行为动作。
101.可以理解的是，根据目标图像序列的图像特征识别出的烹饪行为，结合烹饪行为发生时的相应音频特征，可以对该烹饪行为进行佐证和进一步判断；基于音频特征，结合图像特征识别出的烹饪物品，辅助音频特征中烹饪行为的识别判断。
102.对图像特征和音频特征各自识别出的烹饪行为，利用另一特征进行佐证和辅助判断，提高了识别出的目标烹饪行为的准确度。
103.在一些实施例中，目标图像序列包括：低频图像序列和高频图像序列。
104.从目标图像序列进行特征提取，可以得到低频图像特征和高频图像特征，再基于低频图像特征、高频图像特征和音频特征，得到目标烹饪行为。
105.从视频信息中获取目标图像序列时，可以在设定的时段周期内，例如，以2s的时间跨度为时段周期，在这个时间跨度内抽取一定数量的图片，构成目标图像序列。
106.从视频信息获取低频图像序列和高频图像序列的采样比例不同，也即在相同时间跨度内抽取不同数量的图像作为低频图像序列和高频图像序列，例如，对于低频图像序列，在2s的时间跨度内抽取4帧图像；对于高频图像序列，在2s的时间跨度内抽取32帧图像。
107.在实际执行中，从视频信息获取低频图像序列和高频图像序列的采样比例可以为1:8及1:16等比例。
108.对稀疏采样的低频图像序列进行特征提取，得到的低频图像特征由稀疏帧提供的语义信息，帧与帧之间内容差别较小，可以识别出烹饪过程中的物品信息。
109.对密集采样的高频图像序列进行特征提取，得到的高频图像特征用于捕获连续变化的动作，其刷新速度快、时间分辨率高，可以识别出烹饪过程中的连续动作。
110.可以理解的是，基于高频图像特征和低频图像特征可以识别具体的烹饪行为，再
结合音频特征对烹饪行为进行佐证判断；基于音频特征，结合低频图像特征识别的烹饪物品，初步识别烹饪行为，再结合高频图像序列辅助音频特征中烹饪行为的识别判断。
111.在一些实施例中，将图像特征和音频特征进行特征融合，得到融合特征，再将图像特征和音频特征分别与融合特征进行特征融合，得到新的图像特征和新的音频特征，基于新的图像特征和新的音频特征，得到目标烹饪行为。
112.目标图像序列是一定时段内提取的图像，图像特征的维度包括图像数量、宽度、高度和输出通道；音频信息是完整时间段音频特征的维度包括宽度、高度和输出通道。
113.可以理解的是，特征融合是对特征矢量进行的串行或并行的优化组合，图像特征和音频特征的维度不同，需要进行维度处理，将图像特征和音频特征调整至相同维度，再进行图像特征和音频特征的特征融合。
114.在实际执行中，以图像特征和音频特征中的一个特征的维度为基准，调整另一个特征的维度，将调整后的特征与一个特征进行融合，得到融合特征。
115.例如，以图像特征的维度为基准，在音频特征三个维度的基础上增加一个维度，将调整后的音频特征与图像特征进行融合，得到融合特征。
116.得到融合特征后，再将图像特征和音频特征分别与融合特征进行特征融合，得到新的图像特征和新的音频特征。
117.可以理解的是，得到的融合特征与图像特征和音频特征中的为基准的特征的维度相同，在进行第二次的特征融合时，需要对融合特征的维度进行调整。
118.在实际执行中，将融合特征作为新的图像特征和新的音频特征中的一个特征，将融合特征的维度调整为与图像特征和音频特征中的另一个特征的维度相同，并与另一个特征进行融合，得到新的图像特征和新的音频特征中的另一个特征。
119.例如，获取融合特征时，以图像特征为基准，得到的融合特征作为新的图像特征，将新的图像特征的维度调整为与音频特征的维度相同，与音频特征进行融合，得到新的音频特征。
120.可以理解的是，对新的图像特征和新的音频特征进行识别，融合识别的烹饪物品、图像上的烹饪行为和音频上的烹饪行为，有效提高了对目标烹饪行为的识别准确度。
121.如图2所示，下面介绍一个以改进的slowfast模型为基础的行为识别网络具体的实施例。
122.设定2s的时间跨度为时段周期，获取2s时间跨度内的声音的连续信号作为音频信息(voice)，平均抽取视频信息的4帧图像作为低频图像序列(low frame rate)，32帧图像作为高频图像序列(high frame rate)，高低频采样比例为1：8。
123.对低频图像序列进行特征提取，低频图像特征的维度为4xwxhxc，4代表一次输入4帧特征数据，c为输出的通道，w为特征的宽度，h为特征的高度，维度为4的低频图像特征后续的高阶语义信息的提取要采取3d卷积，每一次卷积w和h减半，c增加一倍，其它保持不变。
124.对高频图像序列进行特征提取，高频图像特征的维度为32xwxhx1/8c，32代表一次输入32帧特征数据，1/8c代表通道数是同层低频图像序列所对应的通道数的8分之一，采用3d卷积来抽取高阶语义信息。
125.高频图像序列中采样图像的增多会导致计算量的增加，所以对应的卷积核的数量会减少为对应低频3d卷积核数量的8分之1，以减少动作行为识别网络的计算量。
126.音频信息提取的音频特征的维度为w1xh1xc1，与图像特征相比，少一个维度，可以采用2d卷积来对音频特征进行提取，每一次卷积后，w和h减半，c增加一倍。
127.三个特征在每次卷积以后，都要进行特征融合，同时将融合后的结果与各自特征相结合，这样每个通道卷积以后的特征既有原有的特征信息，又有其他两个通道的特征信息。
128.在进行特征融合时，以三个特征中的任意一个特征的维度为基准，调整另外两个特征的维度进行融合，再将融合后的特征与各自特征相结合时，再以各自特征的维度为基准进行维度调整，再进行融合。
129.例如，以低频图像特征的维度为基准，将32xwxhx1/8c的高频图像特征经过卷积变成4xwxhxc的特征，将w1xh1xc1的音频特征增加一个维度变成1xw1xh1xc1，再经过一次3d卷积变为4xw1xh1xc1，对三个维度均为4xwxhxc的特征进行相加操作，从而得到融合特征。
130.通过3d卷积将融合后的4xwxhxc特征变成32xwxhx1/8c的特征，再将其与原先的高频图像特征进行相加，得到新的高频图像特征。
131.通过3d卷积将融合后的4xwxhxc特征变成1xw1xh1xc1，再将第一个维度删除，得到w1xh1xc1的特征，将其和原先的音频特征相加，得到新的音频特征。
132.可以理解的是，以低频图像特征的维度为基准，得到的融合特征的维度与原先的低频图像特征的维度相同，将融合得到的融合特征直接作为新的低频图像特征。
133.通过三个特征间的维度处理和特征融合，所得到的新的三个特征均包含了彼此的特征信息，再分别通过卷积再提取高阶语义信息，重复进行特征融合，进行多次重复操作，识别得到烹饪过程中准确的目标烹饪行为。
134.相关技术中，通过slowfast模型提取低频图像特征和高频图像特征，均是将高频图像特征向低频图像特征融合，输出识别的行为，将低频图像特征向高频图像特征融合，对识别的行为的准确度无较大改善。
135.本发明以烹饪过程中的视频信息为基础，结合音频信息，在slowfast模型的基础上实现三个特征间特征融合，突破了相关技术仅向一个特征方向进行融合的融合方式，其输出的目标烹饪行为的准确度有较大提高。
136.在一些实施例中，构建行为识别模型，输入视频信息和音频信息，识别出烹饪过程中的目标烹饪行为。
137.在该实施例中，以样本视频信息和样本音频信息为样本，以预先确定的与样本视频信息和样本音频信息对应的样本烹饪行为为样本标签，训练得到行为识别模型。
138.其中，行为识别模型包括特征提取层、融合层和识别层，特征提取层用于提取特征，融合层进行维度处理和特征融合，识别层输出目标烹饪行为。
139.在实际执行中，将视频信息和音频信息输入到行为识别模型的特征提取层，由特征提取层进行特征提取，输出相应的图像特征和音频特征。
140.从视频信息中确定目标图像序列，对目标图像序列进行特征提取，得到图像特征，例如，对稀疏采样的低频图像序列进行特征提取，得到的低频图像特征，对密集采样的高频图像序列进行特征提取，得到的高频图像特征。
141.将特征提取层输出的图像特征和音频特征输入融合层，在融合层中，将图像特征和音频特征进行特征融合，得到融合特征，再将图像特征和音频特征分别与融合特征，得到
新的图像特征和新的音频特征。
142.在实际执行中，以图像特征和音频特征中的一个特征的维度为基准，调整另一个特征的维度，将调整后的特征与一个特征进行融合，得到融合特征。
143.将融合特征作为新的图像特征和新的音频特征中的一个特征，将融合特征的维度调整为与图像特征和音频特征中的另一个特征的维度相同，并与另一个特征进行融合，得到新的图像特征和新的音频特征中的另一个特征。
144.融合层输出新的图像特征和新的音频特征，输入识别层，识别层是一个全连接分类层，识别层识别输出目标烹饪行为。
145.通过行为识别模型输入视频信息和音频信息，识别出烹饪过程中的目标烹饪行为，提高了目标烹饪行为的识别准确度，利用目标烹饪行为生成的目标菜谱更加精确，有助于用户使用目标菜谱进行烹饪时，达到预期的烹饪效果，提高烹饪过程的趣味性。
146.在一些实施例中，步骤130包括：根据目标烹饪行为，生成语音提示信息，进而生成用于语音播报的目标菜谱。
147.在该实施例中，语音提示信息包含目标烹饪行为以及目标烹饪行为发生的时刻信息，语音提示信息可以用于语音播报，也可以通过处理将其转换为文本信息。
148.在具体实施时，通过语音提示信息，生成得到的用于语音播报的目标菜谱，可以通过扬声器或其他语音播报设备播放目标菜谱。
149.下面对本发明实施例提供的烹饪方法进行描述，下文描述的烹饪方法使用的是上文描述的菜谱生成方法所生成的目标菜谱。
150.下面结合图3和图4描述本发明实施例的烹饪方法，该方法的执行主体，可以为设备端的控制器，或者云端，或者边缘服务器。
151.如图3所示，本发明的烹饪方法包括步骤310至步骤330。
152.步骤310、接收用户的第一输入。
153.在本步骤中，第一输入用于获取目标菜谱。
154.其中，第一输入可以表现为如下至少一种方式：
155.其一，第一输入可以表现为触控输入，包括但不限于点击输入、滑动输入和按压输入等。
156.在该实施方式中，接收用户的第一输入，可以表现为，接收用户在厨具、灶具、或移动终端显示屏的显示区域的触控操作。
157.其二，第一输入可以表现为实体按键输入。
158.在该实施例中，终端的机身上设有与获取目标菜谱对应的实体按键，接收用户针对目标菜谱的输入，可以表现为，接收用户按压对应的实体按键的输入。
159.其三，第一输入可以表现为语音输入。
160.在该实施例中，终端可以在接收到语音如“宫保鸡丁”时，触发获取宫保鸡丁的目标菜谱。
161.当然，在其他实施例中，第一输入也可以表现为其他形式，包括但不限于字符输入等，具体可根据实际需要决定，本技术实施例对此不作限定。
162.步骤320、响应于第一输入，获取目标菜谱，其中目标菜谱是基于上述菜谱生成方法生成的，可以语音播报的目标菜谱。
163.目标菜谱中包括烹饪过程中炒菜，倒油，倒佐料，放肉等目标烹饪行为，以及各个目标烹饪行为发生的时间信息，以供用户学习。
164.在该实施例中，用户获取的目标菜谱的获取途径可以表现为如下至少一种方式：
165.其一、用户录制的历史目标菜谱。
166.在该实施例中，当用户选择录制生成目标菜谱的模式下，当用户触发灶台按钮点燃炉火时，系统接受触发信号，加载和启动检测模型，开启摄像头和音频采集装置开始录制烹饪过程，进行行为识别，生成相应的目标菜谱。
167.其二、预先存储的样本类的目标菜谱。
168.其三、用户从云端或分享网站中下载的目标菜谱。
169.步骤330、播放目标菜谱。
170.目标菜谱包括目标烹饪行为和目标烹饪行为发生的时间信息等信息，目标菜谱可以表现为带有语音提示的视频形式、带有文字提示的视频形式、带有语音提示和文字提示的视频形式或单独的语音形式。
171.目标菜谱包括语音提示信息，该语音提示信息可以用于语音播报，也可以通过处理将其转换为文本信息。
172.播放目标菜谱可以表现为播放带有语音提示的目标菜谱视频、播放带有文字提示的目标菜谱视频或播放语音形式的目标菜谱音频。
173.在该步骤中，可以通过厨房场景内的厨具或家电播放目标菜谱，例如，在烟机上设置扬声器和显示屏，播放目标菜谱；也可以通过用户的其他终端，如手机、平板或电脑等，播放目标菜谱。
174.下面介绍一个用户学习目标菜谱具体的实施例。
175.(1)用户打开烟机，并通过语音说出想学习的菜肴。
176.(2)根据用户语音识别出用户想学的菜肴，获取相应的目标菜谱。
177.(3)加载目标菜谱对应的视频，该视频包括烹饪所需的物品、目标烹饪行为及各行为发生的时间点。
178.(4)通过语音提示和视频播放，指导用户进行具体烹饪操作。
179.根据本发明提供的烹饪方法，通过播放目标菜谱，指导用户在烹饪过程中的烹饪行为，有助于用户达到预期的烹饪效果，提高烹饪过程的趣味性。
180.在一些实施例中，步骤330中按照时间顺序播放目标菜谱，用户可以获取到目标菜谱中目标烹饪行为及其发生的时间信息。
181.在该实施例中，用户学习目标菜谱的烹饪时，无需再进行时间记录，跟随目标菜谱的播放，可以在对应时刻完成对应的目标烹饪行为。
182.可以理解的是，用户可以只观看或收听目标菜谱，在播放目标菜谱的过程中，用户可以对播放目标菜谱的速度进行调节，便于用户快速了解目标菜谱中物品信息、烹饪行为和时间信息。
183.在一些实施例中，步骤330包括：获取用户在烹饪过程中的实时视频信息和实时音频信息；基于实时视频信息和实时音频信息，识别用户的实时烹饪行为；基于实时烹饪行为，控制目标菜谱的播放节奏，确定与下一个目标烹饪行为对应的语音提示信息的播放时刻。
184.在该实施例中，可以在用户烹饪的位置布置语音收集装置和摄像头，获取用户在烹饪过程中的实时视频信息和实时音频信息，识别用户的实时烹饪行为。
185.如图4所示，在烟机10上设置摄像头12和麦克风11获取用户在烹饪过程中的实时视频信息和实时音频信息，对用户在灶台20上的实时烹饪行为进行识别。
186.可以理解的是，可以通过上述基于视频信息和音频信息，识别目标烹饪行为的方法，对实时视频信息和实时音频信息进行特征提取、融合和识别，得到用户的实时烹饪行为
187.基于用户的实时烹饪行为，控制目标菜谱的播放节奏，确定与下一个目标烹饪行为对应的语音提示信息的播放时刻，在用户完成当前应该完成的目标烹饪行为的情况下，再播放下一个目标烹饪行为，使得目标菜谱的播放节奏与用户的烹饪操作速度所匹配，提高用户操作的自由度和烹饪的趣味性。
188.下面介绍一个用户学习目标菜谱具体的实施例。
189.(1)用户打开烟机10，并通过语音说出想学习的菜肴。
190.(2)根据用户语音识别出用户想学的菜肴，获取相应的目标菜谱。
191.(3)加载目标菜谱对应的视频，该视频包括烹饪所需的物品、目标烹饪行为及各行为发生的时间点。
192.(4)用户触发灶台按钮21点燃炉火时，接受触发信号，开启摄像头12和麦克风11，开始录制烹饪过程的实时视频信息和实时音频信息。
193.(5)识别灶台按钮21调节火焰动作，并同时根据燃烧器22上的传感器判断出火力变化趋势，从而判断出是调节大火还是小火的动作，与目标菜谱中调节火力的目标烹饪行为进行比对，用户的实时烹饪行为与目标烹饪行为一致，播放下一个目标烹饪行为。
194.(6)识别锅热后倒油的倾倒动作和倒油的量，与目标菜谱中倒油的目标烹饪行为进行比对，用户的实时烹饪行为与目标烹饪行为一致，播放下一个目标烹饪行为。
195.(7)识别倾倒食材动作、食材种类和数量，与目标菜谱中倒入菜品的目标烹饪行为进行比对，用户的实时烹饪行为与目标烹饪行为一致，播放下一个目标烹饪行为。
196.(8)识别翻炒动作，与目标菜谱中翻炒的目标烹饪行为进行比对，实时烹饪行为与目标烹饪行为一致，记录翻炒时长，在翻炒时长达到目标烹饪行为中的翻炒时长时，提示用户关火，结束烹饪。
197.在未识别到与目标烹饪行为一致的用户的实时烹饪行为时，提示用户实施当前时刻所需的烹饪行为，例如，在识别到识别倾倒食材完成后，播放翻炒行为，未识别到用户实时的翻炒行为，语音提示用户实施翻炒行为。
198.在一些实施例中，步骤320之后和步骤330之前包括：基于目标菜谱，输出备菜信息，以供用户备菜；接收用户的第二输入；步骤330包括：响应于第二输入，播放目标菜谱。
199.获取目标菜谱后，基于目标菜谱中目标烹饪行为的烹饪物品，包括烹饪食材和佐料，输出备菜信息，以供用户备菜，做好前期准备。
200.在实际执行中，输出备菜信息可以通过语音提示或视频显示等方式播放给用户，输出备菜信息包括烹饪食材和佐料，同时也包括烹饪所需的锅具，例如炒锅、炖锅或砂锅等锅具。
201.用户基于备菜信息做好前期准备后，输入第二输入，第二输入用于播放目标菜谱，其中，第二输入可以表现为如下至少一种方式：
202.其一，第二输入可以表现为触控输入，包括但不限于点击输入、滑动输入和按压输入等。
203.其二，第二输入可以表现为实体按键输入。
204.其三，第二输入可以表现为语音输入。
205.在该实施例中，终端可以在接收到语音如“开始烹饪”时，触发播放目标菜谱。
206.当然，在其他实施例中，第二输入也可以表现为其他形式，包括但不限于字符输入等，具体可根据实际需要决定，本技术实施例对此不作限定。
207.在该实施例中，播放目标菜谱可以按时间顺序播放；也可以基于用户的实时烹饪行为，控制目标菜谱的播放节奏。
208.下面对本发明实施例提供的菜谱生成装置和烹饪装置进行描述，下文描述的菜谱生成装置和烹饪装置与上文描述的菜谱生成方法和烹饪方法可相互对应参照。
209.如图5所示，本发明提供的菜谱生成装置包括：
210.获取模块510，用于获取烹饪过程中的视频信息和音频信息，音频信息用于表征在烹饪过程中食材、锅具和灶具中的至少一种产生的声音；
211.识别模块520，用于基于视频信息和音频信息，识别出烹饪过程中的目标烹饪行为；
212.生成模块530，用于基于目标烹饪行为，生成目标菜谱。
213.根据本发明提供的目标菜谱生成装置，通过结合视频信息和音频信息，提高了目标烹饪行为的识别准确度，生成的目标菜谱更加精确，有助于用户使用目标菜谱进行烹饪时，达到预期的烹饪效果，提高烹饪过程的趣味性。
214.在一些实施例中，识别模块520用于从所述视频信息中，确定目标图像序列；对所述目标图像序列进行特征提取，得到图像特征；对所述音频信息进行特征提取，得到音频特征；基于所述图像特征和所述音频特征，得到所述目标烹饪行为。
215.在一些实施例中，所述目标图像序列包括：低频图像序列和高频图像序列；识别模块520用于将所述低频图像序列进行特征提取，得到低频图像特征；将所述高频图像序列进行特征提取，得到高频图像特征；基于所述低频图像特征、所述高频图像特征和所述音频特征，得到所述目标烹饪行为。
216.在一些实施例中，识别模块520用于将所述图像特征和所述音频特征进行特征融合，得到融合特征；将所述图像特征和所述音频特征分别与所述融合特征进行特征融合，得到新的图像特征和新的音频特征；基于所述新的图像特征和所述新的音频特征，得到所述目标烹饪行为。
217.以所述图像特征和所述音频特征中的一个特征的维度为基准，调整另一个特征的维度；将调整后的特征与所述一个特征进行融合，得到所述融合特征。
218.将所述融合特征作为所述新的图像特征和所述新的音频特征中的一个特征；将所述融合特征的维度调整为与所述图像特征和所述音频特征中的另一个特征的维度相同，并与所述另一个特征进行融合，得到所述新的图像特征和所述新的音频特征中的另一个特征。
219.在一些实施例中，识别模块520用于基于所述视频信息和所述音频信息，识别出所述烹饪过程中的目标烹饪行为，包括：
220.将所述视频信息和所述音频信息输入到行为识别模型的特征提取层，输出图像特征和音频特征；
221.将所述图像特征和所述音频特征输入到所述行为识别模型的融合层，所述融合层将所述图像特征和所述音频特征进行特征融合，得到融合特征，且将所述图像特征和所述音频特征分别与所述融合特征，得到新的图像特征和新的音频特征；
222.将所述新的图像特征和所述新的音频特征输入到所述行为识别模型的识别层，得到所述目标烹饪行为；
223.其中，所述行为识别模型为，以样本视频信息和样本音频信息为样本，以预先确定的与所述样本视频信息和所述样本音频信息对应的样本烹饪行为为样本标签，训练得到。
224.如图6所示，本发明提供的烹饪装置，包括：
225.接收模块610，用于接收用户的第一输入；
226.响应模块620，用于响应于第一输入，获取目标菜谱，目标菜谱为上述菜谱生成方法生成的；
227.处理模块630，用于播放目标菜谱。
228.根据本发明提供的烹饪装置，通过播放目标菜谱，指导用户在烹饪过程中的烹饪行为，有助于用户达到预期的烹饪效果，提高烹饪过程的趣味性。
229.在一些实施例中，处理模块630，用于获取用户在烹饪过程中的实时视频信息和实时音频信息；基于所述实时视频信息和所述实时音频信息，识别用户的实时烹饪行为；基于所述实时烹饪行为，控制所述目标菜谱的播放节奏，确定与下一个目标烹饪行为对应的语音提示信息的播放时刻。
230.在一些实施例中，烹饪装置还包括控制模块，在响应模块620获取目标菜谱后，处理模块630播放目标菜谱前，控制模块基于所述目标菜谱，输出备菜信息；接收模块610接收用户的第二输入，处理模块630响应于所述第二输入，播放所述目标菜谱。
231.图7示例了一种电子设备的实体结构示意图，如图7所示，该电子设备可以包括：处理器(processor)710、通信接口(communications interface)720、存储器(memory)730和通信总线740，其中，处理器710，通信接口720，存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令，以执行菜谱生成方法，该方法包括：获取烹饪过程中的视频信息和音频信息，音频信息用于表征在烹饪过程中食材、锅具和灶具中的至少一种产生的声音；基于视频信息和音频信息，识别出烹饪过程中的目标烹饪行为；基于目标烹饪行为，生成目标菜谱。
232.或，执行烹饪方法，该方法包括：接收用户的第一输入；响应于第一输入，获取目标菜谱，目标菜谱为通过上述菜谱生成方法生成的；播放目标菜谱。
233.此外，上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种
可以存储程序代码的介质。
234.进一步地，本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的菜谱生成方法，该方法包括：获取烹饪过程中的视频信息和音频信息，音频信息用于表征在烹饪过程中食材、锅具和灶具中的至少一种产生的声音；基于视频信息和音频信息，识别出烹饪过程中的目标烹饪行为；基于目标烹饪行为，生成目标菜谱。
235.或，提供的烹饪方法，该方法包括：接收用户的第一输入；响应于第一输入，获取目标菜谱，目标菜谱为通过上述菜谱生成方法生成的；播放目标菜谱。
236.另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的菜谱生成方法，该方法包括：获取烹饪过程中的视频信息和音频信息，音频信息用于表征在烹饪过程中食材、锅具和灶具中的至少一种产生的声音；基于视频信息和音频信息，识别出烹饪过程中的目标烹饪行为；基于目标烹饪行为，生成目标菜谱。
237.或，提供的烹饪方法，该方法包括：接收用户的第一输入；响应于第一输入，获取目标菜谱，目标菜谱为通过上述菜谱生成方法生成的；播放目标菜谱。
238.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
239.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
240.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
241.以上实施方式仅用于说明本发明，而非对本发明的限制。尽管参照实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，对本发明的技术方案进行各种组合、修改或者等同替换，都不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈磊陈蔚尹宇婧魏中科全永兵
技术所有人：佛山市顺德区美的洗涤电器制造有限公司
我是此专利的发明人

上一篇：一种电磁铁同步旋转装置的制作方法
上一篇：一种电石法PVC原料混合气加热装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。