本发明涉及人工智能、语音识别与智能终端控制,尤其涉及一种生成式ai驱动的语音点单与咖啡图案生成方法及系统。
背景技术:
1、尽管当前咖啡机器人在饮品自动化制作方面已较为成熟,但在语音交互与图案个性化控制方面仍存在明显局限。一方面,现有语音模块多依赖固定指令模板,缺乏对自然语言的语义解析与容错能力,无法支持用户自由表达饮品需求。另一方面,拉花功能通常依赖静态图案模板,未实现从语音意图动态生成图案并驱动拉花设备执行的闭环控制。
2、此外,图案生成若基于ai绘图,还需考虑图像清晰度、对称性与喷绘路径等可执行性,现有系统普遍缺乏图案后处理与设备参数映射机制,限制了图案定制能力的智能化发展。缺乏多模态感知(如摄像头辅助)也使得在公共空间中易发生误触发与语音识别失败,影响系统鲁棒性与体验一致性。
技术实现思路
1、针对上述问题,本发明的目的在于提供一种生成式ai驱动的语音点单与咖啡图案生成方法及系统,解决现有咖啡机器人中语音识别依赖固定指令、无法理解用户自然表达,拉花图案缺乏个性化生成,图案生成与设备执行脱节,以及嘈杂环境下易误识别等问题,提升语音点单的智能化与图案生成的个性化、可执行性,本发明的上述发明目的是通过以下技术方案得以实现的:
2、本发明提供了一种生成式ai驱动的语音点单与咖啡图案生成方法,包括:
3、步骤s1:基于触发预设的交互触发条件时,采集原始音频信号进行语音识别获取对应的文本信息进行语义解析,生成结构化语义结果,并根据结构化语义结果生成饮品制作指令和图案生成请求;
4、步骤s2:响应于图案生成请求,通过图像生成模型生成拉花图案;
5、步骤s3:将饮品制作指令和拉花图案下发至咖啡机器人的控制模块,执行饮品制作和图案生成操作,并输出定制饮品。
6、进一步地,步骤s1包括:
7、步骤s11:检测触发预设的交互触发条件时,启动交互流程;交互触发条件包括摄像头识别到用户进入交互区域和/或唤醒词;
8、步骤s12:在交互流程中,采集原始音频信号与面部图像帧序列,通过唇部关键点检测提取唇部运动特征作为视觉辅助特征,并基于麦克风阵列估算声源方向角作为空间辅助特征,将语音信号、唇部运动特征与声源方向角作为多模态特征共同输入语音增强模型,输出优化后的目标语音信号;
9、步骤s13:对优化后的目标语音信号进行实时语音识别,转写为对应的文本信息,通过语义理解智能体对预处理后的文本信息进行语义解析,调用大语言模型提取对应的关键词参数,并通过模糊归类与歧义消解机制生成结构化语义结果。
10、进一步地,步骤s12包括:
11、步骤s121:通过麦克风阵列获取原始音频信号;麦克风阵列配置为三通道定向波束结构,用于覆盖180°范围内的声源定位,且每一波束覆盖角度为60°,通过构建空间选择性收音模型增强特定方向的原始音频信号;
12、步骤s122:摄像头同步采集面部图像帧序列,采用视觉目标跟踪算法识别面部区域并提取唇部区域图像;将面部图像帧序列输入至唇部关键点检测网络提取唇部运动特征为视觉辅助特征;
13、步骤s123:采用基于gcc-phat算法的麦克风阵列定位方法估算声源方向角,作为空间辅助特征;
14、步骤s124:将原始音频信号、唇部运动特征与声源方向角输入至语音增强模型,通过时频掩码学习方式抑制非目标源语音,输出目标语音信号。
15、进一步地,步骤s13包括:
16、步骤s131:对识别得到的文本信息进行语义预处理,预处理包括文本清洗与口语停用词的去除;
17、步骤s132:通过语义理解智能体对文本信息构建上下文语义图谱,识别出与饮品制作和拉花图案生成相关的语义实体,语义实体包括饮品类实体、拉花图案意图实体以及个性化偏好表达实体;
18、步骤s133:基于语义实体,构建包含基础识别、语义决策与执行约束的多层意图映射机制,对语义实体进行归一化映射、参数标准化转换及图像生成提示词构造,生成符合执行要求的结构化语义结果,并转换为对应的饮品制作指令和/或图案生成请求。
19、进一步地,步骤s133包括:
20、在多层意图映射机制的基础识别层,基于预设构建的饮品参数关键词映射表,对语义实体执行归一化映射处理,关键词映射表包括标准饮品参数项目及其对应的方言表达、谐音词、歧义词和常用别名,用于实现非标准表达到标准饮品参数的语义映射;
21、在语义决策层,将归一化后的语义实体根据类型映射为设备可识别的结构化执行参数,其中,饮品类实体转换为饮品制作参数,个性化偏好表达实体转换为风味调节选项,拉花图案意图实体初步转换为图像生成提示词;同时将归一化后的饮品类实体和个性化偏好表达实体转化为饮品制作指令;
22、在执行约束层,通过图像生成提示词基于system prompt模板嵌入包括图像尺寸、色彩和构图的执行约束参数,并结合正向与反向提示词控制策略,生成对应的拉花结构化提示词。
23、进一步地,步骤s1还包括,
24、基于目标语音信号识别不明确或饮品制作参数、风味调节选项以及图像生成提示词不完整时,通过语义理解智能体自动生成引导问句,并根据提示词模板控制语句长度,经过语音合成处理后,通过语音反馈给用户,以获取对应回复的目标语音信号。
25、进一步地,步骤s2包括:
26、响应图案生成请求;
27、根据图案生成请求,选择文生图、图文生图或图生图的图像生成路径,通过图像生成模型以生成对应的拉花图案,其中,
28、文生图的图像生成路径为通过拉花结构化提示词使用图像生成模型生成对应的拉花图案;
29、图文生图的图像生成路径为将用于优化图片的拉结结构化提示词与用户上传图像的图片结合,通过图像生成模型生成拉花图案;
30、图生图的图像生成路径为基于用户上传图像提取视觉特征向量,通过特征重映射引擎语义特征输入图像生成模型,生成拉花图案。
31、进一步地,步骤s3为将饮品制作指令与拉花图案分别下发至控制模块中的饮品制作单元和拉花控制单元,完成饮品制作路径规划、图案喷绘路径控制并输出带有拉花图案的定制饮品。
32、基于相同的发明构思,本发明还提供了一种生成式ai驱动的语音点单与咖啡图案生成系统,采用如上述的语音点单与咖啡图案生成方法,包括:
33、数据采集模块,用于基于触发预设的交互触发条件时,采集原始音频信号进行语音识别获取对应的文本信息进行语义解析,生成结构化语义结果;根据结构化语义结果,生成饮品制作指令和图案生成请求;
34、图案处理模块,用于响应图案生成请求,通过图像生成模型生成拉花图案;
35、控制输出模块,用于将饮品制作指令和拉花图案下发至咖啡机器人的控制模块,执行饮品制作和图案生成操作,并输出定制饮品。
36、进一步地,数据采集模块,包括:
37、任务触发单元,用于检测触发预设的交互触发条件时,启动交互流程;交互触发条件包括摄像头识别到用户进入交互区域和/或唤醒词;
38、多模态数据处理单元,用于在交互流程中,采集原始音频信号与面部图像帧序列,通过唇部关键点检测提取唇部运动特征作为视觉辅助特征,并基于麦克风阵列估算声源方向角作为空间辅助特征,将语音信号、唇部运动特征与声源方向角作为多模态特征共同输入语音增强模型,输出优化后的目标语音信号;
39、解析输出单元,用于对优化后的目标语音信号进行实时语音识别,转写为对应的文本信息,通过语义理解智能体对预处理后的文本信息进行语义解析,调用大语言模型提取对应的关键词参数,并通过模糊归类与歧义消解机制生成结构化语义结果。
40、与现有技术相比,本发明包括以下至少一种有益效果是:
41、本发明结合多模态感知技术,通过麦克风阵列和摄像头协同作用,提高语音识别准确性并降低误触发率至2%以下。通过三层意图映射机制与自然语言处理,精确转换语义实体为执行参数,并生成符合设备要求的高质量拉花图案,确保图案一致性。整个过程响应时间控制在10秒内,满足商用实时性需求,提升效率。
42、(1)本发明结合了麦克风阵列和摄像头,利用三通道定向波束技术进行声源定位,覆盖180°范围,且每波束角度为60°。通过空间选择性收音模型,能够增强特定方向的原始音频信号,有效抑制多方位噪声干扰。结合唇部动作检测和声源方向估算,该系统在嘈杂环境中将语音误触发率降低至2%以下,显著提升语音识别的准确性和可靠性。
43、(2)采用三层意图映射机制,首先通过预设饮品参数关键词库对用户语音进行归一化映射,处理方言、谐音、歧义及别名问题,提升语音识别的精度;在决策层,所有饮品类信息(包括上述识别的方言、谐音和歧义)均转化为标准化的商品名称,确保设备正确响应。基于自然语言处理技术与图像生成优化算法,系统能够从用户提供的提示词(如“星空感拉花”)中精准提取有效参数,生成符合用户预期的高质量图像提示词,提升图像生成的表现力和清晰度。
44、(3)在执行约束层,通过系统中的system prompt模板,强制嵌入图像生成的尺寸、色彩、构图等执行参数,并结合正向与反向提示词控制策略,确保生成图像满足拉花机的硬件约束条件。整个系统的响应时间控制在10秒内,其中aigc图像生成过程占时8秒±1秒,符合商用实时性要求,能够高效响应用户需求并确保高效输出,满足快速商业应用环境下的处理需求。