基于大语言模型的皮肤检测方法及装置与流程

文档序号:43414280发布日期:2025-10-17 19:28阅读:29来源:国知局

本说明书一个或多个实施例涉及人工智能,尤其涉及一种基于大语言模型的皮肤检测方法及装置。


背景技术:

1、大语言模型(large language model,llm)是一种基于深度学习技术的自然语言处理模型,具备强大的语言理解和生成能力。现如今,大语言模型的应用越来越广泛。例如,以大语言模型为基础的智能对话系统(intelligent dialogue system)在客户服务、法律援助、在线教育、医疗咨询等众多方面都有着广泛的应用。智能对话系统是大语言模型面向用户的一种具体应用形式,它旨在理解和解答用户以自然语言形式提出的问题,并能生成简洁明了的答案。具体地,智能对话系统以大语言模型为基础,由大语言模型针对用户提出的问题进行理解和解答,并生成相应的答案。

2、对于医疗领域的智能对话系统而言,其核心的大语言模型主要通过训练过程中对静态医疗语料库的统计学习来获取医疗领域的知识,并在后续的推理过程中利用学习到的知识生成相关响应。然而,这些知识的表征过程通常受限于语料库的覆盖范围、时效性及知识密度,从而使模型在面对复杂、罕见或高度情境化的临床问题时,容易出现知识盲区或推理偏差,甚至可能出现幻觉问题,导致生成的响应的不够准确和可靠。因此,也就限制了智能对话系统在实际医疗场景中的适应性和响应准确度。


技术实现思路

1、本说明书一个或多个实施例提供技术方案如下:

2、根据本说明书一个或多个实施例的第一方面,提出了一种基于大语言模型的皮肤检测方法,所述方法包括:

3、获取对待检测的皮肤区域进行拍摄得到的至少一幅图像,并将所述至少一幅图像输入多模态模型,由所述多模态模型基于所述至少一幅图像,生成与所述皮肤区域对应的第一描述文本;

4、获取用于描述所述皮肤区域的音频,并对所述音频进行语音识别,以将所述音频转换为与所述皮肤区域对应的第二描述文本;

5、基于所述第一描述文本和所述第二描述文本,构建提示文本,并将所述提示文本输入大语言模型,由所述大语言模型在所述提示文本的引导下,生成与所述皮肤区域对应的皮肤检测结果文本。

6、根据本说明书一个或多个实施例的第二方面,提出了一种基于大语言模型的皮肤检测装置,所述装置包括:

7、图像描述生成模块,获取对待检测的皮肤区域进行拍摄得到的至少一幅图像,并将所述至少一幅图像输入多模态模型,由所述多模态模型基于所述至少一幅图像,生成与所述皮肤区域对应的第一描述文本;

8、语音识别模块,获取用于描述所述皮肤区域的音频,并对所述音频进行语音识别,以将所述音频转换为与所述皮肤区域对应的第二描述文本;

9、检测结果生成模块,基于所述第一描述文本和所述第二描述文本,构建提示文本,并将所述提示文本输入大语言模型,由所述大语言模型在所述提示文本的引导下,生成与所述皮肤区域对应的皮肤检测结果文本。

10、根据本说明书一个或多个实施例的第三方面,提出了一种电子设备,包括:

11、处理器;

12、用于存储处理器可执行指令的存储器;

13、其中,所述处理器通过运行所述可执行指令以实现如上述任一实施例所述方法的步骤。

14、根据本说明书一个或多个实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述任一实施例所述方法的步骤。

15、根据本说明书一个或多个实施例的第五方面,提出了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上述任一实施例所述方法的步骤。

16、由上述实施例可知,对于待检测的皮肤区域而言,一方面可以获取对该皮肤区域进行拍摄得到的至少一幅图像,并将这至少一幅图像输入多模态模型,由该多模态模型基于这至少一幅图像,生成与该皮肤区域对应的第一描述文本,另一方面可以获取用于描述该皮肤区域的音频,并对该音频进行语音识别,以将该音频转换为与该皮肤区域对应的第二描述文本,从而可以基于该第一描述文本和该第二描述文本,构建提示文本,并将该提示文本输入大语言模型,由该大语言模型在该提示文本的引导下,生成与该皮肤区域对应的皮肤检测结果文本。

17、采用上述方式,可以整合与待检测的皮肤区域对应的多模态数据,作为大语言模型通过推理生成与该皮肤区域对应的皮肤检测结果的基础,可以提高该大语言模型生成的皮肤检测结果的正确性和可靠性,从而提高基于该大语模型的智能对话系统在皮肤检测方面的适应性和响应准确度。



技术特征:

1.一种基于大语言模型的皮肤检测方法,所述方法包括:

2.根据权利要求1所述的方法,所述至少一幅图像为视频中的至少一个视频帧。

3.根据权利要求1所述的方法,所述基于所述第一描述文本和所述第二描述文本,构建提示文本,并将所述提示文本输入大语言模型,由所述大语言模型在所述提示文本的引导下,生成与所述皮肤区域对应的皮肤检测结果文本,包括:

4.根据权利要求3所述的方法,所述问题文本包括多轮对话中的问题文本;

5.根据权利要求1所述的方法,所述方法还包括:

6.根据权利要求1所述的方法,所述方法还包括:

7.根据权利要求1所述的方法,所述对所述音频进行语音识别,以将所述音频转换为与所述皮肤区域对应的第二描述文本,包括:

8.一种基于大语言模型的皮肤检测装置,所述装置包括:

9.一种电子设备,包括:

10.一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

11.一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。


技术总结
本说明书提供一种基于大语言模型的皮肤检测方法及装置,所述方法包括:获取对待检测的皮肤区域进行拍摄得到的至少一幅图像,并将所述至少一幅图像输入多模态模型,由所述多模态模型基于所述至少一幅图像,生成与所述皮肤区域对应的第一描述文本;获取用于描述所述皮肤区域的音频,并对所述音频进行语音识别,以将所述音频转换为与所述皮肤区域对应的第二描述文本;基于所述第一描述文本和所述第二描述文本,构建提示文本,并将所述提示文本输入大语言模型,由所述大语言模型在所述提示文本的引导下,生成与所述皮肤区域对应的皮肤检测结果文本。

技术研发人员:鲁志红,刘军伟,康俊晖
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:
技术公布日:2025/10/16
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!