基于大模型的多模态政务问答方法与流程

文档序号：36326189发布日期：2023-12-09 15:02阅读：52来源：国知局

本发明涉及政务服务，尤其涉及一种基于大模型的多模态政务问答方法。

背景技术：

1、随着chatgpt大模型的出现，agi已经成为了一种可能，大模型可以像人一样进行基于很长的上下文对话，目前上下文长度能达到几十万个子，相当于一本书的长度。并且相比较之前的预训练方式的深度学习模型，推理能力非常强，尤其是在zero shot情境下。

2、目前问答系统都是基于单一模态的文本，并且问答系统大部分都是基于检索的方法，例如利用语法算法例如bm25、倒排索引、同义词等方法进行文本的召回，然后例如文本特征算法编辑距离、tfidf、词性、依存关系、特征词等提取特征，然后利用逻辑回归、svm、继承学习等方法进行文本的二次筛选，然后利用深度学习算法例如bert等word2vec算法进行文本向量的方法，进行匹配，然后把匹配答案对应的结果返回给用户。

3、(1)传统问答系统都是文本单模态的，不用解决用户图片和音频相关知识的问题能力

4、(2)传统问答系统都是基于相似度检索的，因此缺少创造能力，用户获得答案都是提前配置好的，缺少创造能力

5、(3)传统问答系统缺少强的上下文理解能力，系统不能很好理解用户上下文，例如用户上一句说了给我查询明天天气，当用户在做给我订一个酒店，然后问答系统可能会问：订什么时间的，其实如果能够理解上下文，应该能反问是不是订明天的酒店。

6、(4)还有就是复杂场景的问答能力，当用户说的问题不是那么明显的时候，问答系统可能就答不上来了

7、(5)不支持通过上传文本、pdf等文件，然后问到文件中的内容进行答案的回复，这个需求在政务场景很常见。

8、目前传统的问答系统存在很多问题，例如模态单一，推理能力差、上下文理解能力不足、不支持基于文档的问答能力。

技术实现思路

1、为了解决以上技术问题，本发明提供了一种基于大模型的多模态政务问答方法。用于解决政务问答系统的多模态需求和强上下文推理能力，利用大模型强大的上下文推理能力，以及利用不同模态的处理算法共同解决用户的需求，同时可以满足政务人员快速进行文档中内容的定位，

2、本发明的技术方案是：

3、基于大模型的多模态政务问答方法，利用大模型的上下文推理能力，以及利用不同模态的处理算法同时处理音频、图像、文档数据，满足用户对于多模态数据情况下的问答能力。

4、进一步的，

5、具体流程如下：

6、第一步:首先用户输入问题；

7、第二步:将用户输入的问题转换为文本数据；

8、第三步:把用户问题通过text2vec进行向量化，然后利用consine距离找到文档中相关的语句，最后和语音识别语句、图像抽取数据共同组成真正和用户问题相关的用户上传数据；

9、第四步：把对话管理状态中的数据，也融合到用户问题相关的数据中，形成大模型的上下文信息；

10、第五步：把第四步获得上下文信息，和文本问题结合形成大模型chatglm2-6b所需要的prompt数据，从而获得最后的答案。

11、再进一步的，

12、第一步输入的问题包括上下文资料，有音频、图像、文本问题和文档四种形式。

13、再进一步的，

14、利用语音识别算法把用户上传的音频数据转化为文本数据，采用conformer语音识别算法，使用纠错模型对文本就行纠错，得到最后的语音识别数据。

15、对于图像数据，采用blip算法和east+rcnn结合ocr算法获取图片中的描述文本和ocr文本数据。

16、把文本问题进行text2vec向量化处理。

17、上传的文档数据，利用textspliter技术对文档进行切分，然后利用text2vec算法对切分的数据进行向量化。

18、上传的文档数据，先用pdf、word文件处理工具，抽取出来文档中的文本数据，然后再进行切分。

19、本发明的有益效果是

20、本发明主要用于解决政务问答系统的多模态需求和强上下文推理能力，因此利用大模型强大的上下文推理能力，以及利用不同模态的处理算法可以同时处理音频、图像、文档等数据，满足用户对于多模态数据情况下的问答能力。同时可以满足政务人员快速进行文档中内容的定位

21、本发明适用于政务问答系统设计的整体框架，但是同样适用不同行业，也可以用到客服场景、机器人场景等，相比较传统的方法，可以获取用户多模态的数据，同时利用大模型的推理能力，让系统更加智能和高效。

技术特征：

1.基于大模型的多模态政务问答方法，其特征在于，

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求3所述的方法，其特征在于，

6.根据权利要求3所述的方法，其特征在于，

7.根据权利要求3所述的方法，其特征在于，

8.根据权利要求7所述的方法，其特征在于，

技术总结
本发明提供一种基于大模型的多模态政务问答方法，属于政务服务技术领域，本发明主要用于解决政务问答系统的多模态需求和强上下文推理能力，利用大模型强大的上下文推理能力，以及利用不同模态的处理算法可以同时处理音频、图像、文档等数据，满足用户对于多模态数据情况下的问答能力。同时可以满足政务人员快速进行文档中内容的定位。

技术研发人员：冯落落,李志芸,张峻铭
受保护的技术使用者：山东新一代信息产业技术研究院有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯落落李志芸张峻铭
技术所有人：山东新一代信息产业技术研究院有限公司
我是此专利的发明人

上一篇：部署在工控机内部的视觉光源控制器的制作方法
上一篇：一种含三元环的二酯单体制备可快速水中降解的的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。