本申请涉及计算机,具体涉及一种文档检索方法、人机交互方法、电子设备及存储介质。
背景技术:
1、随着大语言模型效果明显提升,基于大语言模型的文档问答广泛应用。其主要流程是先通过版面识别技术(例如ocr(optical character recognition,光学字符识别)、pdf-parser(一种pdf分析工具)等)对文档进行解析,以识别文档里面的文字信息,然后再使用大语言模型根据识别的文字信息进行问答。
2、然而,采用版面识别技术识别出来的文字信息,通常会带来一些识别错误,例如将标题文字识别为正文文字、将页眉文字识别为标题文字等,这些错误识别结果将影响后面大语言模型的问答效果。
技术实现思路
1、本申请的目的是针对上述现有技术的不足提出的一种文档检索方法、人机交互方法、电子设备及存储介质,该目的是通过以下技术方案实现的。
2、本申请的第一方面提出了一种文档检索方法,所述方法包括:
3、提取文档的多模态表征信息,所述多模态表征信息包括视觉信息、文档布局信息以及文字信息;
4、通过已训练的大语言模型,根据所述多模态表征信息获得提问问题的回复信息,所述提问问题为用户针对所述文档输入所述大语言模型的问题信息。
5、本申请的第二方面提出了一种人机交互方法,所述方法包括:
6、提取文档的多模态表征信息,其中,所述多模态表征信息包括视觉信息、文档布局信息以及文字信息;
7、接收用户针对所述文档输入的提问问题;
8、通过已训练的大语言模型,根据所述多模态表征信息获得所述提问问题的回复信息。
9、本申请的第三方面提出了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序以实现如上述第一方面或第二方面所述的方法。
10、本申请的第四方面提出了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行以实现如上述第一方面或第二方面所述的方法。
11、基于上述第一方面和第二方面所述的文档检索方法和人机交互方法,本申请至少具有如下有益效果或优点:
12、本申请除了提取文档的文字信息之外,还提取文档的视觉信息和文档布局信息,以获得文档的多种模态表征,通过将多种模态表征输入大语言模型,大语言模型在使用文字信息做问答预测过程中,可以根据文档的视觉信息和文档布局信息获得文档结构上的信息,能够更好的理解文档,从而提升大语言模型的问答效果。
13、上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,可依照说明书的内容予以实施,并且为了让本申请的上述和其他目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
1.一种文档检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述视觉信息包括图像特征信息,所述文档布局信息包括文字位置信息,所述提取文档的多模态表征信息,包括:
3.根据权利要求2所述的方法,其特征在于,所述通过图像编码器提取所述文档的图像特征信息,包括:
4.根据权利要求1所述的方法,其特征在于,通过已训练的大语言模型,根据所述多模态表征信息获得提问问题的回复信息,包括:
5.根据权利要求4所述的方法,其特征在于,所述视觉信息包括多个图像分块的图像特征信息,所述文字信息包括多个文字的文字信息;
6.根据权利要求4所述的方法,其特征在于,所述将所述有序序列和提问问题输入已训练的大语言模型,输出所述提问问题的回复信息,包括:
7.根据权利要求2-6任一项所述的方法,其特征在于,所述大语言模型的训练过程包括:
8.一种人机交互方法,其特征在于,所述方法包括:
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序以实现如权利要求1-8任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行以实现如权利要求1-8任一项所述的方法。