本发明属于计算机,具体而言,涉及一种保险条款咨询自动回答的方法、介质及系统。
背景技术:
1、保险作为现代社会的重要经济行业,不仅为人们提供了重要的财产保障,同时也为增强社会安全感和生活幸福感做出了巨大贡献。目前保险条款作为“保险合同”的重要组成部分,常常被认为是难懂的,漫长的。简单而言,大部分的客户没有精力完全阅读保险条款。
2、常规传统保险条款咨询是指通过传统的人工方式,通过电话、邮件或面对面等形式进行保险条款解读和咨询的服务。首先,由于人力资源的限制,保险公司或服务提供商可能无法提供即时的响应。客户可能需要等待较长的时间才能获得咨询回答,特别是在繁忙时期或高峰时段。这种延迟可能会影响客户的满意度,并可能导致错过一些重要的时机或决策窗口。其次,传统咨询的高效性受到咨询人员的能力和工作效率的影响。每个咨询人员的知识水平和解答能力可能存在差异,这可能导致回答的质量和速度不一致。一些复杂或特殊的问题可能需要更长的时间和更多的研究才能得到解决,降低了咨询的高效性。
3、传统咨询可能受到咨询人员的知识水平和经验的限制。即使是经验丰富的咨询人员也可能无法涵盖所有保险条款的细节和变化。复杂的保险产品和条款可能需要进一步的研究和解读,而咨询人员可能无法提供最新和全面的信息。在传统咨询中,记录和组织大量的咨询信息可能会面临挑战,特别是在后续查询、回顾和审核时。
4、传统保险条款咨询的可扩展性也存在一些挑战。随着企业的规模扩大或客户需求的增加,保险公司可能需要大量的咨询人员来满足客户的需求。这可能导致人力资源和成本的增加,并可能限制服务的扩展能力。此外,保险条款咨询的可扩展性还受到服务响应时间和回答质量的影响。如果需要投入更多的时间和资源来确保准确的咨询回答,那么响应时间可能变长,限制了可扩展性。
技术实现思路
1、有鉴于此,本发明提供一种保险条款咨询自动回答的方法、介质及系统,提高了自动回答系统的高效性、准确性、便携性以及可扩展性。
2、本发明是这样实现的:
3、本发明的第一方面提供一种保险条款咨询自动回答的方法,其中,包括以下步骤:
4、s10、获取用户上传的保险条款pdf文档;
5、s20、对pdf文档进行解析,生成计算机可识别的文本记为第一文本;
6、s30、对所述第一文本进行包括分词处理、语义分析、关键词提取、业务模型匹配的信息提取处理,得到pdf文档的重要信息,记为文档信息;
7、s40、获取用户的咨询问题,并对咨询问题进行包括分词处理、语义分析、关键词提取,得到问题关键词;
8、s50、使用问题模型对问题关键词进行优化,得到问题要素;
9、s60、根据得到的问题要素,在预先设置好的保险条款知识库中,自动差值匹配度最高的答案作为参考答案;
10、s70、对参考答案进行敏感词过滤,生成咨询答案并输出给用户;
11、其中,所述业务模型和所述问题模型均为基于大语言模型进行微调得到的。
12、在上述技术方案的基础上,本发明的一种保险条款咨询自动回答的方法还可以做如下改进:
13、其中,所述对pdf文档进行解析,生成计算机可识别的文本记为第一文本,具体步骤包括:
14、过滤无效字符,如页眉页脚无关文本;
15、规范文字排版,将文本内容重新排版成结构化的段落;
16、执行文字识别,对含有图像的文本区域进行ocr识别,提取文本;
17、执行中文分词,将文本划分为词语;
18、保存提取的结构化文本内容作为计算机可识别的第一文本。
19、采用上述改进方案的有益效果为:通过对pdf文档进行解析,生成计算机可识别的文本可以帮助将pdf文档中的内容解析为计算机可识别的文本,从而方便进行进一步的文本分析、搜索、处理或提取关键信息等操作。具体实现时,可根据所选的pdf解析库的文档和示例代码进行操作。
20、进一步的,所述对所述第一文本进行包括分词处理、语义分析、关键词提取、业务模型匹配的信息提取处理的步骤,具体包括:
21、步骤一,分词处理:
22、构建词典;
23、从所述第一文本的左边界开始,使用正向最大匹配算法,选择出现的最长词进行匹配;若匹配成功,则将该词加入到词序列,并继续从该词的右边界开始向右匹配,若匹配不成功,则逐步减少词的长度,直到在所述词典中找到匹配词为止;重复步骤,直到整个文本被浏览完毕,得到最终的词序列;
24、步骤二,语义分析:
25、使用预训练好的词向量模型,获取每个词的对应词向量;
26、计算所述词向量之间的相似度,分析所述词序列中词语之间的语义关联情况;
27、步骤三,关键词提取:
28、使用textrank算法,构建词图;
29、将每个词作为所述词图中的一个节点,若两个词的相似度大于阈值,则在所述两个词之间建立一条边,所述边的权重为所述两个词的相似度的值;
30、在所述词图上进行pagerank计算,迭代计算每个词的pagerank值,作为关键词的排序依据,选择排名最高的词作为关键词;
31、步骤四,业务模型匹配:
32、将提取的所述关键词与预先建立的业务模型进行解释和替换;
33、通过与所述业务模型的匹配,将所述关键词标准化,使所述关键词符合所述业务模型的要求。
34、进一步的,所述将提取的所述关键词与预先建立的业务模型进行解释和替换的步骤,所述业务模型的建立步骤,具体包括:
35、收集与保险业务相关的数据,并对所述保险数据进行人工注释和标记,包括:问题分类、答案抽取、答案评分,得到保险数据集;
36、对所述保险数据集进行预处理;
37、从预处理后的所述保险数据中提取特征;
38、使用基于大语言模型的预训练模型作为基础,将预处理后的所述保险数据输入预训练模型进行训练和微调;
39、对训练后的业务模型进行评估,根据评估结果进行调优,得到最终业务模型。
40、进一步的,所述获取用户的咨询问题,并对咨询问题进行包括分词处理、语义分析、关键词提取,得到问题关键词的步骤,具体包括:
41、获取用户咨询的问题文本;
42、对所述问题文本使用正向最大匹配算法进行分词处理,得到问题文本词序列;
43、利用预训练的所述词向量模型,为每个词获取对应的词向量;
44、采用textrank算法进行关键词提取,得到所述问题关键词。
45、进一步的,所述使用问题模型对问题关键词进行优化,得到问题要素步骤中,所述问题模型的步骤为:
46、收集与用户咨询问题相关的数据,作为问题数据,包括用户提问、问题标注;
47、对所述问题数据进行预处理;
48、获取所述问题文本词序列以及所述词向量模型;
49、使用基于大语言模型进行微调的方法,将所述问题文本的词表示作为输入,训练一个问题模型;
50、对训练后的问题模型进行评估,根据评估结果进行调优,得到最终问题模型。
51、预处理包括去除噪声数据、进行文本规范化,例如去除特殊字符、停用词处理等。
52、进一步的,所述根据得到的问题要素,在预先设置好的保险条款知识库中,自动差值匹配度最高的答案作为参考答案的步骤,具体包括:
53、准备一个保险条款知识库;
54、获取所述问题模型,对用户的咨询问题进行分词处理、语义分析和关键词提取,得到所述咨询问题的关键要素;
55、将所述关键要素与所述保险条款知识库中的关键词进行匹配,得到匹配度分数;
56、根据所述匹配度分数对所述保险条款知识库中的保险条款进行排序,将所述匹配度分数最高的条款排在前面;
57、从排序后的保险条款知识库中选择所述差值匹配度最高的保险条款作为参考答案。
58、进一步的,所述对参考答案进行敏感词过滤,生成咨询答案并输出给用户的步骤,具体包括:
59、构建敏感词库;
60、对参考答案进行敏感词检测,并对检测到的敏感词进行过滤或替换;
61、将经过敏感词过滤后的参考答案作为所述咨询答案输出给用户。
62、敏感词汇的特点是多样性和多语言性,因此系统需要支持多种语言的敏感词汇检测和过滤,包括简体中文、繁体中文、英文、日文、韩文等多种语言。
63、本发明的第二方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质中存储有程序指令,所述程序指令运行时,用于执行上述的一种保险条款咨询自动回答的方法。
64、本发明的第三方面提供一种保险条款咨询自动回答系统,其中,包括上述的一种计算机可读存储介质。
65、与现有技术相比较,本发明提供的一种保险条款咨询自动回答的方法、介质及系统的有益效果是:
66、1.高效性:系统能够快速读取保险条款内容,并在短时间内给出准确的回答,提高了客户的满意度;
67、2.准确性:系统基于保险条款内容进行智能匹配,避免了人为因素对答案的影响,提高了回答的准确性;
68、3.便捷性:客户可以通过语音或文字输入方式与系统进行交互,无需下载其他app或使用额外设备,方便快捷;
69、4.可扩展性:该系统可以集成多种保险产品的信息,为用户提供更全面的咨询服务;本发明适用于需要快速获取保险条款信息的客户群体,如保险公司、保险代理人、消费者等。