本申请涉及人工智能,更具体地涉及一种应用型知识库构建方法、装置、设备、介质和程序产品。
背景技术:
1、大模型的服务平台回答用户问题时,是基于大模型本身已经学习的知识进行回答,通常大模型会提前学习一些通用知识,如互联网上的学术文章、新闻、百科知识等等,这些知识在大模型底层形成常规知识库。而应用型知识库是服务于某些特定场景或主体的知识库,如个人知识库是专门为用户设计的知识管理系统,旨在帮助用户整理和管理自己的信息资源,如组织知识库是专门为企业设计的知识管理系统,为企业、机构或团队实现知识沉淀、共享与复用。应用型知识库服务于大模型可以实现信息整合、提高效率、知识积累、个性化服务,在大模型的智能化应用中具有重要意义。
2、现有的构建应用型知识库方法主要通过用户手动上传一些文件,因此操作步骤繁琐,智能化不足,使得用户体验差,易导致用户流失,且人为操作很难避免人为的遗漏和操作失误。
技术实现思路
1、鉴于上述问题,本申请提供了智能化构建知识库的应用型知识库构建方法、装置、设备、介质和程序产品。
2、根据本申请的第一个方面,提供了一种应用型知识库构建方法,包括:响应于用户的网页访问请求,启动浏览器插件;其中,浏览器插件包括内容脚本和后台脚本;通过内容脚本,提取当前页面对应的文本内容;其中,当前页面对应的页面链接未存储在网页哈希表中;网页哈希表是基于初始网页访问请求对应的页面链接而构建;以及通过后台脚本,将提取后的文本内容上传至应用型知识库,以扩展应用型知识库;其中,应用型知识库是通过浏览器插件基于初始网页访问请求提取的历史文本内容预先构建。
3、根据本申请的实施例,将提取后的文本内容上传至应用型知识库之前,还包括:通过后台脚本,存储当前页面的文本内容至缓存队列,并存储当前页面对应的页面链接至网页哈希表。
4、根据本申请的实施例,将提取后的文本内容上传至应用型知识库,包括:基于用户发起的网络请求,监测网络状态;以及在网络状态为空闲的情况下,上传提取后的文本内容至应用型知识库。
5、根据本申请的实施例,上传提取后的文本内容至应用型知识库,包括:在缓存队列不为空的情况下,基于应用型知识库对应的接口,上传缓存队列中的存储数据至应用型知识库;以及在缓存队列中的存储数据均上传至应用型知识库的情况下,删除缓存队列中的存储数据。
6、根据本申请的实施例,基于用户发起的网络请求,监测网络状态,包括:基于用户发起的网络请求,实时监听网络请求事件;根据监听到的网络请求事件,修改计数参数的当前值;以及基于计数参数的当前值,监测网络状态。
7、根据本申请的实施例,提取当前页面对应的文本内容,包括:遍历当前页面的文档对象模型,以提取当前页面的可见文本;以及将当前页面的可见文本进行数据脱敏,获得当前页面的文本内容。
8、根据本申请的实施例,遍历当前页面的文档对象模型,包括:获取当前页面的文档对象模型的根节点;以及遍历文档对象模型的非根节点,读取非根节点的可见文本。
9、根据本申请的实施例,方法还包括:根据扩展后的应用型知识库,训练大模型;以及基于用户的输入内容,通过训练后的大模型生成响应内容。
10、根据本申请的实施例,基于初始网页访问请求对应的页面链接预先构建网页哈希表包括:基于初始网页访问请求对应的访问页面,获取访问页面的页面链接;将访问页面的页面链接进行哈希计算,获得访问页面的哈希值;以及将访问页面的哈希值与访问页面的页面链接作为键值对,存入预设结构的哈希表,以构建网页哈希表。
11、本申请的第二方面提供了一种应用型知识库构建装置,包括:装置包括:插件加载模块,用于响应于用户的网页访问请求,启动浏览器插件;其中,浏览器插件包括内容脚本和后台脚本;内容提取模块,用于通过内容脚本,提取当前页面对应的文本内容;其中,当前页面对应的页面链接未存储在网页哈希表中;网页哈希表是基于初始网页访问请求对应的页面链接预先构建;以及扩展构建模块,用于通过后台脚本,将提取后的文本内容上传至应用型知识库,以扩展应用型知识库;其中,应用型知识库是通过浏览器插件基于初始网页访问请求提取的历史文本内容而构建。
12、根据本申请的实施例,装置还包括:存储模块,用于通过后台脚本,存储当前页面的文本内容至缓存队列,并存储当前页面对应的页面链接至网页哈希表。
13、根据本申请的实施例,扩展构建模块,包括:监测单元,用于基于用户发起的网络请求,监测网络状态;以及上传单元,用于在网络状态为空闲的情况下,上传提取后的文本内容至应用型知识库。
14、根据本申请的实施例,上传单元,包括:第一上传子单元,用于在缓存队列不为空的情况下,基于应用型知识库对应的接口,上传缓存队列中的存储数据至应用型知识库;以及第二上传子单元,用于在缓存队列中的存储数据均上传至应用型知识库的情况下,删除缓存队列中的存储数据。
15、根据本申请的实施例,监测单元,包括:第一监测子单元,用于基于用户发起的网络请求,实时监听网络请求事件;第二监测子单元,用于根据监听到的网络请求事件,修改计数参数的当前值;以及第三监测子单元,用于基于计数参数的当前值,监测网络状态。
16、根据本申请的实施例,内容提取模块,包括:遍历单元,用于遍历当前页面的文档对象模型,以提取当前页面的可见文本;以及脱敏单元,用于将当前页面的可见文本进行数据脱敏,获得当前页面的文本内容。
17、根据本申请的实施例,遍历单元,包括:第一遍历子单元,用于获取当前页面的文档对象模型的根节点;以及第二遍历子单元,用于遍历文档对象模型的非根节点,读取非根节点的可见文本。
18、根据本申请的实施例,装置还包括:模型应用模块,用于根据扩展后的应用型知识库,训练大模型;以及基于用户的输入内容,通过训练后的大模型生成响应内容。
19、根据本申请的实施例,装置还包括:网页哈希表构建模块,用于基于初始网页访问请求对应的访问页面,获取访问页面的页面链接;将访问页面的页面链接进行哈希计算,获得访问页面的哈希值;以及将访问页面的哈希值与访问页面的页面链接作为键值对,存入预设结构的哈希表,以构建网页哈希表。
20、本申请的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个计算机程序,其中,上述一个或多个处理器执行上述一个或多个计算机程序以实现上述方法的步骤。
21、本申请的第四方面还提供了一种计算机可读存储介质,其上存储有计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。
22、本申请的第五方面还提供了一种计算机程序产品,包括计算机程序或指令,上述计算机程序或指令被处理器执行时实现上述方法的步骤。
1.一种应用型知识库构建方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将提取后的文本内容上传至应用型知识库之前,还包括:
3.根据权利要求2所述的方法,其特征在于,所述将提取后的文本内容上传至应用型知识库,包括:
4.根据权利要求3所述的方法,其特征在于,所述上传所述提取后的文本内容至所述应用型知识库,包括:
5.根据权利要求3所述的方法,其特征在于,所述基于所述用户发起的网络请求,监测网络状态,包括:
6.根据权利要求1所述的方法,其特征在于,所述提取当前页面对应的文本内容,包括:
7.根据权利要求6所述的方法,其特征在于,所述遍历所述当前页面的文档对象模型,包括:
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
9.根据权利要求1所述的方法,其特征在于,基于初始网页访问请求对应的页面链接预先构建所述网页哈希表包括:
10.一种应用型知识库构建装置,其特征在于,所述装置包括:
11.一种电子设备,包括:
12.一种计算机可读存储介质,其上存储有计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现根据权利要求1~9中任一项所述方法的步骤。
13.一种计算机程序产品,包括计算机程序或指令,其特征在于,所述计算机程序或指令被处理器执行时实现根据权利要求1~9中任一项所述方法的步骤。