一种基于大语言模型的知识库知识检索方法及相关装置与流程

文档序号:37586474发布日期:2024-04-18 12:14阅读:10来源:国知局
一种基于大语言模型的知识库知识检索方法及相关装置与流程

本发明涉及数据处理,尤其涉及一种基于大语言模型的知识库知识检索方法及相关装置。


背景技术:

1、在软件研发团队中,各职能部门依赖各自独立的平台和系统,但这些系统之间存在数据孤岛,导致了数据信息整合所带来的价值缺失;例如:产品团队的需求文档存储在wiki上,开发团队的工单记录在pm系统上,ui团队的设计图存放在墨刀上,而测试人员的用例则分散在不同的管理系统中;各系统的独立性导致了研发数据流程的分离;长周期的研发使得需求、任务单甚至用例之间的关联性难以追踪,而团队人员更替等情况更加加剧了这一问题,很多需求和功能设计初衷也难以追溯。


技术实现思路

1、本发明的目的在于克服现有技术的不足,本发明提供了一种基于大语言模型的知识库知识检索方法及相关装置,实现将软件开发中各个数据整合到知识库,使用知识库存储的知识数据提升开发效能;同时使得软件长周期开发过程中所使用到的需求、任务单等具有关联性,并且可追溯性。

2、为了解决上述技术问题,本发明实施例提供了一种基于大语言模型的知识库知识检索方法,所述方法包括:

3、基于预设数据采集算法按照预设采集周期对产研中心的内部系统进行数据采集处理,获得采集数据,所述采集数据包括需求文档数据、工单数据、ui设计组件数据、用例数据;

4、对所述采集数据按照预设规则进行清洗处理,获清洗后的采集数据;

5、对清洗后的采集数据进行数据语料组合处理,生成若干份语料文档数据,将若干份语料文档数据上传至知识库中,所述知识库以大语言模型为底座;

6、在所述知识库进行知识检索时,按照知识检索需求编写提示词,并基于所述提示词在所述知识库中进行知识检索操作。

7、可选的,所述基于预设数据采集算法按照预设采集周期对产研中心的内部系统进行数据采集处理,获得采集数据,包括:

8、基于应用程序编程接口或者爬虫程序按照预设采集周期访问产研中心的内部系统进行数据采集处理,获得采集数据。

9、可选的,所述基于应用程序编程接口或者爬虫程序按照预设采集周期访问产研中心的内部系统进行数据采集处理,包括:

10、基于应用程序编程接口按照预设采集周期访问产研中心提供的接口地址进行数据采集处理,获得采集数据;或,

11、基于爬虫程序按照预设采集周期访问产研中心提供的页面地址进行数据采集处理,获得采集数据。

12、可选的,所述对清洗后的采集数据进行数据语料组合处理之前,还包括:

13、对所述清洗后的采集数据以需求为线索及以用例为维度进行组合关联处理。

14、可选的,所述对清洗后的采集数据进行数据语料组合处理,包括:

15、获得所述清洗后的采集数据中的需求文档数据,并提取所述需求文档数据中的需求内容、开发人员、工单地址和用例地址;

16、基于所述需求内容、所述开发人员、所述工单地址和所述用例地址与所述清洗后的采集数据中的工单数据、ui设计组件数据和用例数据进行数据语料组合处理。

17、可选的,所述将若干份语料文档数据上传至知识库中之后,还包括:

18、所述知识库在接收到若干份语料文档数据之后,对每一份语料文档数据进行解析,并将解析结果切成chunk片段;

19、基于所述知识库中的大语言模型的embedding模块将所述chunk片段进行向量化处理。

20、可选的,所述按照知识检索需求编写提示词,并基于所述提示词在所述知识库中进行知识检索操作,包括:

21、基于用户的检索需求和知识库的检索规则进行所述提示词的编写处理;

22、利用所述知识库中的webui或api输入所述提示词进行知识检索操作。

23、另外,本发明实施例还提供了一种基于大语言模型的知识库知识检索装置,所述装置包括:

24、数据采集模块:用于基于预设数据采集算法按照预设采集周期对产研中心的内部系统进行数据采集处理,获得采集数据,所述采集数据包括需求文档数据、工单数据、ui设计组件数据、用例数据;

25、数据清洗模块:用于对所述采集数据按照预设规则进行清洗处理,获清洗后的采集数据;

26、数据上传模块:用于对清洗后的采集数据进行数据语料组合处理,生成若干份语料文档数据,将若干份语料文档数据上传至知识库中,所述知识库以大语言模型为底座;

27、知识检索模块:用于在所述知识库进行知识检索时,按照知识检索需求编写提示词,并基于所述提示词在所述知识库中进行知识检索操作。

28、另外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如上述中任意一项所述的知识库知识检索方法。

29、另外,本发明实施例还提供了一种电子设备,所述电子设备包括:

30、一个或多个处理器;

31、存储器;

32、一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个应用程序配置用于:执行根据上述中任意一项所述的知识库知识检索方法。

33、在本发明实施例中,实现将软件开发中各个数据整合到知识库,使用知识库存储的知识数据提升开发效能;同时使得软件长周期开发过程中所使用到的需求、任务单等具有关联性,并且可追溯性。



技术特征:

1.一种基于大语言模型的知识库知识检索方法,其特征在于,所述方法包括:

2.根据权利要求1所述的知识库知识检索方法,其特征在于,所述基于预设数据采集算法按照预设采集周期对产研中心的内部系统进行数据采集处理,获得采集数据,包括:

3.根据权利要求2所述的知识库知识检索方法,其特征在于,所述基于应用程序编程接口或者爬虫程序按照预设采集周期访问产研中心的内部系统进行数据采集处理,包括:

4.根据权利要求1所述的知识库知识检索方法,其特征在于,所述对清洗后的采集数据进行数据语料组合处理之前,还包括:

5.根据权利要求1所述的知识库知识检索方法,其特征在于,所述对清洗后的采集数据进行数据语料组合处理,包括:

6.根据权利要求1所述的知识库知识检索方法,其特征在于,所述将若干份语料文档数据上传至知识库中之后,还包括:

7.根据权利要求1所述的知识库知识检索方法,其特征在于,所述按照知识检索需求编写提示词,并基于所述提示词在所述知识库中进行知识检索操作,包括:

8.一种基于大语言模型的知识库知识检索装置,其特征在于,所述装置包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任意一项所述的知识库知识检索方法。

10.一种电子设备,其特征在于,所述电子设备包括:


技术总结
本发明公开了一种基于大语言模型的知识库知识检索方法及相关装置,其中,所述方法包括:基于预设数据采集算法按照预设采集周期对产研中心的内部系统进行数据采集处理,获得采集数据,采集数据包括需求文档数据、工单数据、UI设计组件数据、用例数据;对采集数据按照预设规则进行清洗处理,获清洗后的采集数据;对清洗后的采集数据进行数据语料组合处理,生成若干份语料文档数据,将若干份语料文档数据上传至知识库中;在所述知识库进行知识检索时,按照知识检索需求编写提示词,并基于所述提示词在所述知识库中进行知识检索操作。在本发明实施例中,实现将软件开发中各个数据整合到知识库,使用知识库存储的知识数据提升开发效能。

技术研发人员:曹立品,丁一,黄海亮,白剑,张海林,鲁和平,李长杰,陈焕然,王浩,洪行健,冷冬,李尚然
受保护的技术使用者:易方信息科技股份有限公司
技术研发日:
技术公布日:2024/4/17
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1