一种混合增强型知识获取及回答的装置、方法及介质与流程

文档序号：37729819发布日期：2024-04-23 12:14阅读：12来源：国知局

[]本发明涉及大数据处理，具体地说是一种混合增强型知识获取及回答的装置、方法及介质。

背景技术：

0、[背景技术]

1、目前，在现有的信息检索系统中，elasticsearch(es)常用于处理大量数据集，并通过k最近邻(knn)算法实现相似度检索，基于分层最小世界导航算法(hnsw)。尽管es高效处理检索任务，但其检索结果的准确性受限于算法的随机性，尤其是在top2-5的结果中，这种随机性导致相关度不一，影响了最终的信息检索和回答质量。

2、此外，在问答系统中，现有技术采用大型语言模型llm和问答机实现，但由于模型通用能力和问答机的限制，仍存在无法理解和回答复杂查询的挑战。

技术实现思路

0、[
技术实现要素：
]

1、本发明的目的就是要解决上述的不足而提供一种混合增强型知识获取及回答的装置、方法及介质，不仅优化了搜索阶段的数据召回质量，提升了结果的相关性和准确性，而且能够生成更准确和相关的回答，显著改善了知识获取及回答系统的整体性能和用户体验。

2、本发明一方面，提供了一种混合增强型知识获取及回答的装置，包括：

3、数据存储和索引模块，用于使用elasticsearch技术作为数据存储和索引工具；

4、自定义分词模块，用于利用先进的自然语言处理技术进行文本分词，优化查询词的处理，增强搜索阶段的数据召回质量，确保召回结果与用户查询的高度相关；

5、相似度分析模块，基于深度学习的embedding技术，筛选出最相关的top-k结果；

6、大型语言模型llm问答模块，使用预先训练好的大型语言模型llm分析用户查询，根据召回的信息生成相关且准确的答案。

7、作为一种实施例，所述数据存储和索引模块负责处理大量的数据集，并为后续的搜索提供高效的数据索引和检索能力。

8、作为一种实施例，所述相似度分析模块负责对召回的数据进行相似度分析，计算候选答案与用户查询的相关度，从而筛选出最相关的top-k结果。

9、作为一种实施例，所述大型语言模型llm问答模块利用大型语言模型llm能力，对召回的信息进行深度分析和处理，根据复杂查询生成更加准确和详细的答案。

10、本发明另一方面，提供了一种混合增强型知识获取及回答的方法，包括以下步骤：

11、1)输入查询，使用elasticsearch技术结合分词搜索技术，进行初步检索；

12、2)在数据召回阶段，利用先进的自然语言处理技术进行文本分词，优化查询词的处理；

13、3)随后，利用embedding技术对elasticsearch召回的结果进行深入分析，确保召回的top-k结果与用户查询的高度相关性；

14、4)在问答阶段，通过大型语言模型llm分析用户查询，根据召回的信息生成相关且准确的答案。

15、作为一种实施例，步骤3)中，采用基于embedding的相似度分析方法，通过深度学习模型生成的高质量embeddings计算候选答案的相似度分数，进而确保召回的top-k结果与用户查询的高度相关性。

16、作为进一步的实施例，步骤3)中的相似度检索算法是基于优化的hnsw算法与embedding相结合。

17、作为一种实施例，步骤4)中，利用大型语言模型llm能力，对召回的信息进行深度分析和处理，根据复杂查询生成更加准确和详细的答案。

18、本发明第三方面，提出了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，所述程序执行上述方法。

19、本发明第四方面，提出了一种计算机设备，包括：处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；所述存储器用于存储程序，所述处理器用于运行程序，所述程序运行时执行上述方法。

20、本发明同现有技术相比，具有如下优点：

21、(1)提高了检索准确性：本发明通过集成自定义分词模块和相似度分析模块，显著提升了检索结果的准确性，确保了召回的数据与用户的查询高度相关，尤其在处理复杂和专业性查询时表现出更高的精确度；

22、(2)优化搜索效率：本发明改进的数据存储和索引策略结合高效的分词算法，减少了搜索响应时间，同时保持了高质量的数据召回，实现了快速且精准的搜索体验；

23、(3)增强问答质量：本发明利用大型语言模型(llm)对召回的信息进行深度分析和处理，能够根据复杂查询生成更加准确和详细的答案，提高了问答系统的整体质量；

24、(4)扩展应用范围：本发明由于其高准确度和灵活的处理能力，适用于各种高级和专业领域的知识获取和问答任务，扩大了应用的范围和深度；

25、(5)用户体验改善：本发明通过提供更相关和准确的搜索及回答结果，显著提升了用户的整体满意度和体验，特别是在处理复杂和具体查询时；

26、(6)系统可靠性增强：本发明结合先进的数据处理技术和强大的llm，提供了高度可靠和稳定的信息处理能力，适应了各种复杂的使用场景；

27、(7)数据处理的灵活性：本发明采用的技术允许灵活处理各种类型的数据，包括文本、语音或图像数据，增加了处理多模态数据的能力；

28、综上，本发明实现了在提高检索准确性、优化搜索效率、增强问答质量和扩展应用范围等多个方面，不仅优化了搜索阶段的数据召回质量，提升了结果的相关性和准确性，而且能够生成更准确和相关的回答，显著改善了知识获取及回答系统的整体性能和用户体验，值得推广应用。

技术特征：

1.一种混合增强型知识获取及回答的装置，其特征在于，包括：

2.如权利要求1所述的装置，其特征在于：所述数据存储和索引模块负责处理大量的数据集，并为后续的搜索提供高效的数据索引和检索能力。

3.如权利要求1所述的装置，其特征在于：所述相似度分析模块负责对召回的数据进行相似度分析，计算候选答案与用户查询的相关度，从而筛选出最相关的top-k结果。

4.如权利要求1所述的装置，其特征在于：所述大型语言模型llm问答模块利用大型语言模型llm能力，对召回的信息进行深度分析和处理，根据复杂查询生成更加准确和详细的答案。

5.一种混合增强型知识获取及回答的方法，其特征在于，包括以下步骤：

6.如权利要求5所述的方法，其特征在于：步骤3)中，采用基于embedding的相似度分析方法，通过深度学习模型生成的高质量embeddings计算候选答案的相似度分数，进而确保召回的top-k结果与用户查询的高度相关性。

7.如权利要求6所述的方法，其特征在于：步骤3)中的相似度检索算法是基于优化的hnsw算法与embedding相结合。

8.如权利要求5所述的方法，其特征在于：步骤4)中，利用大型语言模型llm能力，对召回的信息进行深度分析和处理，根据复杂查询生成更加准确和详细的答案。

9.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质包括存储的程序，所述程序执行权利要求5至8中任一项所述的方法。

10.一种计算机设备，其特征在于：包括处理器、存储器和总线；所述处理器与所述存储器通过所述总线连接；所述存储器用于存储程序，所述处理器用于运行程序，所述程序运行时执行权利要求5至8中任一项所述的方法。

技术总结
本发明涉及一种混合增强型知识获取及回答的装置、方法及介质，包括：数据存储和索引模块，用于使用ES技术作为数据存储和索引工具；自定义分词模块，用于利用先进的自然语言处理技术进行文本分词，优化查询词的处理，增强搜索阶段的数据召回质量，确保召回结果与用户查询的高度相关；相似度分析模块，基于深度学习的embedding技术，筛选出最相关的top‑k结果；大型语言模型LLM问答模块，使用预先训练好的大型语言模型LLM分析用户查询，根据召回的信息生成相关且准确的答案；本发明优化了搜索阶段的数据召回质量，提升了结果的相关性和准确性，可生成更准确和相关的回答，显著改善了知识获取及回答系统的整体性能和用户体验。

技术研发人员：王林杰
受保护的技术使用者：上海数珩信息科技股份有限公司
技术研发日：
技术公布日：2024/4/22

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王林杰
技术所有人：上海数珩信息科技股份有限公司
我是此专利的发明人

上一篇：一种装配式快装吊顶系统及安装方法与流程
上一篇：一种分布式电源控制方法、装置、终端设备及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。