本发明涉及信息,具体涉及一种基于向量数据库的检索方法、系统及电子设备。
背景技术:
1、现如今,向量数据检索结合大模型输出成为主流,我们可以通过将一个自然语言问题向量化,将向量放入空间向量模型中,从而可以进行高效的相似性比较和检索。检索过后,我们将相似的数据片段作为提示词输入到大模型中,结合top-k相似片段输出答案。当我们输入的文本片段过长,篇幅过大,在转化为高维度空间向量模型后,会存在一定的局限性。
2、在向量空间模型中,相似性度量是关键问题之一。常用的相似性度量方法是欧氏距离。欧氏距离衡量向量之间的距离,值越小表示向量越相似。但是,我们在处理高维度的空间向量数据时,会出现两个不同语义的文本片段具有较小距离的情况,这是因为欧氏距离只考虑了向量之间的几何空间距离,而没有考虑数据的语义信息。欧氏距离计算存在以下问题:
3、1.高维度问题: 在高维度向量空间中,数据点之间的距离可能在几何上变得很大,即使它们在语义上不相似。这是因为随着维度的增加,向量之间的几何空间变得更加稀疏,导致距离计算不再准确地捕捉数据的语义关系。
4、2.标准化问题: 在欧氏距离计算中,向量的各个维度的尺度可能不同。如果某些维度具有较小的尺度,而其他维度具有较大的尺度,那么在计算距离时,具有较小尺度的维度的差异可能会被放大,从而导致不准确的相似性度量。
5、在长文本片段转化为向量数据时,计算欧氏距离时会存在距离过近但语义不相符的情况,因此生成的k个最相似的文本在输入大模型中准确率较低。
6、目前此问题缺乏简便有效的解决方案。
技术实现思路
1、本发明的目的在于提供一种基于向量数据库的检索方法、系统、电子设备及可读存储介质,通过结合知识图谱的索引来优化向量检索中的局限性。
2、为实现上述目的,本发明提供一种基于向量数据库的检索方法,包括以下步骤:将查询文本转化为查询向量;在向量数据库中检索出与所述查询向量距离最近的前若干位的第一相似向量;调用与所述查询文本同领域的知识图谱,并根据所述知识图谱和所述查询文本,获取对应所述查询文本的相似信息;根据所述第一相似向量对应的信息和所述相似信息,生成对应所述查询文本的反馈结果。
3、可选的,所述根据所述知识图谱和所述查询文本,获取对应所述查询文本的相似信息,具体包括:将所述知识图谱的节点词转化为第一词向量,在所述第一词向量中选取与所述查询向量最近的前若干位的第二相似向量,以所述第二相似向量作为所述相似信息。
4、可选的,所述根据所述知识图谱和所述查询文本,获取对应所述查询文本的相似信息,具体还包括:获取所述第二相似向量对应的相似节点词,并在所述知识图谱中获取与所述相似节点词相链接的链接节点词,将所述链接节点词也作为所述相似信息。
5、可选的,所述根据所述知识图谱和所述查询文本,获取对应所述查询文本的相似信息,具体还包括:所述相似节点词和\或所述链接节点词对应有原始文本片段,根据所述原始文本片段获取所述相似信息。
6、可选的,所述根据所述原始文本片段获取所述相似信息,具体还包括:根据各所述相似节点词和\或各所述链接节点词对应的不同的所述原始文本的交集,获取所述相似信息。
7、可选的,所述将查询文本转化为查询向量,具体包括:提取所述查询文本中的若干关键词,将每一个所述关键词转化为第二词向量,以所述第二词向量作为所述查询向量。
8、可选的,所述根据所述第一相似向量对应的信息和所述相似信息,生成对应所述查询文本的反馈结果,具体包括:根据所述第一相似向量和所述第二相似向量的交集或并集,生成对应所述查询文本的反馈结果。
9、可选的,所述根据所述第一相似向量对应的信息和所述相似信息,获取对应所述查询文本的反馈结果,具体包括:将所述第一相似向量对应的信息和所述相似信息输入给大语言模型,利用所述大语言模型生成对应所述查询文本的反馈结果。
10、本发明还提供一种检索系统,包括:转化模块,用于将查询文本转化为查询向量;检索模块,用于在向量数据库中检索出与所述查询向量距离最近的前若干位的第一相似向量;执行模块。用于调用与所述查询文本同领域的知识图谱,并根据所述知识图谱和所述查询文本,获取对应所述查询文本的相似信息;生成模块,用于根据所述第一相似向量对应的信息和所述相似信息,生成对应所述查询文本的反馈结果。
11、本发明还提供一种电子设备,所述电子设备包括:存储器,存储有计算机程序;处理器,与所述存储器通信相连,调用所述计算机程序时执行上述任一项所述的基于向量数据库的检索方法;显示器,与所述处理器和所述存储器通信相连,用于显示与所述基于向量数据库的检索方法相关gui交互界面。
12、本发明还提供一种可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述的基于向量数据库的检索方法。
13、本发明提供的基于向量数据库的检索方法、系统、电子设备及可读存储介质具有如下有益效果:
14、本发明提供一种基于向量数据库的检索方法,包括以下步骤:将查询文本转化为查询向量;在向量数据库中检索出与所述查询向量距离最近的前若干位的第一相似向量;调用与所述查询文本同领域的知识图谱,并根据所述知识图谱和所述查询文本,获取对应所述查询文本的相似信息;根据所述第一相似向量对应的信息和所述相似信息,生成对应所述查询文本的反馈结果。在相关行业的知识图谱中,所有的实体之间都是相关联的。我们在知识图谱中进行语义相似度搜索,可以较为准确的检索出对应的相关联的实体,并且通过实体之间“边”的联系,得到的其他实体相对应的实体。本发明将向量检索与知识图谱相结合,这种方法可以保证了实体和文本片段的相似性,在输入大模型中提高了输出的准确性。
15、本发明还提供一种检索系统,由于所述检索系统与所述基于向量数据库的检索方法属于同一个发明构思,因此所述检索系统能够将向量检索与知识图谱相结合,保证了实体和文本片段的相似性,在输入大模型中提高了输出的准确性。
16、本发明还提供一种电子设备,由于所述电子设备与所述基于向量数据库的检索方法属于同一个发明构思,因此所述电子设备能够将向量检索与知识图谱相结合,保证了实体和文本片段的相似性,在输入大模型中提高了输出的准确性。
17、本发明还提供一种可读存储介质,由于所述可读存储介质与所述基于向量数据库的检索方法属于同一个发明构思,因此所述可读存储介质能够将向量检索与知识图谱相结合,保证了实体和文本片段的相似性,在输入大模型中提高了输出的准确性。
1.一种基于向量数据库的检索方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于向量数据库的检索方法,其特征在于,所述根据所述知识图谱和所述查询文本,获取对应所述查询文本的相似信息,具体包括:
3.如权利要求2所述的基于向量数据库的检索方法,其特征在于,所述根据所述知识图谱和所述查询文本,获取对应所述查询文本的相似信息,具体还包括:
4.如权利要求3所述的基于向量数据库的检索方法,其特征在于,所述根据所述知识图谱和所述查询文本,获取对应所述查询文本的相似信息,具体还包括:
5.如权利要求4所述的基于向量数据库的检索方法,其特征在于,所述根据所述原始文本片段获取所述相似信息,具体还包括:
6.如权利要求2所述的基于向量数据库的检索方法,其特征在于,所述将查询文本转化为查询向量,具体包括:
7.如权利要求2所述的基于向量数据库的检索方法,其特征在于,所述根据所述第一相似向量对应的信息和所述相似信息,生成对应所述查询文本的反馈结果,具体包括:
8.如权利要求1或7所述的基于向量数据库的检索方法,其特征在于,所述根据所述第一相似向量对应的信息和所述相似信息,获取对应所述查询文本的反馈结果,具体包括:
9.一种检索系统,其特征在于,包括:
10.一种电子设备,其特征在于,包括: