文档检索方法、装置、电子设备及存储介质与流程

文档序号:37018349发布日期:2024-02-09 13:10阅读:23来源:国知局
文档检索方法、装置、电子设备及存储介质与流程

本技术涉及计算机,尤其涉及一种文档检索方法、装置、电子设备及存储介质。


背景技术:

1、为了在文档库庞大的文档集中快速获取用户所需的文档,需要使用搜索引擎对搜索词进行搜素,并使用文档打分算法对搜索词对应的文档进行打分排序。

2、现有技术中对文档进行检索打分,多使用基于词频的词频-反文档频率(termfrequency–inverse document frequency,tf-idf)算法,将搜索的短语进行分词得到多个分词项,并对每个分词项进行词频出现的评分计算,将每个分词项的得分相加,得到搜索词对应的文档得分,进而将文档进行排序。

3、然而,若是针对垂直领域的知识文档(搜索词多包含结构复杂的技术名词)进行检索打分,使用简单的分词算法只能获得长度较短、结构简单的词语,难以获得结构复杂的技术名词,使用简单词汇的词频进行检索会导致检索结果存在偏差。而且现有的打分算法只考虑文档与搜索词之间的关系,当文档与搜索词匹配程度相同时,将较短文档排在前面进行检索较为片面。


技术实现思路

1、本技术提供一种文档检索方法、装置、电子设备及存储介质,用于构建以文档相似度为边,文档为结点的图结构,并在图结构的基础上通过迭代算法计算文档在文档集中的重要程度,对文档进行打分排序。

2、为达到上述目的,本技术采用如下技术方案:

3、第一方面,提供一种文档检索方法,方法包括:获取搜索词对应的初始检索结果;初始检索结果包括多个搜索文档;基于搜索词,对各搜索文档进行命名实体识别,得到各搜索文档对应的实体词;根据各搜索文档对应的实体词,构建实体词集合,并确定实体词集合中每个实体词在各搜索文档中对应的第一频次,以及每个实体词的第二频次;一个第一频次为某一搜索文档中某一实体词出现的个数比上该搜索文档中实体词的总个数;一个第二频次为基于初始检索结果中搜索文档的总个数以及某一实体词出现在初始检索结果中的文档个数确定到的;根据第一频次以及第二频次,得到各搜索文档对应的实体词频次向量;基于实体词频次向量,确定任意两个搜索文档之间的相似度;以各搜索文档作为结点,以搜索文档之间的相似度作为边,构建初始检索结果对应的图结构;基于预设的迭代算法,确定图结构中各结点的重要程度,并根据重要程度的高低,对各搜索文档进行排序,得到目标搜索结果。

4、可选的,基于预设的迭代算法,确定图结构中各结点的重要程度,包括:对于图结构中的各结点,对结点下各边所表示的相似度进行归一化处理,得到多个处理后的相似度;多个处理后相似度之和为1;基于各结点对应的处理后的相似度,构建k*k维的转移概率矩阵m;转移概率矩阵m中第i行j列的值mij为文档i和文档j的相似度,且i、j均小于或等于k;确定转移概率矩阵m对应的初始文档重要程度向量r0,初始文档重要程度向量r0中每个元素均初始化为1/k;利用转移概率矩阵m对初始文档重要程度向量r0进行迭代,直至初始文档重要程度向量r0收敛,得到各结点的重要程度。

5、可选的,根据各搜索文档对应的实体词,构建实体词集合,包括:根据各搜索文档对应的实体词,构建各搜索文档对应的实体词列表;从各搜索文档对应的实体词列表中抽取预设个数的实体词,构建各搜索文档对应的实体词集;将各搜索文档对应的实体词集取并集,得到实体词集合。

6、可选的,根据第一频次以及第二频次,得到各搜索文档对应的实体词频次向量,包括:将各搜索文档中每个实体词对应的第一频次,乘以每个实体词对应的第二频次,得到每个实体词的频率值;基于各搜索文档中每个实体词的频率值,得到各搜索文档对应的实体词频次向量。

7、第二方面,提供一种文档检索装置,文档检索装置包括获取单元、处理单元、构建单元以及确定单元;获取单元,用于获取搜索词对应的初始检索结果;初始检索结果包括多个搜索文档;处理单元,用于基于搜索词,对各搜索文档进行命名实体识别,得到各搜索文档对应的实体词;构建单元,用于根据各搜索文档对应的实体词,构建实体词集合,并确定实体词集合中每个实体词在各搜索文档中对应的第一频次,以及每个实体词的第二频次;一个第一频次为某一搜索文档中某一实体词出现的个数比上该搜索文档中实体词的总个数;一个第二频次为基于初始检索结果中搜索文档的总个数以及某一实体词出现在初始检索结果中的文档个数确定到的;获取单元,还用于根据第一频次以及第二频次,得到各搜索文档对应的实体词频次向量;确定单元,用于基于实体词频次向量,确定任意两个搜索文档之间的相似度;构建单元,还用于以各搜索文档作为结点,以搜索文档之间的相似度作为边,构建初始检索结果对应的图结构;确定单元,还用于基于预设的迭代算法,确定图结构中各结点的重要程度,并根据重要程度的高低,对各搜索文档进行排序,得到目标搜索结果。

8、可选的,确定单元,具体用于:对于图结构中的各结点,对结点下各边所表示的相似度进行归一化处理,得到多个处理后的相似度;多个处理后相似度之和为1;基于各结点对应的处理后的相似度,构建k*k维的转移概率矩阵m;转移概率矩阵m中第i行j列的值mij为文档i和文档j的相似度,且i、j均小于或等于k;确定转移概率矩阵m对应的初始文档重要程度向量r0,初始文档重要程度向量r0中每个元素均初始化为1/k;利用转移概率矩阵m对初始文档重要程度向量r0进行迭代,直至初始文档重要程度向量r0收敛,得到各结点的重要程度。

9、可选的,构建单元,具体用于:根据各搜索文档对应的实体词,构建各搜索文档对应的实体词列表;从各搜索文档对应的实体词列表中抽取预设个数的实体词,构建各搜索文档对应的实体词集;将各搜索文档对应的实体词集取并集,得到实体词集合。

10、可选的,获取单元,具体用于:将各搜索文档中每个实体词对应的第一频次,乘以每个实体词对应的第二频次,得到每个实体词的频率值;基于各搜索文档中每个实体词的频率值,得到各搜索文档对应的实体词频次向量。

11、第三方面,提供一种电子设备,包括:处理器、用于存储处理器可执行的指令的存储器;其中,处理器被配置为执行指令,以实现上述第一方面的文档检索方法。

12、第四方面,提供一种计算机可读存储介质,计算机可读存储介质上存储有指令,当计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如上述第一方面的文档检索方法。

13、本技术实施例提供的技术方案至少带来以下有益效果:检索装置获取搜索词对应的初始检索结果,该初始检索结果包括多个搜索文档,基于搜索词对各搜索文档进行命名实体识别,得到各搜索文档对应的实体词。相较于现有技术中使用简单的分词算法对搜索词进行分词,本技术使用命名实体识别算法输出的技术实体替代简单分词产生的词条进行检索,使得检索的目的性更加明确,提高了检索的性能。检索装置根据各搜索文档对应的实体词,构建实体词集合,并确定实体词集合中每个实体词在各搜索文档中对应的第一频次,以及每个实体词的第二频次,根据第一频次以及第二频次,得到各搜索文档对应的实体词频次向量;基于实体词频次向量,确定任意两个搜索文档之间的相似度,以各搜索文档作为结点,以搜索文档之间的相似度作为边,构建初始检索结果对应的图结构;基于预设的迭代算法,确定图结构中各结点的重要程度,并根据重要程度的高低,对各搜索文档进行排序,得到目标搜索结果。相较于现有文档打分算法,只考虑文档与搜索词之间的关系,依赖于搜索词分词后的词频进行评分;本技术中使用文档所含技术实体的重叠度计算文档之间的相似程度,以相似度为边,文档为结点构建文档的图结构,进而通过迭代算法计算文档在文档集中的重要程度,对各搜索文档进行排序,不仅考虑了文档与搜索词之间的关系,还考虑了文档之间的相关性,提高了文档打分算法的性能,使得搜索结果更加准确。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1