本申请涉及计算机,特别涉及一种文档检索方法、装置、系统和介质。
背景技术:
1、传统的文档库的存储和索引大多依靠全文检索引擎的方式,即将文档按照全文检索引擎的格式进行初步索引,对索引后的数据独立存储到服务器中。
2、当文档库需要扩容增加新的文档时,利用全文检索引擎的方式建立的文档库一般需要经过重新全量索引,并且由于服务节点数的不同,在多个服务节点间进行建立,容易出现索引建立失败,或漏建立索引的情况出现。
3、传统的通过索引进行检索的方式,效率和灵活性较低,且可能导致出现搜索结果不一致的问题,文档检索准确度较低。
4、因此,如何提高文档检索的效率、灵活性和准确度,是本领域需要解决的技术问题。
技术实现思路
1、有鉴于此,本申请的目的在于提供一种文档检索方法、装置、系统和介质,可以提高提高文档检索的效率、灵活性和准确度。
2、提供该
技术实现要素:
部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
3、为实现上述目的,本申请有如下技术方案:
4、第一方面,本申请实施例提供了一种文档检索方法,包括:
5、将文档的基础属性信息作为第一信息存储;将所述文档的正文信息作为第二信息存储;
6、建立所述第一信息和所述第二信息之间的映射关系;
7、获取文档检索请求,所述文档检索请求中包括待检索字段;
8、根据所述文档检索请求,对所述第一信息进行筛选得到与所述待检索字段第一相似度大于第一预设值的第一筛选信息;
9、根据所述映射关系筛选所述第一筛选信息对应的所述第二信息,得到各个第二筛选信息;
10、分别计算所述各个第二筛选信息和所述待检索字段的第二相似度,并进行排序,将所述第二相似度中相似度大于第二预设值的第二筛选信息对应的文档作为检索文档。
11、在一种可能的实现方式中,所述对所述第一信息进行筛选得到与所述待检索字段第一相似度大于第一预设值的第一筛选信息,包括:
12、将所述待检索字段、所述待检索字段在所述第一信息中出现的次数、所述待检索字段在所述第一信息中出现的位置、所述待检索字段对应的文档数量和所述第一信息作为输入信息,输入文本相似度计算模型,得到所述待检索字段和所述第一信息的第一相似度;
13、将所述第一相似度大于所述第一预设值的所述第一信息,作为所述第一筛选信息。
14、在一种可能的实现方式中,所述分别计算所述各个第二筛选信息和所述待检索字段的第二相似度,包括:
15、将所述待检索字段、所述待检索字段在所述各个第二筛选信息中出现的次数、所述待检索字段在所述各个第二筛选信息中出现的位置、所述待检索字段对应的文档数量和所述各个第二筛选信息作为输入信息,输入文本相似度计算模型,得到所述待检索字段和所述各个第二筛选信息的第二相似度。
16、在一种可能的实现方式中,所述基础属性信息包括所述正文信息的地址信息,所述建立所述第一信息和所述第二信息之间的映射关系,包括:
17、根据所述地址信息,查询所述第一信息对应的所述第二信息;
18、建立查询得到的所述第二信息和所述第一信息的所述映射关系。
19、第二方面,本申请实施例提供了一种文档检索装置,包括:
20、存储单元,用于将文档的基础属性信息作为第一信息存储;将所述文档的正文信息作为第二信息存储;
21、建立单元,用于建立所述第一信息和所述第二信息之间的映射关系;
22、获取单元,用于获取文档检索请求,所述文档检索请求中包括待检索字段;
23、筛选单元,用于根据所述文档检索请求,对所述第一信息进行筛选得到与所述待检索字段第一相似度大于第一预设值的第一筛选信息;
24、映射单元,用于根据所述映射关系筛选所述第一筛选信息对应的所述第二信息,得到各个第二筛选信息;
25、计算单元,用于分别计算所述各个第二筛选信息和所述待检索字段的第二相似度,并进行排序,将所述第二相似度中相似度大于第二预设值的第二筛选信息对应的文档作为检索文档。
26、在一种可能的实现方式中,所述筛选单元,具体用于:
27、将所述待检索字段、所述待检索字段在所述第一信息中出现的次数、所述待检索字段在所述第一信息中出现的位置、所述待检索字段对应的文档数量和所述第一信息作为输入信息,输入文本相似度计算模型,得到所述待检索字段和所述第一信息的第一相似度;
28、将所述第一相似度大于所述第一预设值的所述第一信息,作为所述第一筛选信息。
29、在一种可能的实现方式中,所述计算单元,具体用于:
30、将所述待检索字段、所述待检索字段在所述各个第二筛选信息中出现的次数、所述待检索字段在所述各个第二筛选信息中出现的位置、所述待检索字段对应的文档数量和所述各个第二筛选信息作为输入信息,输入文本相似度计算模型,得到所述待检索字段和所述各个第二筛选信息的第二相似度。
31、在一种可能的实现方式中,所述基础属性信息包括所述正文信息的地址信息,所述建立单元,具体用于:
32、根据所述地址信息,查询所述第一信息对应的所述第二信息;
33、建立查询得到的所述第二信息和所述第一信息的所述映射关系。
34、第三方面,本申请实施例提供了一种文档检索系统,包括:
35、存储器,用于存储计算机程序;
36、处理器,用于执行所述计算机程序时实现如上述所述文档检索方法的步骤。
37、第四方面,本申请实施例提供了一种计算机可读介质,所述计算机可读介质上存储有计算机程序,所述计算机程序被处理执行时实现如上述所述文档检索方法的步骤。
38、与现有技术相比,本申请实施例具有以下有益效果:
39、本申请实施例提供了一种文档检索方法、装置、系统和介质,可应用于人工智能领域、大数据领域或金融领域。该方法包括:将文档的基础属性信息作为第一信息存储;将文档的正文信息作为第二信息存储;建立第一信息和第二信息之间的映射关系;获取文档检索请求,文档检索请求中包括待检索字段;根据文档检索请求,对第一信息进行筛选得到与待检索字段第一相似度大于第一预设值的第一筛选信息;根据映射关系筛选第一筛选信息对应的第二信息,得到各个第二筛选信息;分别计算各个第二筛选信息和待检索字段的第二相似度,并进行排序,将第二相似度中相似度大于第二预设值的第二筛选信息对应的文档作为检索文档。从而本申请采用第一信息和第二信息的方式对文档的基础属性信息和正文信息进行存储,且利用相似度计算进行检索,避免使用全文检索的方式对数据进行存储和检索,提升了文档存取和检索的灵活性,提升了检索的准确度、效率和灵活性。
1.一种文档检索方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述第一信息进行筛选得到与所述待检索字段第一相似度大于第一预设值的第一筛选信息,包括:
3.根据权利要求1所述的方法,其特征在于,所述分别计算所述各个第二筛选信息和所述待检索字段的第二相似度,包括:
4.根据权利要求1所述的方法,其特征在于,所述基础属性信息包括所述正文信息的地址信息,所述建立所述第一信息和所述第二信息之间的映射关系,包括:
5.一种文档检索装置,其特征在于,包括:
6.根据权利要求5所述的装置,其特征在于,所述筛选单元,具体用于:
7.根据权利要求5所述的装置,其特征在于,所述计算单元,具体用于:
8.根据权利要求5所述的装置,其特征在于,所述基础属性信息包括所述正文信息的地址信息,所述建立单元,具体用于:
9.一种文档检索系统,其特征在于,包括:
10.一种计算机可读介质,其特征在于,所述计算机可读介质上存储有计算机程序,所述计算机程序被处理执行时实现如权利要求1-4任意一项所述文档检索方法的步骤。