一种基于AI的档案检索方法与系统与流程

文档序号：33119964发布日期：2023-02-01 03:33阅读：28来源：国知局

一种基于ai的档案检索方法与系统
技术领域
1.本发明属于计算机技术领域，具体涉及一种基于ai的档案检索方法与系统。

背景技术：

2.档案检索是一项复杂的系统工程，它的实践性与科学性皆强，并且涉及多个领域知识。档案数量之巨大，增长速度之惊人使得我们要从中迅速、准确、完整地查找出所需信息内容犹如大海捞针、沙里淘金般艰难，必须依靠科学的理论、方法和手段才能实现。档案检索是档案资源开发利用中不可缺少的一部分。如若档案信息不能被社会使用，它将失去其生存价值。如何在海量的档案数据中快速检索到准确的档案资源，一直是档案检索的关键问题。
3.为了实现对档案的快速准确的检索，在中国发明专利授权公告号cn114201658b《一种基于人脸识别的档案快速检索方法》中通过建立人物信息库和建立档案关联库，完成所有个人档案的人物信息库和档案关联库建立；再对个人档案对应的目标人物，进行人脸识别，以及人脸信息分析与提取，进而获取目标人物的人脸信息；通过人物信息库的信息读取和人脸比对检索，实现检索结果档案查阅和关联档案查阅，但是却存在以下技术问题：
4.1)忽略了不同的人员的权限信息，没有首先根据人员的权限信息以及档案的密级，首先对档案的检索范围进行缩减，从而提升检索的效率以及准确性。
5.2)没有首先根据人员的实际情况对检索结果进行首先的排序筛选，在此基础上再于档案的借阅次数、检索次数、页数、密级等进行档案分数的构建，从而基于档案分数进行检索结果的排序，特别是在检索结果较多时，进一步降低了检索的效率。
6.基于上述技术问题，需要设计及一种基于ai的档案检索方法与系统。

技术实现要素：

7.本发明的目的是提供一种基于ai的档案检索方法与系统。
8.为了解决上述技术问题，本发明第一方面提供了一种基于ai的档案检索方法，包括：
9.s11采用基于机器学习算法的人脸识别模型，通过对检索人员的人脸识别结果，确认所述检索人员的身份信息；
10.s12基于所述检索人员的身份信息，确认所述检索人员的权限，并根据所述检索人员的权限以及档案的密级，确定所述检索人员的检索范围；
11.s13基于所述检索人员的检索词的解析结果以及所述检索人员的检索范围，得到检索结果；
12.s14将所述检索结果中的档案作为检索档案，确定所述检索档案是否存在所述检索人员借阅过的档案，若是，则将所述借阅过的档案放置于检索结果的最前列；
13.s15将除去所述借阅过的档案的检索档案作为后续档案，并基于所述后续档案的借阅次数、检索次数、页数、密级构建档案分数，基于所述档案分数的大小进行所述后续档
案的排序。
14.通过首先采用人脸识别算法识别得到检索人员的身份信息，并基于身份信息确定检索人员的权限，基于权限和密级，确定检索人员的检索档案的范围，从而解决了原来的没有首先根据检索人员的权限缩小检索档案的范围，使得检索的效率和准确性都得到了进一步的提升，在此基础上，通过对检索词的解析结果以及档案的检索范围，从而可以得到检索结果，根据检索人员借阅过的档案，首先将借阅过的档案放置于检索结果的最前列，将上述检索档案排除后的检索档案作为后续档案，并根据后续档案的借阅次数、检索次数、页数、密级构建档案分数，并根据档案分数的大小进行所述后续档案的排序，从而解决了原来没有通过构建档案分数进行排序的技术问题，从而极大的提升了检索的效率和准确性，并在第一时间为检索人员提供最有效的检索档案，提升了检索人员的检索体验。
15.通过首先基于检索人员的权限信息实现检索档案的范围的缩减，从而使得在不影响最终的检索准确度和全面性的基础上，进一步缩小了需要进行检索的档案的范围，提升了检索的效率。
16.通过首先根据检索人员的借阅过的档案进行筛选排序，然后再通过续档案的借阅次数、检索次数、页数、密级构建档案分数，基于所述档案分数的大小进行所述后续档案的排序，从而不仅仅使得检索档案的排序结果具有较好的准确性和全面性，同时也具有较高的检索效率。
17.进一步的技术方案在于，确定所述检索人员的身份信息的具体步骤为：
18.s21基于所述检索人员的人脸图像，对所述人脸图像的特征进行提取得到所述人脸特征，将所述人脸特征送入到基于svm算法的预测模型之中，得到svm身份信息；
19.s22将所述人脸图像送入到基于cnn算法的图像模型之中，得到cnn身份信息；
20.s23当且仅当所述svm身份信息与所述cnn身份信息均为同一个人时，则确定所述检索人员的身份信息。
21.通过分别基于图像特征的svm算法的预测模型以及基于cnn算法的图像模型，从而实现从两个角度实现对检索人员的身份信息的确认，进一步提升了身份信息确认的准确性，并为进一步实现对检索人员的权限的确认奠定了基础。
22.进一步的技术方案在于，所述人脸图像的特征为hog图像特征以及surf图像特征。
23.进一步的技术方案在于，确定所述检索人员的检索范围的具体步骤为：
24.s31根据所述检索人员的身份信息，基于设定好的人员权限数据库，确定所述检索人员的权限；
25.s32基于所述检索人员的权限，确定所任检索人员所能接触到的档案；
26.s33根据所述检索人员所能接触到的档案，确定所述检索人员的检索范围。
27.进一步的技术方案在于，当存在多个借阅过的档案，则需要对所述多个借阅过的档案进行二次排序，其中对所述多个借阅过的档案进行二次排序的具体步骤为：
28.s41确定所述多个借阅过的档案的借阅次数，根据所述多个借阅过的档案的借阅次数，确定所述多个借阅过的档案的顺序，当存在借阅次数相同的多个借阅过的档案时，则进入步骤s42；
29.s42基于所述借阅次数相同的多个借阅过的档案的页数对所述借阅次数相同的多个借阅过的档案进行排序，并当所述借阅次数相同的多个借阅过的档案的页数也相同时，
则将其作为最终借阅档案，并进入步骤s43；
30.s43基于所述最终借阅档案的档案分数进行排序，当所述最终借阅档案的档案分数相同时，则采取随机的方式对所述档案分数相同的最终借阅档案进行排序。
31.通过分步骤通过借阅次数、页数首先实现对档案的排序，从而在不需要进行较多的计算基础上，实现对档案的排序，提升了排序的效率，在此基础上，再依据最终借阅档案的档案分数进行排序，从而极大的提升了排序的准确性，并且减少了需要进行档案分数计算的档案的数量，提升了效率。
32.进一步的技术方案在于，采用关键词数据库的方式对所述检索词进行匹配，并根据匹配结果进行检索词的同义词的扩充，基于所述同义词以及所述检索词与所述档案的题目的匹配结果得到所述检索人员的检索词的解析结果。
33.进一步的技术方案在于，所述档案分数的计算公式为：
[0034][0035]
其中k1、k2、k3、k4、k5为常数，且均大于零，y、j、c分别为根据档案的借阅次数确定的权值、档案的检索次数确定的权值、档案的密级确定的取值，取值范围均在0到1之间，p为档案的页数。
[0036]
通过档案分数的构建，从而进一步提升了档案的评分的准确性、可靠性、全面性，为准确且高效率的实现档案的排序奠定了基础。
[0037]
进一步的技术方案在于，确定后续档案排序顺序的具体步骤为：
[0038]
s51基于所述后续档案的档案分数，确定所述后续档案的档案分数是否大于档案分数阈值，若是，则将档案分数大于档案分数阈值的所述后续档案作为备选档案；
[0039]
s52基于所述备选档案的档案分数的大小，从大到小对所述备选档案进行排序，若存在档案分数一样的备选档案，则将其当做核心档案，并进入步骤s53；
[0040]
s53确定所述备选档案的档案分数是否大于第二档案分数阈值，若是，则基于所述备选档案的密级从高到低进行排序，当所述备选档案的密级相同时，则采用随机的方式对所述密级相同的备选档案进行排序，若否，则进入步骤s54；
[0041]
s54根据所述备选档案的借阅次数从大到小进行排序，若所述备选档案的借阅次数相同时，则采用随机的方式对所述借阅次数相同的备选档案进行排序。
[0042]
通过第二档案分数阈值的设定，从而可以实现较为重要的档案按照密级进行排序，使得在一定的重要性基础上的高密级的档案能够更加准确的被推送，而对于重要性较低的档案则按照其借阅次数进行受欢迎程度的排序，通过分情况的进行排序，从而使得排序结果更加准确且具有准确性。
[0043]
进一步的技术方案在于，所述第二档案分数阈值大于档案分数阈值，均根据档案的数量、档案的类型的重要程度确定，其中所述第二档案分数阈值的计算公式为：
[0044][0045]
其中d、l分别为档案的数量、根据档案的类型的重要程度确定的权值，其中档案的类型的重要程度越高，l越大，取值范围在0到1之间，k6、k7、k8为常数。
[0046]
另一方面，本发明提供了一种基于ai的档案检索系统，采用上述的一种基于ai的
档案检索方法，包括身份信息确认模块，检索范围确认模块，检索结果确认模块，检索档案排序模块；
[0047]
其中所述身份信息确认模块负责确认所述检索人员的身份信息；
[0048]
所述检索范围确认模块负责确定所述检索人员的检索范围；
[0049]
所述检索结果确认模块负责得到检索结果；
[0050]
所述检索档案排序模块负责将所述检索结果中的档案作为检索档案，并对所述检索档案进行排序。
[0051]
其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书以及附图中所特别指出的结构来实现和获得。
[0052]
为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
[0053]
通过参照附图详细描述其示例实施方式，本发明的上述和其它特征及优点将变得更加明显。
[0054]
图1是根据实施例1的一种基于ai的档案检索方法的流程图；
[0055]
图2是实施例2中的一种基于ai的档案检索系统的框架图。
具体实施方式
[0056]
现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。图中相同的附图标记表示相同或类似的结构，因而将省略它们的详细描述。
[0057]
用语“一个”、“一”、“该”、“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等。
[0058]
实施例1
[0059]
为解决上述问题，根据本发明的一个方面，如图1所示，提供了一种基于ai的档案检索方法，包括：
[0060]
s11采用基于机器学习算法的人脸识别模型，通过对检索人员的人脸识别结果，确认所述检索人员的身份信息；
[0061]
具体的举个例子，可以采用基于图像特征的分类机器算法的人脸识别模型或者根据图像识别算法的人脸识别模型，对检索人员的身份信息进行确认。
[0062]
s12基于所述检索人员的身份信息，确认所述检索人员的权限，并根据所述检索人员的权限以及档案的密级，确定所述检索人员的检索范围；
[0063]
具体的举个例子，可以采用数据库的方式预先设置好检索人员的身份信息与检索人员的权限之间的一一对应关系，从而确认检索人员的检索范围。
[0064]
s13基于所述检索人员的检索词的解析结果以及所述检索人员的检索范围，得到
检索结果；
[0065]
具体的举个例子，对检索词进行识别，同义词扩充，并与检索范围中的档案的题目中的关键词进行比对，从而得到检索结果。
[0066]
s14将所述检索结果中的档案作为检索档案，确定所述检索档案是否存在所述检索人员借阅过的档案，若是，则将所述借阅过的档案放置于检索结果的最前列；
[0067]
具体的举个例子，当检索人员借阅过的档案存在多个时，则根据借阅过的档案的借阅次数进行排序。
[0068]
s15将除去所述借阅过的档案的检索档案作为后续档案，并基于所述后续档案的借阅次数、检索次数、页数、密级构建档案分数，基于所述档案分数的大小进行所述后续档案的排序。
[0069]
具体的举个例子，可以采用基于机器学习算法的预测模型得到档案分数，也可以通过专家打分以及层次分析的方法得到档案分数，档案分数越高，其排序越靠前。
[0070]
通过首先采用人脸识别算法识别得到检索人员的身份信息，并基于身份信息确定检索人员的权限，基于权限和密级，确定检索人员的检索档案的范围，从而解决了原来的没有首先根据检索人员的权限缩小检索档案的范围，使得检索的效率和准确性都得到了进一步的提升，在此基础上，通过对检索词的解析结果以及档案的检索范围，从而可以得到检索结果，根据检索人员借阅过的档案，首先将借阅过的档案放置于检索结果的最前列，将上述检索档案排除后的检索档案作为后续档案，并根据后续档案的借阅次数、检索次数、页数、密级构建档案分数，并根据档案分数的大小进行所述后续档案的排序，从而解决了原来没有通过构建档案分数进行排序的技术问题，从而极大的提升了检索的效率和准确性，并在第一时间为检索人员提供最有效的检索档案，提升了检索人员的检索体验。
[0071]
通过首先基于检索人员的权限信息实现检索档案的范围的缩减，从而使得在不影响最终的检索准确度和全面性的基础上，进一步缩小了需要进行检索的档案的范围，提升了检索的效率。
[0072]
通过首先根据检索人员的借阅过的档案进行筛选排序，然后再通过续档案的借阅次数、检索次数、页数、密级构建档案分数，基于所述档案分数的大小进行所述后续档案的排序，从而不仅仅使得检索档案的排序结果具有较好的准确性和全面性，同时也具有较高的检索效率。
[0073]
在另外一种可能的实施例中，确定所述检索人员的身份信息的具体步骤为：
[0074]
s21基于所述检索人员的人脸图像，对所述人脸图像的特征进行提取得到所述人脸特征，将所述人脸特征送入到基于svm算法的预测模型之中，得到svm身份信息；
[0075]
s22将所述人脸图像送入到基于cnn算法的图像模型之中，得到cnn身份信息；
[0076]
s23当且仅当所述svm身份信息与所述cnn身份信息均为同一个人时，则确定所述检索人员的身份信息。
[0077]
通过分别基于图像特征的svm算法的预测模型以及基于cnn算法的图像模型，从而实现从两个角度实现对检索人员的身份信息的确认，进一步提升了身份信息确认的准确性，并为进一步实现对检索人员的权限的确认奠定了基础。
[0078]
在另外一种可能的实施例中，所述人脸图像的特征为hog图像特征以及surf图像特征。
[0079]
具体的举个例子，可以首先将人脸图像的hog图像特征送入到基于svm算法的预测模型之中，得到hog预测结果，然后再将人脸图像的surf图像特征送入到基于svm算法的预测模型之中，得到surf预测结果，当hog预测结果与surf预测结果一致时，得到svm身份信息。
[0080]
在另外一种可能的实施例中，确定所述检索人员的检索范围的具体步骤为：
[0081]
s31根据所述检索人员的身份信息，基于设定好的人员权限数据库，确定所述检索人员的权限；
[0082]
s32基于所述检索人员的权限，确定所任检索人员所能接触到的档案；
[0083]
s33根据所述检索人员所能接触到的档案，确定所述检索人员的检索范围。
[0084]
在另外一种可能的实施例中，当存在多个借阅过的档案，则需要对所述多个借阅过的档案进行二次排序，其中对所述多个借阅过的档案进行二次排序的具体步骤为：
[0085]
s41确定所述多个借阅过的档案的借阅次数，根据所述多个借阅过的档案的借阅次数，确定所述多个借阅过的档案的顺序，当存在借阅次数相同的多个借阅过的档案时，则进入步骤s42；
[0086]
s42基于所述借阅次数相同的多个借阅过的档案的页数对所述借阅次数相同的多个借阅过的档案进行排序，并当所述借阅次数相同的多个借阅过的档案的页数也相同时，则将其作为最终借阅档案，并进入步骤s43；
[0087]
s43基于所述最终借阅档案的档案分数进行排序，当所述最终借阅档案的档案分数相同时，则采取随机的方式对所述档案分数相同的最终借阅档案进行排序。
[0088]
通过分步骤通过借阅次数、页数首先实现对档案的排序，从而在不需要进行较多的计算基础上，实现对档案的排序，提升了排序的效率，在此基础上，再依据最终借阅档案的档案分数进行排序，从而极大的提升了排序的准确性，并且减少了需要进行档案分数计算的档案的数量，提升了效率。
[0089]
在另外一种可能的实施例中，采用关键词数据库的方式对所述检索词进行匹配，并根据匹配结果进行检索词的同义词的扩充，基于所述同义词以及所述检索词与所述档案的题目的匹配结果得到所述检索人员的检索词的解析结果。
[0090]
在另外一种可能的实施例中，所述档案分数的计算公式为：
[0091][0092]
其中k1、k2、k3、k4、k5为常数，且均大于零，y、j、c分别为根据档案的借阅次数确定的权值、档案的检索次数确定的权值、档案的密级确定的取值，取值范围均在0到1之间，p为档案的页数。
[0093]
通过档案分数的构建，从而进一步提升了档案的评分的准确性、可靠性、全面性，为准确且高效率的实现档案的排序奠定了基础。
[0094]
在另外一种可能的实施例中，确定后续档案排序顺序的具体步骤为：
[0095]
s51基于所述后续档案的档案分数，确定所述后续档案的档案分数是否大于档案分数阈值，若是，则将档案分数大于档案分数阈值的所述后续档案作为备选档案；
[0096]
s52基于所述备选档案的档案分数的大小，从大到小对所述备选档案进行排序，若存在档案分数一样的备选档案，则将其当做核心档案，并进入步骤s53；
[0097]
s53确定所述备选档案的档案分数是否大于第二档案分数阈值，若是，则基于所述备选档案的密级从高到低进行排序，当所述备选档案的密级相同时，则采用随机的方式对所述密级相同的备选档案进行排序，若否，则进入步骤s54；
[0098]
s54根据所述备选档案的借阅次数从大到小进行排序，若所述备选档案的借阅次数相同时，则采用随机的方式对所述借阅次数相同的备选档案进行排序。
[0099]
通过第二档案分数阈值的设定，从而可以实现较为重要的档案按照密级进行排序，使得在一定的重要性基础上的高密级的档案能够更加准确的被推送，而对于重要性较低的档案则按照其借阅次数进行受欢迎程度的排序，通过分情况的进行排序，从而使得排序结果更加准确且具有准确性。
[0100]
在另外一种可能的实施例中，所述第二档案分数阈值大于档案分数阈值，均根据档案的数量、档案的类型的重要程度确定，其中所述第二档案分数阈值的计算公式为：
[0101][0102]
其中d、l分别为档案的数量、根据档案的类型的重要程度确定的权值，其中档案的类型的重要程度越高，l越大，取值范围在0到1之间，k6、k7、k8为常数。
[0103]
实施例2
[0104]
如图2所示，本技术实施例中提供一种基于ai的档案检索系统，采用上述的一种基于ai的档案检索方法，包括身份信息确认模块，检索范围确认模块，检索结果确认模块，检索档案排序模块；
[0105]
其中所述身份信息确认模块负责确认所述检索人员的身份信息；
[0106]
所述检索范围确认模块负责确定所述检索人员的检索范围；
[0107]
所述检索结果确认模块负责得到检索结果；
[0108]
所述检索档案排序模块负责将所述检索结果中的档案作为检索档案，并对所述检索档案进行排序。
[0109]
在本技术所提供的几个实施例中，应该理解到，所揭露的系统和方法，也可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0110]
另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
[0111]
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机
软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0112]
以上述依据本发明的理想实施例为启示，通过上述的说明内容，相关工作人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定其技术性范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：梁尔真周蕾郑望献吴存锋曹军杨海波
技术所有人：浙江星汉信息技术股份有限公司
我是此专利的发明人

上一篇：一种竹筒智能分选设备及具有其的自动化装置
上一篇：旋塞阀及压裂管汇的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。