一种档案智能化辅助编研方法、系统及相关设备与流程

文档序号:33322944发布日期:2023-03-03 21:38阅读:58来源:国知局
一种档案智能化辅助编研方法、系统及相关设备与流程

1.本发明涉及电子档案管理领域,具体涉及一种档案智能化辅助编研方法、系统及相关设备。


背景技术:

2.编研是档案利用工作的重要组成部分,一般由企事业单位的档案部门根据馆(室)藏档案和需求,确定研究专题,在研究档案内容的基础上,编写参考资料、汇编档案文件、参与编史修志、撰写论文专著。传统档案编研的过程中,面对大量纸质或文件级别的对象,编研人员需要手动筛查汇编,耗费大量人力物力,导致传统编研难度高、效率低。
3.随着计算机技术的发展,大多数档案馆都建立了信息化的档案管理系统,档案管理工作和档案内容逐步实现了数字化。在对电子档案进行管理和编研时,一般由编研人员在管理系统上创建编研主题,使用系统的查询检索功能筛选出主题相关的档案进行撰写编排后输出编研结果。相较于传统的人工编研,电子档案的编研降低了筛查难度、提高了编研效率,但也同样存在着许多问题。
4.1.编研主题的选择是编研工作开展的第一步,但现有电子档案编研系统都需要人工自主选题,可能存在一定的局限性。
5.2.在对档案文件的处理上,现有技术中有采用ocr技术对纸质版档案的文字内容进行识别,但还无法对图片类的档案附件进行处理和识别。
6.综上所述,现有电子档案编研技术主要面临着选题难、图片检索难、筛查汇编麻烦的问题。


技术实现要素:

7.针对上述现有技术,本发明提供一种档案智能化辅助编研方法、系统及相关设备,主要采用了以图搜图和ocr技术,通过图像比对、数字指纹、数据分析等方式,实现电子档案智能化汇编。
8.为实现上述目的,本发明通过以下技术方案得以实现:
9.第一方面,提供一种档案智能化辅助编研方法,包括以下步骤:
10.接收用户录入的档案基本信息,存储至档案信息库中;
11.将档案附件存入所述档案附件库中并提取附件内容信息;
12.根据所述附件内容信息给所述档案附上标签;
13.分析查调阅、检索热点信息生成推荐编研主题;
14.向用户返回所述推荐编研主题;
15.获取用户录入的编研主题和编研条件,根据所述编研主题和所述编研条件筛选对应的档案,获得档案筛选结果;
16.将所述档案筛选结果汇总生成编研结果。
17.具体地,档案基本信息包括档案名称、档案类型、归档时间等档案管理相关的信
息,用于后续档案管理和筛选。
18.进一步地,档案基本信息由用户在用户终端以人工输入、文件导入、数据采集等方式中的一种或多种方式录入系统。
19.在第一方面的可选实施例中,附件内容信息包括所述文字信息和所述图片指纹。
20.具体地,提取附件内容信息包括以下步骤:
21.识别附件类型;
22.若所述档案附件为word类型,则直接提取所述附件中的所述文字信息存储至文字信息库;
23.若所述档案附件为pdf类型,则通过ocr识别字符获取所述文字信息存储至文字信息库;
24.若所述档案附件为图片类型,则通过phash算法提取档案附件的图片指纹存储至图片指纹库。
25.在第一方面的可选实施例中,根据所述附件内容信息给所述档案附上标签包括以下步骤:
26.若所述附件内容信息包括文字信息,则识别所述文字信息中包含的关键词;
27.给所述档案附上所述关键词对应的标签;
28.若所述附件内容信息包括图片指纹,将所述图片指纹与源图片的图片指纹进行比对,获取与档案附件相似的源图片;
29.给所述档案附上所述源图片对应的标签。
30.具体地,源图片存储在源图片库中,在档案上传之前,用户可将实际业务中已有的图片作为模板录入系统,并由用户为源图片人工打标签。
31.进一步地,当系统给所述档案附上标签后,用户可在系统中人工给档案附上标签或调整档案已附上标签。
32.在第一方面的可选实施例中,所述分析查调阅信息生成推荐编研主题包括以下步骤:
33.分析一段时间内调阅频率最高的档案,将其关联的标签作为推荐编研主题;
34.分析一段时间内搜索频率最高的搜索词,将其作为推荐编研主题。
35.在第一方面的可选实施例中,所述编研主题包括用户选择的推荐编研主题和用户录入的自选编研主题;
36.所述编研条件包括用户录入的基本信息、调阅频率、标签、文字信息、图片。
37.具体地,用户在制定编研主题时,可选择由系统提供的推荐编研主题,也可录入自选编研主题。
38.所述编研条件是用户根据编研的实际需求制定的档案筛选条件,用于更精准的筛选出合适的、符合编研要求的档案,用户可针对档案的基本信息、调阅频率和标签设置编研条件,系统将筛选出基本信息、调阅频率和标签符合编研条件的档案,用户也可输入文字信息或上传图片作为编研条件,系统将根据附件的内容信息筛选出包含输入文字信息或相似图片的档案。
39.进一步地,根据所述编研主题和所述编研条件筛选对应的档案包括以下步骤:
40.若编研主题为推荐编研主题,则根据所述推荐编研主题对应的标签查询出附有该
标签的档案;
41.若所述编研条件为档案基本信息,则在档案信息库中查询出符合编研条件的档案;
42.若所述编研条件为调阅频率,则查询出符合调阅频率的档案;
43.若所述编研条件为标签,则在标签库中查询出附有该标签的档案;
44.若所述编研条件为文字信息,则在文字信息库中查询出附件内容信息包含所述文字信息的档案;
45.若所述编研条件为图片,则提取所述图片的图片指纹,在图片指纹库中匹配与所述图片相似的档案附件图片,并查询出对应的档案。
46.在第一方面的可选实施例中,根据所述生成编研结果还包括以下步骤:
47.将所述编研结果显示在用户终端的系统页面上;
48.以word文档、excel表格或pdf文档等形式导出所述编研结果;
49.将所述编研结果打印成纸质文档保存。
50.第二方面,提供一种档案智能化辅助编研系统,包括:
51.档案录入模块,接收并存储档案的基本信息和附件,提取档案附件的内容信息并给档案附上标签;
52.数据分析模块,采集并分析用户的档案查调阅信息生成推荐编研主题;
53.档案编研模块,根据编研主题和编研条件筛选对应的档案生成编研结果。
54.第三方面,提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现如前述第一方面所述档案智能化辅助编研方法。
55.第四方面,提供一种档案智能化辅助编研计算机可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时,实现如前述第一方面所述档案智能化辅助编研方法。
56.本技术提供的技术方案带来的有益效果是:
57.1.本发明实施例中,通过对用户访问记录的数据挖掘和搜索数据的聚类分析,可以分析出用户的使用偏好并了解用户需求的特点,从而预测编研所需的热门主题,实现了智能化辅助编研选题。
58.2.本发明实施例采用了ocr技术和以图搜图技术对档案附件进行内容识别,能够有效地对图片类档案附件进行处理和筛选,提高了档案管理和编研的效率。
59.本技术附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本技术的实践了解到。
附图说明
60.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
61.图1是本发明一实施例提供的一种档案智能化辅助编研方法中档案录入方法的流
程图;
62.图2是本发明一实施例提供的一种档案智能化辅助编研方法中phash算法生成图像指纹的流程图;
63.图3是本发明一实施例提供的一种档案智能化辅助编研方法中获取推荐编研主题的方法的流程图;
64.图4是本发明一实施例提供的一种档案智能化辅助编研方法中生成档案编研结果的方法的流程图;
65.图5是本发明一实施例提供的一种档案智能化辅助编研系统示意图。
具体实施方式
66.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
67.实施例一
68.本发明提供一种档案智能化辅助编研方法,其中包括档案录入的方法,如图1所示,档案录入方法包括如下步骤:
69.s101接收用户录入的档案基本信息,存储至档案信息库中;
70.具体地,档案基本信息包括档案名称、档案类型、归档时间等档案管理相关的信息,档案基本信息是档案管理的关键信息和档案编研的主要编研条件之一。
71.进一步地,档案基本信息由用户在用户终端以人工输入、文件导入、数据采集等方式中的一种或多种方式录入系统。
72.s102将档案附件存入档案附件库;
73.具体地,用户通过上传电子文档、扫描纸质附件、导入照片等方式将档案附件提交至系统,系统将其存储至档案附件库中用于后续档案编研。
74.s103识别档案附件的类型;
75.具体地,识别新存入档案的文件格式并据此进行分类,常见的档案附件文件格式包括word、pdf、png、bmp、jpg等。
76.s104若档案附件为word类型,则直接提取附件中的文字信息存储至文字信息库;
77.s105若档案附件为pdf类型,则通过ocr识别字符获取文字信息存储至文字信息库;
78.具体地,ocr字符识别技术是一种将图像中的字符翻译成计算机文字的技术,通过图像预处理、二值化、噪声去除、文字特征抽取、比对识别、识别校正等流程可以将附件中的文字信息较为精准地提取出来。在附件处理中采用ocr技术可以有效加快处理效率、提升内容识别的精准度。
79.s106识别文字信息中包含的关键词,给档案附上关键词对应的标签;
80.具体地,在档案上传前,用户可根据实际业务需求设置档案标签,并为标签添加相关的关键词。当检测到档案附件的文字信息中包含关键词时,系统就为该档案附上关键词对应的标签。根据档案附件的内容给档案打标签的目的是为新录入的档案自动化归类,这
也是档案智能化辅助编研的重要前置步骤,能有效提升编研时的筛选效率和精准度。
81.s107若档案附件为图片类型,则通过phash算法提取档案附件的图片指纹存储至图片指纹库;
82.具体地,采集图片指纹是以图搜图技术中的重要环节,原理在于基于图片生成一个字符串,也即图像的指纹,以图搜图就是通过比较不同图片的指纹来判断图片之间的相似度。
83.进一步地,如图2所示,phash算法生成图像指纹的步骤包括:
84.s201缩小图像的尺寸;
85.s202简化图像的色彩,将彩色图转化成灰度图像;
86.s203计算dct变换,获得dct系数矩阵;
87.s204缩小dct,呈现图片种的最低频率;
88.s205计算dct的平均值;
89.s206计算hash值,根据dct矩阵得出hash值组合,构成64位整数。
90.phash算法主要原理是在减小原始图像大小的时候,通过离散余弦变换(dct)来获取图像的低频部分。这是由于图像的高频信息对应着图像变化剧烈的部分,描述了图像轮廓、边缘和细节,而低频信息代表图像中亮度或灰度值变化缓慢的部分,描述了图像的主要部分。相较于通过均值hash算法来获取图片指纹,采用phash算法能减少均值的影响。
91.s108将图片指纹与源图片的图片指纹进行比对,获取与档案附件相似的源图片,给档案附上所述源图片对应的标签;
92.具体地,源图片存储在源图片库中,在档案上传之前,用户可将实际业务中已有的图片作为模板录入系统,并由用户为源图片人工打标签。
93.进一步地,通过计算两个图片指纹之间的汉明距离判断档案附件与源图片的相似度,获取与档案附件相似的源图片。
94.s109用户在系统中人工给档案附上标签或调整档案已附上标签。
95.具体地,用户通过用户终端查看新上传的档案所附标签,若步骤s106-s108中未能为档案附上标签,则可以由用户人工附上标签;若档案已附上标签,则用户可对已附上标签进行调整,这是为了给档案自动化分类提供纠错机会,提高分类的准确率。
96.实施例二
97.基于实施例一,本发明提供一种档案智能化辅助编研方法,其中包括一种获取推荐编研主题的方法,如图3所示,获取推荐编研主题的方法包括如下步骤:
98.s301调用系统日志、查调阅信息等信息,获取档案调阅频率、搜索词搜索频率等数据;
99.具体地,用户可在系统中查阅已上传收录的档案,查阅过程中用户查阅使用的搜索词和查阅过的档案会记录到系统日志和查调阅信息中,系统通过调用系统日志、查调阅信息等信息可获取档案调阅信息,即一段时间内档案被用户查阅的次数,还可获得搜索词搜索频率,即一段时间内用户使用搜索词的次数。该步骤是对用户访问记录的数据挖掘和对搜索数据的聚类分析,通过对档案调阅频率、搜索词搜索频率等数据的分析,可以获得用户的使用偏好并了解用户需求的特点。
100.需要说明的是,所述一段时间是指由用户在系统设置的热点期限,例如用户设置
的热点期限为3个月,则获取3个月内档案被用户调阅的次数和3个月内用户使用搜索词的次数。
101.s302分析一段时间内调阅频率最高的档案,将其关联的标签作为推荐编研主题;
102.s303分析一段时间内搜索频率最高的搜索词,将其作为推荐编研主题;
103.s304向用户返回所述推荐编研主题。
104.具体地,将推荐编研主题返回用户终端,用户可在系统中查看推荐编研主题并采取其作为后续档案编研的编研主题。推荐编研主题的选取过程分析了用户的使用偏好并了解用户需求的特点,实现了智能化辅助编研选题。
105.实施例三
106.基于实施例二,本发明提供一种档案智能化辅助编研方法,其中包括一种生成档案编研结果的方法,如图4所示,获取推荐编研主题的方法包括如下步骤:
107.s401获取用户录入的编研主题和编研条件;
108.具体地,所述编研主题包括用户选择的推荐编研主题和用户录入的自选编研主题;用户在制定编研主题时,可选择由系统提供的推荐编研主题,也可录入自选编研主题。
109.需要说明的是,获取推荐编研主题的方法如实施例二所述。
110.进一步地,所述编研条件包括用户录入的基本信息、标签、调阅频率、文字信息、图片;编研条件是用户根据编研的实际需求制定的档案筛选条件,例如用户可针对档案的基本信息和标签设置编研条件,也可上传符合编研要求的档案附件,采取多样化的编研条件是为了更精准的筛选出合适的、符合编研要求的档案。
111.s402若编研主题为推荐编研主题,则根据所述推荐编研主题对应的标签查询出附有该标签的档案;
112.具体地,若用户选取系统的推荐编研主题作为编研主题,则可获取推荐编研主题对应的标签,查询出该标签对应的所有档案。
113.例如,热点期限内调阅频率最高的档案为《xx会议会议纪要》,对应标签为“会议纪要”,则推荐编研主题为会议纪要。当用户选取该推荐编研主题时,查询出所有附有“会议纪要”标签的档案。
114.s403若所述编研条件为档案基本信息,则在档案信息库中查询出符合编研条件的档案;
115.具体地,若所述编研条件为档案基本信息,则在档案信息库中根据档案名称、档案类型、归档时间等档案基本信息进行筛选,查询出符合编研条件的档案。
116.例如,当档案编研所需的档案为去年的会计凭证,则编研条件为“归档时间为去年、归档类型为凭证类”,根据此编研条件系统查询出所需的档案。
117.s404若所述编研条件为调阅频率,则查询出符合调阅频率的档案;
118.具体地,若所述编研条件为调阅频率,则根据档案的查调阅信息对档案进行筛选,查询出符合调阅频率的档案。
119.例如,编研条件为“一段时间内调阅次数超过100次”,则据此编研条件进行筛选,查询出该时间段内用户调阅次数超过100次的档案。
120.s405若所述编研条件为标签,则在标签库中查询出附有该标签的档案;
121.具体地,若所述编研条件为标签,则在标签库中查询出附有该标签的档案。
122.例如,编研条件为“标签为

会议纪要
’”
时,查询出所有附有“会议纪要”标签的档案。
123.s406若所述编研条件为文字信息,则在文字信息库中查询出附件内容信息包含所述文字信息的档案;
124.s407若所述编研条件为图片,则提取所述图片的图片指纹,在图片指纹库中匹配与所述图片相似的档案附件图片,并查询出对应的档案;
125.具体地,用户上传符合编研需求的图片作为编研条件,通过phash算法提取图片指纹,将编研条件图片指纹与图片指纹库中档案附件的图片指纹进行对比并计算其相似度,获取与编研条件图片相似的档案附件,查询出该档案附件对应的档案。
126.需要说明的是,步骤s402的编研选题筛选方式及步骤s403-s407中所包含的各编研条件筛选方式可以“与、或、非”的形式相结合后对档案进行筛选。
127.例如,编研条件可为“一段时间内调阅次数超过100次、归档时间为去年或前年、档案标签为

会议纪要’、归档类型不为凭证类”。
128.s408将步骤s402-s407中筛选出的档案汇总生成档案编研结果;
129.具体地,将步骤s402-s407中筛选出的档案按照系统预设的模板编排成档案编研结果。
130.s409将档案编研结果显示在用户终端的系统页面上;
131.s410以word文档、excel表格或pdf文档等形式导出所述编研结果;
132.s411将档案编研结果打印成纸质文档保存。
133.实施例四
134.如图5所示,本实施例提供一种档案智能化辅助编研系统500,所述档案智能化辅助编研系统包括档案录入模块510、数据分析模块520、档案编研模块530;
135.其中,档案录入模块510用于接收并存储档案的基本信息和附件,提取档案附件的内容信息并给档案附上标签;
136.具体地,档案录入模块510包括档案信息存储模块511、档案附件处理模块512、档案分类模块513。
137.所述档案信息存储模块511用于接收并存储用户录入的档案基本信息,所述档案基本信息包括档案名称、档案类型、归档时间等档案管理相关的信息;
138.所述档案附件处理模块512用于接收、存储档案附件,并提取档案附件的内容信息,其中所述内容信息包括文字信息和图片指纹;
139.所述档案分类模块513用于给档案附上标签,主要采用文字识别和以图识图技术基于档案附件的内容信息对档案进行分类并附上标签,实现了智能化的档案分类。
140.档案录入模块510通过存储、内容识别、分类等流程对新录入的档案进行处理,实现了自动化、智能化的档案录入和处理。
141.数据分析模块520用于采集并分析用户的档案查调阅信息生成推荐编研主题;
142.具体地,数据分析模块520调用系统日志、查调阅信息等信息,对档案调阅频率、搜索词搜索频率等数据进行分析,可获取符合用户需求和近期热点的编研选题,实现了智能化辅助编研选题。
143.进一步地,数据分析模块520挖掘更深层次的关联数据,利用档案分词、档案同义
词技术对分析的数据做进一步聚合,使推荐的编研选题更聚焦,减少人工甄选工作。
144.档案编研模块530用于根据编研主题和编研条件筛选对应的档案生成编研结果。
145.具体地,档案编研模块530包括档案筛选模块531、档案汇编模块532。
146.所述档案筛选模块531基于编研主题和编研条件对档案进行筛选;
147.所述档案汇编模块532按照系统预设的模板将所述档案筛选模块531中筛选的结果编排成档案编研结果。
148.进一步地,档案编研模块530还包括编研结果导出模块533,用于实现以文件的形式导出档案编研结果并打印成纸质文档保存。
149.为实现上述实施例,本发明实施例还提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,当计算机程序被处理器执行时,实现如前述实施例所述档案智能化辅助编研方法。
150.为实现上述实施例,本发明实施例还提供一种计算机可读存储介质,存储有计算机程序,其特征在于,当计算机程序被处理器执行时,实现如前述实施例所述档案智能化辅助编研方法。
151.以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1