本技术涉及档案管理,尤其涉及一种基于关键词的档案形成方法、系统、终端及存储介质。
背景技术:
1、电子文件如何有效归档是档案收集的痛点,各业务部门根据档案馆/室提供的归档范围期限表去进行档案生命周期第一步操作,即电子文件归档价值鉴定,仅这一项工作就需要业务部门组织较多人去实施,且电子文件归档价值鉴定需要相关专业的专业工作人员实施,而由于工作量大,专业工作人员不足,部分部门则安排非专业工作人员从事该项工作,这容易导致电子文件归档价值模糊以及归档材料不完整等情况发生,进而将直接导致整份/整卷档案失去长久保存的意义。
2、现有技术中通常是在电子文件收集后,需要人工进行鉴定、分类、著录等,然而由于档案在进行归档时,负责生产、利用文件的和负责档案收集、管理的两端由于目的、用途不同,电子文件在归档环节经常出现遗漏,重复,无效文件,过程不合规等种种问题,而来回的返工也严重制约整个归档工作的工作效率。
技术实现思路
1、为了有助于提高档案归档效率,本技术提供一种基于关键词的档案形成方法、系统、终端及存储介质。
2、第一方面,本技术提供的一种基于关键词的档案形成方法,采用如下的技术方案:
3、一种基于关键词的档案形成方法,包括:
4、获取待归档文件以及所述待归档文件的文件特征;
5、基于所述文件特征对所述待归档文件进行关键字提取,并生成关键词;
6、建立所述关键词与所述待归档文件之间的映射关系;
7、基于所述关键词以及所述映射关系,对所述待归档文件进行分类并生成分类结果;
8、基于所述分类结果,对所述待归档文件进行归档。
9、通过采用上述技术方案,获取待归档文件以及其文件特征,并根据文件特征对待归档文件进行关键词提取,建立关键词与待归档文件之间的映射关系,并根据关键词和映射关系对待归档文件进行分类,并生成分类结果,最后根据分类结果对待归档文件进行归档;根据文件特征提取对应的关键字,再根据关键字以及映射关系对待归档文件进行归档,有助于减少因归档目的等不同,导致待归档文件在归档环节出现遗漏,重复,无效文件,过程不合规等种种问题而造成的返工情况发生,从而有助于提高归档效率。
10、可选的,所述获取待归档文件以及所述待归档文件的文件特征的具体步骤包括:
11、获取所述待归档文件的文档格式以及文档内容;
12、对所述文档内容进行识别与分析,获取所述待归档文件的主题思想;
13、基于所述主题思想,获取所述待归档文件的文件类型;
14、将所述文件格式以及所述文件类型作为所述文件特征。
15、通过采用上述技术方案,获取待归档文件的文档格式和文档内容,对内容进行识别和分析,从而得到该待归档文件的主题思想,再根据主题思想获取该待归档文件的文件类型,最后将文件格式和文件类型作为文件特征,将文件格式和文件类型相结合,得到文件特征,有助于文件特征更加贴合待归档文件,从而有助于提高待归档文件归档的准确性。
16、可选的,所述基于所述文件特征对所述待归档文件进行关键字提取,并生成关键词的具体步骤包括:
17、将所述待归档文件进行分词,并获取分词词语;
18、获取所述分词词语与主题思想的第一关联程度;
19、判断所述第一关联程度是否满足预设关联要求;
20、若所述第一关联程度满足预设关联要求,则将所述分词词语作为所述关键词。
21、通过采用上述技术方案,将待归档文件划分为无数个分词词语,并获取每个分词词语与主题思想的第一关联程度,判断第一关联程度是否满足预设关联要求,若满足,则表明该分词词语与该待归档文件的主题思想的关联性较高,因此将该分词词语作为关键词;通过判断分词词语是否满足预设关联要求,从而判断出该分词词语与该待归档文件的主题思想是否贴合,即判断出该分词词语能否作为表征该待归档文件的关键词,有助于使得关键词与主题思想更加贴合,从而有助于提高归档的准确性,也有助于减少因归档不准确而重复归档的情况发生,进而有助于提高归档效率。
22、可选的,所述判断所述第一关联程度是否满足预设关联要求的具体步骤包括:
23、获取不同所述分词词语在所述待归档文件中的目标位置;
24、判断所述目标位置是否为指定位置;
25、若所述目标位置为所述指定位置,则判定所述第一关联程度满足预设关联要求;
26、若所述目标位置非所述指定位置,则获取所述分词词语在所述待归档文件中的使用次数;
27、判断所述使用次数是否超过预设数量阈值;
28、若所述使用次数未超过所述预设数量阈值,则判定所述第一关联程度不满足预设关联要求;
29、若所述使用次数超过所述预设数量阈值,则判定所述第一关联程度满足预设关联要求。
30、通过采用上述技术方案,获取不同分词词语在待归档文件中的目标位置,并判断该目标位置是否为指定位置,若是,则表明该分词词语处于该待归档文件中比较重要的位置,因此该分词词语在该待归档文件中也具有较高的价值,因此可以用来表征该待归档文件或表征该待归档文件中的某个主题,因此判定第一关联程度满足预设关联要求;
31、若否,则表明该分词词语未处于待归档文件中的重要位置,为进一步第一关联程度是否满足预设关联要求,需要获取该分词词语在待归档文件中的使用次数,并判断该使用次数是否超过预设数量阈值,若未超过,则表明该分词词语在待归档文件中出现的频率较低,仅从使用次数来看,该分词词语所对应的第一关联程度并不满足预设程度要求;若超过,则表明该分词词语在待归档文件中出现的频率非常高,因此该分词词语与该待归档文件的关联性也较高,所以判定第一关联程度满足预设关联要求;
32、通过将目标位置和使用次数相结合,从多方面对分词词语与主题思想之间的第一关联程度进行判定,从而有助于更加准确的判断出分词词语与主题思想之间的第一关联程度是否满足预设程度阈值。
33、可选的,还包括:
34、判断是否检测到档案检索指令;
35、若检测到所述档案检索指令,则获取检索词;
36、将所述检索词与所述关键词进行匹配,并获取匹配程度;
37、对所述匹配程度进行排序,生成程度排序列表;
38、基于所述程度排序列表以及所述映射关系,生成检索内容。
39、通过采用上述技术方案,当检测到档案检索指令时,表明用户需要寻找相关档案,将用户输入的检索词与关键词进行匹配,得到检索词与不同关键词之间的匹配程度,再根据大小顺序对不同匹配程度进行排序,生成排序列表,最后根据排序列表和映射关系,生成与用户需求相关的检索内容;通过获取与检索词之间匹配程度较高的关键词,再根据关键词的映射关系生成对应的检索内容,有助于更加快速且准确的帮助用户找到满足其需求的档案。
40、可选的,所述将所述检索词与所述关键词进行匹配,并获取匹配程度的具体步骤包括:
41、将所述检索词与所述关键词进行匹配;
42、判断是否存在与所述检索词相对应的所述关键词;
43、若存在与所述检索词相对应的所述关键词,则将所述关键词作为目标关键词;
44、获取所述检索词与所述目标关键词的第二关联程度;
45、获取所述目标关键词的关键词标签;
46、基于所述第二关联程度以及所述关键词标签,获取匹配程度。
47、通过采用上述技术方案,判断是否存在与检索词相对应的关键词,若存在,则表明存在与用户所输入检索词相关联的关键词,也表明档案库中存在与用户所输入检索词相关联的档案,因此将该关键词作为目标关键词,再获取检索词与目标关键词的第二关联程度以及目标关键词的关键词标签,最后结合第二关联程度和关键词标签获取匹配程度;通过获取检索词与目标关键词的第二关联程度,能够获知检索词与现有关键词之间是否具有关联性以及关联性的强弱程度,再根据关键词标签,能够获知与检索词相关联的关键词是根据什么因素而被作为表征对应档案的关键词,将二者相结合,从而有助于匹配程度更加准确,而以该匹配程度作为被检索出来的所有档案的排序依据,有助于用户快速且准确的获取到满足其需求的档案。
48、可选的,所述基于所述第二关联程度以及所述关键词标签,获取匹配程度的具体步骤包括:
49、基于所述第二关联程度以及预设关联规则,获取关联分数;
50、获取所述关键词标签所对应的标签数量;
51、基于所述标签数量以及预设标签基础分数,获取标签分数;
52、基于所述关联分数、所述标签分数以及预设分数权重,获取匹配分数;
53、基于所述匹配分数以及预设匹配规则,获取匹配程度。
54、通过采用上述技术方案,根据第二关联程度以及预设关联规则计算出关联分数,获取标签数量,并根据标签数量以及预设标签基础分数计算出标签分数,再根据关联分数、标签分数以及与该二者相对应的预设分数权重计算出匹配分数,最后结合预设匹配规则计算出匹配程度;根据不同计算因素以及与计算因素相对应的预设分数权重,最后得到匹配程度,有助于匹配程度更加具有说服力和准确性,从而有助于用户快速且准确的找到满足其需求的档案。
55、第二方面,本技术还公开了一种基于关键词的档案形成系统,采用如下的技术方案:
56、一种基于关键词的档案形成系统,包括:
57、获取模块,用于获取待归档文件以及所述待归档文件的文件特征;
58、生成模块,用于基于所述文件特征对所述待归档文件进行关键字提取,并生成关键词;
59、关系建立模块,用于建立所述关键词与所述待归档文件之间的映射关系;
60、分类模块,用于基于所述关键词以及所述映射关系,对所述待归档文件进行分类并生成分类结果;
61、归档模块,用于基于所述分类结果,对所述待归档文件进行归档。
62、通过采用上述技术方案,获取待归档文件以及其文件特征,并根据文件特征对待归档文件进行关键词提取,建立关键词与待归档文件之间的映射关系,并根据关键词和映射关系对待归档文件进行分类,并生成分类结果,最后根据分类结果对待归档文件进行归档;根据文件特征提取对应的关键字,再根据关键字以及映射关系对待归档文件进行归档,有助于减少因归档目的等不同,导致待归档文件在归档环节出现遗漏,重复,无效文件,过程不合规等种种问题而造成的返工情况发生,从而有助于提高归档效率。
63、第三方面,本技术提供的一种计算机装置,采用如下的技术方案:
64、一种智能终端,包括存储器、处理器,所述存储器中用于存储能够在所述处理器上运行的计算机程序,所述处理器加载计算机程序时,执行第一方面的方法。
65、通过采用上述技术方案,基于第一方面的方法生成计算机程序,并存储于存储器中,以被处理器加载执行,从而,根据存储器及处理器制作智能终端,方便使用者使用。
66、第四方面,本技术提供的一种计算机可读存储介质,采用如下的技术方案:
67、一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器加载时,执行第一方面的方法。
68、通过采用上述技术方案,基于第一方面的方法生成计算机程序,并存储于计算机可读存储介质中,以被处理器加载并执行,通过计算机可读存储介质,方便计算机程序的可读及存储。
69、综上所述,本技术包括以下有益技术效果:
70、获取待归档文件以及其文件特征,并根据文件特征对待归档文件进行关键词提取,建立关键词与待归档文件之间的映射关系,并根据关键词和映射关系对待归档文件进行分类,并生成分类结果,最后根据分类结果对待归档文件进行归档;根据文件特征提取对应的关键字,再根据关键字以及映射关系对待归档文件进行归档,有助于减少因归档目的等不同,导致待归档文件在归档环节出现遗漏,重复,无效文件,过程不合规等种种问题而造成的返工情况发生,从而有助于提高归档效率。