辅助定密方法和装置的制造方法_2

文档序号:9506684阅读:来源:国知局
述待定密文件的所属领域是否属于涉密领域,若该待定密文件所属领域属于非涉密领域,则将该所属领域对应的密级具体范围的规定作为辅助定密意见输出,若该待定密文件所属领域属于涉密领域,则输出表示该所属领域涉密的辅助定密意见。
[0048]每一个领域都有国家规定的国家秘密范围的规定,定密工作人员根据各个领域的国家秘密范围的规定对待定密文件进行定密。国家秘密范围的规定中包含本身属于涉密信息的规定和本身不涉密的规定,对于本身涉密的所有规定,并不录入。当用户识别出所述待定密文件所属领域的密级具体范围的规定不涉密,则将该所属领域对应的非涉密的密级具体范围的规定作为辅助定密意见输出,若该待定密文件所属领域属于涉密领域,则则输出表示该所属领域涉密的辅助定密意见,比如输出“此领域涉密,涉密领域的密级具体范围的规定不予支持”这种类似的辅助定密意见。这样用户就能很方便的查看到所述待定密文件所属领域的密级具体范围的规定,给用户以参考,为用户提供了很有效的辅助定密意见。
[0049]例如,首先由用户选择待定密文件所属领域,假设为“建筑”领域,若“建筑”领域为非涉密领域,此时,将提前录入的“建筑”领域对应的密级具体范围的规定作为辅助定密意见输出;假设用户选择待定密文件所属领域为“国家安全”领域,若“国家安全”领域本身为涉密领域,此时,则可以输出辅助定密意见为“此领域涉密,涉密领域的密级具体范围的规定不予支持”。
[0050]参阅图3,本发明实施例提供的一种基于待定密文件的定密特征的辅助定密方式,包括:
[0051]步骤S301,将所述待定密文件与预先保存的定密特征库中的定密特征的定密特征段使用通配符匹配算法进行匹配,所述定密特征段是用户在已定密文件和待定密文件中手动选出并手动消除涉密信息后形成,其中,所述定密特征包括对应该定密特征的经过模糊涉密信息后的定密特征段、定密属性以及定密期限;
[0052]定密特征包含了其对应的定密特征段的相关信息,除了定密属性以及定密期限以外,还可以包括文件名、所属行业等其他信息。
[0053]步骤S302,将所述定密特征库中的被匹配到的定密特征作为辅助定密意见输出。
[0054]例如,用户手动选出定密特征原文为“成都今年发放灾款2000万”,并且用户认为“2000”为涉密信息,手动把“2000”进行模糊处理,处理后生成的定密特征段为“成都今年发放灾款***万”,将此模糊涉密信息后的定密特征段与其定密属性,定密期限作为一个定密特征存入定密特征库中。假设此时待定密文件中包含“成都今年发放灾款5000万”,则根据通配符匹配算法,认为定密特征段为“成都今年发放灾款***万”与“成都今年发放灾款5000万”匹配,此时将定密特征段为“成都今年发放灾款***万”对应的定密特征作为辅助定密意见返回。
[0055]参阅图4,本发明实施例提供的一种基于待定密文件的文件结构的辅助定密方式,包括:
[0056]步骤S401,按照预设的分段规则将所述待定密文件分为多段,每一段所述待定密文件为一个对应所述待定密文件的待定密指纹段,所有对应所述待定密文件的待定密指纹段组成对应所述待定密指纹段集合;
[0057]步骤S402,将所述待定密指纹段集合中的每一个待定密指纹段逐一与预先保存的指纹库中的对应于已定密文件的已定密指纹段进行对比,所述已定密指纹段是根据多个已定密文件按照预设的分段优化规则得到的,根据每一个已定密文件得到一个或多个所述已定密指纹段;
[0058]步骤S403,查找相互匹配的待定密指纹段和已定密指纹段;
[0059]步骤S404,计算与同一个所述已定密文件的已定密指纹段相匹配的待定密指纹段在所述待定密指纹段集合中的比例值;
[0060]步骤S405,将对应的比例值大于预设的第二阈值的已定密文件的文件名、被待定密指纹段匹配到的属于该已定密文件的已定密指纹段以及比例值作为辅助定密意见输出。
[0061]在本实施例中,采用的分段规则是根据文件内容的标点符号将定密文件进行划分。将预先保存的已定密文件和接收到的待定密文件按照同样的方式生产对应的指纹段,再进行匹配。通过匹配的待定密指纹段和已定密指纹段,查找与待定密文件相似度高的已定密文件,进而获得对待定密文件的辅助定密意见。
[0062]参阅图5,作为本发明的优选实施方式,本发明实施例提供的另一种基于待定密文件的文件结构的辅助定密方式,包括:
[0063]步骤S451,根据所述已定密文件中作为语义划分的标点符号将所述已定密文件分为多段,每一段所述已定密文件为一个原始指纹段;
[0064]步骤S452,计算每一个原始指纹段的长度,删除长度小于预设的长度阈值的原始指纹段;
[0065]步骤S453,计算每一个原始指纹段的有效词个数,删除有效词个数小于预设的有效词个数阈值的原始指纹段;
[0066]步骤S454,将未被删除的原始指纹段作为已定密指纹段;
[0067]步骤S455,将所述待定密指纹段集合中的每一个待定密指纹段逐一与预先保存的指纹库中的对应于已定密文件的已定密指纹段进行对比,所述已定密指纹段是根据多个已定密文件按照预设的分段优化规则得到的,根据每一个已定密文件得到一个或多个所述已定密指纹段;
[0068]步骤S456,计算进行对比的待定密指纹段和已定密指纹段的长度差值;
[0069]步骤S457,判断长度差值是否大于预设的长度差值阈值,如果是,执行步骤S458,如果否,执行步骤S459 ;
[0070]步骤S458,对比待定密指纹段和已定密指纹段的文字内容,如果两者其中一个为另一个的子集,则认为所述进行对比的待定密指纹段和已定密指纹段匹配;
[0071]步骤S459,计算所述进行对比的待定密指纹段与已定密指纹段的编辑距离,如果编辑距离小于预设的编辑距离阈值,则认为匹配。
[0072]步骤S460,计算与同一个所述已定密文件的已定密指纹段相匹配的待定密指纹段在所述待定密指纹段集合中的比例值;
[0073]步骤S461,将对应的比例值大于预设的第二阈值的已定密文件的文件名、被待定密指纹段匹配到的属于该已定密文件的已定密指纹段以及比例值作为辅助定密意见输出。
[0074]对已定密文件和待定密文件共同采用的分段划分方式是按标点进行分段。分段后为了提高匹配的效率,还要对分段后的指纹段进行优化。优化的方式是通过预设的长度阈值和有效词个数阈值对指纹段进行筛选,删除不符合要求的指纹段,其中有效词个数是利用中文分词函数及停词表计算得到的。对优化后已定密文件的已定密指纹段保存于指纹库中,作为对比的对象。将接收到的待定密文件分段并优化后的待定密指纹段与保存于指纹库中的已定密指纹段进行对比。
[0075]判断已定密指纹段和待定密指纹段是否匹配有两种不同的方式,具体采用哪一种,是根据已定密指纹段和待定密指纹段的长度差值确定的。如果两者的长度差值大于预设的长度差值阈值,采用的是直接对比的方式,对比两者的文字内容,如果两者其中一个为另一个的子集,则认为所述进行对比的待定密指纹段和已定密指纹段匹配。如果两者的长度差值小于预设的长度差值阈值,通过Lenvenshtein算法计算两者的编辑距离,如果编辑距离小于预设的编辑距离阈值,则认为匹配。
[0076]在获得了与待定密指纹段匹配的已定密指纹段后,要计算属于同一个已定密文件的已定密指纹段匹配的待定密指纹段在所有待定密指纹段中的比例,进而得到对应的辅助定密意见。
[0077]例如,设已定密文件1含有[a。b。c。d,e,f。]这些元素,首先以语义划分的标点符号作为分段规则,分段后得到原始指纹段:[分段l]a、[分段2]b、[分段3]c、[分段4]e、[分段5]f。假设指纹段长度阈值T为10,有效词个数阈值S为8,假设分段1?5的长度分别为:80,90,45,5,55,则此时分段
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1