辅助定密方法和装置的制造方法_3

文档序号:9506684阅读:来源:国知局
4长度小于阈值T,不能作为指纹段而被淘汰,接着对剩下的分段1,分段2,分段3,分段5进行分词去停词后统计有效词的个数分别为:9,11,5,7,此时分段3与分度5也因为有效词个数小于阈值S被淘汰。因此分段1,分段2被作为指纹段选出。把已定密文件1以及提取出的指纹段作为已定密指纹段录入进指纹库。
[0078]假设待定密指纹段1为:“成都拨发灾款2000万”,此时与已定密指纹段1 成都政府于2008年向汶川灾区拨发灾款2000万”,进行匹配,假设预设的长度差值阈值为8,此时认为待定密指纹段1与已定密指纹段1的长度相差太大,超过长度差值阈值,不采用Lenvenshtein算法进行模糊匹配,但此时待定密指纹段1恰好是已定密指纹段1的精确子集,因此认为这2个指纹段匹配。假设待定密指纹段2为:“成都军区2008年招募军人人数为1000人”,此时与已定密指纹段2 成都军区2008年入伍军人人数为1000人〃对比,两个指纹的长度相差不大,小于长度差值阈值,采用Lenvenshtein算法进行模糊匹配,编辑距离阈值设置为3,此时两个指纹的编辑距离为2,因此认为这2个指纹的也是匹配的。
[0079]假设有5篇已定密文件,每篇文件中包含了 5个已定密指纹段,假设待定密文件A有10个待定密指纹段,如果样本库中已定密文件B1的已定密指纹段与待定密文件A的待定密指纹段通过相似度比较后,没有相似或者相同的指纹段,则返回比例值((A n Bl)/A)=0,如果样本库中已定密文件Β2的已定密指纹段与待定密文件Α的待定密指纹通过相似度比较后,有1个匹配的指纹段,则返回((Α η B2)/A) = 1/10,如果样本库中已定密文件文件B3的已定密指纹段与待定密文件A的待定密指纹通过相似度比较后,有3个匹配的指纹段,则返回((Α η B3)/A) = 3/10。
[0080]假设此时预设第二阈值N = 2/10,分别把3个相似度值,即0,1/10,3/10与阈值N=2/10进行比较,发现只有样本库文件B3大于第二阈值,把待定密文件与已定密文件B3的相似度,及对应的已定密指纹段作为辅助定密结果输出。
[0081]参阅图6,本发明实施例提供的一种基于待定密文件的文件主题的辅助定密方式,包括:
[0082]步骤S501,对所述待定密文件进行文本向量化,由所述待定密文件生成对应的待定密样本向量;
[0083]步骤S502,将所述待定密样本向量与预先保存的主题空间中的主题矩阵进行相似度计算,计算所述待定密样本向量与每一个主题向量的相似度,所述主题矩阵包括多个主题向量,所述主题向量是对预先保存的已定密文件进行文本向量化得到的,一个所述主题向量对应一个所述已定密文件;
[0084]步骤S503,选择前N个最大的相似度以及N个对应的主题向量所对应的已定密文件的涉密密级、已定密文件的文件内容作为辅助定密意见输出,N为预设的第三阈值。
[0085]采用相同的文本向量化方法,对预先保存的已定密文件和接收到的待定密文件文件进行处理。在本实施例中,采用的是IG特征词选择算法作为提取算法提取文本向量,再采用TF-1DF权重计算法计算向量对应特征值的权重。
[0086]预先保存的已定密文件进行文本向量化得到的主题向量组成的主题矩阵,保存于主题空间中。计算由所述待定密文件生成对应的待定密样本向量与主题矩阵的每一个主题向量的相似度。在本实施例中,相似度计算采用的是计算余弦距离的方法。最后选择前N个最大的相似度以及N个对应的主题向量所对应的已定密文件的涉密密级、已定密文件的文件内容作为辅助定密意见输出。
[0087]本发明提供的辅助定密方法,对待定密文件从不同的角度进行处理,通过不同的判定方式对同一篇待定密文件分别给出不同辅助定密意见,能够帮助定密工作人员更高效更准确的完成定密工作。
[0088]参阅图7,本发明实施例提供的一种辅助定密装置,所述装置包括:
[0089]待定密文件接收单元601,用于获得需要进行定密的待定密文件;
[0090]辅助定密单元602,用于采用多个辅助定密方式对所述待定密文件进行辅助定密,得到对应的多个辅助定密意见;
[0091]选择指令接收单元603,用于接收用户输入的选择指令,所述选择指令包括在多个辅助定密方式中选择的至少一个辅助定密方式;
[0092]辅助定密意见输出单元604,用于输出所选择的至少一个辅助定密方式对应的辅助定密意见,以供用户查看;
[0093]其中,所述辅助定密单元602包括:
[0094]第一辅助定密单元651,用于采用基于待定密文件的所属领域索引其密级具体范围的规定的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见;
[0095]第二辅助定密单元652,用于采用基于待定密文件的定密特征的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见;
[0096]第三辅助定密单元653,用于采用基于待定密文件的文件结构的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见;
[0097]第四辅助定密单元654,用于采用基于待定密文件的文件主题的辅助定密方式对所述待定密文件进行辅助定密,得到辅助定密意见。
[0098]参阅图8,本发明实施例提供的第一辅助定密单元,包括:
[0099]行业识别单元701,用于用户对所述待定密文件所属领域进行识别;
[0100]第一辅助定密意见输出单元702,用于将若该待定密文件所属领域属于非涉密领域,则将该所属领域对应的非涉密的密级具体范围的规定作为辅助定密意见输出,若该待定密文件所属领域属于涉密领域,则输出辅助定密意见为“此领域涉密,涉密领域的密级具体范围的规定不予支持”。
[0101]参阅图9,本发明实施例提供的第二辅助定密单元,包括:
[0102]定密特征匹配单元801,用于将所述待定密文件与预先保存的定密特征库中的定密特征的经过模糊涉密信息后的定密特征段使用通配符匹配算法进行匹配,所述定密特征库中的经过模糊涉密信息后的定密特征段是用户在已定密文件和待定密文件中手动选出并手动消除涉密信息后形成的定密特征段,其中,所述定密特征包括对应该定密特征的经过模糊涉密信息后的定密特征段、定密属性以及定密期限;
[0103]第二辅助定密意见输出单元802,用于将所述定密特征库中的被匹配到的定密特征作为辅助定密意见输出。
[0104]参阅图10,本发明实施例提供的第三辅助定密单元,包括:
[0105]指纹段生成单元901,用于按照预设的分段规则将所述待定密文件分为多段,每一段所述待定密文件为一个对应所述待定密文件的待定密指纹段,所有对应所述待定密文件的待定密指纹段组成对应所述待定密指纹段集合;
[0106]指纹段对比单元902,用于将所述待定密指纹段集合中的每一个待定密指纹段逐一与预先保存的指纹库中的对应于已定密文件的已定密指纹段进行对比,所述已定密指纹段是根据多个已定密文件按照预设的分段优化规则得到的,根据每一个已定密文件得到一个或多个所述已定密指纹段;
[0107]指纹段匹配单元903,用于查找相互匹配的待定密指纹段和已定密指纹段;
[0108]比例值计算单元904,用于计算与同一个所述已定密文件的已定密指纹段相匹配的待定密指纹段在所述待定密指纹段集合中的比例值;
[0109]第三辅助定密意见输出单元905,用于将对应的比例值大于预设的第二阈值的已定密文件的文件名、被待定密指纹段匹配到的属于该已定密文件的已定密指纹段以及比例值作为辅助定密意见输出。
[0110]所述指纹段生成单元901包括:
[0111]原始指纹段生成单元951,用于根据所述已定密文件中作为语义划分的标点符号将所述已定密文件分为多段,每一段所述已定密文件为一个原始指纹段;
[0112]原
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1