一种文档密级自动识别方法与流程

文档序号:12670149阅读:375来源:国知局

本发明涉及文档安全技术领域,特别涉及一种文档密级自动识别方法。



背景技术:

随着信息化的快速发展,各类军工企事业单位大力进行信息化建设的同时,对文档的定密技术要求越来越高。目前,自动定密研究很少,而传统的手工标记或分级,往往效率低下且效果不理想。因此利用机器学习等技术对敏感信息进行自动分析、自动定密成了一个重要而实用的技术方向。



技术实现要素:

本发明的目的在于提供一种基于插件架构的主机监控系统,用于解决上述现有技术的问题。

本发明一种文档密级自动识别方法,其中,包括:定义特征词项、特征词项分布向量、特征词项库、段落特征词项空间向量、段落基准库以及文档敏感度;进行预处理,基于训练文档,标定训练文档中各段落密级及与之对应的初始敏感度;抽取段落的特征词项,建立段落空间向量,从而构建段落基准库;初始敏感度计算阶段,在待定密的目标文档中对各段落进行敏感度判定时,通过计算待定密段落与段落基准库中各段落的相似度,锁定与待定密段落相似度最大的段落,以其敏感度作为待定密段落的初始敏感值;敏感度修正阶段,基于待定密段落与所匹配段落的特征词项所携带的敏感度的差异,修正待定密段落的敏感度,文档密级确定阶段,通过计算目标文档所有段落的敏感度,并获取敏感度最高者作为目标文档的敏感度,确定文档的敏感 度及其对应密级。

根据本发明的文档密级自动识别方法的一实施例,其中,通过TF-IDF方法构建向量空间模型。

根据本发明的文档密级自动识别方法的一实施例,其中,特征词项库获取框架获取段落特征词项,特征词项库获取框架包括:

χ2值越大,则词项与段落文本敏感度相关性就大;χ2值越小,则词项与段落文本敏感度相关性就小:

式(1)表示,对任意词项t,其中k11代表在训练文本集中,所有涉密段落文本集c中包含词t的段落文本个数,k00代表在涉密段落文本集c中不包含词项t的段落文本个数;k01代表在非密段落文本集中包含词t的段落文本个数,k10代表在非密段落文本集中不包含词项t的段落文本个数;N代表两类集合中文档的总数量,即训练文本集中的段落总数N=k11+k00+k01+k10,sgn(x)表示取χ2的正负号符号;

通过对涉密段落文本集合和非涉密段落文本集合的词项频率统计,用带有正负符号的χ2分布计算值,最后通过阈值过滤来得到特征词项。

根据本发明的文档密级自动识别方法,其中,获取特征词项的方法包括:第一步:收集训练库;第二步:对段落文本集合进行分词;第三步:对有实际意义的词项进行进一步筛选,将过滤后所得词项在当前涉密段落文本中进行词项出现次数统计,当大于阈值θ的词项,列入候选特征词项;第四步:统计候选特征词项出现段落数目;第五步:计算候选特征词项敏感度相关性,将相关性大于阈值的词项加入到特征词项库中。

根据本发明的文档密级自动识别方法的一实施例,其中,训练 文档的密级由该文档所标定的敏感度标定,敏感度在[90-100]范围内为绝密、敏感度在[80-90]范围内为机密、敏感度在[70-80]范围内为秘密、敏感度在[60-70]范围内为内部、敏感度在[50-60]范围内为非密。

根据本发明的文档密级自动识别方法的一实施例,其中,进行预处理,基于训练文档,标定训练文档中各段落密级及与之对应的初始敏感度包括:依次扫描训练库中各文本的每个段落文本,选定任一训练文档S,对其各段落进行密级和初始敏感度的标定,训练库代表颐定密的we文本;对于当前训练段落文本,根据特征词项库获取框架,提取该段落的若干特征词项,对每个特征词项,计算词项的权值,由所有特征词项及其权值构成当前训练段落文本的特征词项空间向量,以此表示段落基本特征信息;完成训练库中所有文本的所有段落的特征词项空间向量的构建及其相关数据结构的初始化,形成段落基准库;训练文档的敏感度由该文档所有段落中敏感度最高的段落的敏感度决定,由此以标定目标文档的敏感度。

本发明的文档密级自动识别方法,特别适合于重点领域的大型军工企业涉密文档管理。通过文档密级自动识别方法对对军工企业涉密内网的所有文档进行密级识别,防范敏感信息的泄露,能够满足各类涉密信息安全可控的需求。

附图说明

具体实施方式

为使本发明的目的、内容、和优点更加清楚,下面结合实施例,对本发明的具体实施方式作进一步详细描述。

本发明文档密级自动识别方法中的文档密级自动识别方法实现军工企业内网文档的自动定密。本发明文档密级自动识别方法的思想包括:文档的密级由文档中的密级最高的文本块决定。本发明中,基于文档物理结构特征,以段落为单位,通过识别每个段落的敏感度,来标定文档的敏感度。而全网文档每个段落通过向量空间模型(VSM)来构建段落空间向量,代表段落的基本信息。预处理阶段,由定密管理员基于训练文档,标定训练文档中各段落密级及与之对应的初始敏感度;同时抽取段落的特征词项,建立段落空间向量,从而构建段落基准库。初始敏感度计算阶段,在待定密的目标文档中对各段落进行敏感度判定时,通过计算待定密段落与段落基准库中各段落的相似度,锁定与待定密段落相似度最大的段落,以其敏感度作为待定密段落的初始敏感值;敏感度修正阶段,基于待定密段落与所匹配段落的特征词项所携带的敏感度的差异,修正待定密段落的敏感度。文档密级确定阶段,通过计算目标文档所有段落的敏感度,并获取敏感度最高者作为目标文档的敏感度,确定文档的敏感度及其对应密级。

本发明中的文档密级自动识别方法包括:

一、基本定义及预处理

军工企业中目标文档的保密等级一般分为绝密、机密、秘密、内部和公开五类,本发明对应这五类保密等级使用一至五级标识,且每一级保密等级都对应特定的敏感度范围,如一级对应敏感值域为[90,100]、二级对应敏感值域为[80,90]、三级对应敏感值域为[70,80]、四级对应敏感值域为[60,70]、五级对应敏感值域为[50,60],文档级文档中各段落同时以敏感度及密级两种方式进行标注,且密级直接由敏感度的取值标定。

基本定义包括:

定义1:特征词项。对反映段落文本信息敏感程度贡献较为显著的词汇。

定义2:特征词项分布向量。包含特征词项,敏感贡献度以及其在各类密级段落文本中的出现频率。{word,weight,avg count in Rl,…count in Rn,count in n,float percent};

其中,word为特征词项;wei ght为敏感贡献度;avg_count_in_Rn为该特征词项在密级为n的段落文本中出现的平均次数。n记录特征词项在本段落中出现的次数,percent记录特征词项在本段落中占所有特征词项比例的统计情况。

定义3:特征词项库。由训练文本中所有特征词项构成,在训练阶段通过特征词项库获取框架构建。

定义4:段落特征词项空间向量。由段落中提取出的特征词项及其权值组成的集合,构建段落特征词项空间向量,代表一个段落的基本特征信息。

定义5:段落基准库。所有训练文本的段落特征词项空间向量集合,用于存储从训练文本库中提取的能代表各段落特征信息的段落特征词项向量。

定义6:文档敏感度。代表文档敏感程度的值,值域为50-100。

预处理包括:

依次扫描训练库中各文本的每个段落文本,首先,定密人员在训练库中选定任一训练文档S,对其各段落Si进行密级和初始敏感度的标定{绝密(取初始敏感度为95)、机密(取初始敏感度为85)、秘密(取初始敏感度为75)、内部(取初始敏感度为65)、非密(取初始敏感度为55)}。

对于当前训练段落文本Si,本发明根据特征词项库获取框架,提取该段落的若干特征词项。对每个特征词项,本发明通过TF-IDF方法计算词项的权值。最后,由所有特征词项及其权值构成当前训练段 落文本Si的特征词项空间向量,以此表示该段落基本特征信息。

依次完成训练库中所有文本的所有段落的特征词项空间向量的构建及其相关数据结构的初始化,形成段落基准库,为本发明中的段落密级自动识别技术做支撑。

训练文档S的敏感度由该文档所有段落中敏感度最高的段落的敏感度决定,由此可以标定目标文档的敏感度。

训练文档S的密级由该文档所标定的敏感度标定,敏感度在[90-100]范围内为绝密、敏感度在[80-90]范围内为机密、敏感度在[70-80]范围内为秘密、敏感度在[60-70]范围内为内部、敏感度在[50-60]范围内为非密。

二、构建段落空间向量,包括:

构建向量空间模型(VSM):

向量空间模型(VSM)是统计学方法中最为经典的一种文本相似度度量方法,本发明即采用向量空间模型进行段落文本相似度计算。向量空间模型中较为重要的概念是段落词项的权重,即词项在段落文本中的重要程度,目前学术界普遍采用TF-IDF方法。本发明即使用TF-IDF方法。且在计算向量中词项的权重时涉及两个重要概念:

a)词频:即特定词项在一个段落文本中出现的次数,通常情况下词项的词频越大,表明其与该段落文本的主题越相关。

b)逆文本频率:即词项在段落文本集合的多个段落文本中出现的次数,在不同文本中出现的次数越多,表明该词项的区分能力越差。

本发明即依据上述概念计算段落向量空间中每一个词项的TF-IDF:

TFIDF(wi)=tf(wi)×tdf(wi)=tfj(wi)×log(N/df(wi)) (1);

其中:TFIDF(wi)表示当前词项wi的TF-IDF值,该值等于词项wi的词频tf(wi)与逆文本频率tdf(wi)的乘积,具体地,段落文本j中任一词项wi的TF-IDF值可以通过tdf(wi)和log(N/df(wi))计算得出;tfj(wi)表 示当前词项wi在段落文本j中出现的频率;N表示训练段落文本集合中所有段落文本总数;df(wi)表示训练段落文本集合中出现当前词项wi的有段落文本个数。理论上而言,通过对段落文本集合中的每个词项进行上述计算,可以得到每个段落文本中中每一个词项的TF-IDF值,然后从而以词项及其TF-IDF值可为每个段落文本建立一个向量空间模型。然而,实践表明,由上述方法得到的向量维度非常高而且稀疏,因此需要对其进行降维处理。本发明中通过段落特征词库获取框架来选择最能代表段落特征信息的特征词项,构建段落特征向量空间模型,

选择段落特征词项:

本发明采取的方法是从每个段落文本中挑选若干关键词项来表示段落,即由特征词项库获取框架获取段落特征词项。并在保证不影响段落文本特征的前提下,最大可能地减少文本特征向量的表示维度。

1)特征词项库获取框架

本发明采用文本分类研究中常用的特征抽取方法卡方分布检验的结果值作为词项与段落文本敏感度相关性的度量标准。本发明中为了区分某个词项和文档敏感度否的相关性,采用正负符号的卡方分布。χ2值越大,则词项与段落文本敏感度相关性就大;χ2值越小,则词项与段落文本敏感度相关性就小,从而将段落文本涉密相关性大的词项加入到段落特征词项向量空间中。具体如公式:

;式(1)表示,对任意词项t,其中k11代表在训练文本集中,所有涉密段落文本集c中包含词t的段落文本个数,k00代表在涉密段落文本集c中不包含词项t的段落文本个数;k01代表在非密段落文本集中包含词t的段落文本个数,k10代表在非密段落文本集中不包含词项t的段落文本个数;N代表两类集合中文档的总数量,即训练文 本集中的段落总数N=k11+k00+k01+k10,sgn(x)表示取χ2的正负号符号。

通过对涉密段落文本集合和非涉密段落文本集合的词项频率统计,用带有正负符号的χ2分布计算值,最后通过阈值过滤来得到特征词项。

2)特征词项获取的主要步骤包括:

第一步:训练库的收集。不仅要获取涉密段落文本集c作为正类,还需要获取非密的段落文本数据作为反类。总段落数记为N;

第二步:对段落文本集合进行分词。本发明采用中国科学院的ICTCLAS分词工具进行分词处理以及词性标注,接着对分词过后的段落文本进行去除停用词的处理,依据停用词表进行停用词过滤,同时过滤时间词语,得到具有实际意义的词项集合;

第三步:对有实际意义的词项进行进一步筛选。将过滤后所得词项在当前涉密段落文本中进行词项出现次数统计,当大于阈值θ的词项,列入候选特征词项;本发明中,基于实验经验θ取2。

第四步:统计候选特征词项出现段落数目。统计包含候选特征词项的涉密段落文本集合和非涉密段落文本集合的段落文本数目,分别为k11、k01,同时统计未包含候选特征词项的涉密段落文本集合和非涉密段落文本集合的段落文本数目,分别为k00、k10

第五步:候选特征词项敏感度相关性计算。按照卡方分布计算公式(1)计算候选词项t的敏感度相关性值χ2(t,x),然后进行敏感度相关性阈值w过滤,最后将相关性大于w的词项加入到特征词项库中。本发明中,基于实验经验w取30。

构建特征词项向量包括:

本发明通过特征词项库获取框架获取段落文本集合中的特征词项,并对每个特征词项,计算其TF-IDF值,从而为每个段落文本建立一个向量空间,且可通过余弦计算得到任意两段落文本之间的相似 度。

计算段落相似度ParSim包括:

本发明在进行段落相似度计算时,综合考虑特征词项之间的语义相似度及特征词项向量空间的相似度。

词项与词项之间的语义相似度计算,包括:

词项与词项之间的相似度量需要将所有的词项组织起来构成一个语义网络,通过考察该网络中词与词之间的边、节点等信息来建立词与词之间的相似度。英文最常用的是普林斯顿大学研究开发的WordNet,而中文中常用的是由董振东先生编著的知网,即HowNet。本发明采用HowNet进行词项语义相似度计算。学术界通常利用HowNet进行词项相似度计算和词项相似度计算的公式如下:

其中:s1、s2表示两个义原;dist(s1,s2)表示它们的路径长度;α是一个调节参数,表示相似度为0.5时的路径长度。由于式(2)仅从义原路径长度来考虑两个词项的相似度,而未充分利用HowNet体系结构,计算结果不够准确。通过相关研究发现,影响词项相似度的因素除义原节点之间的路径长度之外,义原所在概念树的深度以及概念树的密度也是影响相似度计算的重要因子。公式(3)在计算式(2)的基础上,加入了义原所在树的深度信息,能更好的体现词项之间的相似度。本发明采用公式(3)进行词项的相似度计算:

其中:depth(S)表示S距离根节点的层次。

计算段落与段落之间的相似度,包括:

本发明中,段落由特征词项向量空间来表示,段落之间的相似度可以由特征词项向量间的相似度来描述。假设当前待定密级的目标文档P由m个段落构成,即P={P1,P2...Pi...Pm},其中,Pi表示目标文档P 的第i个段落,并假定当前待定密的段落为Pi。获取当前段落Pi的特征词项向量vi=(wi1,wi2,...,wim)(假定段落Pi中通过特征词项库获取框架所获取的特征词项总计m个),依次与段落基准库S中的段落Sj的特征词项向量如vj=(wj1,wj2,...,wjn)(假定段落基准库S中的段落Sj通过特征词项库获取框架所获取的特征词项总计n个)进行相似性计算,定义段落相似度为ParSim(vi,vj)。

ParSim(vi,vj)=wf*vectSim(vi,vj)+(1-wf)*cosSim(vi,vj) (4);

其中:wf表示特征词项向量vi和vj之间语义相似度的加权因子,vectSim(vi,vj)表示特征词项向量vi和vj之间的语义相似度,由式(8)计算得出。而cosSim(vi,vj)表示向量vi和vj之间的余弦相似度,如式(5)所示。

其中λ为向量vi和vj中出现的相同词项的数目。

本发明基于这样的假设来推导公式,如果两个段落文本中彼此相似度较高的词项越多,那么这些词项所占的TF-IDF值在各自文档中的比例越高,说明计算这些词项的语义相似度更能反映文本的相似情况。而剩余的词项由于语义相似度偏低,再通过计算语义相似度来得出的文本相似情况可信度不高,但可以利用它们在整个段落文本集合中的概率分布情况反映相似度。因此需要计算vectSim(vi,vj)的加权因子,而加权因子根据关键词向量中满足相似度阈值条件的关键词的TF-IDF值在整个段落TF-IDF值总和中所占的比例计算得到。具体的加权因子计算式由式(6)给出:

其中,TFIDF(wik)表示关键词词项wik的TF-IDF值,右端表示关键词向量vi中所有满足相似度阈值条件的关键词项wik(k∈Λi)的TF-IDF值在vi所有的词项TF-IDF值总和中所占的百分比。式(6)中的集合Λi和Λj定义如下:

如果关键词向量vi中的某个关键词wik与另一个关键词向量vj中的关键词ωjl(l=1,2,…,n)的相似度超过用户设定的相似度阈值μ,则将该关键词wik放入集合Λi。同理集合Λj中的元素依据集合Λi的方法对关键词向量vj中的关键词进行选择。

其中:sim(wjl,wik)表示关键词wik与wjl之间的语义相似度,由式(3)计算得到;vectSim(vi,vj)由向量vi、vj中所包含的特征词项语义相似度决定,由于相似的向量必定包含相似度较高的词项,而不相似的向量则彼此所包含的词项相似度较低。

相似度计算的基本流程包括:

输入:关键词项向量vi、vj的词项相似度阈值为μ,本发明中基于实验经验μ取0.7。

输出:关键词项向量vi、vj的相似度。

a)从向量vi中的词项wi1开始,利用式(3)寻找向量vj中与wil最为相似的词项wjk(即sim(wil,wjk)词项语义相似度取得最大值),记录词项wil和wjk之间的相似度,同时判断sim(wil,wjk)是否大于等于阈值μ,如果是,则将wil放入集合Λi。同理,vi中的其他项作相同处理。

b)累加vi中每个项的相似度,除以向量vi中词项的数量,即向量vi的维度,以此作为向量νi和νj的相似度sim(vi,vj)。重复步骤a)b)的过程,得到向量vj和vi的相似度sim(vi,vj)。

c)计算sim(vi,vj)和sim(vj,vi)的算术平均值,作为向量vi和vj的语义相似度vecSim(vi,vj)。

d)利用式(1)分别为向量vi和vj中的每个词项计算TF-IDF权值,利用式(5)计算向量vi和vj之间的余弦相似度。

e)由于在前面的步骤中已经分别找出了集合Λi和Λj中的元素,因此利用式(6)计算加权因子wf。

f)根据前述一系列步骤,利用式(4)最终得出当前文本段落特征项值向量vi与段落特征库中待匹配的某段落特征项值向量vj之间的段落文本相似度ParSim(vi,vj)。

计算目标文档各段落的敏感度,包括:

如前文中的假定,目标文档P由m个段落构成,即P={P1,P2...Pi...Pm},其中,Pi表示目标文档P的第i个段落,且当前待定密的段落为Pi

由特征词项库获取框架获取当前段落Sj的特征词项向量vi=(wi1,wi2,...,wim)(假定所获取的特征词项总计m个),依次与段落基准库S中的段落Sj的特征词项向量如vj=(wj1,wj2,...,wjn)(假定段落基准库S中的段落Sj的特征词项总计n个)进行相似性计算,得到ParSim(vi,vj)的值。在段落基准库S的所有段落中取匹配度最高(即ParSim值最大)的段落Pre的敏感值Sens(Pre),作为当前段落Pi的初始敏感值;

对当前段落Pi的敏感值进行修正:Sens(Pi)=Sens(Pre)*sim;

其中,Sens(Pi)为当前段落Pi的最终敏感值,Sens(Pre)则为段落Pi的初始敏感值,即2)所取得的初始敏感值,Sim为当前段落Pi中所有特征词项所携带的敏感信息集合与2)所匹配的段落Pre中所有特征词项所携带的的敏感信息集合的比值。

Sim的取值方法如下:取出当前段落中Pi中所有的特征词项wi的 敏感度Sens(wi)的集合以及所匹配段落Pre中的所有特征词项wk的敏感度Sens(wk)的集合比较两者所有特征词项所携带敏感度的比值,对段落Pi的敏感度进行修正。

其中,

其中,Sec(wi)为五个敏感度级别训练段落文本中,包含特征词项wi个数最多的一级段落文本所对应的敏感度初值,即{绝密取敏感度初值95、机密取敏感度初值85、秘密取敏感度初值75、内部取敏感度初值65、非密取敏感度初值55},N(wi)为当前段落Pi包含的特征词项wi的个数,为段落Pi所含特征词项的总个数,Sec(wk)为五个敏感度级别训练段落文本中,包含特征词项wk个数最多的一级段落文本所对应的敏感度初值,即{绝密取敏感度初值95、机密取敏感度初值85、秘密取敏感度初值75、内部取敏感度初值65、非密取敏感度初值55},N(wk)为当前所匹配段落Pre中包含的特征词项wk的个 数,为段落Pre所含特征词项的总个数。

本发明根据Sens(Pi)=Sens(Pre)*sim计算目标文档P的段落Pi的敏感度Sens(Pi),类似,可以计算目标文档P的所有段落的敏感度集合{Sens(P1),Sens(P2)...Sens(Pi)...Sens(Pm)}。

确定目标文档的敏感度及密级,包括:

目标文档P的敏感度由{Sens(P1),Sens(P2)...Sens(Pi)...Sens(Pm)}中敏感度最高的段落决定,即目标文档P的敏感度Sens(P)=max{Sens(P1),Sens(P2)...Sens(Pi)...Sens(Pm)}。其中,Pi为目标文档P的第i个段落。

目标文档P的密级由1)中得出的目标文档P的敏感度Sens(P)决定:即P的敏感度在区间[90-100]为绝密,在区间[80-90]为机密、在区间[70-80]为秘密,在区间[60-70]为内部,在区间[50-60]为非密。

本发明的文档密级自动识别方法,特别适合于重点领域的大型军工企业涉密文档管理。通过文档密级自动识别方法对对军工企业涉密内网的所有文档进行密级识别,防范敏感信息的泄露,能够满足各类涉密信息安全可控的需求。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1