基于d-s证据理论的敏感信息检测方法

文档序号:6437714阅读:251来源:国知局
专利名称:基于d-s证据理论的敏感信息检测方法
技术领域
本发明涉及一种电子政务系统的敏感信息检测方法,特别是涉及一种基于D-S证据理论的敏感信息检测方法。属于计算机安全领域。
背景技术
互联网是信息化的重要基础设施,是国家重要的战略资源,积极利用互联网进行电子政务建设,既能节约资源、节省成本,又能提高效率、扩大服务的覆盖面。对于中国这样一个发展中国家的电子政务乃至信息化建设具有重要的战略意义。但是,利用开放的互联网开展电子政务建设,面临着计算机病毒、网络攻击、信息泄漏、身份假冒等安全威胁和风险,应该高度重视信息安全。基于互联网电子政务系统的政务应用主要分为政务办公和公共服务等。公共服务面向社会公众提供公开信息,政务办公则自来一些政府部门间的公文流转等。基于互联网电子政务的数据安全要求一方面不能在公共服务域内发布一些未公开的或未审定的公文等敏感信息,另一方面不能在政务域中存储超越该政府级别的敏感信息。一旦文件越级保存,则可能造成信息泄露,从而对政府部门带来严重的影响。因此,有必要对电子政务系统的信息进行审查,并采取相应的防护措施,防止敏感信息越级保存和泄露。对信息审查的过程实质上就是对信息集合与需求集合的匹配与选择。要实现匹配与选择,首先要对信息集合进行特征化表示;其次在检索时,也要对用户所提出的信息需求进行分析,提取概念或属性,然后通过匹配和选择机制,对需求集合与信息集合进行相似性比较,最后根据一定的标准选出符合需要的信息。传统的信息检测算法(如基于向量的检测算法、基于布尔模型的检测算法、基于概率模型的检测算法等)都是基于不同的框架而开发的,由于算法的思想不同,对于同一份文档各个算法检测的结果不一样,甚至存在冲突,而且在一定程度上存在误检、漏检等现象。

发明内容
本发明的目的是克服单一敏感信息检测算法(如基于向量模型、布尔模型、概率模型)中查全率、查准率不高,算法之间的结果不一致的问题,在统计了各种算法在检测电子政务敏感信息效果的基础上,提出了一种基于证据理论的融合各种检测算法的方法。为了实现上述目的,本发明提供了一种基于D-S证据理论的多种敏感信息检测算法融合的方法。证据理论方法提供了一种不完全证据联合决策的技术,在对待一个待定的决策问题时,由于决策者的经验、知识以及对该问题的认识的局限性,在做出决策时会存在不足;而且由于不同的决策者的经验、知识以及对该问题的认识的不同,对同一问题会得出截然相反的结论,证据理论正是基于人们对客观世界认识存在的不确定性,从而提出综合多个证据进行融合决策的方法。具体如下一种基于D-S证据理论的敏感信息检测方法,包括步骤1)、对数据库中检测文档进行格式转换,并作为数据对象进行预处理,提取索引项;步骤幻、根据步骤1)得到的索引项建立索引信息,为关键词赋予相应的权重,存入数据库中;步骤3)、用基于向量的检测算法、基于布尔模型的检测算法、基于概率模型的检测算法和基于正则表达式的检测算法或其中的任意两项或三项检测算法对敏感级别已知的文档集合进行检测,计算每一算法的权重;步骤4)、用步骤幻中所述的算法对目标检测文档进行检测,利用证据理论合成规则计算每一算法检测得到的文档的信任值,然后再次利用证据理论合成规则合成各个算法得到的同一文档的信任值,得到被检测文档最终的敏感度信任值,将该值和事先分类好的各个阈值比较,归入相应的类别文档中。其流程图详见附

图1。所述的基于D-S证据理论的敏感信息检测方法,数据库中的文档均是经过预处理后建立索引的,所述索引项是在对电子政务敏感级别已知的数据进行训练后所提取的;在所述的步骤幻之前还包括对关键词权重的获得,该权重获取的方法采用TFIDF加权策略, 具体采用基于向量空间的敏感信息检测算法,步骤如下步骤(1)、根据TFIDF加权策略将文档表示为权重的向量Wj = <wlj; W2 ... , wMJ>, 其中表示索引项、在文档…中的权重,具体的计算公式可以表示为
权利要求
1.一种基于D-S证据理论的敏感信息检测方法,包括步骤1)、对数据库中检测文档进行格式转换,并作为数据对象进行预处理,提取索引项;步骤幻、根据步骤1)得到的索引项建立索引信息,为关键词赋予相应的权重,存入数据库中;步骤;3)、用基于向量的检测算法、基于布尔模型的检测算法、基于概率模型的检测算法和基于正则表达式的检测算法或其中的任意两项或三项检测算法对敏感级别已知的文档集合进行检测,计算每一算法的权重;步骤4)、用步骤幻中所述的算法对目标检测文档进行检测,利用证据理论合成规则计算每一算法检测得到的文档的信任值,然后再次利用证据理论合成规则合成各个算法得到的同一文档的信任值,得到被检测文档最终的敏感度信任值,将该值和事先分类好的各个阈值比较,归入相应的类别文档中。
2.根据权利要求1所述的基于D-S证据理论的敏感信息检测方法,其特征是 所述步骤幻中,数据库中的文档均是经过预处理后建立索引的,所述索引项是在对电子政务敏感级别已知的数据进行训练后所提取的;在所述的步骤幻之前还包括对关键词权重的获得,该权重获取的方法采用TFIDF加权策略,具体采用基于向量空间的敏感信息检测算法,包括步骤(1)、根据TFIDF加权策略将文档表示为权重的向量% = <wu,w2j,. . .,,其中 Wij表示索引项、在文档…中的权重, 具体的计算公式可以表示为
3.根据权利要求1或2所述的基于D-S证据理论的敏感信息检测方法,其特征是 在所述的步骤幻中,敏感级别已知的文档是一个数据集;在所述的步骤4)中,利用证据理论合成规则计算每一算法检测得到的文档的信任值, 采用如下方法查询为一组关键词Q = <q1 q2,…qn>,对于每一个查询能够得到一个指标层的信任值,利用证据理论规则合成指标层的η个信任值得到准则层的一个信任值,对于每一算法能够得到准则层的一个信任层,再次利用证据理论规则合成准则层的各个信任值,得到目标层的最终信任值。
4.根据权利要求3所述的基于D-S证据理论的敏感信息检测方法,其特征是步骤3) 中,计算权重的步骤包括步骤3-1)、计算每一个算法的查全率和查准率;步骤3- 、对每一算法的查全率和查准率进行归一化,从而确定该算法的权重。
5.根据权利要求1或2所述的基于D-S证据理论的敏感信息检测方法,其特征是步骤3)中,计算权重的步骤包括步骤3-1)、计算每一个算法的查全率和查准率;步骤3- 、对每一算法的查全率和查准率进行归一化,从而确定该算法的权重。
全文摘要
本发明涉及一种电子政务系统的敏感信息检测方法。一种基于D-S证据理论的敏感信息检测方法,融合了包括基于正则表达式模型的检测算法、基于向量空间的检测算法、基于布尔模型的检测算法和基于概率模型的检测算法多种检测算法。首先利用D-S证据理论将各算法对同一查询中不同的关键词得到的值进行融合,其次再利用D-S证据理论对不同的算法得到的信任值进行融合,从而得到信息检测对象的敏感程度。本发明基于D-S证据理论的敏感信息检测方法综合利用了各个算法在电子政务系统信息检测中的优点,克服了单一算法查全率、查准率不高和不同算法之间检测结果的不一致性问题,能够较好的防止电子政务系统中敏感信息越级保存和泄露。
文档编号G06F17/30GK102426599SQ201110350580
公开日2012年4月25日 申请日期2011年11月9日 优先权日2011年11月9日
发明者夏春涛, 孙奕, 张东巍, 曹利峰, 李炳龙, 杜学绘, 王超, 赵艳杰, 陈华城, 陈性元 申请人:中国人民解放军信息工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1