通过定位关键词提高文档预警的方法与流程

文档序号:19418619发布日期:2019-12-14 01:11阅读:来源:国知局

技术特征:

1.通过定位关键词提高文档预警的方法,其特征在于:包括以下步骤:

1)、部署中心服务器;

2)、客户端的计算机与中心服务器建立连接;

3)、中心服务器将建立连接的客户端的计算机信息存在mysql数据库node表内;

4)、在中心服务器浏览器界面新建关键词策略,比如:绝密、公司标书、公司合同等,并保存在中心服务器的mysql数据库keyword表内;

5)、中心服务器将关键词和收集策略下发至所需的客户端,同时更新mysql数据库node表计算机的信息,每台计算机信息更新对应配置的关键词数据列名;

6)、客户端进程agentserver.exe接收到中心服务器的下发关键词,存储到本地微型数据库sqlite内的clientkeyword表;

客户端进程再起新的线程根据收集策略设置的时间开始对全盘文件进行扫描,扫描前先获取将扫描的文件的md5值,再对打开扫描的文件,进行内容扫描,文件内容扫描的过程中扫描到相应关键词策略中关键词则将该文档记录存储在本地微型数据库sqlite内的keywordfile表内,该文档记录包括:文件名称,文件路径,文件的md5值;

扫描到一个关键词即可关闭文件,若未扫描到关键词,则将扫描前获得文件的md5值存放在normalfile表内;

7)、客户端进程会将扫描出关键词文档信息传给中心服务器,

8)、管理员通过中心服务器配置预警策略和定时截屏时间,并发送给相应客户端;

9)、客户端进程agentserver.exe接收到下发的定时截屏时间,开启图片处理线程按照定时的截屏时间不断的截取客户端屏幕图片,并交给图片处理线程处理图片;

10)、图片处理线程利用tess4j来调用tesseract的引擎,把客户端屏幕图片的内容进行了区分得到图片输出的字符,并发送给客户端线程;

11)、客户端线程读取数据库sqlite内的clientkeyword表,判断图片输出的字符是否为关键词,若为关键词,则将图片和识别的关键词发送到中心服务器,中心服务器接收到图片和识别的关键词后存储;若不为关键词,则丢弃图片;

12)、中心服务器接收到图片和关键词后,根据不断接收的次数,再依据客户端上传来的是否存在关键文档记录,存在则根据设置的预警策略,将该文档预的警次数累加,得到对应的预警等级。

2.根据权利要求1所述的通过定位关键词提高文档预警的方法,其特征在于:步骤6)包括:

获取将扫描的文件的md5值,与normalfile表对比;

如果normalfile表中存在相应的md5值,则判断为已扫描,则不用扫描文件内容,继续获取下一个将扫描的文件;

如果normalfile表中不存在相应的md5值,则判断为未扫描,则对将扫描的文件的文件内容进行扫描;

文件内容进行扫描:在将扫描的文件的文件内容中,查找本地微型数据库sqlite内的clientkeyword表中的关键词;

如果文件内容不包含关键词,则将扫描前获得文件的md5值存放在normalfile表内;下次扫描前会先对比normalfile表是否存在该文件的md5值;

如果文件内容包含关键词,将该文档记录存储在本地微型数据库sqlite内的keywordfile表内,主要存放信息为:文件名称,文件路径,文件的md5值。

3.根据权利要求2所述的通过定位关键词提高文档预警的方法,其特征在于:步骤10)包括:

图片处理线程利用tess4j来调用tesseract的引擎,通过tesseract的一种混合的基于制表位检测的页面布局分析方法,把客户端屏幕图片的内容都进行了区分,分成了表格、文本、图片等;利用字符之间的间隔进行粗略的分割,得到了大部分的字符;然后通过字符区域类型判别,把得到的字符和字符库进行第一次比较;得到识别出来的字符,再次进行粘连字符的分割,同一时间内把错误分割的字符合并,完成字符的精细切割;然后第二次和字符库进行比较得出识别出来的字符;然后把匹配到的字符作为图片输出的字符发送给客户端线程。

4.根据权利要求3所述的通过定位关键词提高文档预警的方法,其特征在于:

预警策略为:预警次数0~9:无危;10~19次:低危;20~29次:中危;30次以上:高危。

5.根据权利要求4所述的通过定位关键词提高文档预警的方法,其特征在于:

收集策略为:10分钟收集一次,全盘扫描客户端文件,客户端收集关键词相关的文档信息,上传至中心服务器存储。


技术总结
本发明提供一种通过定位关键词提高文档预警的方法:通过中心统一收集客户端中带管理员需要的的关键词文档,实现对关键词文档的数量、分布等监控。同时通过不断的截取客户端屏幕画面的图片,识别定位出图片中的文字是否为关键词,从而提高对关键词文档的监控。管理员可以在中心服务器任意定制任何词语为关键词,一键收集所有关键词文档的数量及分布情况;通过对客户端的不断的截屏,识别图片字符,管理员可以了解客户端出现的关键词的频率,从而了解到关键文档的风险,进而提高对关键文档的关注。后期可以对关键性文档进行一键加密等一系列的防护操作。

技术研发人员:童志超;范渊
受保护的技术使用者:杭州安恒信息技术股份有限公司
技术研发日:2019.08.02
技术公布日:2019.12.13
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1