通过定位关键词提高文档预警的方法与流程

文档序号:19418619发布日期:2019-12-14 01:11阅读:187来源:国知局
通过定位关键词提高文档预警的方法与流程

本发明涉及一种文档预警的方法,具体涉及一种通过定位关键词提高文档预警的方法。



背景技术:

随着互联网的发展,也随着公司的发展,项目的增多。公司内部的关键性、核心文档也逐渐增多,随着带来的是存放、保护、监控成了一个大问题。存放这些关键文档我们可以放在svn,ftp等文件存储器上,再通过分配不同的权限从而实现对不同用户对文档阅读、下载等不同的权限来进行保护。但是下载到客户端的文档之后的去向监控困难,一份文档从a机器复制到b机器后,b机器需要检测到存在该关键性文档从而进行监控。并且b机器的用户不断的通过即时通讯等设备不断的与他人聊带关键词的话题又或者可能b机器用户将关键性文档上传至个人的网络存储等都需要进行监控,减少关键性文档泄漏的可能。

tess4j是对tesseractocrapi.的javajna封装。使java能够通过调用tess4j的api来使用tesseractocr(一款由hp实验室开发由google维护的开源光学字符识别引擎),该引擎可以将图片中的文字识别出来。

目前用户对关键性的文档存储常见方式svn,ftp等等,是建立不同权限的文档目录,不同职位的用户或不同ip的计算机分别对应不同的权限,从而关键性文档进行保护。暂时只能做到对文档集中存放位置的保护和监控。

随着计算机的发展,公司关键性文档的存放成了一个大问题。公司的运维管理员或者文档管理员等无法知道某份关键文档在公司计算机内具体存在多少份、分布存在哪些用户的计算内,无法得到新建的文档中是否带了关键词,从而失去对关键文档的监控。另外,拥有关键性文档的用户在即时通讯软件与他人聊天时带关键词的内容或者网络存储设备上传关键性文档等行为也无法进行监控。

因此,需要对现有技术进行改进。



技术实现要素:

本发明要解决的技术问题是提供一种高效的通过定位关键词提高文档预警的方法。

为解决上述技术问题,本发明提供一种通过定位关键词提高文档预警的方法:包括以下步骤:

1)、部署中心服务器;

2)、客户端的计算机与中心服务器建立连接;

3)、中心服务器将建立连接的客户端的计算机信息存在mysql数据库node表内;

4)、在中心服务器浏览器界面新建关键词策略,比如:绝密、公司标书、公司合同等,并保存在中心服务器的mysql数据库keyword表内;

5)、中心服务器将关键词和收集策略下发至所需的客户端,同时更新mysql数据库node表计算机的信息,每台计算机信息更新对应配置的关键词数据列名;

6)、客户端进程agentserver.exe接收到中心服务器的下发关键词,存储到本地微型数据库sqlite内的clientkeyword表;

客户端进程再起新的线程根据收集策略设置的时间开始对全盘文件进行扫描,扫描前先获取将扫描的文件的md5值,再对打开扫描的文件,进行内容扫描,文件内容扫描的过程中扫描到相应关键词策略中关键词则将该文档记录存储在本地微型数据库sqlite内的keywordfile表内,该文档记录包括:文件名称,文件路径,文件的md5值;

扫描到一个关键词即可关闭文件,若未扫描到关键词,则将扫描前获得文件的md5值存放在normalfile表内;

7)、客户端进程会将扫描出关键词文档信息传给中心服务器,

8)、管理员通过中心服务器配置预警策略和定时截屏时间,并发送给相应客户端;

9)、客户端进程agentserver.exe接收到下发的定时截屏时间,开启图片处理线程按照定时的截屏时间不断的截取客户端屏幕图片,并交给图片处理线程处理图片;

10)、图片处理线程利用tess4j来调用tesseract的引擎,把客户端屏幕图片的内容进行了区分得到图片输出的字符,并发送给客户端线程;

11)、客户端线程读取数据库sqlite内的clientkeyword表,判断图片输出的字符是否为关键词,若为关键词,则将图片和识别的关键词发送到中心服务器,中心服务器接收到图片和识别的关键词后存储;若不为关键词,则丢弃图片;

12)、中心服务器接收到图片和关键词后,根据不断接收的次数,再依据客户端上传来的是否存在关键文档记录,存在则根据设置的预警策略,将该文档预的警次数累加,得到对应的预警等级。

作为对本发明通过定位关键词提高文档预警的方法的改进:步骤6)包括:

获取将扫描的文件的md5值,与normalfile表对比;

如果normalfile表中存在相应的md5值,则判断为已扫描,则不用扫描文件内容,继续获取下一个将扫描的文件;

如果normalfile表中不存在相应的md5值,则判断为未扫描,则对将扫描的文件的文件内容进行扫描;

文件内容进行扫描:在将扫描的文件的文件内容中,查找本地微型数据库sqlite内的clientkeyword表中的关键词;

如果文件内容不包含关键词,则将扫描前获得文件的md5值存放在normalfile表内;下次扫描前会先对比normalfile表是否存在该文件的md5值;

如果文件内容包含关键词,将该文档记录存储在本地微型数据库sqlite内的keywordfile表内,主要存放信息为:文件名称,文件路径,文件的md5值。

作为对本发明通过定位关键词提高文档预警的方法的进一步改进:步骤10)包括:

图片处理线程利用tess4j来调用tesseract的引擎,通过tesseract的一种混合的基于制表位检测的页面布局分析方法,把客户端屏幕图片的内容都进行了区分,分成了表格、文本、图片等;利用字符之间的间隔进行粗略的分割,得到了大部分的字符;然后通过字符区域类型判别,把得到的字符和字符库进行第一次比较;得到识别出来的字符,再次进行粘连字符的分割,同一时间内把错误分割的字符合并,完成字符的精细切割;然后第二次和字符库进行比较得出识别出来的字符;然后把匹配到的字符作为图片输出的字符发送给客户端线程。

作为对本发明通过定位关键词提高文档预警的方法的改进:

预警策略为:预警次数0~9:无危;10~19次:低危;20~29次:中危;30次以上:高危。

作为对本发明通过定位关键词提高文档预警的方法的改进:

收集策略为:10分钟收集一次,全盘扫描客户端文件,客户端收集关键词相关的文档信息,上传至中心服务器存储。

本发明通过定位关键词提高文档预警的方法的技术优势为:

本发明可以通过中心统一收集客户端中带管理员需要的的关键词文档,实现对关键词文档的数量、分布等监控。同时通过不断的截取客户端屏幕画面的图片,识别定位出图片中的文字是否为关键词,从而提高对关键词文档的监控。

本发明通过管理员在中心服务器可以自由定义配置需要收集的关键词,比如:绝密、公司标书、公司合同等,由中心统一下发关键词收集策略,收集由当前所有机器内存在用户配置的关键词文档的记录存储在中心服务器,通过前端的展示可以一目了然的可以查看到当前所有机器内,关键词文档有几份,分布存放在哪些用户的计算机上。而且可以随时变更收集其他关键词文档。然后通过中心配置的预警策略,根据配置的时候,不断的截取客户端的屏幕界面,截取用户通过即时通讯聊天时的画面或上传文件至私人网络行为的画面,通过分析截取的屏幕图片抽取的字符,识别是否为关键词,若为关键词则匹配该客户端是否存在该关键词文件,存在则将该计算机的预警数值加一,不匹配则等待下次收集客户端文件再匹配。这样通过不同计算机的预警等级,可以一键预览到某个用户提到关键词的次数及是否到达某个预警等级,从而提醒管理员提高对关键性文档的重视。

1、管理员可以在中心服务器任意定制任何词语为关键词,一键收集所有关键词文档的数量及分布情况;

2、通过对客户端的不断的截屏,识别图片字符,管理员可以了解客户端出现的关键词的频率,从而了解到关键文档的风险,进而提高对关键文档的关注。后期可以对关键性文档进行一键加密等一系列的防护操作。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细说明。

图1为本发明通过定位关键词提高文档预警的方法的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此。

实施例1、通过定位关键词提高文档预警的方法,如图1所示,包括以下步骤:

1、部署中心服务器软件,中心安装prc服务,一直处于监听状态。并搭建web服务,管理员可以通过浏览器操作中心服务器;

2、复制客户端的安装包到所需安装的计算机内,每台客户端计算机都有唯一标识uuid号,通过安装rpc服务,与中心服务器建立连接;

3、中心服务器将建立连接的计算机信息存在mysql数据库node表内,中心服务器浏览器界面能查看到已经建立通讯的所有计算机列表;

4、在中心服务器浏览器界面新建关键词策略,比如:绝密、公司标书、公司合同等,并保存在中心服务器的mysql数据库keyword表内;

5、通过批量配置的操作,中心服务器将关键词和收集策略下发至所需的客户端(中心服务器下发关键词的收集策略,比如:10分钟收集一次,全盘扫描客户端文件,客户端收集关键词相关的文档信息,上传至中心存储),同时更新mysql数据库node表计算机的信息,每台计算机信息更新对应配置的关键词数据列名,例如:a计算机+a关键词,b计算机+b关键词;

中心服务器下发关键词和收集策略有全局配置(所有客户端接收同样的),如果配置全局配置,所有的计算机都会收集相同的关键词相关的文档。单个计算机也可以人工单独配置,配置后。与全局配置一起发送给客户端,即全局+单独。

6、客户端进程agentserver.exe接收到中心服务器的下发关键词,存储到本地微型数据库sqlite内的clientkeyword表;

客户端进程再起新的线程根据收集策略设置的时间开始对全盘文件进行扫描,扫描前先获取将扫描的文件的md5值,再对打开扫描的文件,进行内容扫描,文件内容扫描的过程中扫描到相应关键词策略中关键词则将该文档记录存储在本地微型数据库sqlite内的keywordfile表内,主要存放信息为:文件名称,文件路径,文件的md5值。扫描到一个关键词即可关闭文件,若未扫描到关键词,则将扫描前获得文件的md5值存放在normalfile表内。下次扫描前会先对比normalfile表是否存在该文件的md5值,存在则说明该文件不存在关键词,直接跳过该文件的扫描。

具体步骤为:

获取将扫描的文件的md5值,与normalfile表对比;

如果normalfile表中存在相应的md5值,则判断为已扫描,则不用扫描文件内容,继续获取下一个将扫描的文件;

如果normalfile表中不存在相应的md5值,则判断为未扫描,则对将扫描的文件的文件内容进行扫描;

文件内容进行扫描:在将扫描的文件的文件内容中,查找本地微型数据库sqlite内的clientkeyword表中的关键词;

如果文件内容不包含关键词,则将扫描前获得文件的md5值存放在normalfile表内。下次扫描前会先对比normalfile表是否存在该文件的md5值;

如果文件内容包含关键词,将该文档记录存储在本地微型数据库sqlite内的keywordfile表内,主要存放信息为:文件名称,文件路径,文件的md5值。

7、整个全盘文件扫描完成后,客户端进程会将扫描出关键词文档信息传给中心服务器,中心服务器界面展示出每台客户端计算关键词的文档名、文档位置等。可以通过查询计算名、用户名、关键词等查询出所有客户端的关键文档信息;

关键词文档信息包括文件名称、文件路径、文件md5值以及扫描出来的关键字。

8、管理员通过中心服务器配置预警策略和定时截屏时间,预警策略比如:

预警次数0~9:无危;10~19次:低危;20~29次:中危;30次以上:高危。定时截屏时间:1s截屏1次,5秒截屏1次。并通过统一批量配置客户端下发定时截屏策略;

9、客户端进程agentserver.exe接收到下发的定时截屏时间,开启图片处理线程按照定时的截屏时间不断的截取客户端屏幕图片,并交给客户端屏幕图片处理线程处理图片;

10、图片处理线程利用tess4j来调用tesseract的引擎,通过tesseract的一种混合的基于制表位检测的页面布局分析方法,把客户端屏幕图片的内容都进行了区分,分成了表格、文本、图片等。利用字符之间的间隔进行粗略的分割,得到了大部分的字符。然后通过字符区域类型判别,把得到的字符和字符库进行第一次比较。得到识别出来的字符,再次进行粘连字符的分割,同一时间内把错误分割的字符合并,完成字符的精细切割。然后第二次和字符库进行比较得出识别出来的字符。然后把匹配到的字符作为图片输出的字符发送给客户端线程;

11、客户端线程读取数据库sqlite内的clientkeyword表,判断图片输出的字符是否为关键词,若为关键词,则将图片和识别的关键词发送到中心服务器,中心服务器接收到图片和识别的关键词后存储。若不为关键词,则丢弃图片,不占用客户端的存储。如此循环,不断截取客户端屏幕图片,识别后发送中心服务器;

12、中心服务器接收到图片和关键词后,根据不断接收的次数,再依据客户端上传来的是否存在关键文档记录,存在则根据设置的预警策略,将该文档预的警次数累加,得到对应的预警等级。比如:中心服务器收到某台客户端一天出现了30次关键词的推送,并且该客户端存在关键词文档,则将该关键词文档和该客户端设置为高危等级。不存在则存放在中心,等下次收集策略收集完成后再进行匹配。

最后,还需要注意的是,以上列举的仅是本发明的若干个具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1