基于系统索引的敏感关键字检索方法、设备、介质及产品与流程

文档序号:30525829发布日期:2022-06-25 06:53阅读:183来源:国知局
基于系统索引的敏感关键字检索方法、设备、介质及产品与流程

1.本发明涉及文本检索领域,尤其涉及基于系统索引的敏感关键字检索方法、设备、介质及产品。


背景技术:

2.近年来企业面临的数据安全形式愈发严峻,重大数据泄露事件频发,给企业带来不可估量的损失。据相关调查统计,85%的数据泄露事件存在人为因素。随着业务规模不断扩大、员工不断增加,企业办公终端上的敏感信息发生泄漏的可能性也不断增加。终端数据防泄漏产品(以下简称终端dlp)通过对办公终端的文档进行敏感信息识别定位,实现管控终端敏感信息,防止发生敏感信息泄露。然而目前主流的终端dlp产品为了实现对办公终端电脑上全部文档的敏感字识别,往往需要全盘扫描、读取文档,为建立文档索引库。这存在以下问题:
3.1)建立文档索引库耗时过长,影响用户体验。一台终端电脑往往含有数十万甚至数百万份文档,终端dlp首次运行要对全部文档建立索引库,仅读取操作就占用大量终端资源,整个过程耗时数小时甚至十几个小时以上,影响正常办公使用。
4.2)维护文档索引库占用、消耗终端资源。随着文档数量逐渐增多,文档索引库也同步增加,占用终端存储资源。而且终端文档的变化引起文档索引库同步更新,对磁盘的频繁写入操作进一步消耗终端资源。
5.3)终端dlp进程需常驻系统运行。终端dlp出于实时维护文档索引库、保持索引库与系统文档同步的目的,需要作为守护进程常驻系统运行,在办公终端运行期间均占用一部分系统资源。


技术实现要素:

6.为了克服现有技术的不足,本发明的目的之一在于提供基于系统索引的敏感关键字检索方法,其能解决目前在使用终端数据防泄漏产品对企业办公终端进行敏感信息识别时,需要全盘扫描、读取文档,存在检索耗时过长,消耗终端资源的问题。
7.本发明的目的之二在于提供一种电子设备,其能解决目前在使用终端数据防泄漏产品对企业办公终端进行敏感信息识别时,需要全盘扫描、读取文档,存在检索耗时过长,消耗终端资源的问题。
8.本发明的目的之三在于提供一种计算机可读存储介质,其能解决目前在使用终端数据防泄漏产品对企业办公终端进行敏感信息识别时,需要全盘扫描、读取文档,存在检索耗时过长,消耗终端资源的问题。
9.本发明的目的之四在于提供一种计算机程序产品,其能解决目前在使用终端数据防泄漏产品对企业办公终端进行敏感信息识别时,需要全盘扫描、读取文档,存在检索耗时过长,消耗终端资源的问题。
10.本发明的目的之一采用以下技术方案实现:
11.基于系统索引的敏感关键字检索方法,包括以下步骤:
12.将获取到的敏感关键字转换为系统索引查询语句;
13.调用电脑终端上的系统api接口并依据所述系统索引查询语句对电脑终端上所有文档进行索引检索,筛选出对应的第一文档,将所有第一文档汇总为第一文档集合;
14.根据所述敏感关键字构建对应的正则表达式,使用所述正则表达式对所述第一文档集合中所有第一文档进行正则匹配,得到含有所述敏感关键字的第一文档作为第二文档,将所有第二文档汇总为第二文档集合;
15.对所述第二文档集合中的第二文档进行关键字合法性检查,筛选出包含合法关键字的第三文档,将所有第三文档汇总为第三文档集合。
16.进一步地,所述将获取到的敏感关键字转换系统索引查询语句具体包括以下步骤:
17.获取需要进行检索的敏感关键字;
18.根据所述敏感关键字构造对应的关键字特征字符串;
19.将所述关键字特征字符串转换为系统索引查询语句。
20.进一步地,调用电脑终端上的系统api接口并依据所述系统索引查询语句对电脑终端上所有文档进行索引检索,得筛选出含有所述关键字特征字符串的第一文档。
21.进一步地,所述关键字合法性检查具体为:根据敏感关键字在预设校验规则数据库中筛选出对应的预设合法性校验规则,根据所述预设合法性校验规则对所述第二文档集合中的每个所述第二文档进行过滤,过滤掉不符合预设合法性校验规则的所述第二文档。
22.进一步地,所述系统api接口为windows系统api接口。
23.进一步地,所述调用电脑终端上的系统api接口并依据所述系统索引查询语句对电脑终端上所有文档进行索引检索具体为:调用电脑终端上的windows 系统api接口,将所述系统索引查询语句输入至windows索引中进行检索。
24.进一步地,所述敏感关键字包括但不限于身份证号、手机号以及银行卡号。
25.本发明的目的之二采用以下技术方案实现:
26.一种电子设备,包括:处理器;
27.存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行本技术中所述的基于系统索引的敏感关键字检索方法。
28.本发明的目的之三采用以下技术方案实现:
29.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行本技术中所述的基于系统索引的敏感关键字检索方法。
30.本发明的目的之四采用以下技术方案实现:
31.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本技术中所述的基于系统索引的敏感关键字检索方法。
32.相比现有技术,本发明的有益效果在于:本技术中的基于系统索引的敏感关键字检索方法,直接利用电脑终端上的系统自带的索引服务进行初次筛选,无需为全盘文档建立文档索引库,避免因为全盘文档建立文档索引库而带来的资源占用高、用户体验差等问题;其次,利用系统索引的初次筛选将大多数不相关文档过滤掉,大幅缩小了目标文档的检索范围,对文档的读操作也大幅减少,实现高效检索;基于系统索引初次筛选的结果,进一
步利用正则匹配和关键字合法性检查,过滤掉正则匹配失败和合法性校验不通过的文档,实现精确检索,最后,整个检索过程无需常驻系统后台运行,减少占用系统资源。
33.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
34.此处所说明的附图用来提供对本发明的进一步理解,构成本技术的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
35.图1为本发明的基于系统索引的敏感关键字检索方法的流程示意图。
具体实施方式
36.下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
37.如图1所示,本发明提供的基于系统索引的敏感关键字检索方法,包括以下步骤:
38.将获取到的敏感关键字转换为系统索引查询语句。具体为:获取需要进行检索的敏感关键字;根据敏感关键字构造对应的关键字特征字符串;将关键字特征字符串转换为系统索引查询语句。在本实施例中,敏感关键字为需要进行筛选的关键词,例如在对企业办公终端上的敏感信息中,将身份证号、手机号、银行卡号作为需要检测是否合法的敏感性信息,即将身份证号、手机号、银行卡号作为敏感关键字。本实施例中关键字特征字符串即为敏感关键字主要表现出的特征,例如手机号以前3位数字或前4位数字作为关键特征字符串,身份证号以前2为数字作为关键特征字符串,这些关键字特征字符串代作为区分不同敏感关键字的特征,以下以身份证号、手机号、银行卡号作为敏感关键字举例说明,具体如以下表1所示:
39.表1敏感关键字的关键特征字符串的对照表
40.[0041][0042]
调用电脑终端上的系统api接口并依据系统索引查询语句对电脑终端上所有文档进行索引检索,筛选出对应的第一文档,将所有第一文档汇总为第一文档集合。在本实施例中,电脑终端采用的是windows系统,因此此步骤中,调用电脑终端上的windows系统api接口,将系统索引查询语句输入至windows 系统中自带的windows索引中进行检索,得到所有
含有关键字特征字符串的第一文档,将所有第一文档汇总为第一文档集合。
[0043]
根据敏感关键字构建对应的正则表达式,使用正则表达式对第一文档集合中所有第一文档进行正则匹配,得到含有敏感关键字的第一文档作为第二文档,将所有第二文档汇总为第二文档集合。在本实施例中,以敏感关键字为身份证号为例,由于通配符*代表1位以上的任意字符串,windows索引会将前两位符合身份证规则但实际不是身份证号的内容也检索出来,因此结合正则匹配可以将这部分文档过滤掉。表2给出常见敏感关键字的正则表达式。
[0044]
表2给出常见敏感关键字的正则表达式的对照表
[0045][0046][0047]
对第二文档集合中的第二文档进行关键字合法性检查,筛选出包含合法关键字的第三文档,将所有第三文档汇总为第三文档集合。在本实施例中,关键字合法性检查具体为:根据敏感关键字在预设校验规则数据库中筛选出对应的预设合法性校验规则,根据预设合法性校验规则对第二文档集合中的每个第二文档进行过滤,过滤掉不符合预设合法性校验规则的第二文档。上述敏感关键字与预设合法性校验规则的对应关系如下表3所:
[0048]
表3敏感关键字与预设合法性校验规则的对照表
[0049]
敏感关键字预设合法性检查规则作用身份证号iso 7063:1983.mod 11-2校验算法校验是否合法身份证号银行卡号银行卡号luhn校验算法校验是否合法银行卡号手机号无不涉及
[0050]
在对使用上述检测方法后,经过多次试验统计可知,检索效率大幅度提高,检索过程所需时间的提升效果如表4所示:
[0051]
表4电脑终端运行时间统计表
[0052][0053]
本技术中的基于系统索引的敏感关键字检索方法,直接利用电脑终端上的系统自带的索引服务进行初次筛选,无需为全盘文档建立文档索引库,避免因为全盘文档建立文档索引库而带来的资源占用高、用户体验差等问题;其次,利用系统索引的初次筛选将大多数不相关文档过滤掉,大幅缩小了目标文档的检索范围,对文档的读操作也大幅减少,实现高效检索;基于系统索引初次筛选的结果,进一步利用正则匹配和关键字合法性检查,过滤掉正则匹配失败和合法性校验不通过的文档,实现精确检索,最后,整个检索过程无需常驻系统后台运行,减少占用系统资源,且本发明采用合法性检查对正则匹配结果再一次进行筛选,进一步降低了误报率。
[0054]
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1