数据检测方法、系统、电子设备和存储介质与流程

文档序号：17479411发布日期：2019-04-20 06:20阅读：228来源：国知局

本申请涉及数据处理技术领域，具体地说，涉及一种数据检测方法、系统、电子设备和存储介质。

背景技术：

随着信息技术的不断发展，信息安全越来越受到大众关注。在信息技术不断发展的同时，信息安全事件呈现增长态势，信息安全已成为企业信息化建设的重点。最近1-2年数据安全泄露事件越来越多，特别是github源代码泄露成为数据安全一个重要源头。因开发人员的安全意识不足，开源代码仓库直接发布公司内部账号，数据库、vpn账号，核心业务密钥等敏感信息，攻击者利用这些信息，能以最小的攻击成本，获取到最多的企业数据和公司内部文件。为加强企业数据安全管理，有必要对github公开源代码进行实时监控，以降低企业数据安全风险。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

有鉴于此，本申请提供一种数据检测方法、系统、电子设备和存储介质，克服现有技术中公司内部数据外泄的风险。

根据本申请的一个方面，提供一种数据检测方法，包括：接收指定网站的数据检测请求；提取所述数据检测请求携带的所述指定网站的域名，和所述指定网站的至少一组关键词；遍历待检测的数据库，获取与所述指定网站的域名关联的数据；从获取的数据中筛出与各组关键词对应的数据，分别比对各组数据与对应组关键词是否匹配；当比对结果为匹配时，发出数据泄漏警报。

优选地，上述的数据检测方法中，每组关键词包含一个或多个关键字，当一组数据命中其对应组关键词的任意关键字，则得出该组数据与其对应组关键词匹配的比对结果。

优选地，上述的数据检测方法中，比对一组数据与其对应组关键词是否匹配的步骤包括：解析该组数据，将该组数据的格式转化成文本格式；以及将该组数据与其对应组关键词进行模糊匹配，获得比对结果。

优选地，上述的数据检测方法中，所述关键字包括名称关键字和内容关键字，每组关键词包含至少一个名称关键字和/或至少一个内容关键字；与所述名称关键字对应的数据为对应该名称关键字的url路径名，与所述内容关键字对应的数据为对应该内容关键字的url内容。

优选地，上述的数据检测方法中，所述名称关键字包括：所述指定网站的登录文件名称、数据库文件名称、认证文件名称、核心业务名称，所述内容关键字包括：所述指定网站的内网ip、登录关键字、用户名和密码关键字，数据库关键字、备份文件关键字、配置文件关键字。

优选地，上述的数据检测方法中，从获取的数据中筛出与各组关键词对应的数据后，还包括：形成多个第一定时任务，每个第一定时任务用于执行一组数据与其对应组关键词的比对；将各第一定时任务放入消息队列，通过多任务异步调度分别执行各第一定时任务。

优选地，上述的数据检测方法中，当接收到多个所述数据检测请求时，所述方法还包括：形成多个第二定时任务，每个第二定时任务用于响应一个数据检测请求；将各第二定时任务放入消息队列，通过多任务异步调度分别执行各第二定时任务。

优选地，上述的数据检测方法中，发出数据泄漏警报的同时，还包括：推送比对结果为匹配的该组数据和其对应组关键词；以及推送将该组数据定位至所述待检测的数据库的链接。

优选地，上述的数据检测方法中，所述指定网站的域名是所述指定网站的二级域名。

优选地，上述的数据检测方法中，所述待检测的数据库为github代码库，获取的所述数据为所述指定网站的源代码。

根据本申请的另一个方面，提供一种数据检测系统，包括：接收模块，用于接收指定网站的数据检测请求；提取模块，用于提取所述数据检测请求携带的所述指定网站的域名，和所述指定网站的至少一组关键词；爬虫模块，用于遍历待检测的数据库，获取与所述指定网站的域名关联的数据；比对模块，用于从获取的数据中筛出与各组关键词对应的数据，分别比对各组数据与对应组关键词是否匹配；以及警报模块，用于当比对结果为匹配时，发出数据泄漏警报。

根据本申请的另一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述的数据检测方法的步骤。

根据本申请的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的数据检测方法的步骤。

本申请与现有技术相比的有益效果在于：

本申请通过指定网站的域名和关键词组合，全面检测数据是否泄露；通过名称关键词和内容关键词，实现多角度检测，杜绝漏检导致数据泄露；通过定时任务实现多任务异步执行，为实时监控数据安全提供保障；当检测发现数据泄露时，发出警报并推送泄漏数据供复核，同时提供泄漏数据的定位链接供及时删除。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出本申请实施例中一种数据检测方法的步骤示意图；

图2示出实施例中一种企业源代码监控的系统流程图；

图3示出本申请实施例中一种数据检测系统的模块示意图；

图4示出本申请实施例中一种电子设备的示意图；

图5示出本申请实施例中一种计算机可读存储介质的示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式。相反，提供这些实施方式使得本申请将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

本申请的数据检测方法涉及到web服务应用，爬虫技术，安全规则，定时任务，安全告警等，实现对网站数据进行实时安全监控，及时发现违规发布公网的数据，能够有效保障网站数据的安全。其中，web服务应用主要实现安全规则管理，定时任务管理，安全告警配置管理；爬虫技术调用github查询http(超文本传输协议)请求接口获取相关数据；安全规则定义多关键字条件组合条件，模糊匹配来判断数据泄露风险；命中安全规则时触发安全告警，并及时推送给相关人员采取应对操作。

本申请的主要方面阐述对网站源代码的安全监控，所检测的公网主要指github代码库，github是一个面向开源及私有软件项目的托管平台，程序开发人员通常会将一些开源代码分享到github平台进行技术交流。但在分享企业代码的时候，代码中很可能携带企业内部敏感信息，导致企业机密泄露。因此，需要对github上与企业相关的代码进行监控，防止敏感信息泄露。

下面结合图1阐述本申请实施例中数据检测方法的主要步骤。参照图1所示，在一些实施例中，数据检测方法主要包括：

s10、接收指定网站的数据检测请求。

指定网站是指需要检测数据是否泄漏的网站，可以对需要的任意一家网站进行数据是否泄漏的检测。

s20、提取数据检测请求携带的指定网站的域名，和指定网站的至少一组关键词。

网站对外提供应用服务会使用三级域名(www.xxx.com)，为避免三级域名检测过程中有遗漏，在优选的实施例中直接使用指定网站的二级域名(xxx.com)，保障监控源代码的范围更广。

进一步的，每组关键词包含一个或多个关键字，关键字包括名称关键字和内容关键字，每组关键词包含至少一个名称关键字和/或至少一个内容关键字。名称关键字包括：该指定网站的登录文件名称、数据库文件名称、认证文件名称、核心业务名称等。名称关键字可以选自预先定义好的文件名黑名单，文件名黑名单中包括：登录文件字典、数据库文件字典、认证文件名字典、核心业务名称字典等，通过该指定网站的域名+文件名黑名单的组合检测方式，可以检测涉及该指定网站的核心功能业务的源代码是否泄漏。内容关键字包括：该指定网站的内网ip、登录关键字、用户名和密码关键字，数据库关键字、备份文件关键字、配置文件关键字等。内容关键字可以选自预先定义好的文件内容黑名单，文件内容黑名单包括：内网ip、登录关键字、用户名和密码关键字，数据库关键字、备份文件关键字、配置文件关键字等，通过该指定网站的域名+文件内容黑名单的组合检测方式，可以检测涉及该指定网站的内部敏感信息的源代码是否泄漏。

在一些实施例中，一组关键词可以采用多个名称关键字的组合，例如提取的由多个名称关键字组合形成的一组关键词为：database.yml|content.xml|favorites.plist。其中database.yml可以是一个涉密的数据库文件名称，content.xml可以是一个涉密的目录文件名称，例如该指定网站的核心业务的目录文件名称，favorites.plist可以是一个涉密的收藏夹文件名称，例如收藏有该指定网站的敏感登录数据。在一些实施例中，一组关键词可以采用多个内容关键字的组合，例如提取的由多个内容关键字组合形成的一组关键词为：login|email|jdbc|password|passwd。其中login可以是登录内容关键字，email可以是电子信函内容关键字，jdbc可以是一个数据库关键字，password和passwd可以是密码关键字。在一些实施例中，一组关键词也可以采用一个或多个名称关键字与一个或多个内容关键字的组合。

在一个数据检测请求中，通常携带多组关键词，以对该指定网站进行多种组合的数据检测。

s30、遍历待检测的数据库，获取与该指定网站的域名关联的数据。

在优选的实施例中，可以通过爬虫工具按照指定网站的二级域名在github平台检索，爬虫工具调用github查询http(超文本传输协议)请求接口以获取该指定网站的公开项目工程代码。

s40、从获取的数据中筛出与各组关键词对应的数据，分别比对各组数据与对应组关键词是否匹配。

其中，当一组关键词中包括名称关键字时，与名称关键字对应的数据即为对应该名称关键字的url路径名，当一组关键词中包括内容关键字时，与内容关键字对应的数据即为对应该内容关键字的url内容。当一组关键词中包括多个关键字时，只要对应的数据命中该组关键词的任意关键字，则得出该组数据与该组关键词匹配的比对结果。在一些实施例中，与名称关键字对应的数据也可以是获得的所有url路径名，与内容关键词对应的数据也可以是获得的所有url内容。

进一步的，在一些优选的实施例中，比对一组数据与其对应组关键词是否匹配的步骤包括：解析该组数据，将该组数据的格式转化成文本格式。可以利用pythonbeautifulsoup(一种pythonhtml解析模块)把html(超文本标记语言)解析，快速获取网页标签的内容，并转化成文本格式，为后续的比对匹配提供标准化格式，降低匹配过程中误差。

例如，在一个实施例中，获取到原始的html页面为：

标准化格式实现代码：

frombs4importbeautifulsoup

soup＝beautifulsoup(html,'html.parser',from_encoding＝'utf-8')

printtype(soup)

body＝soup.select('body')[0]

printbody.text

最终获得文本格式的输出内容：

thisistesttitle

thisistestlink1

thisistestlink2

接着，将解析后的该组数据与其对应组关键词进行模糊匹配，获得比对结果。例如，在一个实施例中，一组名称关键词为：database.yml|content.xml|favorites.plist，对应该组名称关键词的数据为：xsgmdatabase.yml，则经过关键字模糊匹配，判断该组数据命中该组名称关键词，即获得匹配的比对结果。而若对应该组名称关键词的数据为：configuration.xml，则经过关键字模糊匹配得到比对结果为不匹配。

又如，在一个实施例中，一组内容关键词为：login|email|jdbc|password|passwd，对应该组内容关键词的数据为：

packagecom.lisong；/**

*xxx.cominc.

importcom.lisong.filter.addresponseheaderfilter；

importcom.lisong.filter.passwordfilter；

importcom.lisong.filter.prezuulfilter；

则经过关键字模糊匹配，判断该组数据命中该组名称关键词，即获得匹配的比对结果。而若对应该组名称关键词的数据为：

packagecom.lisong；/**

*xxx.cominc.

importcom.lisong.filter.addresponseheaderfilter；

importcom.lisong.filter.configurationfilter；

importcom.lisong.filter.prezuulfilter；

则经过关键字模糊匹配得到比对结果为不匹配。

进一步的，在优选的实施例中，从获取的数据中筛出与各组关键词对应的数据后，还包括步骤：形成多个第一定时任务，每个第一定时任务用于执行一组数据与其对应组关键词的比对；将各第一定时任务放入消息队列，通过多任务异步调度分别执行各第一定时任务。由于一个数据检测请求通常携带多组关键词，而每组关键词与对应数据(不同组关键词的对应数据可以有所重复)的比对可以独立进行，因此可以通过schedule(python定时模块)，实现多任务异步执行。也就是说，上述各例比对可以通过多任务异步调度的方式分别执行。

进一步的，当接收到多个数据检测请求时，还包括：形成多个第二定时任务，每个第二定时任务用于响应一个数据检测请求；将各第二定时任务放入消息队列，通过多任务异步调度分别执行各第二定时任务。每个第二定时任务中可以包括多个第一定时任务，多个定时任务异步执行，互不影响且提高检测效率，为24小时实时监控任务提供技术保障。

s50、当比对结果为匹配时，发出数据泄漏警报。当发现关键数据泄露时，需要及时告知管理员或监控任务发起者，以便及时采取应对措施，避免由于关键数据泄露带来损失。在一些实施例中，可以通过邮件或企业内部的沟通软件发出数据泄露警报。

在优选的实施例中，发出数据泄漏警报的同时，还包括：推送比对结果为匹配的该组数据和其对应组关键词，以供相关人员复核，查看该组数据是否为该指定网站的项目源代码，或查看命中规则是否有误；以及推送将该组数据定位至该待检测的数据库的链接，以方便及时定位并删除该组数据。

上述的数据检测方法能够实时监控指定网站源代码是否外泄，通过指定网站的域名、文件名关键字和文件内容关键字组合形成多组安全规则，以便对指定网站的数据进行全方面检测，并利用定时任务实现多任务异步执行，为实时监控提供技术保障。当检测到数据泄露时，发出安全告警并在线展示，同时提供及时删除链接。

图2示出实施例中一种企业源代码监控的系统流程图，参照图2所示，当上述实施例所述的数据检测方法用于监控检测企业的源代码是否外泄时，监控系统主要包括任务管理模块、爬虫模块、安全规则模块和安全告警与展示模块。监控系统采用pythondjango+mysql为前端web应用服务器，schedule+消息队列为后端任务定时调度，整体系统运行流程为：添加任务→启动任务调度→模拟登录→基于企业域名搜索→标准化格式→匹配文件名安全规则/匹配文件内容安全规则→安全告警→告警展示→完成任务调度。其中，任务管理模块用于添加任务(如上述实施例所述的第一定时任务和第二定时任务)，配置任务启动参数(包括监控周期、企业域名等)，加载安全规则，设置任务调度(单次/每日/每周/每月等)并启动任务调度。爬虫模块用于模拟github登录，基于企业域名搜索进行页面数据提取，并对获取的数据进行标准格式化。安全规则模块用于判断获取的数据中文件路径名是否命中文件名安全规则(即名称关键词)，以及获取的数据中文件内容是否命中文件内容安全规则(即内容关键词)。当命中文件名安全规则/文件内容安全规则及表明该url路径或url内容存在源代码泄露风险，因此触发安全告警与展示模块，可以通过邮件的形式通知到任务发起者，并将安全告警的详情信息写入数据库并前端页面进行展示。经检测表明，从发起监控任务到得到监控结果，只需要10分钟左右。

本申请实施例还提供一种数据检测系统，参照图3所示，在一些实施例中，数据检测系统主要包括以下模块：；

接收模块10，用于接收指定网站的数据检测请求。在一些实施例中，接收模块10可以执行上述数据检测方法实施例所描述的步骤s10。

提取模块20，用于提取数据检测请求携带的该指定网站的域名，和该指定网站的至少一组关键词。在一些实施例中，提取模块20可以执行上述数据检测方法实施例所描述的步骤s20。

爬虫模块30，用于遍历待检测的数据库，获取与该指定网站的域名关联的数据。在一些实施例中，爬虫模块30可以执行上述数据检测方法实施例所描述的步骤s30。

比对模块40，用于从获取的数据中筛出与各组关键词对应的数据，分别比对各组数据与对应组关键词是否匹配。在一些实施例中，比对模块40可以执行上述数据检测方法实施例所描述的步骤s40。

警报模块50，用于当比对结果为匹配时，发出数据泄漏警报。在一些实施例中，警报模块50可以执行上述数据检测方法实施例所描述的步骤s50。

上述的数据检测系统能够实时监控指定网站源代码是否外泄，通过指定网站的域名、文件名关键字和文件内容关键字组合形成多组安全规则，以便对指定网站的数据进行全方面检测，并利用定时任务实现多任务异步执行，为实时监控提供技术保障。当检测到数据泄露时，发出安全告警并在线展示，同时提供及时删除链接。

本申请实施例还提供一种电子设备，包括处理器和存储器，存储器中存储有可执行指令，处理器被配置为经由执行可执行指令来执行上述实施例中的数据检测方法的步骤。

如上所述，本申请的电子设备上述能够实时监控指定网站源代码是否外泄，通过指定网站的域名、文件名关键字和文件内容关键字组合形成多组安全规则，以便对指定网站的数据进行全方面检测，并利用定时任务实现多任务异步执行，为实时监控提供技术保障。当检测到数据泄露时，发出安全告警并在线展示，同时提供及时删除链接。

图4是本申请实施例中电子设备的结构示意图，应当理解的是，图4仅仅是示意性地绘示出各个模块，这些模块可以是虚拟的软件模块或实际的硬件模块，这些模块的合并、拆分及其余模块的增加都在本申请的保护范围之内。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“平台”。

下面参照图4来描述根据本申请的这种实施方式的电子设备600。图4显示的电子设备600仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图4所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。

其中，存储单元存储有程序代码，程序代码可以被处理单元610执行，使得处理单元610执行上述数据检测方法描述的根据本申请各种示例性实施方式的步骤。例如，处理单元610可以分别执行如图1所示的步骤。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(rom)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储平台等。

本申请实施例还提供一种计算机可读存储介质，用于存储程序，程序被执行时实现上述实施例的基于时间轮的货源信息更新方法的步骤。在一些可能的实施方式中，本申请的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行上述数据检测方法部分描述的根据本申请各种示例性实施方式的步骤。

如上所述，本申请的计算机可读存储介质能够实时监控指定网站源代码是否外泄，通过指定网站的域名、文件名关键字和文件内容关键字组合形成多组安全规则，以便对指定网站的数据进行全方面检测，并利用定时任务实现多任务异步执行，为实时监控提供技术保障。当检测到数据泄露时，发出安全告警并在线展示，同时提供及时删除链接。

图5是本申请的计算机可读存储介质的结构示意图。参考图5所示，描述了根据本申请的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

以上内容是结合具体的优选实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本申请的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谢敏
技术所有人：江苏满运软件科技有限公司
我是此专利的发明人

上一篇：一种具有工件掉头功能的机床的制作方法
上一篇：一种磺化腐植酸基保水型缓释氮肥及其制备方法与应用与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。