一种带有初次筛选功能的数据过滤挖掘方法与流程

文档序号:17951398发布日期:2019-06-19 00:03阅读:207来源:国知局
一种带有初次筛选功能的数据过滤挖掘方法与流程

本发明涉及数据安全技术领域,具体为一种带有初次筛选功能的数据过滤挖掘方法。



背景技术:

国际标准化组织(iso)对计算机系统安全的定义是:为数据处理系统建立和采用的技术和管理的安全保护,保护计算机硬件、软件和数据不因偶然和恶意的原因遭到破坏、更改和泄露。由此计算机网络的安全可以理解为:通过采用各种技术和管理措施,使网络系统正常运行,从而确保网络数据的可用性、完整性和保密性。所以,建立网络安全保护措施的目的是确保经过网络传输和交换的数据不会发生增加、修改、丢失和泄露等。

随着计算机的普及,人们做到了足不出户了知天下事,这体现了网络带给我的便利性,但是,网络是把双刃剑,有利也有弊,网络造就了许多的成功人士,同样也毁害了许多人,特别是青少年,在浏览网络时难免因为好奇心浏览一些色情网站,从而一发不可收拾,沉迷在色情网络内,为了营造一个良好的网络环境,现如今急需一种带有初次筛选功能的数据过滤挖掘方法。



技术实现要素:

针对现有技术的不足,本发明提供了一种带有初次筛选功能的数据过滤挖掘方法,以解决色情网站无法过滤的缺陷。

为达到以上目的,本发明采取的技术方案是:一种带有初次筛选功能的数据过滤挖掘方法,包括以下步骤:

步骤一:从字词数据库中计算敏感字词数据库特征码,并建立敏感字词数据库特征码;

步骤二:监控用户访问网页的行为,当监控到用户访问网页时的行为后,按照步骤一所述的计算用户访问网页数据的特征码的方法,计算出该用户访问网页时的数据特征码;

步骤三:将用户访问的网页数据特征码与敏感字词数据库特征码进行对比,并获取用户访问网页数据特征码与敏感字词数据库特征码相同的特征码的数量,并将与敏感字词相同的数据特征码进行存储;

步骤四:当步骤三中获取与所述敏感字词数据库特征码相同的所述用户访问的网页数据特征码的数量达到设定的阈值时,可以判定所述用户访问的数据为敏感数据;当与所述敏感字词数据库特征码相同的所述用户访问的网页数据特征码的数量未达到系统设定的阈值时,重复步骤二到四,直到用户访问网页的行为结束为止;

步骤五:当判定所述用户访问的网页数据特征码是敏感数据时,则将所述用户访问的网页数据特征码内的敏感字词进行过滤并打码。

优选的,所述步骤五将敏感字词进行打码过滤的同时还提醒用户关闭网页,若10s之内不关闭的话,系统将自动强制关闭网页。

优选的,所述提醒用户关闭网页的信息为警告词汇,并采用提示框的方式。

优选的,所述步骤五打码的形式为***。

优选的,所述步骤五中强制关闭网页次数达到三次以上后,系统将自动锁闭网页,并以邮件的方式再次警告访问用户,且邮件内有绿色上网学习问答的网址。

优选的,所述用户若想再次解开网页,则需要点击绿色上网学习问答的网址学习并进行答题,若答题成功,则解除网页的锁定。

优选的,所述步骤一中所述敏感字词数据库据特征码,具体为计算敏感字词数据库的md5值。

优选的,所述步骤三将与敏感字词相同的数据特征码存储在后台系统的数据库内。

本发明的有益效果在于:

该带有初次筛选功能的数据过滤挖掘方法,通过建立敏感字词数据库特征码,并对用户的上网行为进行实时监控,将用户浏览的网页信息与敏感字词数据库特征码进行比对,检测当用户浏览的网页数据特征码的敏感字词数据库征码的数量,并与设定的阈值进行对比,若小于设定的阈值,则重复步骤二到四的步骤,若大于设定的阈值,则将敏感字词进行过滤打码处理,从而营造了一个绿色的网络环境,在一定程度上保证了青少年绿色上网的行为。

附图说明

图1为本发明数据过滤方法流程的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明提供一种技术方案:一种带有初次筛选功能的数据过滤挖掘方法,包括以下步骤:

步骤一:从字词数据库中计算敏感字词数据库特征码,并建立敏感字词数据库特征码,步骤一中敏感字词数据库据特征码,具体为计算敏感字词数据库的md5值.在本步骤一中,其具体内容如下:在后台数据库增加关键字词配置表,分别记录敏感字词库及相关字词库,敏感字词库和相关字词库会保存到缓存中以提高读取速度,并配置定时更新缓存机制;在web前端用户交互页面中,增加拦截方法,对用户提交的搜索字词调用识别器进行处理,进行关键字词识别后,根据处理结果确定是拒绝纳入索引返回提醒用户修改数据内容,或者通过提交到solr后台进行数据抽取、转换,建立索引并将检索结果返回给用户。用户通过web页面提交数据内容,数据内容至多由两个字段构成,包括字段:标题、正文内容;数据内容被传递到分词器,根据分词规则和分词表,对数据内容进行切词,得到关键字词结果;识别器根据这些查询字词遍历敏感字词库和相关字词库,得到匹配结果,并返回处理结果。进行关键字词识别后,如果查询字词中存在敏感字词,则返回命中敏感字词标识为真,否则返回命中敏感字词标识为假;如果查询字词中存在相关性字词,则返回命中相关字词标识为真,否则返回命中相关字词标识为假;若敏感字词标识为假且相关字词标识为真时,提交到solr搜索器进行搜索处理;若敏感字词标识为真或相关字词标识为假时,直接返回页面提醒用户修改查询字词。

步骤二:监控用户访问网页的行为,当监控到用户访问网页时的行为后,按照步骤一的计算用户访问网页数据的特征码的方法,计算出该用户访问网页时的数据特征码;本步骤二的具体内容为:s21,从预设的待爬取队列(待爬取url队列)中读取目标统一资源定位符(url,uniformresourcelocator),下载目标统一资源定位符对应的目标网页;在计算机等智能设备读取到用户输入的url时,可以将上述url存入预设的待爬取队列;这样,上述待爬取队列内存放若干个用户预备访问的url。这时,可以从上述待爬取队列中选择一个url,将其确定为目标url。可选地,上述目标url可以确定为待爬取队列中的首个url。若上述待爬取队列中所存放的url具有重要性标识符,则可以将其中重要性程度最高的url确定为目标url。s22,根据用户在所述目标网页上选择的目标区域,从目标网页显示内容中提取目标区域内容;上述步骤中,可以从目标url中读取目标网页上的目标区域。还可以在用户输入url之后,继续读取用户针对该url所输入的目标区域标识参数(如区域名称或者区域坐标范围等),根据上述目标区域标识参数确定用户在该url对应的网页上所选择的目标区域。s23,根据预设的过滤规则对所述目标区域内容进行过滤,剔除过滤内容,得到区域更新内容;上述过滤规则可以包括广告过滤规则、重复内容过滤规则、和/或敏感信息过滤规则等,其可以根据目标url的相关特征以及相应用户的访问需求预先设置。根据上述过滤规则对目标区域内容进行过滤,得到区域更新内容,使上述区域更新内容中不包括重复内容、广告内容和/或敏感内容(存在敏感信息的内容)。s24,利用所述区域更新内容更新所述目标区域的目标网页,保存在数据库中;根据区域更新内容更新所述目标区域的目标网页,使目标网页中目标区域的内容不包括重复内容、广告内容和/或敏感内容,在将上述目标网页保存在本地的数据库中后,用户在上述目标url对应的网页没有在服务器端被重新编辑之前,对上述目标url进行访问,所获取的网页内容便为对目标区域内容进行过滤处理后的网页内容。s25,在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,并获取所述目标网页的页面内容。上述步骤在接收到用户对所述目标统一资源定位符的访问请求时,便可以根据上述访问请求从所述数据库中提取更新后的目标网页,获取相应目标网页的页面内容,这样便能快速从本地的数据库中提取对目标区域内容进行过滤处理后的网页内容供用户访问。本实施例提供的网页内容的提取方法,可以从预设的待爬取队列中读取目标统一资源定位符,下载目标统一资源定位符对应的目标网页,从目标网页显示内容中提取目标区域内容,对所述目标区域内容进行过滤,剔除过滤内容,以更新上述目标区域的目标网页,将其保存在相应的数据库中;并在接收到用户对所述目标统一资源定位符的访问请求时,根据所述访问请求从所述数据库中提取更新后的目标网页,实现上述目标网页页面内容的获取,在剔除上述目标区域内容中广告内容、重复内容、有敏感信息内容等过滤内容的基础上,可以保证对相应网页内容的提取效率。

步骤三:将用户访问的网页数据特征码与敏感字词数据库特征码进行对比,并获取用户访问网页数据特征码与敏感字词数据库特征码相同的特征码的数量,并将与敏感字词相同的数据特征码进行存储,步骤三将与敏感字词相同的数据特征码存储在后台系统的数据库内;

步骤四:当步骤三中获取与敏感字词数据库特征码相同的用户访问的网页数据特征码的数量达到设定的阈值时,可以判定用户访问的数据为敏感数据;当与敏感字词数据库特征码相同的用户访问的网页数据特征码的数量未达到系统设定的阈值时,重复步骤二到四,直到用户访问网页的行为结束为止;

步骤五:当判定用户访问的网页数据特征码是敏感数据时,则将用户访问的网页数据特征码内的敏感字词进行过滤并打码,步骤五将敏感字词进行打码过滤的同时还提醒用户关闭网页,步骤五打码的形式为***,若10s之内不关闭的话,系统将自动强制关闭网页,提醒用户关闭网页的信息为警告词汇,并采用提示框的方式,步骤五中强制关闭网页次数达到三次以上后,系统将自动锁闭网页,并以邮件的方式再次警告访问用户,且邮件内有绿色上网学习问答的网址,用户若想再次解开网页,则需要点击绿色上网学习问答的网址学习并进行答题,若答题成功,则解除网页的锁定。

本发明的具体操作步骤为:

在具体的敏感数据的判断过程中,本发明同样使用xml语句来记录敏感数据组合判断关系,如:

<filters=”filtername1||(filtername2&&filtername3)”>

<filtername="filtername1"column="filename"relation="endwith"value=".log"action="include"/>

<filtername="filtername2"column="filename"relation="endwith"value=".txt"action="include"/>

<filtername="filtername3"column="filename"relation="beginwith"value="start"action="include"/>

上述语句中,filters是一个敏感数据组合判断关系,filtername1、filtername2和filtername3是三个敏感数据基础判断关系,filters采用“&&”和“||”对三个敏感数据基础判断关系进行组合。其中,filetname1表示文件名以.log结尾的数据为敏感数据,filtername2表示文件名以.txt结尾的数据为敏感数据,filtername3表示文件名以start字符串开头的数据为敏感数据;那么,filters表示文件名以.log结尾的数据为敏感数据,或者文件名以.txt结尾并以start开头的数据为敏感数据。

本发明通过建立敏感字词数据库特征码,并对用户的上网行为进行实时监控,将用户浏览的网页信息与敏感字词数据库特征码进行比对,检测当用户浏览的网页数据特征码的敏感字词数据库征码的数量,并与设定的阈值进行对比,若小于设定的阈值,则重复步骤二到四的步骤,若大于设定的阈值,则将敏感字词进行过滤打码处理,从而营造了一个绿色的网络环境,在一定程度上保证了青少年绿色上网的行为。

上述举例只是敏感数据组合判断关系的一种形式,在具体实现过程中,可以编辑filters来使判断逻辑更复杂,使敏感数据的判断更加准确。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1